전체 글8 Chapter02. 통계학습(Statistical Learning) - 이론 2.1 통계학습이란?우리는 통계 컨설턴트로서 특정 제품의 판매 증진을 위한 자문을 제공하는 것이다. Advertising 자료는 200개의 다른 시장에서 제품의 판매 수치(sales)와 각 시장별로 해당 제품에 대한 광고 예산으로 구성된다. 광고 예산은 세 가지 매체(TV, Radio, Newspaper)에 대한 데이터를 포함하고 있다. 고객은 직접적으로 제품의 판매를 증가시킬 방법은 없지만, 세 매체에 대한 광고 지출을 제어할 수 있다. 만약 우리가 광고와 판매 사이의 상관관계를 파악할 수 있다면, 우리는 고객이 광고 예산을 조절하도록 조언하여 간접적으로 판매를 증진시킬 수 있다. 즉, 우리의 목표는 세 매체에 대한 광고 예산을 기반으로 판매를 예측할 수 있는 정확한 모델을 개발하는 것이다. 광고 예산.. AI/ISLR 2024. 9. 7. Chapter01. 도입(introduction) 1.1 통계 학습의 개요통계 학습(statistical learning)은 데이터를 이해하고 분석하기 위한 다양한 도구들의 모음이다. 이러한 도구들은 지도(supervised) 학습 또는 비지도(unsupervised) 학습으로 분류될 수 있다. 지도적 통계 학습은 하나 이상의 입력(input) 변수를 기반으로 출력(output) 변수를 예측하거나 추정하는 통계적 모델을 만드는 것과 관련된다. 이는 비즈니스, 의학, 천체물리학, 공공 정책과 같은 다양한 분야에서 사용된다. 비지도 통계 학습은 출력 변수 없이 입력 변수만을 가지고, 자료의 상관관계(두 변수 간의 관계)와 구조를 파악하는 데 사용된다.1.1.1 Wage자료이 자료는 미국 대서양 지역에 거주하는 한 그룹의 남성들을 대상으로, 임금(wage)과.. AI/ISLR 2024. 9. 6. Chapter 05. 재표본추출 방법(Resampling Methods) - 이론 재표본 추출 방법은 현대 통계에서는 없어서는 안 될 도구이다. 훈련셋에서 반복적으로 표본을 추출하고, 각 표본에 관심 있는 모델을 적합하여 적합된 모델에 대한 추가적인 정보를 얻는 것을 말한다. 예를 들어, 선형 회귀 적합의 변동성을 추정하기 위해 훈련 데이터에서 다른 표본을 반복적으로 추출하고, 추출된 각 표본에 선형 회귀를 적합하여 적합 결과의 차이를 조사할 수 있다. 이러한 접근 방식은 모델을 한 번만 적합하는 경우에는 얻을 수 없는 정보를 제공한다. 재표본 추출 기법은 훈련 데이터의 다른 서브셋(subset)을 사용하여 동일한 통계적 방법을 여러 번 적합하기 때문에 계산량이 많을 수 있다. 가장 일반적으로 사용되는 재표본 추출 방법 중 두 가지인 교차 검증(cross-validation)과 붓.. AI/ISLR 2024. 9. 3. Chapter 04. 분류(Classification) - 실습 4.6 Lab: 로지스틱 회귀, LDA, QDA4.6.1 주식시장 자료ISLR 라이브러리 안에 Smarket이라는 자료가 있다. 이 자료는 2001 - 2005년까지 1, 250일에 걸친 S&P 500 주가지수의 수익률로 구성되며, 각 날짜에 그날 이전 5일의 각 거래일 Lag1에서 Lag5에 대한 수익률이 기록되어 있다. 또한, Volume(전날에 거래된 주식 수), Today(당일의 수익률), 그리고 Direction(당일 주가지수가 Up(상승) 또는 Down(하락)인지의 여부)이 기록되어 있다. library(ISLR)names(Smarket) # 행이름 [1] "Year" "Lag1" "Lag2" "Lag3" "Lag4" [6] "Lag5" "V.. AI/ISLR 2024. 9. 2. Chapter 04. 분류(Classification) - 이론 2 4.4 선형 판별 분석(Linear Discriminant Analysis)로지스틱 회귀는 로지스틱 함수를 사용하여 두 개의 반응변수 클래스에 대해 $pr(Y=k|X=x)$를 직접 계산하고 예측한다. 통계 용어로 주어진 설명 변수 $X$에 대해 반응 변수 $Y$의 조건부 분포(conditional distribution)을 모델링한다. 조건부 분포(conditional distribution): $Y$는 이진 반응 변수(예: "Yes" 또는 "No")일 수 있고, $X$는 여러 설명 변수들의 집합일 수 있다. 이때 $X$가 특정한 값일 때 $Y$가 "Yes" 또는 "No"가 될 확률을 설명한다. 대안적 기법에서는 반응변수 $Y$의 각 클래스에서 설명 변수 $X$의 분포를 모델링하고, 그다음에 베이즈 정리.. AI/ISLR 2024. 8. 28. Chapter 03. 데이터 타입 - 1(변수, 스칼라, 벡터, 리스트) 1. 변수R의 변수명은 알파벳, 숫자, '_', '.' 로 구성되며 첫 글자는 문자 또는 '.'으로 시작해야 한다. 만약 '.'으로 시작한다면 뒤에는 숫자가 올 수 없다. 예를 들면 다음과 같다. # 올바른 변수명aba1a2.x#올바르지 않은 변수명2a.2R 1.9.0 이전에는 '_'가 변수명에 사용될 수 없었다는 점 때문에 '.'을 주로 사용한다. 예를 들어 training_data, validation_data 같은 변수명 대신 data.training, data.validation과 같이 사용한다.변수에 값을 할당할 때는 2. 스칼라(Scalr)R의 기본형은 벡터이므로 이들 스칼라 자료는 길이 1의 벡터로 볼 수 있다. 2.1 숫자정수, 부동 소수 등이 자연스럽게 지원된다.a 위에서 '2.2 NA데.. R Programming Langauge/R for Practical Data Analysis 2024. 8. 26. R을 이용한 데이터 분석 실무 책 인터넷에 책이 올라와 있어서 이 책을 바탕으로 공부할 예정입니다. 이 책은 무료 배포가 가능하여 링크 공유해드립니다.https://enook.jbnu.ac.kr/16/ch01/01/r4pda.pdf PDF 파일도 첨부해서 올립니다. 감사합니다. R Programming Langauge/R for Practical Data Analysis 2024. 8. 26. Chapter 04. 분류(Classification) - 이론 1 선형 회귀 모델과 질적 변수정의: 선형회귀 모델은 반응 변수 Y가 양적(quantitative)이라고 가정한다. 그러나 많은 경우, 반응 변수가 질적(qualitative)이다.예시: 눈의 색깔은 파란색, 갈색 또는 녹색의 값을 가지는 질적 변수(categorical)이다.분류와 회귀의 관계: 관측치에 대해 질적 반응 변수를 예측하는 것을 분류라고 한다. 이는 관측치를 범주 또는 클래스로 할당하는 과정이기 때문이다. 분류에 사용되는 방법(Logistic Regression)들은 질적 변수의 각 범주에 대한 확률을 예측하고, 이를 바탕으로 분류를 수행한다. 이런 의미에서 분류 방법은 회귀 방법처럼 동작할 수 있다.4.1 분류의 개요예시응급실 환자의 의료 상태 분류응급실에 오는 환자는 3가지 의료 상태 중 .. AI/ISLR 2024. 8. 21. 이전 1 다음