AI/ISLR

Chapter02. 통계학습(Statistical Learning) - 이론

Dev_Kang 2024. 9. 7.

2.1 통계학습이란?

우리는 통계 컨설턴트로서 특정 제품의 판매 증진을 위한 자문을 제공하는 것이다. Advertising 자료는 200개의 다른 시장에서 제품의 판매 수치(sales)와 각 시장별로 해당 제품에 대한 광고 예산으로 구성된다. 광고 예산은 세 가지 매체(TV, Radio, Newspaper)에 대한 데이터를 포함하고 있다.

 

고객은 직접적으로 제품의 판매를 증가시킬 방법은 없지만, 세 매체에 대한 광고 지출을 제어할 수 있다.

 

만약 우리가 광고와 판매 사이의 상관관계를 파악할 수 있다면, 우리는 고객이 광고 예산을 조절하도록 조언하여 간접적으로 판매를 증진시킬 수 있다. 즉, 우리의 목표는 세 매체에 대한 광고 예산을 기반으로 판매를 예측할 수 있는 정확한 모델을 개발하는 것이다.

 

그림 2.1: Advertising 자료. 그래프는 200개의 시장에 대한 sales를 TV, Radio, Newspaper 예산의 함수로 나타낸 것으로, sales의 단위는 1천 유닛이고 광고 예산의 단위는 1천 달러이다.

광고 예산은 입력 변수이고, sales는 출력 변수이다. 입력 변수는 보통 $X$로 나타내고 첨자를 사용하여 구분한다. 입력 변수는 여러 가지 이름으로 불리며, 예측(predictor) 변수, 독립 변수 등으로 불린다. 출력 변수는 응답(response) 변수 또는 종속 변수라고 불리며, 보통 $Y$를 사용하여 나타낸다.

 

p개의 입력 변수 $(X_1, X_2, \dots, X_p)$와 출력 변수 $Y$가 존재하고, $Y$와 $X$는 어떤 상관관계가 있다고 가정한다. 일반적으로 이 관계는 $Y = f(X) + \epsilon$과 같은 형태로 나타낼 수 있다. 여기서 $f$는 알려지지 않은 고정(불변) 함수이며, $\epsilon$은 랜덤 오차항(error term)이다. 오차항은 $X$와 독립적이며, 평균은 $0$이다. 함수 $f$는 $X$가 $Y$를 예측하는 데 사용되는 규칙이나 패턴을 나타낸다. 각 그래프의 파란색 직선은 TV, Radio, Newspaper 각각을 사용하여 sales를 예측하는 데 사용될 수 있는 간단한 모델을 보여준다.

그림 2.2: Income 자료. 왼쪽: 붉은색 점들은 30명 각각의 소득(income, $1$만 달러 단위)과 교육 기간의 관측치이다. 오른쪽: 파란색 곡선은 소득과 교육 기간 사이의 실제 상관관계를 나타낸다.

 

이 그래프는 Income 자료에 있는 30명의 개인에 대해 소득(Income)과 교육 기간(Years of education)의 관계를 나타낸다. 이 관계는 교육 기간을 이용하여 소득을 예측할 수 있음을 시사한다. 하지만 일반적으로 입력 변수를 출력 변수에 연결하는 함수 $f$는 알려져 있지 않다. 이러한 경우, 함수 $f$는 관찰된 점들을 기반으로 추정해야 한다.

 

그래프에서 수직선들은 오차항 $\epsilon$을 나타낸다. 30개의 관측치 중 일부는 파란색 곡선 위에 있고, 다른 일부는 곡선 아래에 위치한다. 전체적으로 오차의 평균은 대략 $0$으로, 오차가 무작위로 분포되어 있으며 특정한 패턴이 보이지 않는다.

 

그림 2.3: Income 자료에서 교육 기간과 경력(seniority)의 함수로 나타낸 소득(income).

이 그래프는 소득(Income)을 교육 기간(Years of Education)과 연공서열(Seniority)의 함수로 나타낸 것이다. 여기서, f는 관찰된 데이터에 기초하여 추정되어야 하는 2차원 곡면(surface)이다. 통계 학습은 를 추정하는 일련의 기법들을 의미한다. 파란색 곡면은 소득과 교육 기간 및 연공서열 사이의 실제 상관관계를 나타낸다.

2.1.1 f를 추정하는 이유는?

$f$를 추정하고자 하는 두 가지 주요한 이유는 예측과 추론이다.

예측

많은 경우, 입력 $X$는 쉽게 얻을 수 있지만 출력 $Y$는 쉽게 얻을 수 없다. 오차항이 평균 $0$이기 때문에 다음 식을 사용하여 $Y$를 예측할 수 있다: $\hat{Y} = \hat{f}(X)$

 

여기서 $\hat{f}$​는 $f$에 대한 추정을 나타내고, $\hat{Y}$는 $Y$에 대한 예측 결과를 의미한다. $\hat{f}$​는 종종 블랙박스(black box)로 취급되는데, 그 이유는 $Y$에 대한 정확한 예측을 제공한다면, 그 함수의 정확한 형태는 통상적으로 크게 중요하지 않기 때문이다. 이는 예측이 목적일 때, 함수의 복잡한 내부 구조보다는 결과의 정확성이 더 중시되는 상황을 반영한다.

예를 들어, 입력 변수 $X$는 환자의 혈액 샘플이고, $Y$는 특정 약물에 대해 심각한 부작용을 보일 위험성을 나타내는 변수라고 가정한다. 당연히 $X$를 사용하여 $Y$를 예측하려 할 것이다. $Y$의 추정값이 높은 환자들에게는 그 약물을 투여하지 않는 것이 좋기 때문이다. 오차항 $\epsilon$은 약물의 제조상 차이, 개별 환자의 다른 반응 등 다양한 원인으로 인해 발생할 수 있다.

 

$\hat{Y}$의 예측 정확성은 축소 가능 오차(reducible error)와 축소 불가능 오차(irreducible error)라는 두 가지 요인에 의해 결정된다.

  1. 축소 가능 오차: $\hat{f}$​가 $f$를 완벽하게 추정하지 못하는 경우 발생하는 오차이다. 이 부정확성은 축소 가능하며, 더 적절한 통계 학습 기법을 사용하여 $f$를 더 정확하게 추정함으로써 줄일 수 있다.
  2. 축소 불가능 오차: $f$를 완벽하게 추정한다고 하더라도, 예측한 값은 여전히 오차를 가질 수 있다. 그 이유는 $Y$가 오차항 $\epsilon$의 함수이기 때문이다. $\epsilon$은 정의상 $X$를 사용하여 예측할 수 없으므로, 이로 인해 발생하는 변동성은 축소할 수 없다. 따라서 이 오차는 축소 불가능한 오차로 알려져 있으며, 아무리 $f$를 잘 추정해도 $\epsilon$에 의해 도입된 오차는 줄일 수 없다.

축소 가능 오차가 $0$보다 큰 이유는 $\epsilon$이 $Y$를 예측하는 데 유용할 수 있는 측정되지 않은 변수들을 포함할 수 있기 때문이다. 이러한 변수들은 측정되지 않으므로 $f$는 이를 예측에 활용할 수 없다. 또한, $\epsilon$은 측정할 수 없는 변동성을 포함할 수 있어 예측의 정확성에 영향을 미친다.

$E(Y-\hat{Y})^2 = E[f(X)+\epsilon-\hat{f}(x)]^2 = [f(x) - \hat{f}(x)]^2 + Var(\epsilon)$

 
 
$E(Y−Y)^2$는 $Y$의 예측값과 실제값 사이의 차이의 제곱에 대한 평균 또는 기대값을 나타내며, $Var(\epsilon)$은 오차항 $\epsilon$과 관련된 분산을 의미한다.

추론(Inference)

이제 $\hat{f}$​는 블랙박스로 취급될 수 없다. 그 이유는 모델의 정확한 형태를 파악할 필요가 있기 때문이다.

  • 어떤 입력 변수들이 출력 변수와 관련되어 있는가? 사용할 수 있는 입력 변수들 중 일부만이 $Y$와 실질적으로 관련이 있을 수 있다.
  • 출력 변수와 각 입력 변수 사이의 상관관계는 무엇인가? 일부 입력 변수는 그 값이 증가함에 따라 $Y$의 값도 증가하는 양의 상관관계를 가질 수 있고, 다른 입력 변수들은 음의 상관관계를 가질 수 있다.
  • $Y$와 각 입력 변수의 상관관계는 선형 방정식으로 충분히 설명될 수 있는가? $f$를 추정하는 대부분의 방법들은 선형 형태를 가정한다. 이 가정이 합리적이거나 바람직한 경우도 있지만, 실제로는 더 복잡한 상관관계를 반영하지 못할 수 있다.

예시

  • 예측 모델링: 직접 마케팅 캠페인을 예로 들면, 회사는 인구통계학적 정보를 기반으로 광고에 긍정적으로 반응할 사람들을 식별하는 예측 모델을 원할 수 있다.
  • 추론 모델링: 가격, 매장 위치, 할인 수준, 경쟁자의 가격과 같은 변수가 제품 판매에 미치는 영향을 분석하는 것이 추론 모델링의 예이다. 예를 들어, 가격 변화가 판매에 미치는 영향을 이해하는 것이 여기에 해당한다.
  • 추론과 예측의 차이: 집 값과 관련된 문제에서, 범죄율, 지역, 강과의 거리 등의 변수들이 집 값에 미치는 영향을 분석하는 것은 추론 문제이다. 반면, 집의 특정 특성을 바탕으로 그 집의 가치를 예측하는 것은 예측 문제이다.

2.1.2 어떻게 f를 추정하는가?

우리는 $n$개의 서로 다른 데이터 포인트를 관측한다고 가정하자. 앞의 그림에서는 $n = 30$개의 데이터 포인트를 관측하였다. 이러한 관측치들은 훈련 데이터(training data)라고 불리는데, 그 이유는 이 값들을 사용하여 고려 중인 방법이 $f$를 어떻게 추정할지 훈련시키기 때문이다.

 

식 $X_{ij}$​는 $i$번째 관측치에서 $j$번째 입력 변수를 의미한다. 반대로 $y_i$​는 $i$번째 관측치에 대한 출력 변수를 나타낸다. 훈련 데이터는 다음과 같이 구성된다:

$(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n) \rightarrow x_i = \begin{pmatrix} x_{i1}, x_{i2}, \dots, x_{ip} \end{pmatrix}^T$

 

임의의 관측치 $(X, Y)$에 대해 $Y \approx \hat{f}(X)$를 만족하는 함수 $f$를 찾고자 한다. 이 목표를 달성하기 위한 대부분의 통계 학습 방법들은 모수적(parametric) 또는 비모수적(non-parametric) 방법으로 구분할 수 있다.

모수적 방법(Parametric Methods)

  • 먼저, 함수 $f$의 형태나 모양에 대해 가정한다. 예를 들어, 매우 단순하게 $f$가 $X$에 대해 선형적이라고 가정할 수 있다. $f$가 선형이라고 가정하면, 문제는 크게 단순화된다. 완전히 임의의 $p$차원 함수 $f(X)$를 추정해야 하는 대신, $p + 1$개의 계수 $(\beta_0, \beta_1, \dots, \beta_p)$만 추정하면 된다.

$f(X) = \beta_0 + \beta_1X_1+\beta_2X_2+ \dots + \beta_pX_p$

  • 모델이 선택된 후, 훈련 데이터를 사용하여 모델을 적합(fit)하거나 훈련시키는 절차가 필요하다. 선형 모델의 경우, 이 과정은 파라미터(계수)를 추정하는 것을 의미한다. 최소제곱(least squares)은 선형 모델을 데이터에 맞추는 많은 방법 중 하나로, 데이터를 기반으로 계수를 추정하여 $f$를 적합시키는 일반적인 방식이다.

 

그림 2.4: 그림 2.3의 Income 자료에 대한 최소제곱 방법에 의한 선형 모델의 적합.

 

$f$를 추정하는 문제는 결국 파라미터 집합을 추정하는 문제로 귀결된다. $f$에 대한 모수적 형태를 가정하는 것은 이 문제를 단순화하는데, 이는 임의의 함수 $f$를 적합하는 것보다 파라미터를 추정하는 것이 훨씬 쉬운 경우가 많기 때문이다.

 

하지만 이 접근법의 단점은 선택한 모델이 실제로 $f$의 형태와 일치하지 않을 수 있다는 점이다. 만약 실제 $f$의 모양과 너무 다를 경우, 추정은 부정확해질 것이다. 이를 해결하기 위해 더 유연한 모델을 선택하여 다양한 함수 형태를 적합할 수 있지만, 유연한 모델일수록 추정해야 할 파라미터의 수도 증가하게 된다. 복잡한 모델은 과적합(overfitting)의 위험을 증가시키는데, 이는 본질적으로 데이터의 오차나 노이즈를 지나치게 면밀히 따르는 것을 의미한다.

 

위 그림은 Income 자료에 적용된 모수적 방법을 보여준다. 두 개의 입력 변수와 출력 변수 사이에 선형 상관관계가 있다고 가정하고, 전체 적합 문제는 파라미터를 추정하는 문제로 변환되어, 이를 최소제곱 선형 회귀로 추정한다.

 

그림을 보면, 주어진 선형 적합이 실제 데이터에 잘 맞지 않는다는 점을 알 수 있다. 실제 $f$에는 선형 모델이 포착하지 못하는 곡선 부분이 존재한다. 교육 기간과 소득 사이에는 분명한 양의 상관관계가 있지만, 연공서열과 소득 사이의 상관관계는 상대적으로 덜 긍정적이다.

비모수적 방법(Non-parametric Methods)

비모수적 방법은 $f$의 함수 형태에 대해 명시적인 가정을 하지 않는다. 대신, 데이터 포인트에 최대한 가까워지는 $f$의 추정을 목표로 한다.

 

장점: 비모수적 방법은 $f$의 함수 형태에 대한 가정을 하지 않기 때문에, 더 다양한 형태의 $f$를 정확하게 적합할 가능성이 있다. 이러한 방식은 함수 형태를 사전에 가정할 필요가 없으므로, 실제 $f$와 사용된 함수 간의 차이로 인한 오류를 피할 수 있다.

 

단점: $f$를 추정하는 문제를 소수의 파라미터 추정으로 단순화하지 않기 때문에, 비모수적 방법을 사용하려면 훨씬 더 많은 데이터 관측치가 필요하다. 관측치가 충분하지 않을 경우, $f$를 정확히 추정하기 어려워질 수 있다.

 

따라서 비모수적 방법은 데이터가 충분히 많을 때 유리하지만, 데이터가 적을 때는 추정의 신뢰성이 떨어질 수 있다.

그림 2.5: 그림 2.3의 Income 자료에 대한 평활 박판 스플라인(smooth thin-plate spline) 적합(노란색).

이 그림에서는 박판 스플라인(thin-plate spline)이 $f$를 추정하는 데 사용된다. 노란색 표면은 평활하게(smooth) 적합된 $f$의 추정을 나타낸다. 박판 스플라인을 적합하기 위해서는 평활 정도를 선택해야 한다. 평활 정도가 낮으면 적합이 거칠어질 수 있다.

아래 그림은 실제 함수 $f$보다 변동이 훨씬 많다. 이는 과적합의 예로, 과적합이 바람직하지 않은 이유는 훈련 데이터에 포함되지 않은 새로운 관측치에 대해 출력 변수를 정확하게 추정하지 못할 가능성이 크기 때문이다. 과적합된 모델은 데이터의 노이즈까지 지나치게 반영해 예측력이 떨어진다.

그림 2.6: 그림 2.3의 Income 자료에 대한 거친 박판 스플라인 적합. 이 적합은 훈련 데이터에 대해 오차가 없다.

 

2.1.3 예측 정확도와 모델 해석력 사이의 절충(Trade-Off)

$f$를 추정하는 데 있어, 덜 유연하거나 더 제한적인 방법은 상대적으로 작은 범위의 함수 형태만 제공할 수 있다. 예를 들어, 선형 회귀는 유연성이 낮은 기법으로, 직선이나 평면과 같은 선형 함수만 생성할 수 있다.


반면, 박판 스플라인과 같은 방법들은 훨씬 더 유연한 기법으로, $f$를 추정할 때 훨씬 더 넓은 범위의 함수 형태를 생성할 수 있다. 그렇다면 왜 유연한 기법 대신 더 제한적인 방법을 선택할까? 제한적인 모델을 선호할 수 있는 몇 가지 이유가 있다. 예를 들어, 추론이 목적일 경우, 제한적인 모델이 해석하기 훨씬 더 쉽다. 매우 유연한 기법들은 $f$를 추정하는 과정이 복잡해져, 개별 입력 변수가 출력 변수와 어떻게 연관되는지 파악하기 어려울 수 있다.

그림 2.7: 통계 학습 방법에 따른 유연성과 해석력 사이의 관계. 일반적으로 유연성이 증가함에 따라 해석력은 감소한다.

이 문장은 일부 통계 학습 방법에서 유연성과 해석력 사이의 관계를 설명한다. 예를 들어, Lasso는 선형 모델을 사용하지만, 계수를 추정하는 절차가 더 제한적이다. Lasso는 계수들 중 일부를 정확히 0으로 설정하므로, 최종 모델에서는 출력 변수가 입력 변수들의 일부만 관련된다. 이로 인해 Lasso는 선형 회귀보다 유연성이 떨어진다.

 

일반화 가법 모델(GAMs)은 선형 모델을 확장하여 비선형 관계를 다룰 수 있으며, 선형 회귀보다 더 유연하지만 해석력은 약간 떨어진다. GAM은 각 입력 변수와 출력 변수 간의 관계를 곡선으로 모델링하기 때문에, 선형 회귀에 비해 이해하기가 더 복잡할 수 있다.

 

배깅, 부스팅, 서포트 벡터 머신(비선형 커널을 사용할 경우)과 같은 완전히 비선형적인 방법들은 매우 유연하지만, 해석이 더 어려운 기법들이다.

 

어떤 경우에는 예측에만 관심이 있고, 모델의 해석력은 중요하지 않을 수 있다. 예를 들어, 주식 가격 예측 알고리즘에서는 예측의 정확도만 중요할 뿐, 모델이 어떻게 작동하는지에 대한 해석은 필요하지 않을 수 있다. 이럴 때는 유연한 모델을 사용하는 것이 최선일 수 있지만, 반드시 그렇지는 않다. 유연한 방법들은 과적합의 위험이 있기 때문에, 덜 유연한 방법이 더 정확한 예측을 제공할 때도 있다.

2.1.4 지도 학습과 비지도 학습

지도 학습: 입력 변수를 측정한 각 관측치 $x_i (i = 1, 2, \dots, n)$에 대해 연관된 출력 변수의 측정값 $y_i$​가 있는 경우를 설명한다. 이때 출력 변수와 입력 변수 사이의 관계를 나타내는 모델을 찾고자 하며, 목적은 미래 예측에서 출력 변수를 정확하게 예측하거나, 출력 변수와 입력 변수들 사이의 상관관계를 더 잘 이해하는 것이다.

비지도 학습: 모든 관측 $i = 1, \dots, n$에 대해 입력 변수 $x_i$​만을 관측하지만, 출력 변수 측정값 $y_i$는 없는 좀 더 어려운 상황을 다룬다. 분석을 지도할 수 있는 출력 변수가 없으므로 비지도 학습이라 한다. 비지도 학습의 목적은 변수들 간 또는 관측치들 간의 상관관계를 이해하는 것이다. 이때 사용되는 통계 학습 도구 중 하나가 클러스터링 분석(clustering analysis)이다.

클러스터링 분석의 목적은 $x_1, \dots, x_n$을 기반으로 관측치들이 상대적으로 구별되는 그룹에 속하는지를 확인하는 것이다. 예를 들어, 시장 분할 연구에서 잠재 고객들에 대한 다양한 특성(변수)을 관측할 수 있다. 고객들은 서로 다른 그룹에 속할 수 있는데, 예를 들어 지출이 큰 그룹과 지출이 작은 그룹이 있을 수 있다. 만약 각 고객의 지출 패턴에 대한 정보가 있다면, 지도 학습을 통해 분석할 수 있다. 하지만 이러한 정보가 없다면, 측정된 변수들을 기반으로 고객들을 클러스터링하여 그룹을 식별하는 비지도 학습을 사용할 수 있다.

그림 2.8: 3개의 그룹이 관련된 클러스터링 자료. 각 그룹은 다른 색깔의 기호로 구분되어 표시된다.

각 관측치가 속하는 그룹을 결정하는 것이 목적이다. 왼쪽 패널에서는 그룹들이 잘 분리되어 있어 그룹을 결정하는 것이 비교적 쉽다. 반면, 오른쪽 패널은 그룹들 간에 겹치는 부분이 있어 더 어려운 문제를 보여준다. 클러스터링 방법이 모든 겹치는 관측치들을 올바른 그룹으로 할당할 것이라고 기대하기는 어렵다. 데이터에 $p$개의 변수가 있을 때, $\frac{p(p-1)}{2}$개의 다른 산점도를 만들 수 있어, 시각적 검사는 클러스터를 식별하는 데 유효한 방법이 되지 않는다.

예를 들어, $n$개의 관측치가 있다고 가정하자. 이 중  $m < n$개의 관측치에 대해 입력 변수와 출력 변수의 측정값이 있고, 나머지 $n - m$개의 관측치에 대해서는 입력 변수의 측정값만 있다. 이러한 상황은 입력 변수를 비교적 쉽게 측정할 수 있지만, 대응하는 출력 변수를 수집하기 어렵거나 비용이 많이 드는 경우에 발생한다. 이러한 설정을 준지도 학습(semi-supervised learning) 문제라고 한다.

2.1.5 회귀와 분류문제

변수는 양적 변수 또는 질적 변수로 구분할 수 있다. 양적 변수는 수치 값을 취하며, 예를 들어 사람의 나이, 키, 수입, 집값, 주식 가격 등이 있다. 반면, 질적 변수는 $k$개의 다른 클래스 또는 카테고리 중 하나의 값을 가지며, 예로는 사람의 성별(남성 또는 여성)이나 구입한 제품의 브랜드(브랜드 A, B, C) 등이 있다.

보통 양적 출력 변수를 다루는 문제를 회귀 문제라고 하며, 질적 출력 변수가 관련된 문제는 분류 문제라고 한다. 예를 들어, 최소제곱 선형 회귀는 양적 출력 변수를 다루는 데 사용되며, 로지스틱 회귀는 전형적으로 질적 출력 변수를 다룰 때 사용된다. 따라서 출력 변수가 양적인지 질적인지에 따라 사용하는 통계 학습 방법이 달라질 수 있다.

대부분의 통계 학습 방법은 질적 입력 변수가 분석 이전에 적절히 코딩된다면, 입력 변수의 유형에 상관없이 적용될 수 있다.


2.2 모델의 정확도 평가

최적의 기법을 선택하는 것은 실제로 통계 학습에서 가장 어려운 부분 중 하나이다. 특정 자료에 적합한 통계 학습 절차를 선택할 때 고려해야 할 주요 개념들을 다룬다.

2.2.1 적합의 품질 측정

통계 학습 방법의 성능을 평가하기 위해서는, 이 방법에 의한 예측이 관측된 데이터와 실제로 얼마나 잘 맞는지 측정하는 방법이 필요하다. 예측된 출력 값이 관측치에 대한 실제 출력 값에 얼마나 가까운지를 수량화하는 것이 필요하다. 이러한 회귀 설정에서 일반적으로 사용되는 측도는 평균제곱오차(MSE: mean squared error)이다.

$\begin{equation*} \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{f}(x_i))^2 \end{equation*}$

 

예측된 출력 값들이 실제 출력 값들과 매우 가까우면 MSE는 작아질 것이고, 예측값과 실제 값이 크게 차이날 경우 MSE는 커질 것이다. 위의 MSE는 모델을 적합하는 데 사용된 훈련 데이터(training data)로 계산되기 때문에 훈련 MSE라고 한다. 그러나 실제로 관심이 있는 것은 검정 데이터(test data)에 적용할 때 얻는 예측 정확도이다.

 

예를 들어, 다수의 환자에 대한 임상 측정치(키, 체중, 혈압 등)와 각 환자의 당뇨병 여부에 대한 정보가 있다고 하자. 이 정보를 기반으로 당뇨병 위험을 예측하는 통계 학습 방법을 훈련시킬 수 있다. 우리가 궁극적으로 원하는 것은 미래 환자에 대한 당뇨병 위험을 정확하게 예측하는 것이다.

 

통계 학습 방법을 훈련 관측치${{(x_1, y_1), (x_2, y_2),\dots,(x_n, y_n)}}$에 적합하여 추정 함수 $\hat{f}$​를 얻는다고 하자. 이 경우, $\hat{f}(x_1), \hat{f}(x_2), \dots,  \hat{f}(x_n)$을 계산할 수 있다. 만약 이 값들이 실제 값인 $y_1, y_2,\dots, y_n$과 거의 같다면, 훈련 MSE는 작을 것이다. 그러나 새로운 검정 관측치 $(x_0, y_0)$는 이 통계 학습 방법을 훈련시키는 데 사용되지 않은 본 적 없는 데이터이다. 따라서 가장 낮은 훈련 MSE를 제공하는 방법보다는, 가장 낮은 검정 MSE를 제공하는 방법을 선택하는 것이 중요하다.

 

아래 식은 검정 관측치에 대한 평균제곱예측오차를 나타낸다.

$\begin{equation*} Ave (y_0 - \hat{f}(x_0))^2 \end{equation*}$

 

검정 MSE를 최소화하는 방법을 선택하는 경우, 사용할 수 있는 검정 데이터셋이 있을 수 있다. 즉, 통계 학습 방법을 훈련시키는 데 사용되지 않았던 관측치들에 접근할 수 있다는 의미이다. 그러나 사용할 수 있는 검정 데이터가 없을 경우에는 훈련 MSE를 최소로 하는 통계 학습 방법을 선택해야 한다.

 

훈련 MSE와 검정 MSE는 밀접하게 관련되어 있어 보이지만, 훈련 MSE가 가장 낮은 방법이 검정 MSE도 가장 낮게 할 것이라는 보장은 없다. 문제는 많은 통계 방법들이 훈련 MSE를 최소화하도록 계수를 추정한다는 것이다. 이러한 경우, 훈련 MSE는 매우 작을 수 있지만, 검정 MSE는 보통 훨씬 더 크게 나타날 수 있다.

그림 2.9: 왼쪽 패널에는 검정색으로 표시된 $f$ 로부터 얻은 모의 데이터가 보여진다. 오른쪽 패널에는 훈련 MSE(회색 곡선)와 검정 MSE(붉은색 곡선)가 그려져 있다.

왼쪽 패널에서 검은색 곡선으로 주어진 실제 $f$를 가지고 식 $Y = f(X) + \epsilon$으로부터 관측치들이 생성되었다. 오렌지색 직선은 선형 회귀 적합을 나타내며, 이는 비교적 유연하지 않은 방법이다. 파란색과 녹색 곡선은 평활 스플라인(smoothing spline)을 사용하여 평활도를 다르게 하여 생성되었다. 유연성 수준이 증가할수록 데이터에 더 가깝게 적합된다. 녹색 곡선은 데이터에 잘 맞지만, 너무 복잡하여 실제 $f$를 정확히 적합하지 못한다.

 

회색 곡선은 여러 평활 스플라인들에 대해 평균 훈련 MSE를 유연성(혹은 좀 더 공식적으로 자유도)의 함수로 나타낸 것이다. 자유도는 곡선의 유연성을 요약하는 수치로, 덜 유연하고 더 매끄러운 곡선은 복잡한 곡선보다 자유도가 낮다. 선형 회귀는 가장 제한적인 방법으로, 자유도가 2이다.

 

실제 $f$는 비선형적이기 때문에 오렌지색 선형 적합은 $f$를 잘 추정할 만큼 충분히 유연하지 않다. 반면, 녹색 곡선은 세 가지 방법 중 가장 낮은 훈련 MSE를 가진다. 오른쪽 패널에서 검정 MSE는 붉은색 곡선으로 표시되며, 유연성이 증가함에 따라 처음에는 훈련 MSE와 검정 MSE 모두 감소한다. 그러나 일정 지점 이후부터 검정 MSE는 다시 증가하기 시작한다. 파란색 곡선이 검정 MSE를 최소화하는 방법이다. 수평의 파선은 축소 불가능 오차 $\text{Var}(\epsilon)$를 나타내며, 이는 모든 가능한 방법 중 달성할 수 있는 가장 낮은 검정 MSE에 해당한다.

 

통계 학습 방법의 유연성이 증가함에 따라 훈련 MSE는 항상 단조 감소하지만, 검정 MSE는 U자형 곡선을 보인다. 이는 통계 학습의 기본적인 성질이다. 훈련 MSE는 작지만, 검정 MSE가 큰 경우 데이터를 과적합했다고 한다. 과적합은 모델이 훈련 데이터에서 너무 복잡한 패턴을 학습하여, 실제로 존재하지 않는 노이즈나 우연적인 패턴을 추적할 때 발생한다. 훈련 데이터를 과적합하면 검정 데이터에서 이 패턴들이 나타나지 않기 때문에 검정 MSE가 크게 증가할 수 있다

 

과적합이 발생하든 그렇지 않든, 훈련 MSE는 거의 항상 검정 MSE보다 작을 것으로 예상된다. 이는 모델이 훈련 데이터에 맞춰지도록 최적화되기 때문이다. 덜 유연한 모델이 더 작은 검정 MSE를 제공하는 경우, 이는 특히 과적합이라고 할 수 있다.

그림 2.10: 직선에 훨씬 더 가까운 $f$ 를 사용하여, 그림 2.9와 동일한 세 가지 적합 결과를 보여준다.

실제 $f$가 거의 선형적인 경우이다. 실제 함수가 선형에 가까우므로, 검정 MSE는 유연성이 증가함에 따라 약간만 감소한 후, 다시 증가하기 시작한다.

그림 2.11: 직선과는 상당히 다른 fff 를 사용하여, 그림 2.9와 동일한 세 가지 적합 결과를 보여준다.

이 예시는 $f$가 상당히 비선형적인 경우로, 동일한 일반적인 패턴을 보이지만, 검정 MSE의 증가가 천천히 시작되기 전에 두 곡선이 급격히 감소한다.

일반적으로는 사용 가능한 검정 데이터가 없기 때문에 검정 MSE를 직접적으로 계산하는 것은 상당히 어렵다. 따라서 검정 MSE가 최소가 되는 지점을 추정하기 위해 교차검증(cross-validation)과 같은 다양한 기법들이 사용된다. 이러한 기법들은 훈련 데이터 내에서 데이터를 나누어 모델의 성능을 평가하는 방법으로, 검정 MSE를 추정할 수 있게 한다.

2.2.2 편향-분산 절충

절충(trade-off): 하나가 증가하면 하나가 감소한다. 여기서 의미하는 바는 편향과 분산 사이의 알맞는 절충 관계를 찾는 것이 중요하다.

검정 MSE 곡선이 U자 모양을 보이는 이유는 통계 학습 방법의 두 가지 성질 때문이다. 주어진 값 $x_0$​에 대한 기대 검정 MSE는 항상 세 가지 기본 수량, 즉 $\hat{f}(x_0)$의 분산, 제곱 편향, 그리고 오차항 $\epsilon$의 분산의 합으로 분해된다는 것을 보여줄 수 있다.

$\begin{equation*} E \left( y_0 - \hat{f}(x_0) \right)^2 = \text{Var}(\hat{f}(x_0)) + \left[ \text{Bias}(\hat{f}(x_0)) \right]^2 + \text{Var}(\epsilon) \end{equation*}$

여기서 $E \left( y_0 - \hat{f}(x_0) \right)^2$는 기대 검정 MSE의 정의로, 매우 많은 훈련 데이터를 사용하여 $f$를 반복적으로 추정하고, 각 추정을 $x_0$에서 검정했을 때 얻어지는 검정 MSE의 평균을 의미한다.

 

기대 검정 오차를 최소화하려면 낮은 분산과 편향을 동시에 달성해야 한다. 분산과 제곱 편향은 음수가 아니므로, 기대 검정 MSE는 축소 불가능 오차인 $\text{Var}(\epsilon)$보다 작을 수 없다.

분산은 다른 훈련 자료를 사용했을 때 $\hat{f}$​가 얼마나 변동하는지를 나타낸다. 이상적으로는 $f$의 추정치가 훈련 자료에 따라 크게 달라지지 않아야 하지만, 분산이 높으면 작은 데이터 변화에도 $\hat{f}$​는 크게 변할 수 있다. 일반적으로 유연성이 높을수록 분산도 높아진다.

 

편향은 복잡한 실제 문제를 단순한 모델로 근사할 때 발생하는 오차로, 예를 들어 선형 회귀는 $Y$와 $X_1, X_2, \dots, X_p$​ 사이에 선형 상관관계가 있다고 가정하는데, 실제로는 그렇지 않을 가능성이 크므로 편향이 발생한다. 유연성이 높은 방법일수록 편향은 적다.

결론적으로, 유연성이 높아질수록 분산이 증가하고 편향은 감소하는 경향이 있다. 유연성의 증가에 따라 초기에는 편향이 빠르게 감소하지만, 어느 지점에서는 더 이상의 편향 감소 없이 분산이 크게 증가하기 시작하고, 이때 검정 MSE가 증가하게 된다.

그림 2.12: 그림 2.9-2.11의 세 자료에 대한 제곱 편향(파란색 곡선), 분산(오렌지색 곡선), $\text{Var}(\epsilon)$ (파선), 검정 MSE(붉은색 곡선).

세 경우 모두에서 유연성이 증가함에 따라 분산은 증가하고 편향은 감소한다. 각 자료에 따라 최적의 검정 MSE를 제공하는 유연성 수준은 다르다. 그 이유는 자료별로 제곱 편향과 분산이 변하는 속도가 다르기 때문이다.

  • 왼쪽 패널에서는 편향이 초기에 빠르게 감소하여 기대 검정 MSE도 급격히 감소한다.
  • 중앙 패널에서는 실제 $f$가 선형에 가까워 유연성이 증가해도 편향 감소가 미미하다. 검정 MSE는 분산이 증가함에 따라 약간 감소하다가 빠르게 증가한다.
  • 오른쪽 패널에서는 실제 $f$가 비선형적이기 때문에 유연성이 증가함에 따라 편향이 급격히 감소한다. 이 경우 유연성이 증가해도 분산의 증가는 거의 없다.

이러한 편향-분산 절충(bias-variance trade-off)은 통계 학습 방법에서 중요한 개념이다. 모델이 검정 데이터에서 좋은 성능을 내기 위해서는 분산과 제곱 편향 모두 낮아야 한다. 그러나 두 값이 상반된 관계에 있으므로, 이를 절충(trade-off)이라고 한다. 분산과 편향이 모두 낮은 방법을 찾는 것은 어려운 과제이다. 특히 실제 ff가 관측되지 않은 상황에서는 검정 MSE, 편향, 또는 분산을 계산하는 것이 일반적으로 불가능하다.

 

만약 실제 $f$가 선형인 경우, 선형 회귀는 편향이 없을 것이므로, 더 유연한 방법으로 성능을 높이기는 어렵다. 반면, 실제 $f$가 비선형적이고 훈련 데이터가 충분히 많은 경우, 더 유연한 기법을 사용하면 성능을 개선할 수 있다.

2.2.3 분류 설정

편향-분산 절충과 같은 많은 개념은 $y_i$가 더 이상 수치가 아니기 때문에 분류 설정에서도 적용된다. 훈련 관측치 ${(x_1, y_1), \dots, (x_n,y_n)}$을 기반으로 $f$를 추정한다고 할 때, 여기서 $y_1, \dots, y_n$은 질적 변수이다. 추정치$\hat f$​의 정확도를 수량화하는 가장 흔한 방법은 훈련 오차율로, 이는 $\hat f$​를 훈련 관측치에 적용할 때 발생하는 오차율을 의미한다.

$\begin{equation*} \frac{1}{n} \sum_{i=1}^{n} I(y_i \ne \hat{y}_i) \end{equation*}$

 

여기서 $\hat{y_i}$는 $\hat f$​를 사용하여 예측된 iii번째 관측치에 대한 클래스 표시이고, II는 지시 변수(indicator variable)로, $y_i \ne \hat y_i$이면 $1$이고, $y_i = \hat y_i$​이면 $0$이다. 만약 $I(y_i \ne \hat y_i)=0$이면 $i$번째 관측치는 분류 방법에 의해 올바르게 분류된 것이고, 그렇지 않으면 잘못 분류된 것이다. 따라서 이 식은 잘못 분류된 비율을 계산한다.

이 오차율은 분류기를 훈련시키는 데 사용된 데이터를 기반으로 계산되므로 훈련 오차율(training error rate)이라고 불린다. 반면, 훈련에 사용되지 않은 검정 관측치에 분류기를 적용하여 얻은 오차율은 검정 오차율(test error rate)이라고 한다. 검정 오차율은 다음 식으로 주어지며, 여기서 $\hat{y_0}$​는 입력 변수가 $x_0$인 검정 관측치에 대해 분류기를 적용하여 얻은 예측된 클래스이다. 좋은 분류기는 검정 오차율이 작은 분류기이다.

$\begin{equation*} Ave( I(y_0 \ne \hat{y}_0)) \end{equation*}$

 

베이즈 분류기(Bayes Classifier)

검정 오차율이 최소화되는 방법은 주어진 입력 변수 값에 대해 가장 가능성이 높은 클래스로 각 관측치를 할당하는 단순한 분류기를 사용하는 것이다. 즉, 새로운 데이터 $x_0$​에 대해 가장 가능성이 높은 클래스를 찾아서 그 클래스로 분류하는 것이다.

$Pr(Y = j|X = x_0)$

 

위 식에서 사용된 조건부 확률(conditional probability)은 관측된 입력 변수 벡터 $x_0$가 주어졌을 때 $Y = j$일 확률을 나타낸다. 이 단순한 분류기를 베이즈 분류기라고 한다. 예를 들어, 두 개의 출력 변수 값만 가능한 2-클래스 문제에서, 베이즈 분류기는 $Pr(Y = 1|X = x_0) > 0.5$이면 클래스 1을 예측하고, 그렇지 않으면 클래스 2를 예측한다.

그림 2.13: 두 개의 그룹에 각각 100개의 관측치가 있는 모의 자료. 각 그룹의 관측치는 파란색과 오렌지색으로 구분되어 표시된다.

오렌지색 영역은 $Pr(Y = orange|X)$가 50%보다 큰 점들의 집합을 나타내고, 파란색 영역은 이 확률이 50%보다 작은 점들의 집합을 나타낸다. 보라색 파선은 이 조건부 확률이 정확히 50%인 점들을 나타내며, 이를 베이즈 결정 경계(Bayes decision boundary)라고 한다. 베이즈 분류기의 예측은 베이즈 결정 경계에 의해 결정된다. 결정 경계에서 오렌지색 쪽에 있는 관측치는 오렌지색 클래스에, 파란색 쪽에 있는 관측치는 파란색 클래스에 할당된다.

베이즈 분류기가 제공하는 검정 오차율은 가능한 검정 오차율 중 가장 낮은 값이며, 이를 베이즈 오차율이라고 한다. 전체 베이즈 오차율은 다음 식으로 표현된다. 여기서 기대값은 가능한 모든 $X$ 값에 대한 확률을 평균한 값이다.

$$1 - E \left( \max _j \Pr(Y = j \mid X) \right)$$

 

사용된 모의 자료의 베이즈 오차율은 $0.1304$이다. 이는 $0$보다 큰 값인데, 그 이유는 실제 모집단에서 클래스가 겹치기 때문이다. 따라서 일부 $x_0$ 값에 대해 $max_j Pr(Y = j|X = x_0) < 1$이 된다. 베이즈 오차율은 축소 불가능 오차와 유사하다.

K-최근접이웃(K-Nearest Neighbors)

실제 데이터에서는 주어진 $X$에 대한 $Y$의 조건부 분포를 모르기 때문에 베이즈 분류기를 계산할 수 없다. 많은 기법들은 주어진 $X$에 대한 $Y$의 조건부 분포를 추정하여, 가장 높은 추정 확률을 가지는 클래스로 관측치를 분류하고자 한다. 이러한 방법 중 하나가 K-최근접 이웃(KNN) 분류기이다. 양의 정수 $K$와 검정 관측치 $x_0$​에 대해, KNN 분류기는 먼저 훈련 데이터에서 $x_0$​에 가장 가까운 $K$개의 점을 식별한다. 클래스 $j$에 대한 조건부 확률은 출력 변수 값이 $j$인 $K$개 점들의 비율로 추정한다. 마지막으로 베이즈 규칙을 적용하여 검정 관측치 $x_0x$를 가장 높은 확률을 가진 클래스에 할당한다.

$\Pr(Y = j \mid X = x_0) = \frac{1}{K} \sum_{i \in \mathcal{N}_0} I(y_i = j)$

그림 2.14: $K=3$인 KNN 기법을 6개의 파란색 관측치와 6개의 오렌지색 관측치로 구성된 간단한 상황에서 보여준다.

검은색 X-표시의 관측치에 대해 예측하는 것이 목적이다. $k = 3$을 선택하면, KNN은 X-표시된 점에 가장 가까운 3개의 관측치를 먼저 식별한다. X-표시된 점의 이웃(neighborhood)은 원형으로 표시되며, 이 안에는 2개의 파란색 점과 1개의 오렌지색 점이 포함되어 있다. 따라서, 파란색 클래스의 추정 확률은 $2/3$, 오렌지색 클래스의 추정 확률은 $1/3$이 된다. 이에 따라, KNN은 X-표시된 관측치를 파란색 클래스에 속하는 것으로 예측한다.

오른쪽 패널은 $k = 3$인 KNN 기법을 모든 $X_1$​과 $X_2$ 값에 적용하여 얻은 KNN 결정 경계를 나타낸다.

그림 2.15: 검은색 곡선은 그림 2.13의 자료에 $K=10$을 사용한 KNN 결정 경계를 나타낸다.

$K = 10$인 KNN을 적용하여 얻은 결정 경계를 나타낸다. KNN 분류기는 실제 분포를 알지 못하지만, KNN 결정 경계는 베이즈 분류기에 상당히 가깝다. KNN을 사용한 검정 오차율은 $0.1363$으로, 베이즈 오차율 $0.1304$에 근접한다.

그림 2.16: 그림 2.13의 자료에 $k=1$과 $k=100$을 사용하여 얻은 KNN 결정 경계이다.

$K$의 선택은 얻어지는 KNN 분류기에 큰 영향을 미친다. $K = 1$과 $K = 100$을 사용한 두 가지 KNN 적합을 보면, $K = 1$일 때 결정 경계는 지나치게 유연하고 베이즈 결정 경계와 맞지 않는 데이터 패턴까지 발견한다. 이는 편향이 낮지만 분산이 높은 분류기에 해당한다. $K$가 증가할수록 분류기는 덜 유연해지며, 선형에 가까운 결정 경계를 제공하는데, 이는 분산이 낮지만 편향이 높은 분류기에 해당한다. $K = 1$과$K = 100$ 모두 예측 결과가 좋지 않으며, 검정 오차율은 각각 $0.1695$와 $0.1925$이다.

훈련 오차율과 검정 오차율 사이에는 강한 상관관계가 없다. $K = 1$인 경우, KNN 훈련 오차율은 $0$이지만 검정 오차율은 상당히 높을 수 있다. 일반적으로, 유연성이 높은 분류 방법을 사용할수록 훈련 오차율은 감소하지만, 검정 오차율은 그렇지 않을 수 있다. $1/K$가 증가할수록 KNN 방법의 유연성도 증가한다. 훈련 오차율은 유연성이 증가함에 따라 지속적으로 감소하지만, 검정 오차율은 U자 모양을 보이며 처음에는 감소하다가, 유연성이 지나치게 커져 과적합이 일어날 때 다시 증가한다. 편향-분산 절충과 검정 오차율의 U자 모양은 유연성 수준 선택을 어렵게 할 수 있다.

 

 

댓글