AI/ISLR

Chapter 05. 재표본추출 방법(Resampling Methods) - 이론

Dev_Kang 2024. 9. 3.

재표본 추출 방법은 현대 통계에서는 없어서는 안 될 도구이다. 훈련셋에서 반복적으로 표본을 추출하고, 각 표본에 관심 있는 모델을 적합하여 적합된 모델에 대한 추가적인 정보를 얻는 것을 말한다.

예를 들어, 선형 회귀 적합의 변동성을 추정하기 위해 훈련 데이터에서 다른 표본을 반복적으로 추출하고, 추출된 각 표본에 선형 회귀를 적합하여 적합 결과의 차이를 조사할 수 있다. 이러한 접근 방식은 모델을 한 번만 적합하는 경우에는 얻을 수 없는 정보를 제공한다.

재표본 추출 기법은 훈련 데이터의 다른 서브셋(subset)을 사용하여 동일한 통계적 방법을 여러 번 적합하기 때문에 계산량이 많을 수 있다. 가장 일반적으로 사용되는 재표본 추출 방법 중 두 가지인 교차 검증(cross-validation)과 붓스트랩(bootstrap)에 대해 살펴볼 것이다.

예를 들어, 교차 검증은 주어진 통계 학습 방법과 연관된 검정 오차를 추정하여 성능을 평가하거나 적절한 수준의 유연성을 선택하는 데 사용될 수 있다. 모델의 성능을 평가하는 과정은 모델 평가(model assessment), 모델에 대한 적절한 수준의 유연성을 선택하는 과정은 모델 선택(model selection)이라고 알려져 있다. 붓스트랩은 여러 맥락에서 사용되는데, 가장 일반적으로는 파라미터 추정의 정확도 또는 주어진 통계 학습 방법의 정확도를 측정하는 데 사용된다.

5.1 교차 검증(Cross-Validation)

2장에서 검정 오차율(test error rate)과 훈련 오차율(training error rate) 사이의 차이에 대해 살펴보았다. 검정 오차는 훈련에 사용되지 않은 데이터에서 반응 변수 값을 예측할 때 발생하는 평균 오류이다. 주어진 데이터셋에 대해 특정 통계 학습 방법의 검정 오차가 낮다면, 그 방법을 사용하는 것이 정당화될 수 있다. 검정 오차는 지정된 검정셋이 있는 경우 쉽게 계산할 수 있다. 그러나 대부분의 경우, 이용할 수 있는 지정된 검정셋이 없다.

반면, 훈련 오차는 통계 학습 방법을 훈련에 사용된 관측치에 적용하여 쉽게 계산할 수 있다. 훈련 오차율은 보통 검정 오차율과 상당히 다르며, 어떤 경우에는 검정 오차율을 크게 과소추정할 수 있다.

검정 오차율을 직접 추정하는 데 사용될 수 있는 대규모의 지정된 검정셋이 없는 경우, 이용 가능한 훈련 데이터를 사용하여 이 값을 추정하는 데 사용할 수 있는 다양한 기법이 있다. 이 절에서는 적합 과정에서 훈련 관측치의 일부를 제외하고, 제외된 관측치에 통계 학습 방법을 적용하여 검정 오차율을 추정하는 방법들을 고려한다. 5.1.1 - 5.1.4절은 양적 반응 변수에 대한 회귀를, 5.1.5절은 질적 반응 변수에 대한 분류를 다룬다.

5.1.1 검증셋 기법(Validation Set Approach)

특정 통계 학습 방법들은 관측치 집합에 대해 적합된 모델과 관련된 검정 오차를 추정한다고 가정해보자. 그림 5.1에서 보여주는 검증셋 기법은 이 목적을 위한 매우 단순한 전략이다. 이 기법은 관측치들을 임의로 두 부분, 즉 훈련셋과 검증셋(또는 hold-out set)으로 나눈다. 모델 적합은 훈련셋에 대해 수행되며, 적합된 모델은 검증셋의 관측치에 대한 반응 변수 값을 예측하는 데 사용된다. 양적 반응 변수의 경우, 전형적으로 MSE를 사용하여 평가하며, 이는 검정 오차율에 대한 추정치를 제공한다.

그림 5.1: 검증셋 기법을 도식적으로 나타낸 것. n개의 관측치들이 임의로 훈련셋과 검정셋으로 나누어진다.

검증셋 기법을 Auto 데이터에 적용하여 설명해보자. 3장에서, mpg와 horsepower 사이에 비선형 상관관계가 있으며, horsepower와 horsepower$^2$를 사용하여 mpg를 예측하는 모델이 선형 항만 사용하는 모델보다 더 나은 결과를 보였다. 자연스럽게 3차 또는 더 높은 차수의 적합을 사용하면 결과가 더 나아질 수 있는지 의문이 생긴다. 3장에서는 p-값을 보고 답을 구했지만, 이 질문에 대한 답은 검증 방법을 사용해서도 구할 수 있다. $392$개의 관측치를 임의로 두 개의 셋으로 분할하며, 훈련셋과 검증셋에 각각 $196$개의 관측치가 포함된다.

그림 5.2의 왼쪽 패널에 검증셋의 오차율을 도시한다. 이 오차율은 훈련 표본에 다양한 회귀 모델을 적합하고, 검증 세트 오차의 척도로서 MSE를 사용하여 검증 표본에 대한 모델의 성능을 평가한 결과이다. 검증 세트의 MSE는 이차 적합의 경우 선형 적합보다 훨씬 작다. 하지만 삼차 적합에 대한 검증 세트 MSE는 이차 적합보다 오히려 조금 더 크다. 이는 회귀에 3차 항을 포함하는 것이 단순히 2차 항을 사용한 예측보다 더 나을 것이 없음을 시사한다.

그림 5.2: Auto 자료에 검증셋 기법을 적용하여 얻은 결과로, horsepower의 다항식 함수들을 사용한 mpg 예측에서 발생되는 검정오차를 추정한다.

그림 5.2의 왼쪽 패널에 도시한 결과는 데이터를 임의로 훈련셋과 검증셋 두 부분으로 나누어 처리하여 얻은 것이다. 동일한 데이터를 임의로 두 부분으로 나누는 과정을 반복한다면, 검증 MSE에 대한 추정치는 다소 다른 값이 나올 수 있다. 그림 5.2의 오른쪽 패널에는 Auto 데이터로부터 얻은 $10$개의 다른 검증셋 MSE 곡선을 나타낸다. 이 MSE 곡선들은 $10$번의 다른 랜덤 분할을 통해 관측치를 훈련셋과 검증셋으로 나누어 얻은 결과이다.

$10$개의 곡선 모두 2차 항을 포함한 모델이 선형 항만을 가지는 모델에 비해 훨씬 작은 검증셋 MSE를 갖는다. 더욱이, $10$개의 곡선 모두 3차 또는 더 높은 차수의 다항식 항을 모델에 포함하는 것이 별로 이득이 없다는 것을 보여준다. 그러나 $10$개의 곡선 각각은 고려된 $10$개의 회귀 모델에 대해 서로 다른 검증 MSE 추정치를 제공한다. 어느 모델이 가장 작은 검증 MSE를 제공하는지에 대해 $10$개 모델 사이에 일치된 결과는 없다. 이 곡선들 사이의 변동을 기반으로 내릴 수 있는 결론은 선형 적합이 이 데이터에 적절하지 않다는 점이다.

두 가지 잠재적인 결점이 있다.

검증 오차율의 추정치는 어떤 관측치들이 훈련셋과 검증셋에 포함되느냐에 따라 변동이 상당히 클 수 있다.
훈련셋에 포함된 데이터만 모델 적합에 사용된다. 적은 수의 관측치로 훈련될 때 성능이 나빠지는 경향이 있으므로, 검정셋 오차율은 전체 데이터 셋에 대해 모델을 적합했을 때의 검증 오차율을 과대추정할 가능성이 있다.

5.1.2 LOOCV(Leave-One-Out Cross-Validation)

LOOCV는 관측치셋을 두 부분으로 분할한다. 하지만 비슷한 크기의 두 서브셋(subset)을 만드는 대신, 하나의 관측치 $(x_1, y_1)$가 검증셋으로 사용되고 나머지 관측치는 훈련셋으로 구성된다. 통계 학습 방법은 $n-1$개 훈련 관측치에 적합되고, 제외된 관측치에 대한 예측값 $\hat y_1$은 $x_1$값을 사용하여 구한다. $MSE_1=(y_1-\hat y_1)^2$은 검증 오차에 대한 거의 편향되지 않은 추정치를 제공한다. 하지만 편향되지 않더라도 하나의 관측치에 기초하기 때문에 변동이 커서 좋지 않은 추정치가 될 수 있다.

이 절차를 반복하여 수행할 수 있다. 검증데이터로 $(x_2, y_2)$를 선택하여 $MSE_2$을 계산한다. 이런 식으로 $n$번 반복하면 n개의 제곱 오차를 얻는다. 검정 MSE에 대한 LOOCV 추정치는 $n$개의 검정 오차 추정치들의 평균이다.

$\text{CV}_{(n)} = \frac{1}{n} \sum_{i=1}^{n} \text{MSE}_i$ (5.1)

검증셋 기법과 비교하여 두 가지 장점이 있다.

편향이 작다. 전체 데이터 셋의 관측치 수와 거의 같은 $n-1$개의 관측치를 포함하는 훈련셋을 사용하여 통계 학습 방법을 반복적으로 적합한다. 반면, 검증셋 기법은 원래 데이터 셋 크기의 절반 정도를 사용한다.
훈련셋, 검증셋 분할의 임의성 때문에 적용할 때마다 다른 결과를 제공하는 검증셋 기법과 달리, 여러 번 수행해도 동일한 결과를 얻을 수 있다.

Auto 자료에 LOOCV를 적용하여 검정셋 MSE의 추정치를 얻었다. 이 MSE는 horsepower의 다항식 함수들을 사용하여 mpg를 예측하도록 선형회귀모델을 적합한 결과 발생된 것이다. LOOCV는 모델을 $n$번 적합해야 하므로 잠재적으로 구현 부담이 있을 수 있다. 만약 n이 크고 모델의 적합이 느리면 매우 많은 계산 시간이 필요하다. 최소제곱 선형회귀 또는 다항식 회귀를 사용하는 경우, LOOCV의 계산 시간이 하나의 모델 적합과 동일하게 되도록 하는 방법이 있다.

$\text{CV}_{(n)} = \frac{1}{n} \sum_{i=1}^{n} \left(\frac{y_i - \hat{y}_i}{1 - h_i}\right)^2$ (5.2)

그림 5.4: Auto 자료에 교차 검증을 적용하여 얻은 결과로, horsepower의 다항식 함수들을 사용한 mpg 예측에서 발생되는 검정 오차를 추정한다.

여기서 $\hat y_i$은 원래의 최소제곱 적합에서 얻어진 $i$번째 적합값이고, $h_i$는 레버리지이다. 이 식은 일반적인 MSE와 유사하지만, $i$번째 잔차가 $1-h_i$에 의해 나누어진다는 점이 다르다. 레버리지는 $1/n$과 $1$사이에 위치하며, 각 데이터가 회귀 결과에 얼마나 영향을 미치는지를 나타낸다. 그래서 레버리지가 높은 데이터일수록 그 데이터의 잔차는 회귀 모델에 더 큰 영향을 미친다.

5.1.3 k-fold 교차검증

이 기법은 관측치셋을 임의로 크기가 거의 같은 $k$개 그룹으로 분할한다. 첫 번째 fold는 검증셋으로 취급하고, 적합은 나머지 $k-1$개 fold에 대해 수행된다. 그 다음, 평균제곱오차 $MSE_1$이 검증셋 fold의 관측치에 대해 계산된다. 이 절차는 $k$번 반복되며, 매번 다른 그룹의 관측치들이 검증셋으로 취급된다.

$\text{CV}_{(k)} = \frac{1}{k} \sum_{i=1}^{n} \text{MSE}_i$ (5.3)

LOOCV는 $k$를 $n$과 동일하게 설정한 k-fold CV의 특별한 경우이다. 현실에서는 보통 $k=5,k=10$을 사용한다. $k=n$대신에 작은 값을 사용하면 장점은 계산량의 감소이다. LOOCV는 통계학습 방법을 $n$번 적합해야 하며, 이것은 잠재적으로 매우 많은 계산량을 필요로 할 수 있다.

그림 5.4의 오른쪽 패널은 Auto 자료에 대한 9개의 다른 10-fold CV 추정치를 나타내며, 각 결과는 관칙치들을 임의로 $10$개의 다른 그룹으로 분할하여 얻은 것이다. CV 추정치의 일부 변동은 관측치들을 10개의 그룹으로 분할하는 과정에서 발생한 변동에 기인한다. 그러나 이 변동은 보통 검증셋 기법에서 얻어지는 검정오차 추정치의 변동보다 훨씬 작다.

실제 검정 MSE는 파란색으로 표시된다. 검은색 파선과 오렌지색 실선은 각각 LOOCV 추정치와 10-fold CV 추정치를 보여준다. 세 그래프 모두에서 두 교차검증 추정치들은 매우 유사하다. 그림 5.6의 오른쪽 패널을 보면, 실제 검정 MSE와 교차검증 곡선들은 거의 일치한다. 중앙 패널을 보면, CV 곡선들은 유연성의 정도가 낮은 경우 실제 검정 MSE와 유사하지만, 유연성의 정도가 높은 경우 검정셋 MSE를 과대추정한다. 왼쪽 패널은 실제 검정 MSE를 과소추정한다.

검정 MSE의 실질적인 추정치에 관심이 있을 수 있으며, 추정된 검정 MSE 곡선에서 최소값의 위치에만 관심이 있을 수 있다. 가장 낮은 검정 오차를 초래하는 방법을 찾고자 한다. 추정된 검정 MSE 곡선에서 최소값을 가지는 위치는 중요하지만, 추정된 검정 MSE의 실제값은 중요하지 않다. 그림 5.6을 살펴보면, CV 곡선들은 때로는 실제 검정 MSE를 과소추정하지만, 올바른 유연성의 수준, 즉 가장 작은 검정 MSE에 대응하는 유연성 수준을 식별할 수 있게 한다.

5.1.4 k-fold 교차검증에 대한 편향-분산 절충

K-fold CV의 장점은 LOOCV보다 검정 오차율을 더 정확하게 추정할 수 있다는 점이다. 이것은 편향-분산 절충과 관련이 있다. 검증셋 기법은 전체 관측치의 절반만 포함된 훈련셋을 사용하여 통계학습 방법을 적합하기 때문에 검정 오차율을 과대추정할 수 있다. LOOCV는 거의 편향되지 않은 검정 오차 추정치를 제공하는데, 이는 각 훈련셋이 전체 데이터셋의 관측치 수에서 하나를 뺀 $n-1$개의 관측치를 포함하기 때문이다.

반면에, K-fold CV의 편향은 중간 수준이 될 것이다. 왜냐하면 각 훈련셋은 LOOCV 기법보다 작지만, 검증셋 기법보다 훨씬 많은 $(k-1)n/k$개의 관측치를 포함하기 때문이다. 따라서 편향 감소의 측면에서 보면, LOOCV가 명백히 더 낫다.

그러나 추정 절차에서 고려해야 할 것은 편향만이 아니다. 추정 절차의 분산도 반드시 고려해야 한다. LOOCV는 큰 분산을 갖는다. LOOCV는 $n$개의 적합된 모델 결과를 평균하는데, 각 적합된 모델은 거의 동일한 관측치들로 구성된 훈련셋을 사용하여 구해진다. 따라서 적합된 모델 결과들은 서로 높은 상관성을 갖는다. 반대로, K-fold CV에서는 $k$개의 적합된 모델 결과를 평균하는데, 각 모델의 훈련셋 사이에 겹치는 부분이 적어 적합된 모델 결과들은 서로 덜 상관되어 있다.

상관성이 높은 값들의 평균은 상관성이 상대적으로 낮은 값들의 평균보다 분산이 크기 때문에, LOOCV의 검정 오차 추정치는 K-fold CV의 추정치보다 분산이 더 큰 경향이 있다. 따라서 $k=5$ 또는 $k=10$을 사용하는 이유는, 이 값을 사용하면 지나치게 높은 편향이나 매우 높은 분산의 문제 없이 검정 오차율 추정치를 얻을 수 있다는 것이 경험적으로 알려져 있기 때문이다.

5.1.5 분류문제에 대한 교차검증

교차 검증은 $Y$가 질적인 변수인 경우, 즉 분류 설정에서도 매우 유용한 기법이다. 이러한 설정에서 교차 검증은 앞서 설명한 방식과 동일하게 동작하며, 다른 점은 검정 오차를 수량화할 때 MSE를 사용하지 않고, 잘못 분류된 관측치의 수를 사용한다는 것이다. LOOCV의 오차율은 아래와 같다.

$\text{CV}_{(n)} = \frac{1}{n} \sum_{i=1}^{n} \text{Err}_i $ (5.4)

그림 5.7: 그림 3.13에 나타낸 2차원 분류 데이터에 대한 로지스틱 회귀적합. 검정 오차율은 각각 0.201, 0.197, 0.160, 0.162이다.

여기서 $\text{Err}_i = I(y_i \neq \hat{y}_i)$이다. k-fold CV의 오차율과 검증셋 오차율도 유사하게 정의된다. 그림 5.7의 왼쪽 위 패널에서 검은색 실선은 표준 로지스틱 회귀모델을 이 데이터셋에 적합하여 얻은 추정된 결정 경계를 보여준다. 이는 모의 데이터이므로 실제 검정 오차율을 계산할 수 있으며, 그 값은 $0.201$로 베이즈 오차율 $0.133$보다 훨씬 크다. 이는 베이즈 결정 경계를 모델링할 만한 충분한 유연성을 갖추고 있지 않다. 설명 변수들의 다항식 함수를 사용하여 비선형 결정 경계를 얻도록 로지스틱 회귀를 쉽게 확장할 수 있다.

$\log \left( \frac{p}{1 - p} \right) = \beta_0 + \beta_1 X_1 + \beta_2 X_1^2 + \beta_3 X_2 + \beta_4 X_2^2 $ (5.5)

식 (5.5)의 결정 경계는 그림 5.7의 오른쪽 위 패널에 나타난 곡선 형태이다. 그러나 검정 오차율은 $0.197$로, 단지 약간만 개선되었다. 왼쪽 아래 패널에는 훨씬 많이 개선된 결과를 보여주는데, 이는 설명 변수들의 3차 다항식을 포함한 로지스틱 회귀모델을 적합한 결과이며, 검정 오차율은 $0.160$까지 줄어들었다. 4차 다항식을 사용하면 검정 오차율이 약간 증가한다.

실제 데이터의 경우 베이즈 결정 경계와 검정 오차율은 알려져 있지 않다. 4가지 로지스틱 회귀 모델 중에서 어떤 모델을 선택해야 할까? 교차 검증을 사용하여 이 결정을 내릴 수 있다. 그림 5.8의 왼쪽 패널에서 검은색은 10-fold CV오차율을 나타내며, 이는 설명 변수들의 다항식 함수를 최대 10차까지 사용한 10개의 로지스틱 회귀 모델을 적합하여 얻은 것이다. 실제 검정 오차는 갈색으로, 훈련 오차는 파란색으로 나타내고 있다.

훈련 오차는 적합의 유연성이 증가함에 따라 감소하는 경향이 있다. 이에 반해, 검정 오차는 U-형태를 보인다. 10-fold CV 오차율은 검정 오차율을 아주 잘 근사한다. 이는 오차율을 다소 과소 추정하지만, 4차 다항식이 사용될 때 그 값이 최소가 된다. 10-fold CV 오차율의 최소값은 3차 다항식이 사용될 때 얻어지는 검정 오차 곡선의 최소값과 매우 가깝다. 사실, 4차 다항식을 사용하는 것은 실제 검정 오차율이 3차~6차 다항식에서 거의 동일하기 때문에 좋은 검증셋 성능을 보일 것이다.

검정 오차 곡선의 최소값과 매우 가깝다. -> 10-fold CV를 사용해도 괜찮다.

그림 5.8: 그림 5.7에 나타낸 2차원 분류 데이터에 대한 검정오차(갈색), 훈련오차(파란색), 10-fold CV오차(검은색)

그림 5.8의 오른쪽 패널은 분류를 위해 KNN 기법을 사용하여 동일한 3가지 곡선을 K값의 함수로 나타낸 것이다. 이때도 훈련 오차율은 분류 방법이 유연해질수록 감소한다. 따라서 훈련 오차율은 최적의 K값을 선택하는 데 사용될 수 없다. 교차 검증 오차 곡선은 비록 검정 오차율을 약간 과소 추정하지만, 오차값이 최소가 되는 K값은 최적의 K값에 매우 가깝다.

5.2 붓스트랩(Bootstrap)

붓스트랩은 추정량이나 모델을 얼마나 신뢰할 수 있는지, 즉 그 결과에 대한 불확실성을 평가하는 데 사용되는 방벙이다. 간단한 예로, 붓스트랩은 선형 회귀 적합에서 계수의 표준 오차를 추정하는 데 사용될 수 있다. 선형 회귀의 경우, R과 같은 통계 소프트웨어가 자동으로 표준 오차를 제공하기 때문에, 붓스트랩이 특별히 유용하지는 않다. 그러나 붓스트랩은 변동성을 측정하기 어려운 복잡한 모델이나 학습 방법에 유용하게 사용될 수 있다는 점에서 그 강력함을 발휘한다.

단순한 모델을 사용하여 최상의 투자 방식을 결정하는 예를 통해 붓스트랩을 설명한다. 임의의 투자수익 $X$와 $Y$를 각각 얻을 수 있는 두 가지 금융 자산에 일정한 금액을 투자한다고 해보자. 전체 투자 금액의 비율 $\sigma$를 $X$에, 그리고 나머지 $1-\sigma$는 $Y$에 투자할 것이다. 두 자산에 대한 투자 수익과 연관된 변동이 있기 때문에 투자의 전체 위험 또는 분산을 최소화하도록 $\sigma$를 선택하고자 한다. 다시 말하면, $Var(\sigma X + (1-\sigma) Y)$를 최소화하도록 한다. 위험을 최소화하는 값은 아래와 같다.

$\alpha = \frac{\sigma_Y^2 - \sigma_{XY}}{\sigma_X^2 + \sigma_Y^2 - 2\sigma_{XY}}$ (5.6)

여기서, $\sigma_X^2 = \text{Var}(X), \sigma_Y^2 = \text{Var}(Y), \sigma_{XY} = \text{Cov}(X, Y)$이다. 현실에서 $\hat{\sigma}_X^2, \hat{\sigma}_Y^2, \hat{\sigma}_{XY}$는 모르는 값이다. 이 값들에 대한 추정치는 $X$와 $Y$에 대한 과거 측정 자료를 사용하여 계산할 수 있다. 아래 식을 사용하여 투자의 분산을 최소화하는 $\sigma$ 값을 추정할 수 있다.

$\hat{\alpha} = \frac{\hat{\sigma}_Y^2 - \hat{\sigma}_{XY}}{\hat{\sigma}_X^2 + \hat{\sigma}_Y^2 - 2\hat{\sigma}_{XY}}$ (5.7)

그림 5.9: 각 패널은 100개의 X와 Y에 대한 모의 투자수익을 나타낸다. 오른쪽 그리고 위에서 아래 순서대로 0.576, 0.532, 0.657, 0.651이다.

그림 5.9는 모의 자료에 대한 $\sigma$를 추정하기 위한 기법을 보여준다. 각 패널에는 $100$개의 $X$와 $Y$에 대한 모의 투자 수익이 표시된다. 이 모의 투자 수익을 사용하여 $\hat{\sigma}_X^2, \hat{\sigma}_Y^2, \hat{\sigma}_{XY}$를 추정하고, 이 추정치들을 (5.7)에 대입하여 $\sigma$에 대한 추정치를 얻는다. 각 모의 자료로부터 얻은 $\hat{\sigma}$ 값의 범위는 $[0.532, 0.657]$이다.

$\sigma$의 추정치에 대한 정확도를 수량화해보자. $\hat{\sigma}$의 표준 편차를 추정하기 위해, $100$개의 $X$와 $Y$에 대한 모의 관측치 쌍을 생성하고 (5.7)을 사용하여 $\sigma$를 추정하는 과정을 $1000$번 반복한다. 이렇게 얻은 $1000$개의 $\sigma$에 대한 추정치를 $\hat{\sigma}_1, \hat{\sigma}_2, \dots, \hat{\sigma}_{1000}$라고 한다. 그림 5.10의 왼쪽 패널은 구한 추정치들의 히스토그램을 나타낸다.

이 모의 실험에서 $\sigma_X^2=1, \sigma_Y^2=1.25, \sigma_{XY}=0.5$로 설정 되었으므로 $\sigma$의 실제 값은 $0.6$이다. 히스토그램에서 이 실제 값은 수직의 실선을 사용하여 표시된다. $\sigma$에 대한 1,000개 추정치의 전체 평균은 아래와 같다.

$\bar{\alpha} = \frac{1}{1000} \sum_{r=1}^{1000} \hat{\alpha}_r = 0.5996$

추정치들의 표준편차는 다음과 같다.

$\sqrt{\frac{1}{1000 - 1} \sum_{r=1}^{1000} (\hat{\alpha}_r - \bar{\alpha})^2} = 0.083$

그림 5.10: 왼쪽: 실제 모집단으로부터 1000개의 모의 자료를 생성하여 얻은 $\sigma$값 추정치들에 대한 히스토그램이다.

이것은 $\hat{\sigma}$의 정확도, $\text{SE}(\hat{\alpha}) \approx 0.083$에 대한 개념을 아주 잘 나타낸다. 대략적으로 말하면, 모집단의 랜덤 표본에 대해 $\hat{\sigma}$는 $\sigma$와 평균적으로 대략 $0.08$만큼 다를 것이라고 예상할 수 있다. 실제 데이터의 경우, 원래의 모집단으로부터 새로운 표본들을 생성할 수 없다.(그 이유는 실제 계수 값을 추정할 수 없기 때문이다.)

붓스트랩 기법은 새로운 데이터를 직접 모으지 않고, 기존 데이터를 여러 번 재사용해 결과의 변동성을 추정하는 방법이다.

그림 5.11: 붓스트랩 기법을 n=3개의 관측치를 포함하는 작은 표본에 적용한 것을 나타내는 그림이다.

그림 5.11은 단지 $n=3$개의 관측치를 포함하는 $Z$라는 단순한 데이터셋에 이 기법을 적용하는 예다. 이 데이터셋에서 $n$개의 관측치를 랜덤하게 선택하여 붓스트랩 데이터셋 $z^{*1}$을 얻는다. 표본 추출은 복원(replacement)방식으로 수행되어, 동일한 관측치가 붓스트랩 데이터셋에 두 번 이상 포함될 수 있다.

이 예제에서 $Z^{*1}$은 세번째 관측치를 두 번, 첫 번째 관측치를 한 번 포함하며, 두 번째 관측치는 포함하지 않는다. 만약 어떤 관측치가 $Z^{*1}$에 포함되면 그 관측치의 $X$및 $Y$ 값 둘 다 포함된다. $Z^{*1}$을 사용하여 $\hat \sigma^{*1}$라는 $\sigma$에 대한 새로운 붓스트랩 추정치를 얻을 수 있다.

어떤 큰 $B$값에 대해 이 절차를 $B$번 반복하여 $B$개의 다른 붓스트랩 데이터셋 $Z^{*1}, Z^{*2}, \dots, Z^{*B}$와 $B$개의 대응하는 $\sigma$값의 추정치 $\hat{\alpha}^{*1}, \hat{\alpha}^{*2}, \dots, \hat{\alpha}^{*B}$를 얻는다. 이러한 붓스트랩 추정치들의 표준 오차는 다음 식을 사용하여 계산할 수 있다.

$\text{SE}_B(\hat{\alpha}) = \sqrt{\frac{1}{B-1} \sum_{r=1}^{B} \left( \hat{\alpha}^{*r} - \frac{1}{B} \sum_{r'=1}^{B} \hat{\alpha}^{*r'} \right)^2}$ (5.8)

그림 5.10의 중앙 패널에는 $\sigma$에 대한 $1000$개 붓스트랩 추정치의 히스토그램이 도시되어 있다. 각 추정치는 상이한 붓스트랩 데이터셋을 사용하여 계산된다. 이 패널은 하나의 데이터셋을 기반으로 생성되었으므로 실제 데이터를 사용하여 얻을 수 있다. 히스토그램은 실제 모집단으로부터 $1000$개의 모의 데이터셋을 생성하여 얻은 $\sigma$의 추정치에 대한 이상적인 히스토그램을 나타낸 왼쪽 패널과 매우 유사하다.

특히 (5.8)의 붓스트랩 추정치는 $0.087$로, $1000$개의 모의 데이터셋을 사용하여 얻은 추정치 $0.083$과 매우 가깝다. 오른쪽 패널은 중앙과 왼쪽 패널의 정보를 다른 방식으로 나타낸 것으로, 실제 모집단으로부터 $1000$개의 모의 데이터셋을 생성하여 얻은 $\sigma$값 추정치와 붓스트랩 기법으로 얻은 $\sigma$값 추정치의 박스도표를 나타낸다.

두 박스도표는 서로 상당히 유사한데, 이는 붓스트랩 기법이 $\hat\sigma$과 연관된 변동을 효과적으로 추정하는 데 사용될 수 있음을 시사한다.

'AI > ISLR' 카테고리의 다른 글

Chapter02. 통계학습(Statistical Learning) - 이론 (15)	2024.09.07
Chapter01. 도입(introduction) (8)	2024.09.06
Chapter 04. 분류(Classification) - 실습 (9)	2024.09.02
Chapter 04. 분류(Classification) - 이론 2 (8)	2024.08.28
Chapter 04. 분류(Classification) - 이론 1 (5)	2024.08.21