ISL 6. Linear Model Selection and Regularization

챕터 7부터 본격적으로 비선형 모델에 대하여 공부하기 앞서 이번 챕터에서는 선형 모델 프레임워크를 확장하기 위한 접근법들을 살펴볼 것이다. 이 접근법들은 다음과 같은 측면에서 선형 모델을 개선시킬 수 있다. 먼저, 예측 정확도이다. 만일 \(n\)이 \(p\)에 비해 그리 크지 않다면 최소 자승 적합에서 변산도가 커져 과적합이 발생할 수 있으며, \(p > n\)이라면 분산이 무한히 커지기 때문에 최소 자승법을 아예 사용할 수 없다. 추정된 계수를 제한하거나 줄임으로써 편향이 조금 늘어나는 대신 분산을 크게 줄일 수 있고, 이것은 예측 정확도의 향상으로 이어진다. 다음으로, 모델 해석도(interpretability)이다. 다중 회귀 모델에서 일부 변인들은 실제로 반응변인과 아무런 연관을 가지지 않는다. 이러한 불필요한 변인들을 제거함으로써 더 쉽게 해석될 수 있는 모델을 만들 수 있을 것이다.

이번 챕터에서는 다음의 세 가지 기법에 대하여 학습한다. 첫째, 서브셋 선택법(subset selection)으로 전체 예측변인 중 반응변인과 관련 있다고 생각되는 서브셋만을 찾아내는 것이다. 최선의 서브셋 선택법은 모든 가능한 예측변인들의 조합을 가지는 모델들을 고려하지만 계산 비용이 매우 크기 때문에 현실적으로 예측변인의 개수를 하나씩 더하거나 빼가면서 모델을 비교하는 단계적 선택법을 사용하는 경우가 흔하다. 모델을 비교할 때는 테스트 오류를 간접적으로 추정하는 \(C_p\), AIC, BIC, 수정된 \(R^2\)를 사용할 수 있다. 둘째, shrinkage 혹은 정규화(regularization)이다. 이 방법에서는 \(p\)개의 예측변인을 모두 사용하여 모델을 적합시키되 추정된 계수의 값들을 0에 가깝게 줄임(shrink)으로써 추정치들의 분산을 감소시킨다. 대표적으로 \(\ell2\) 페널티를 사용하는 릿지 회귀와 \(\ell1\) 페널티를 사용하는 라쏘가 있다. 라쏘는 일부 계수의 값들을 완전히 0으로 추정하기 때문에 변수 선택의 방법으로도 활용될 수 있다. 셋째, 차원 축소(dimension reduction)이다. \(p\)개의 예측변인을 \(M<p\)인 \(M\)차원의 부분공간(subspace)에 투사하는 방법이다. 즉, 변인들의 \(M\)개의 선형 결합(linear combination)이나 사영(projection)을 계산한 것을 선형 회귀의 예측변인으로 하여 최소 자승법을 시행하는 것으로, 주성분 분석을 사용하는 비지도적 방식의 주성분 회귀와 지도적 방식의 부분 최소 자승법이 있다. 마지막으로, 예측변인의 개수가 관측치에 비해 매우 큰 고차원 상황에서의 고려사항에 대하여 논의하며 이번 장을 마친다.

6.1 서브셋 선택

6.1.1 최선의 서브셋 선택법

최선의 서브셋 선택법(best subset selection)은 예측변인이 아무것도 없는 널(null) 모델 \(\mathcal{M}_0\)로부터 시작한다. \(k = 1, 2, . . .,p\)에 대하여 \(k\)개의 예측변인을 가지는 모든 \({p \choose k}\)개의 모델을 적합시킨다. 이 모델 중 가장 최선의 모델, 즉 RSS가 가장 작거나 \(R^2\)가 가장 큰 모델을 골라 \(\mathcal{M}_k\)라 한다. 이때, 주의할 점은 모델에 추가되는 예측변인의 개수가 증가함에 따라 RSS는 계속 감소하고 \(R^2\)는 계속 증가한다는 것이다. 따라서 최종적으로 만들어진 \(\mathcal{M}_0, . . . ,\mathcal{M}_p\) 모델 중 단 하나의 최선의 모델을 선택할 때에는 RSS나 \(R^2\) 대신 교차검증된 예측 오류, \(C_p\) (AIC), BIC, 수정된(adjusted) \(R^2\) 등을 고려한다.

로지스틱 회귀에서는 RSS의 역할을 편차(deviance)가 대신한다. 편차는 마이너스 2 곱하기 최대화된 로그 가능도(maximized log-likelihood)를 말하며, 편차가 작을수록 적합이 우수하다고 할 수 있다.

최선의 서브셋 선택법의 한계점은 \(p\)가 약 40개보다 큰 경우 실질적으로 계산이 불가능하다는 것이다. 탐색 공간이 너무 커져 과적합이 발생하며 계수 추정치들의 분산이 매우 커지기 때문이다.

6.1.2 단계적 선택법

단계적 선택법(stepwise selection)에는 전진 단계적 선택법(forward stepwise selection)과 후진 단계적 선택법(backward stepwise selection)이 있다. 먼저, 전진 단계적 선택법은 예측변인이 아무것도 없는 널 모델 \(\mathcal{M}_0\)로부터 시작한다. \(k = 0, . . .,p-1\)에 대하여 \(\mathcal{M}_k\)에 ‘하나의’ 예측변인을 추가한 \(p-k\)개의 모델 중 최선의 모델, 즉 RSS가 최소가 되거나 \(R^2\)가 최대가 되는 모델을 선택하여 \(\mathcal{M}_{k+1}\)이라 한다. 이렇게 만들어진 \(\mathcal{M}_0, . . . ,\mathcal{M}_p\) 중 교차검증된 예측 오류, \(C_p\) (AIC), BIC, 수정된 \(R^2\) 등을 고려하여 단 하나의 최선의 모델을 선택한다. 앞서 살펴본 최선의 서브셋 선택법에서는 총 \(2^p\)개의 모델을 적합시켜야 하지만, 전진 단계적 선택법에서는 \(1 + \sum^{p−1}_{k=0} (p−k) = 1+p(p+1)/2\)개의 모델을 적합시키면 된다. 즉, 가장 최선의 모델을 찾는다는 보장이 없는 대신, 계산상의 이점을 가진다. 또한, 이 방법은 \(n < p\)인 고차원 상황에도 적용될 수 있다. 단, \(p ≥ n\)인 경우 최소 자승법을 사용할 수 없으므로 서브모델은 \(\mathcal{M}_0, . . . ,\mathcal{M}_{n−1}\)까지만 만들 수 있다.

한편, 후진 단계적 선택법에서는 모든 \(p\)개의 예측변인을 가지는 완전한(full) 모델 \(\mathcal{M}_p\)로부터 시작한다. \(k = p,\ p-1,\ ...,\ 1\)에 대하여 \(\mathcal{M}_k\)에서 ‘하나의’ 예측변인만을 빼 총 예측변인의 개수가 \(k − 1\)이 되는 모든 \(k\)개의 모델 중 최선의 모델, 즉 RSS가 최소가 되거나 \(R^2\)가 최대가 되는 모델을 선택하여 \(\mathcal{M}_{k-1}\)이라 한다. 이렇게 만들어진 \(\mathcal{M}_0, . . . ,\mathcal{M}_p\) 중 교차검증된 예측 오류, \(C_p\) (AIC), BIC, 수정된 \(R^2\) 등을 고려하여 단 하나의 최선의 모델을 선택한다. 전진 단계적 선택법에서와 마찬가지로 \(1+p(p+1)/2\)개의 모델만을 고려하지만, 역시 가장 최선의 모델을 찾는다는 보장은 없다. 완전한 모델을 적합시켜야 하기 때문에 변인의 개수 \(p\)보다 표본의 개수 \(n\)이 더 큰 경우에만 사용할 수 있다.

혼성(hybrid) 접근법에서는 앞서 살펴본 전진 및 후진 단계적 선택법을 혼용한다. 즉, 전진 선택법에서와 같이 모델에 예측변인이 점진적으로 더해지지만, 모델 적합도를 더 이상 증가시키지 않는 변인을 제거할 수 있다.

6.1.3 최적의 모델 선택하기

앞서 설명했듯이, 예측변인을 “모두” 포함하는 모델이 최소의 RSS와 최대의 \(R^2\)를 가지며, 이 값들은 훈련 오류와 관련이 있다. 테스트 오류 측면에서 최선의 모델을 선택하기 위해서는 테스트 오류를 추정하는 방법이 필요하다. 챕터 5에서 살펴보았던 검증 셋 접근법이나 교차검증은 테스트 오류를 직접적으로 추정하는 방법에 해당한다. 이번 챕터에서는 모델 크기를 고려하여 훈련 오류를 수정(adjust)하는 간접적인 추정법인 \(C_p\), AIC, BIC, 수정된 \(R^2\)에 대하여 살펴보자.

먼저, \(C_p\)는 \(d\)개의 예측변인을 가지는 최소 자승 모델에 대하여 아래와 같이 계산될 수 있다.

\[C_p = \frac 1 n (RSS+2d\hat{\sigma}^2)\]

이때, \(\hat{σ}^2\)은 각 반응 측정치와 연관된 오류 \(\epsilon\)의 분산 추정치이다. 이 공식은 훈련 RSS에 \(2d\hat{\sigma}^2\)이라는 페널티를 가한다. \(\hat{σ}^2\)이 \(σ^2\)에 대한 비편향 추정치라면 \(C_p\)는 테스트 MSE에 대한 비편향 추정치가 된다. \(C_p\)의 값이 작을수록 좋은 모델이라고 할 수 있다.

Akaike information criterion (AIC)은 최대 우도법을 사용하여 적합된 다양한 모델에 적용될 수 있다. 일반적인 선형 모델이 가우시안 오류를 가진다면 최대 우도법과 최소 자승법은 같다. 이 경우 AIC는 아래와 같이 계산된다.

\[AIC = \frac 1 {n\hat{\sigma}^2}(RSS + 2d\hat{\sigma}^2)\]

단순성을 위해 더해지는 상수는 식에서 생략하였다. 공식을 살펴보면 최소 자승 모델에 대해서는 \(C_p\)와 AIC가 서로 비례한다는 것을 알 수 있다.

한편, Bayesian information criterion (BIC)는 \(d\)개의 예측변인을 가지는 최소 자승 모델에 대하여 다음과 같이 계산된다.

\[BIC = \frac 1 n (RSS + \log(n)d\hat{\sigma}^2)\]

\(n > 7\)이면 \(\log{n} > 2\)이기 때문에 BIC가 예측변인이 많은 모델에 대해 보통 더 강한 페널티를 준다는 점을 알 수 있다.

마지막으로, 수정된 \(R^2\)이다. 일반적인 \(R^2\)는 \(1 − RSS/TSS\)로 정의된다. 이때, \(TSS = (y_i − \bar{y})^2\)은 반응변인에 대한 총 제곱 합(total sum of squares)을 나타내고 변인의 개수가 늘어남에 따라 항상 증가한다. 수정된 \(R^2\)는 \(d\)개의 예측변인을 가지는 최소 자승 모델에 대하여 다음과 같이 계산된다.

\[Adjusted\ R^2 = 1 - \frac {RSS/(n-d-1)} {TSS/(n-1)}\]

수정된 \(R^2\)의 값이 클수록 모델의 테스트 오류가 작다는 것을 의미한다. 일반적인 \(R^2\)와 달리 수정된 \(R^2\)에서는 불필요한 변인이 모델에 포함되는 것에 대하여 페널티를 준다. \(C_p\), AIC, BIC가 표본 크기가 충분히 크다는 것을 가정하는 점근성 논의(asymptotic arguments)에 따라 탄탄한 이론적 기반을 가지고 있는 반면, 수정된 \(R^2\)는 통계 이론에서 잘 권장되지 않는다.

이번 절에서 소개한 공식들은 최소 자승법을 사용한 선형 모델 적합을 기준으로 하고 있다. 다른 유형의 모델에 대해서도 그에 따라 정의될 수 있다.

\(C_p\), AIC, BIC, 수정된 \(R^2\)에 비해, 챕터 5에서 학습했던 검증 셋 접근법과 교차검증은 테스트 오류에 대한 직접적인 추정치를 제공하며 실제 모델에 대한 가정이 덜 필요하다는 장점을 가진다. 또한, 모델의 자유도(모델에서 예측변인의 개수)를 특정하거나 오류의 분산 \(σ^2\)를 추정하기 힘든 경우에도 모델 선택에 활용될 수 있다.

만약 위에서 설명한 방법들을 통해 모델을 비교하고자 할 때, 여러 모델이 거의 동등한 수준으로 우수하다면 일 표준오차의 법칙(one-standard-error rule)에 따라 모델을 선택한다. 모델 사이즈에 따라 추정된 테스트 MSE의 표준오차를 계산하여, 테스트 오류가 최하가 되는 지점에서 1표준오차 내에 존재하는 모델 중 가장 “작은” 모델을 선택하는 것이다. 즉, 여러 모델이 거의 동등한 수준이라면 가장 단순한 모델, 즉 예측변인의 수가 가장 적은 모델을 선택하는 원리이다.

6.2 정규화

6.2.1 릿지 회귀

일반적인 최소 자승 적합에서는 아래의 공식에 따른 RSS를 최소화하도록 \(β_0, β_1, . . . , β_p\)를 추정한다.

\[RSS = \sum^n_{i=1} \left( y_i − β_0 − \sum^p_{j=1} β_jx_{ij} \right)^2\]

릿지 회귀(ridege regression)에서는 아래의 값을 최소화하도록 릿지 회귀 계수 추정치 \(\hat{β}^R\)을 추정한다.

\[\sum^n_{i=1} \left( y_i − β_0 − \sum^p_{j=1} β_jx_{ij} \right)^2 + \lambda \sum^p_{j=1} β_j^2 = RSS + \lambda \sum^p_{j=1} β_j^2\]

이때, \(\lambda \ge 0\)는 따로 정해지는 튜닝 파라미터이다. 공식을 살펴보면, 릿지 회귀 역시 최소 자승법과 마찬가지로 RSS를 최소화함으로써 데이터에 잘 적합되는 계수 추정치를 구하고자 한다는 것을 알 수 있다. 한편, 두 번째 항, \(\lambda \sum_j β_j^2\)은 shrinkage 페널티라고 불리며 \(β_1, . . . , β_p\)가 0에 가까울 때 작아진다. 따라서 \(β_j\)의 추정치가 0을 향하도록 줄이는 효과를 가진다. 튜닝 파라미터 \(λ\)는 이 두 항이 회귀 계수 추정치에 미치는 상대적인 영향을 조절한다. \(λ=0\)일 때, 페널티 항은 아무런 효과가 없다. \(λ→∞\)에 따라, shrinkage 페널티의 영향이 커져 릿지 회귀 계수 추정치가 0에 근접하도록 한다. 릿지 회귀는 \(λ\)의 값에 따라 다른 계수 추정치 집합, \(\hat{β}^R_λ\)을 만들어낸다. 참고로 shrinkage 페널티는 절편 \(β_0\)에는 적용되지 않는다.

일반적인 최소 자승 계수 추정치는 척도 등변(scale equivariant)하다. 즉, \(j\)번째 예측변인의 척도에 상관없이 \(X_j\hat{β}_j\)는 항상 같다. 반면, 릿지 회귀 계수 추정치는 어떤 예측변인에 상수를 곱하면 변한다. 즉, \(X_j\hat{β}^R_{j,λ}\)는 \(λ\)의 값뿐만 아니라 \(j\)번째 예측변인의 척도에도 영향을 받는다. 따라서, 아래의 공식에 따라 예측변인을 표준화(standardize)하여 같은 척도에 있게 한 다음 릿지 회귀를 시행해야 한다.

\[\tilde{x}_{ij} = \frac {x_{ij}} {\sqrt {\frac1 n \sum ^n _{i=1}(x_{ij} − \bar{x}_j)^2 }}\]

위 식에서 분모는 \(j\)번째 예측변인의 표준편차를 추정한다. 따라서 표준화를 거친 예측변인들의 표준편차는 모두 1이 된다.

그렇다면 일반적인 최소 자승법에 비해 릿지 회귀는 어떤 장점을 가질까? 그 답은 편향-분산 트레이드오프에서 찾을 수 있다. 릿지 회귀에서 \(λ\)가 커질수록 편향은 증가하고 분산은 감소한다. 따라서 릿지 회귀는 최소 자승 추정치들이 높은 분산을 가지는 경우 수행하는 것이 바람직하다. 보통 반응변인과 예측변인 간의 관계가 선형에 가까운 경우 최소 자승 추정치들은 낮은 편향과 높은 분산을 가진다. 특히, 변인의 개수 \(p\)가 관측치의 개수 \(n\)에 가까운 경우 최소 자승 추정치들의 분산이 매우 높아지며, \(p>n\)인 경우 단일 해를 갖지 않는다. 릿지 회귀는 앞 절에서 살펴보았던 최선의 서브셋 선택법에 비해 계산이 훨씬 효율적이다. \(λ\) 값이 고정되어 있다면 단일 모델을 한 번 적합시키면 되고 모델 적합 과정도 매우 빠르게 수행될 수 있다.

6.2.2 라쏘

릿지 회귀는 어떤 계수도 완전히 0으로 줄어들게 할 수는 없기 때문에 최종 모델에 모든 \(p\)개의 예측변인이 포함된다. 이 경우 모델 해석상의 어려움이 발생할 수 있다. 라쏘(lasso)는 이러한 단점을 극복할 수 있는 방법으로, 라쏘 계수 \(\hat{β}^L_λ\)는 아래를 최소화하고자 한다.

\[\sum^n_{i=1} \left( y_i − β_0 − \sum^p_{j=1} β_jx_{ij} \right)^2 + \lambda \sum^p_{j=1} \vert β_j \vert = RSS + \lambda \sum^p_{j=1} \vert β_j \vert\]

라쏘는 릿지 회귀의 \(\ell2\) 페널티 대신 \(\ell1\) 페널티를 사용한다. 계수 벡터 \(β\)의 \(\ell1\) 놈(norm)은 \(\vert \vert β \vert \vert_1 = \sum \vert β_j \vert\)이다. 튜닝 파라미터 \(λ\)가 충분히 크다면 \(\ell1\) 페널티는 몇몇 계수 추정치들을 완전히 0으로 줄일 수 있기 때문에 라쏘는 변수 선택을 수행할 수 있다. 릿지 회귀에서와 마찬가지로 라쏘에서도 \(λ\) 값을 적절히 정하는 것이 중요하다. \(λ\) 값들의 그리드(grid)를 선택하고 각 값에 대한 교차검증 오류를 계산하여, 이 오차가 최소화되는 값으로 튜닝 파라미터를 선택할 수 있을 것이다.

라쏘와 릿지 회귀 계수 추정치를 구하는 것을 각각 아래의 문제로 다르게 표현할 수 있다.

\[\underset{β}{\mathrm{minimize}} \left\{ \sum^n_{i=1} \left( y_i − β_0 − \sum^p_{j=1}β_jx_{ij} \right)^2 \right\}\quad \mathrm{subject\ to}\ \sum^p_{j=1}\vert β_j \vert ≤ s \\ \underset{β}{\mathrm{minimize}} \left\{ \sum^n_{i=1} \left( y_i − β_0 − \sum^p_{j=1}β_jx_{ij} \right)^2 \right\}\quad \mathrm{subject\ to}\ \sum^p_{j=1}β_j^2 ≤ s\]

즉, 라쏘를 수행하는 것은 \(\sum^p_{j=1}\vert β_j\vert\)가 \(s\)보다 커지지 않게 하는 제한을 두고 RSS를 최소화하는 계수 추정치를 찾는 과정이며, 릿지 회귀를 수행하는 것은 \(\sum^p_{j=1}β_j^2\)가 \(s\)보다 커지지 않게 하는 제한을 두고 RSS를 최소화하는 계수 추정치를 찾는 과정이다. 한편, 최선의 서브셋 선택법은 아래의 문제로 표현될 수 있다.

\[\underset{β}{\mathrm{minimize}} \left\{ \sum^n_{i=1} \left( y_i − β_0 − \sum^p_{j=1}β_jx_{ij} \right)^2 \right\}\quad \mathrm{subject\ to}\ \sum^p_{j=1}I(β_j \ne 0) ≤ s\]

즉, 0이 아닌 계수의 개수가 \(s\) 이하라는 제한을 두고 RSS를 최소화하는 계수 추정치를 찾는 것이다. 위 세 가지 식을 살펴보면, 라쏘, 릿지 회귀, 최선의 서브셋 선택법 간의 연관성을 확인할 수 있다.

그렇다면 릿지 회귀와 달리 라쏘는 어떻게 계수 추정치들을 완전히 0으로 줄일 수 있는 것일까? 방금 살펴보았듯이 릿지 회귀와 라쏘는 동일하게 RSS를 최소화하는 계수를 찾고자 하지만 서로 다른 제한 함수를 가지고 있다. \(p = 2\)인 경우를 2차원 그래프에서 생각해보면, 릿지 회귀와 라쏘는 각각의 제한 함수 구역 내에서 최대한 최소 자승 해 \(\hat{β}\)에 가까운 지점으로 계수 추정치를 찾는다. 이때, 릿지 회귀의 제한 구역은 \(β_1^2+β_2^2≤s\)와 같이 원형으로 나타나는 반면, 라쏘의 제한 구역은 \(\vert β_1 \vert + \vert β_2 \vert≤s\)와 같이 각 축에 꼭짓점을 가지는 마름모 형태로 나타난다. 따라서 릿지 회귀와 달리 라쏘에서는 RSS와 제한 구역이 축 위에서 접하여 계수 추정치가 정확히 0이 될 수 있다. 릿지 회귀와 라쏘의 제한 구역은 \(p = 3\)일 때 각각 구(sphere)와 다면체(polyhedron)가 되며, \(p > 3\)일 때 각각 초구(hypersphere)와 초다면체(polytope)가 된다. 이렇듯 라쏘는 예리한 꼭짓점으로 이루어진 제한 구역을 가지기 때문에 변수 선택을 수행할 수 있는 것이다.

그렇다면 라쏘와 릿지 회귀 중 어떤 것의 예측 정확도가 더 높을까? 라쏘는 비교적 적은 수의 예측변인만이 상당한 계수를 가지고 나머지 예측변인들은 거의 0에 가까운 계수를 가지는 상황에서 좋은 결과를 낸다. 반면, 릿지 회귀는 많은 예측변인들이 거의 같은 크기의 계수를 가지는 경우에 좋은 결과를 낸다. 그러나 실제 데이터셋에서 반응변인과 관련된 예측변인의 수를 미리 알 수는 없으므로 교차검증과 같은 방법을 통해 해당 데이터셋에 더 적절한 접근법이 무엇인지 알아봐야 한다.

\(n = p\)이며, \(X\)는 주대각선이 모두 1이고 나머지는 0인 대각행렬(diagonal matrix)인 간단한 특수 상황에서 릿지 회귀와 라쏘를 비교해보자. 편의상 절편을 빼고 회귀를 시행한다고 가정한다. 이 상황에 일반적인 최소 자승법은 \(\sum^p_{j=1} (y_j − β_j)^2\)를 최소화하는 \(β_1, . . . , β_p\)를 찾는 것이며, 최소 자승 해는 \(\hat{β}_j = y_j\)이다. 한편, 릿지 회귀는 \(\sum^p_{j=1} (y_j − β_j)^2 + λ\sum^p_{j=1} β^2_j\)를 최소화하는 \(β_1, . . . , β_p\)를 찾고자 하며, \(\hat{β}^R_j = y_j/(1 + λ)\)이다. 라쏘는 \(\sum^p_{j=1} (y_j − β_j)^2 + λ\sum^p_{j=1} \vert β_j \vert\)를 최소화하는 계수를 찾고자 하며, 라쏘 추정치는 아래와 같다.

\[\hat{β}^L_j = \begin{cases} y_j − λ/2 & \mbox{if}\ y_j > λ/2; \\ y_j + λ/2 & \mbox{if}\ y_j < −λ/2; \\ 0 & \mbox{if}\ \vert y_j \vert ≤ λ/2 \end{cases}\]

릿지 회귀는 모든 계수 추정치들을 같은 비율로 줄이는 반면, 라쏘는 \(λ/2\)라는 동일한 양으로 계수들을 줄여나가다가 계수의 절댓값이 \(λ/2\) 이하가 되면 완전히 0으로 줄이는 soft-thresholding을 수행한다. \(X\)가 더 일반적인 데이터 행렬이라고 해도 마찬가지이다. 릿지 회귀는 데이터의 모든 차원을 같은 비율로 줄여나가지만, 라쏘는 모든 계수들을 비슷한 양만큼 줄여나가다가 어느 순간 완전히 0으로 만들어버린다.

마지막으로 베이지안 관점에서 릿지 회귀와 라쏘를 살펴보자. 베이지안에서는 회귀의 계수 벡터 \(β\)가 사전(prior) 분포를 가진다고 가정하다. 예를 들어, \(β = (β_0, β_1, . . . , β_p)^T\)는 \(p(β)\)라는 사전 분포를 가진다. 데이터의 가능도(likelihood)는 \(f(Y \vert X, β)\)이며, \(X = (X_1, . . . , X_p)\)이다. 사전 분포와 가능도를 곱하면 아래와 같은 사후(posterior) 분포를 얻을 수 있다.

\[p(β\vert X, Y ) ∝ f(Y \vert X, β)p(β \vert X) = f(Y \vert X, β)p(β)\]

위 식에서 비례 표기는 베이즈 정리를 따르며, 등호는 \(X\)가 고정되어 있다는 가정을 따르는 것이다. 또한, \(p(β) = \prod^p_{j=1} g(β_j)\)라고 가정하며, \(g\)는 밀도함수이다. 릿지 회귀와 라쏘는 특별한 형태의 \(g\)를 가진다. 만일 \(g\)가 평균이 0이고 표준편차가 \(λ\)에 대한 함수인 가우시안 분포를 따른다면 \(β\)의 사후 최빈값(posterior mode)이 릿지 회귀의 해가 된다. 만일 \(g\)가 평균이 0이고 스케일 파라미터가 \(λ\)에 대한 함수인 double-exponential (Laplace) 분포를 따른다면 \(β\)의 사후 최빈값이 라쏘의 해가 된다. 정리하자면, 베이지안 관점에서 릿지 회귀와 라쏘는 정상분포 오차를 가지는 보통의 선형 모델을 가정하되, \(β\)에 대한 특정 사전 분포를 가정한다고 할 수 있다.

6.3 차원 축소 방법

차원 축소 방법(dimension reduction methods)은 예측변인을 변환(transform)하여 이 변환된 변인들을 가지고 최소 자승 모델을 적합시키는 방법이다. 원래의 \(p\)개의 예측변인에 대하여 \(M < p\)개의 선형 결합(linear combinations) \(Z_1,Z_2, . . . ,Z_M\)이 있다고 가정하자.

\[Z_m = \sum^p_{j=1} \phi_{jm}X_j\]

위 식에서 \(\phi_{1m}, \phi_{2m} . . . , \phi_{pm}\)은 상수이며, \(m = 1, . . .,M\)이다. 최소 자승법을 사용해 아래의 선형 회귀 모델을 적합시킬 수 있다.

\[y_i = θ_0 + \sum^M_{m=1}θ_mz_{im} + \epsilon_i, \quad i= 1, . . . , n\]

이때, \(θ_0, θ_1, . . . , θ_M\)은 회귀 계수이다. 상수 \(\phi_{1m}, \phi_{2m} . . . , \phi_{pm}\)을 잘 선택한다면 이러한 차원 축소 방법이 일반적인 최소 자승 회귀를 능가할 수 있을 것이다. 이 방법은 \(p+1\)개의 계수 \(β_0, β_1, . . . , β_p\)를 추정하는 문제를 \(M + 1\)개의 계수 \(θ_0, θ_1, . . . , θ_M\)을 추정하는 문제로 축소한다.

이때,

\[\sum^M_{m=1}θ_mz_{im} = \sum^M_{m=1}θ_m \sum^p_{j=1} \phi_{jm}x_{ij} = \sum^p_{j=1} \sum^M_{m=1}θ_m \phi_{jm} x_{ij} = \sum^p_{j=1} \beta_j x_{ij} \\ (\beta_j = \sum^M_{m=1}θ_m \phi_{jm})\]

이기 때문에 차원 축소의 식은 원래의 선형 회귀 모델의 특수 케이스로 볼 수 있다. \(p\)가 \(n\)에 비해 큰 경우 \(M \ll p\)인 값을 선택하면 적합된 계수의 분산을 효과적으로 줄일 수 있다. 모든 차원 축소 방법은 두 단계를 거친다. 첫째, 변환된 예측변인 \(Z_1, Z_2, . . . , Z_M\)을 구한다. 둘째, 이 \(M\)개의 예측변인을 사용해 모델을 적합시킨다. 구체적인 방법에 따라 \(Z_1, Z_2, . . . , Z_M\), 즉 \(\phi_{jm}\)을 어떻게 선택할 것인지가 달라진다.

6.3.1 주성분 회귀

주성분 분석(Principal components analysis; PCA)은 많은 수의 변인들 중 저차원의 피처들을 끌어내는 주된 접근법이다. 비지도 학습에 사용될 수 있으며, 이 부분은 챕터 10에서 자세히 다룰 것이다. 이번 장에서는 회귀를 위하여 PCA를 통해 차원 축소를 수행하는 방법을 소개한다.

PCA에서 데이터의 첫 번째 주성분(first principal component) 방향은 관측치들이 가장 많이 변화하는 축이다. 예를 들어, 각 도시의 인구 크기(\(pop\))와 그 도시에 대한 광고 지출(\(ad\)) 간의 관계에 대한 데이터셋에서 가장 분산이 큰 방향으로 첫 번째 주성분이 형성된다. 수학적으로는 아래와 같이 표현될 수 있다고 하자.

\[Z_1 = 0.839 × (pop − \bar{pop}) + 0.544 × (ad − \bar{ad})\]

여기에서 \(\phi_{11} = 0.839\)와 \(\phi_{21} = 0.544\)는 방향을 정의하는 주성분 로딩(principal component loadings)이며, \(\bar{pop}\)는 데이터셋에서 모든 \(pop\) 값들의 평균, \(\bar{ad}\)는 모든 \(ad\) 값들의 평균이다. \(\phi^2_{11} + \phi^2_{21} = 1\)이 되는 모든 가능한 \(pop\)과 \(ad\)의 선형 결합 중 위의 선형 결합이 분산 \(Var(\phi_{11}× (pop − \bar{pop}) + \phi_{21} × (ad − \bar{ad}))\)를 최대화한다. \(\phi^2_{11} + \phi^2_{21} = 1\)은 분산을 증가시키기 위해서 \(\phi_{11}\)과 \(\phi_{21}\)을 임의로 증가시키지 않게 하기 위한 제한이다. 데이터셋의 크기가 \(n = 100\)이라면 \(pop\)과 \(ad\), 그리고 \(Z_1\)은 길이가 100인 벡터이다.

\[z_{i1} = 0.839 × (pop_i − \bar{pop}) + 0.544 × (ad_i − \bar{ad})\]

이때, \(z_{11}, . . . , z_{n1}\)을 주성분 점수(principal component scores)라 한다.

첫 번째 주성분 벡터는 데이터에 최대한 가까운 선분이기도 하다. 즉, 데이터의 각 포인트로부터 선분까지의 수직선들의 제곱 합이 최소가 된다. 주성분 \(Z_1\)의 값들은 각 데이터포인트에서 \(pop\)과 \(ad\)를 함께 요약해서 보여줄 수 있다. 예를 들어, \(z_{i1} = 0.839 × (pop_i − \bar{pop}) + 0.544 × (ad_i − \bar{ad})<0\)이라면, 해당 도시는 평균 이하의 인구 크기와 평균 이하의 광고 지출을 가진다고 할 수 있다.

일반적으로 주성분은 최대 \(p\)개까지 만들 수 있다. 두 번째 주성분 \(Z_2\)는 \(Z_1\)과 상관을 가지지 않는 선형 결합 중 분산이 가장 큰 것으로 정해진다. \(Z_1\)과 \(Z_2\)가 0의 상관을 갖는다는 것은 두 주성분의 방향이 수직(perpendicular) 혹은 직교(orthogonal)한다는 것을 의미한다.

주성분 회귀(principal components regression; PCR) 접근법은 \(M\)개의 주성분 \(Z_1, . . ., Z_M\)을 만들어 최소 자승법으로 적합되는 선형 회귀 모델의 예측변인으로 사용하는 것을 말한다. 이 접근법은 \(X_1, . . .,X_p\)가 가장 큰 변화를 보이는 방향을 \(Y\)와 연관된 방향이라고 가정한다. 따라서 데이터에서 반응변인과 관련된 중요한 정보들이 \(Z_1, . . ., Z_M\)에 담기며, \(M \ll p\)개의 계수만을 추정하여 과적합을 방지할 수 있기 때문에, \(X_1, . . .,X_p\)로 모델을 적합시키는 것보다 더 좋은 결과를 낼 수 있다. 회귀 모델에서 사용되는 주성분의 개수가 늘어날수록 편향은 줄어들고 분산은 증가한다. \(M\)개의 주성분은 모든 \(p\)개의 예측변인들의 선형 결합이므로 PCR은 변수 선택 기법이라고 할 수 없다. 주성분의 개수 \(M\)은 보통 교차검증을 통해 정해진다. 주성분을 생성하기 전에 모든 예측변인들이 같은 척도에 있도록 표준화(standardize)하는 것이 바람직하다.

6.3.2 부분 최소 자승법

PCR은 “비지도적(unsupervised)” 방식으로 예측변인을 가장 잘 대표하는 선형 결합들을 찾아낸다. 즉, 반응변인은 주성분을 찾아내는 데 아무 영향을 미치지 않으며 예측변인들을 가장 잘 설명하는 주성분이 반응변인을 예측하는 데 최선이라는 보장이 없다. 부분 최소 자승법(partial least squares; PLS)은 PCR의 지도적(supervised) 버전으로, 반응변인 \(Y\)를 사용하여 예측변인뿐 아니라 반응에도 연관되어 있는 새로운 피처를 찾아낸다.

첫 번째 PLS 방향 \(Z_1\)을 계산하기 위해서는, 우선 \(p\)개의 예측변인들을 표준화한 다음, 각 \(\phi_{j1}\)을 \(X_j\)에 대한 \(Y\)의 단순 선형 회귀에서의 계수들로 동일하게 맞추어 준다. 이 계수들의 값은 \(Y\)와 \(X_j\) 간 상관의 크기에 비례한다. PLS는 반응변인과 가장 강한 상관을 보이는 변인들에 더 큰 가중치를 두고 \(Z_1 = \sum^p_{j=1} \phi_{j1}X_j\)를 계산한다. 두 번째 PLS 방향을 구하기 위해서는 \(Z_1\)에 대한 각 변인의 영향을 통제(regress)하고 그 잔차를 취한다. 이 잔차들을 첫 번째 PLS 방향이 설명하지 못하는 남은 정보라고 해석할 수 있다. 이 직교화된(orthogonalized) 데이터를 사용해 첫 번째 방향을 구할 때와 똑같은 방식으로 두 번째 PLS 방향을 구한다. 이 과정을 \(M\)번 반복하여 PLS 성분 \(Z_1, . . ., Z_M\)을 구한다. 마지막으로 \(Z_1, . . . , Z_M\)을 통해 \(Y\)를 예측하는 선형 모델을 최소 자승법으로 적합시킨다. PLS 방향의 개수 \(M\)은 튜닝 파라미터이며 보통 교차검증을 통해 정해진다. PLS 수행 이전에는 예측변인과 반응변인을 모두 표준화한다. PLS의 지도 방식은 편향을 감소시키지만 동시에 분산을 증가시키므로 일반적으로 릿지 회귀나 PCR에 비해 성능이 더 좋지는 않다.

6.4 고차원에서의 고려사항

예측변인의 개수가 관측치의 개수에 비해 매우 큰 데이터셋을 고차원 데이터라고 한다. 이런 경우에는 최소 자승법을 사용하면 데이터에 과적합이 발생한다. 예를 들어, 예측변인의 개수가 하나이고 관측치의 개수가 두 개라면 관측치가 어떤 값들을 가지든 무조건 모델은 완벽한 적합을 보이고 잔차는 0이 된다.

고차원 상황에서 \(\hat{σ}^2\)을 추정하려면 문제가 발생하기 때문에 이 경우 \(C_p\), AIC, BIC를 사용하는 것은 부적절하다. 수정된 \(R^2\) 역시 사용하면 안 된다. 고차원 상황에서는 전진 단계적 선택법, 릿지 회귀, 라쏘, PCR 등을 사용하는 것이 바람직하다. 이 방법들은 최소 자승법에 비해 덜 유연한(flexible) 적합 방식을 사용하기 때문에 과적합을 방지할 수 있다. 그러나 이러한 방법들을 사용한다고 하더라도, 차원, 즉 예측변인의 개수가 증가함에 따라 테스트 오류 역시 증가한다. 이러한 현상을 차원의 저주(curse of dimensionality)라고 한다. 기술이 발전하면서 수천수만 개의 피처들을 손쉽게 측정할 수 있게 되었지만 이는 양날의 검이다. 반응변인과 정말 관련이 있는 신호(signal) 피처를 추가하는 것은 모델을 향상시키지만, 반응변인과 관련 없는 노이즈(noise) 피처를 추가하는 것은 모델을 악화시키고 결과적으로 테스트 오류를 증가시키기 때문이다.

고차원 상황에서는 다중공선성(multicollinearity) 문제가 심각하기 때문에 어떤 변인이 결과를 예측하는지, 회귀에서 계수를 어떻게 설정하는 것이 가장 좋을지 확신할 수 없다. 고차원 상황에서 만들어진 모델은 가능한 많은 모델 중 하나일 뿐이라는 사실을 명심하고 독립적인 데이터셋에서 반드시 추가적으로 검증되어야 한다. 결과를 보고할 때는 제곱 합 오차, p값, \(R^2\) 등의 전통적인 모델 적합도 측정법 대신 별도의 테스트셋이나 교차검증 오류를 보고해야 할 것이다.