cs

ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [PRML] 1.3 Model Selection
    책 리딩/PRML 2020. 7. 12. 15:23

    1.3 Model Selection

     

    앞서 최소 제곱법(leat squares)를 이용한 다항식 곡선 피팅의 문제에서 최적의 차수를 구하는 법을 알아보았다.

    다항식의 차수는 모델 안의 파라미터의 개수를 결정하며, 따라서 모델의 복잡도도 결정하게 된다.

    정규화된 최소 제곱법을 사용했을 때, 정규화 계수 $\lambda$역시 모델의 복잡도를 조절할 수 있다.

     

    현실 세계에서 우리는 파라미터의 값들을 직접 정해야 하고,

    그 주 목적은 새로운 데이터에 대한 올바른 예측을 하기 위함이다.

     

    이미 maximum likelihood 방식은 과대적합(over-fitting)문제가 있는 것을 확인했다.

    만약 데이터가 충분하다면 데이터를 샘플링해 여러 모델을 훈련시키고, 검증 데이터셋(validation set)을 구성해 검증 데이터셋에 대해 가장 좋은 성능을 보이는 모델을 선택하는 방법을 사용할 수 있다.

    여기에서 모델이 한정된 데이터셋을 반복해서 학습하게 되면, 검증 데이터셋에 대한 과대적합이 발생할 수 있기 때문에 별개의 테스트 셋을 구성하는 것도 중요하다.

     

    그러나 일반적으로 데이터는 한정되어 있기 때문에 가진 데이터를 최대한 활용할 수 있는 방안이 바람직하다.

    그러나 만약 검증 데이터셋이 너무 작다면 예측 성능을 제대로 검증하지 못할 것이다.

    이런 딜레마에 대한 한 가지 해답은 그림 1.18에 묘사되어 있는 교차 검증(cross-validation)이다.

    $S$-fold 교차 검증은 전체 데이터의 $(S-1)/S$를 학습 데이터로 사용하고, 나머지 $1/S$를 검증 데이터로 사용한다.

    데이터가 특히 부족한 경우, $S=N$으로 설정하는 것이 바람직할 때가 있는데, 이 leave-one-out 기법이라고 한다.

     

     

    Figure 1.18 교차 검증

     

    교차 검증 기법의 큰 단점은 $S$의 값이 커질수록 학습 횟수도 늘어난다는 점이다.

    또한 단일 모델에 대해 여러 매개변수를 검증할 필요가 있을 경우 가능한 조합들을 탐색하기 위해 지수적으로 많은 학습 횟수가 필요할 수 있다.

    이상적으로는 학습 데이터에만 의존하며, 한 번의 학습으로 여러 하이퍼파라미터 및 모델 유형을 비교할 수 있어야 한다.

    즉, 학습 데이터에만 의존하면서 과적합으로 인한 bias가 없는 성능 측정법이 필요하다.

     

    역사적으로 정보 이론(information criteria)에서는 페널티 항을 추가함으로써 복잡한 모델의 과대적합을 제어하려는 시도가 있어 왔다.

    예를 들어 AIC(Akaike Information Criterion)은 다음 값이 가장 커지는 모델을 선택한다.

     

    $\ln p(\mathcal{D} | \mathbb{w}_{\textit{ML}}) - M$

     

    여기에서 $M$은 모델의 파라미터의 개수를 의미한다.

     

    '책 리딩 > PRML' 카테고리의 다른 글

    [PRML] 1.6 Information Theory (작성중)  (0) 2020.07.12
    [PRML] 1.5 Decision Theory  (0) 2020.07.12
    [PRML] 1.4 The Curse of Dimensionality  (0) 2020.07.12
    [PRML] 1.1 Example: Polynomial Curve Fitting  (0) 2020.07.12
    [PRML] 1. Introduction  (0) 2020.07.11

    댓글

:D