모두를 위한 데이터과학
과적합과 부적합
석사만세
2023. 2. 16. 12:35
파라미터를 적당히 튜닝하지 않으면 모델의 정확도가 떨어진다. 예측 오류를 최소화하기 위해 예측 모델의 복잡도를 늘리면 예측의 경계선이 불필요하게 복잡해지는 문제를 초래할 수 있다. 모델의 복잡도를 적절하게 유지하는 방법 중의 하나로 정규화 단계에서 패널티 파라미터를 사용한다. 이 새로운 파라미터는 모델의 복잡도가 증가할 때 예측 오류를 인공적으로 키움으로써 복잡도 증가에 대한 불이익을 준다. 따라서 모델이 원래 파라미터를 최적화함에 있어 정확도와 복잡도를 모두 고려해야 한다.
1) 과적합(Overfit)
과도한 민감성을 띄는 모델, 데이터에서 발생하는 무작위적인 변동을 영구적인 패턴으로 잘못 인식하는 경우에 발생, 과적합된 모델은 현재 데이터에서는 높은 정확도를 보이지만 미래의 데이터에 대한 일반화 능력이 떨어짐
2) 최적합(Ideal Fit)
파라미터를 제대로 튜닝하면 주요한 추세를 인식하는 일과 중요하지 않은 변동을 무시하는 일 사이에서 균형을 이루게 됨
3) 부적합(Underfit)
부적합 모델은 민감도가 너무 떨어지며 숨겨진 패턴을 발견하지 못함, 부적합된 모델은 중요한 추세를 놓치게 되고 이로 인해 현재 데이터와 미래 데이터 모두에서 예측 정확도가 떨어짐