1) 근사하기
누락된 값이 이진 타입이거나(예 또는 아니오와 같은) 범주형이라면 해당 변수의 최빈값(가장 일반적인 값, 가장 자주 나타나는 값)으로 대체할 수 있다. 정수나 연속형인 경우 중간값을 이용할 수 있다.
2) 계산하기
지도학습에 속하는 좀더 진보된 알고리즘을 이용해 누락된 값을 계산할 수도 있다. 이런 방법이 더 많은 시간을 필요로 할 수는 있지만 알고리즘이 유사한 거래들을 바탕으로 값을 추측하므로 모든 거래를 고려해 근사하는 방식보다는 정교할 수 있다.
3) 제거하기
마지막 방법으로 누락된 값이 있는 행을 제거할 수도 있다. 그러나 이런 방식은 분석에 사용할 데이터의 양을 감소시키므로 가능한 한 피해야 한다. 더 나아가 이처럼 데이터 포인트를 제거하면 선택된 샘플이 결과적으로 한쪽으로 치우치거나 반대로 기피하게 만들 수도 있다.
'모두를 위한 데이터과학' 카테고리의 다른 글
머신러닝의 종류 (0) | 2023.02.16 |
---|---|
데이터 분석 알고리즘의 종류 (0) | 2023.02.16 |
데이터과학의 기본적인 4단계 (0) | 2023.02.16 |
모델 구축 및 평가 과정 (0) | 2023.02.16 |
데이터의 종류 (0) | 2023.02.16 |