본문 바로가기
모두를 위한 데이터과학

누락된 데이터의 처리 방법

by 석사만세 2023. 2. 16.

1) 근사하기

누락된 값이 이진 타입이거나(예 또는 아니오와 같은) 범주형이라면 해당 변수의 최빈값(가장 일반적인 값, 가장 자주 나타나는 값)으로 대체할 수 있다. 정수나 연속형인 경우 중간값을 이용할 수 있다.

 

2) 계산하기

지도학습에 속하는 좀더 진보된 알고리즘을 이용해 누락된 값을 계산할 수도 있다. 이런 방법이 더 많은 시간을 필요로 할 수는 있지만 알고리즘이 유사한 거래들을 바탕으로 값을 추측하므로 모든 거래를 고려해 근사하는 방식보다는 정교할 수 있다.

 

3) 제거하기

마지막 방법으로 누락된 값이 있는 행을 제거할 수도 있다. 그러나 이런 방식은 분석에 사용할 데이터의 양을 감소시키므로 가능한 한 피해야 한다. 더 나아가 이처럼 데이터 포인트를 제거하면 선택된 샘플이 결과적으로 한쪽으로 치우치거나 반대로 기피하게 만들 수도 있다.

'모두를 위한 데이터과학' 카테고리의 다른 글

머신러닝의 종류  (0) 2023.02.16
데이터 분석 알고리즘의 종류  (0) 2023.02.16
데이터과학의 기본적인 4단계  (0) 2023.02.16
모델 구축 및 평가 과정  (0) 2023.02.16
데이터의 종류  (0) 2023.02.16