모두를 위한 데이터과학41 누락된 데이터의 처리 방법 1) 근사하기 누락된 값이 이진 타입이거나(예 또는 아니오와 같은) 범주형이라면 해당 변수의 최빈값(가장 일반적인 값, 가장 자주 나타나는 값)으로 대체할 수 있다. 정수나 연속형인 경우 중간값을 이용할 수 있다. 2) 계산하기 지도학습에 속하는 좀더 진보된 알고리즘을 이용해 누락된 값을 계산할 수도 있다. 이런 방법이 더 많은 시간을 필요로 할 수는 있지만 알고리즘이 유사한 거래들을 바탕으로 값을 추측하므로 모든 거래를 고려해 근사하는 방식보다는 정교할 수 있다. 3) 제거하기 마지막 방법으로 누락된 값이 있는 행을 제거할 수도 있다. 그러나 이런 방식은 분석에 사용할 데이터의 양을 감소시키므로 가능한 한 피해야 한다. 더 나아가 이처럼 데이터 포인트를 제거하면 선택된 샘플이 결과적으로 한쪽으로 치우치.. 2023. 2. 16. 데이터과학의 기본적인 4단계 2023. 2. 16. 모델 구축 및 평가 과정 2023. 2. 16. 데이터의 종류 2023. 2. 16. 데이터분석 프로세스 2023. 2. 16. 이전 1 ··· 4 5 6 7 다음