본문 바로가기
카테고리 없음

데이터 수집과 전처리

by 석사만세 2023. 2. 17.

3. 데이터 수집
   - 데이터 수집의 대표적인 방법으로 크롤링(Crawling)이 있다. 크롤링은 텍스트 분석의 대상으로부터 분석에 사용할 수 있는 형태로 텍스트를 가지고 오는 것을 의미한다. 크롤링 대상은 pdf 파일, 웹 사이트, 뉴스, 블로그, SNS(Social Network Service) 등이다.
   - 기업의 데이터베이스로부터 데이터 수집이 가능하지만 이것은 정형 데이터의 형태를 띄고 있으므로 텍스트 마이닝과 개념이 다른 데이터 마이닝에 속한다.
   - 데이터 수집은 초기 수집된 대량의 문서로 텍스트 마이닝을 수행할 수도 있고 시간에 따라 주기적으로 문서를 추가하고 수정한 후 텍스트 마이닝 알고리즘을 동적으로 수행할 수도 있다. 물론 문서가 대용량일수록, 주기적으로 문서가 업데이트될수록 더 유의미한 텍스트 마이닝 결과를 확보할 수 있다.

 

4. 데이터 전처리
   - 텍스트 데이터 전처리 과정에서는 대량의 텍스트 데이터를 구조화된 방식으로 변형한 후 특징을 추출하는 과정이 필요하다. 대량의 텍스트 안에 내재되어 있는 특징을 추출하는 과정은 어려운 작업이며 추출할 수 있는 특징의 종류도 다양하기 때문에 숙련된 기술이 필요한 영역이다.
   - 텍스트 마이닝에 적용되는 텍스트 데이터 집합을 말뭉치(Corpus)라고 부른다. 코퍼스는 대용량의 정형화된 텍스트 집합으로 정의되는데 텍스트 정형화는 텍스트 소스를 정제하거나 사전 처리하는 작업이다. 정형화를 위해서는 텍스트 파일 안에 문장과 문장의 공백, 숫자, 구두점, 특수기호, 대소문자 구별 등을 제거해야 한다.
   - 데이터 소스에는 텍스트뿐만 아니라 숫자, 문장부호, 특수문자들이 모두 포함되어 있는데 이러한 것들은 대부분 분석할 필요가 없다. 마침표나 물음표, 느낌표 등의 부호는 각기 고유한 의미를 갖거나 문자의 의미를 명확하게 하지만 텍스트 마이닝에서는 일반적으로 문장부호들을 삭제한다.
   - 한국어의 경우는 해당 사항이 없지만 영어는 대문자와 소문자를 구분해야 한다. 파이썬에서는 대문자와 소문자를 서로 다른 문자로 인식하기 때문에 대문자를 소문자로 통일하든가 아니면 소문자를 대문자로 통일하든가 한 가지 방식으로 통일시켜야 한다. 일반적으로 대문자를 모두 소문자로 변환하는 방식을 따른다.