1) 정규표현식
- 문자열이 주어진 규칙에 일치하는지 일치하지 않는지 판단
- 정규표현식을 이용하여 특정 패턴을 지닌 문자열을 찾을 수 있으므로 텍스트 데이터 사전 처리 및 크롤링에 사용됨
2) 대소문자 통일
- 한국어는 해당 사항이 없지만 영어는 대문자를 소문자로 통일하던지 소문자를 대문자로 통일하던지 한 가지 방향으로 통일시켜야 함
- 일반적으로 대문자를 모두 소문자로 변환하는 방식을 사용함
3) 숫자, 문장부호, 특수문자 제거
- 텍스트 마이닝에서 숫자들은 정규표현식을 사용하여 제거하는 것이 일반적임
- 텍스트 마이닝에서 마침표, 쉼표, 물음표, 느낌표 등 문장부호들은 일반적으로 삭제함
- 괄호나 하이픈 같은 특수문자도 보통 제거하지만 이모티콘의 경우는 포함시켜야 할 경우가 있음
4) 불용어 제거
- 불용어는 자주 사용되지만 특별한 의미를 부여하기 힘든 단어들을 의미함
- 대표적인 것이 영어의 관사임
5) 어근 동일화
- 한국어는 어미, 조사에 따라 단어의 형태가 바뀌고 영어는 주어와 시제에 따라 동사의 형태가 변하므로 분석 전에 어근 동일화(Stemming) 과정을 거쳐야 함
- 한국어는 라이브러리가 존재하지 않기 때문에 형태소 분석기를 사용
6) N그램
- n번 연속으로 등장하는 단어들의 연쇄를 의미함
- N그램은 보통 영어에만 적용
7) POS태깅(품사 분석)
- 대부분의 텍스트 마이닝은 품사와 관계없이 동일한 형태의 단어들은 동일하게 보는 Bag of Words를 이용해 분석을 함
- 그러나 특정 단어를 동사, 명사로 나누어서 분석하면 심층적인 의미를 발견할 수도 있음
- 기본적인 텍스트 마이닝은 문서에서 명사만을 추출해서 분석하는 경우가 대부분임
'모두를 위한 데이터과학' 카테고리의 다른 글
RNN, K-means, KNN, SOM, SVM (0) | 2023.02.17 |
---|---|
데이터 마이닝 기법 (0) | 2023.02.17 |
텍스트 데이터 시각화 (0) | 2023.02.17 |
TDM 구축 (0) | 2023.02.17 |
자연어 처리 (0) | 2023.02.17 |