모두를 위한 데이터과학
데이터 마이닝 기법
석사만세
2023. 2. 17. 16:54
1) 단어 빈도분석
- 빈도분석은 가장 기본적이며 보편적으로 사용하는 방법임
- 불용어 제거가 필수적
- 워드클라우드 형태로 많이 표현됨
2) 군집분석
- 유사한 주제들의 문서끼리 묶어줄 때 사용
- 분할 군집분석과 구조적 군집분석이 자주 사용됨
- 분할 군집분석에는 k-평균 군집분석(유클리디안 디스턴스나 코사인 유사도를 이용)과 k-대푯값 군집분석(아웃라이어의 영향이 적음)이 있음
- 구조적 군집분석은 개별 대상 간의 거리에 의해 가장 가까이에 있는 대상들로부터 시작하여 결합해감으로써 트리 형태의 계층구조를 형성해주는 방법임
3) 토픽 모델링
- 구조화되지 않은 방대한 문서에서 주제를 찾아내기 위한 것
- 감성분석이나 소셜 네트워크 분석 등의 다른 분석모델과 혼합하여 자주 사용됨
- 단어들의 순서는 상관하지 않고 오직 단어들의 유무만 중요하다는 가정 기반의 LDA(Latent Dirichlet Allocation)가 많이 사용됨
4) 감성분석
- 긍정과 부정의 요소와 그 정도성을 판별하여 정량화
- 단어 사전(감성 사전) 기반 분석과 지도학습 기반 분석(SVM, 회귀분석, 신경망, 나이브베이즈, 의사결정나무)이 있음
5) 연관분석
- 동시 출현 기반 연관어 분석(두 단어가 같은 문서에서 함께 출현하는 횟수), 단어 간의 통계적 방법으로 유사도(코사인 유사도), 딥러닝(Word2Vec) 방법 등이 널리 사용됨
- Word2Vec은 CBOW(Continuous Bag of Words)와 Skip Gram이 있음