본문 바로가기
모두를 위한 데이터과학

텍스트 데이터 시각화

by 석사만세 2023. 2. 17.

7. 시각화
    - 단어 빈도 분석은 워드 클라우드 형태로 많이 표현된다. 단순히 단어와 그 출현빈도를 표로 나열해도 되지만 워드 클라우드 형태로 나타내면 핵심 단어를 직관적으로 알 수 있게 된다. 즉 워드 클라우드에서 보이는 단어 중 크기가 큰 단어가 출현빈도가 높은 단어이고 크기가 작은 단어는 상대적으로 출현빈도가 낮은 단어이다. 또한 워드 클라우드의 전체적인 모양과 구름 내 단어의 색상도 사용자가 직접 결정할 수 있어 시각적인 효과가 우수하다.
    - 구조적 군집 분석은 데이터 오브젝트를 트리(Tree) 형태의 군집으로 나누어준다. 즉 개별 대상 간의 거리에 의해 가장 가까이에 있는 대상들로부터 시작하여 결합해감으로써 트리 모양의 계층 구조를 형성해가는 방법이다. 구조적 군집 분석은 데이터 그룹을 하위 그룹으로 나누는 위계적 질서 형태를 보이게 된다.  구조적 군집 분석을 수행할 때는 두 군집 간의 거리를 측정하는 방법이 핵심이다. 두 군집 간의 거리를 측정하면서 계층적으로 가까운 군집끼리 서로 묶이며 군집을 형성해가기 때문이다. 구조적 군집 분석은 조직도처럼 계층적으로 구분하기 때문에 한눈에 데이터의 전체적인 구조를 살펴보기에 용이하다. 구조적 군집 분석의 시각화에서는 같은 군집 또는 같은 층에 따라서 색깔을 달리하는 것이 일반적이다.
    - 연관어 분석은 단어 간의 연관도를 살펴보기 위한 분석이기 때문에 무엇보다 시각화가 중요하다. 단순히 단어 간의 연관도를 산출하여 나열하면 너무 많은 단어쌍이 나타나 이해하기 어렵다. 또한 두 단어 간의 페어만을 수치로 나타내기 때문에 전체 단어 간의 연관도로 알 수가 없게 된다. 따라서 한 눈에 중요 단어가 무엇인지 크기, 색상, 굵기 등으로 표현을 달리하고 단어를 노드로 단어 간 연관도를 링크로 나타낸 네트워크 시각화가 필수적이다.

'모두를 위한 데이터과학' 카테고리의 다른 글

데이터 마이닝 기법  (0) 2023.02.17
텍스트 데이터 전처리  (0) 2023.02.17
TDM 구축  (0) 2023.02.17
자연어 처리  (0) 2023.02.17
텍스트 마이닝의 정의와 절차  (0) 2023.02.17