단어문서행렬과 형태소 분석

Python을 통한 단어문서행렬과 형태소 분석


수강중

4. 단어 구름

wordcloud 설치

단어 구름 시각화를 위한 wordcloud 라이브러리를 설치한다.

아나콘다를 이용할 경우:

!conda install -y -c conda-forge wordcloud

맥 또는 리눅스에서는 pip 명령어로도 설치가 가능하다.

!pip install wordcloud

데이터 불러오기

이전에 만들어놓은 word_count를 불러온다.

import pandas as pd

word_count = pd.read_csv('word_count.csv', index_col=0)

word_count는 단어별 빈도를 담은 데이터 프레임이다.

word_count.head()
단어 빈도
0 10 29
1 20 3
2 90 6
3 absolutely 9
4 acted 3

단어 구름

단어 구름은 빈도가 높은 단어는 크게, 낮은 단어는 작게 시각화하는 방법이다. wordcloud를 불러온다.

from wordcloud import WordCloud

WordCloud의 옵션은 여러개가 있지만, 중요 옵션은 다음과 같다.

  • font_path: 글꼴의 경로
  • max_words: 워드클라우드를 그릴 단어의 개수
  • background_color: 배경색 설정
  • width : 가로크기(픽셀 단위)
  • height: 세로크기(픽셀 단위)

배경은 흰색, 최대 100단어를 가로 400픽셀, 세로 300픽셀 크기로 단어 구름으로 그린다.

wc = WordCloud(background_color='white', max_words=100, width=400, height=300)

word_countto_dict 함수를 이용해 사전(dict) 형태로 변환한다.

count_dic = word_count.set_index('단어')['빈도'].to_dict()

count_dic
{'10': 29,
 '20': 3,
 '90': 6,
 'absolutely': 9,
 'acted': 3,

단어 구름을 그린다.

cloud = wc.fit_words(count_dic)

노트북에서 단어구름을 확인한다.

cloud.to_image()

단어 구름을 cloud.png 파일로 저장한다.

cloud.to_file('cloud.png')
<wordcloud.wordcloud.WordCloud at 0x19a223eeac8>

그림은 현재 작업 폴더에 저장된다. 현재 작업 폴더는 os.getcwd()으로 확인할 수 있다.

import os
os.getcwd()