텍스트 분석
텍스트 분석과 자연어 처리
텍스트 분석(text analytics)
- 텍스트 데이터에서 언어학, 통계학, 머신 러닝의 기법을 이용
- 의사결정, 조사, 연구 등을 위해 정보를 추출하고 분석
- 텍스트 마이닝 text mining
- 예) 고객 리뷰를 분석하여 제품을 개선하고 싶다
자연어 처리(Natural Language Processing)
- 언어학, 컴퓨터 과학, 인공지능 등의 한 분야
- 컴퓨터를 이용해 자연어를 자동으로 처리하는 방법
- 예) 고객 불만에 자동으로 응대하는 챗봇을 만들고 싶다
자연어
자연어(natural language): 한국어, 영어 등 자연스럽게 생겨난 언어
인공어(constructed language)
- 에스페란토(1887): 자멘호프가 국제적 의사소통을 위해 개발
- 나비: 영화 아바타의 외계인 언어로 사용하기 위해 개발
통제자연어(controlled natural language): 자연어에서 어휘, 문법 및 의미 등을 단순하게 제한하여 만든 인공어
형식어(formal language): 수식, 프로그래밍 언어 등
자연어의 특징
- 규칙이 복잡하고, 예외가 많음
- 음운론, 통사론, 의미론 등 다양한 수준으로 이뤄져 있음
- 음소 phoneme: 언어에서 소리의 가장 작은 단위, 그 자체로는 의미가 없음
- 형태소 morpheme: 의미가 있는 가장 작은 단위 (예: multi-)
- 단어 word: 독립적으로 쓰일 수 있는 형태소 (예: media)
- 구문 구조 syntax: 단어들이 모여서 문장을 이루는 구조
- 해석을 위해서는 여러 수준에 대한 복합적 고려가 필요
- 예: Time flies like an arrow; fruit flies like a banana.
- 순서, 의존성, 불연속적 변화
- 언어의 다양성
자연어 처리의 접근 방식
-
규칙 기반 rule-based
- 언어의 규칙을 프로그래밍
- 단순한 처리는 쉽게 가능
- 다양한 예외, 애매성 등으로 복잡한 처리는 어려움
-
머신 러닝 machine learning
- 방대한 데이터를 바탕으로 패턴을 추출
- 복잡한 처리도 가능
- 데이터를 손으로 분류하는 비용이 높음
퀴즈
최근 자연어 처리에서는 규칙 기반의 방식보다 머신 러닝 기반의 방식이 더 많이 사용되고 있습니다. 그 이유는 무엇일까요?