logo

텍스트 분석

 

텍스트 분석과 자연어 처리

텍스트 분석(text analytics)

  • 텍스트 데이터에서 언어학, 통계학, 머신 러닝의 기법을 이용
  • 의사결정, 조사, 연구 등을 위해 정보를 추출하고 분석
  • 텍스트 마이닝 text mining
  • 예) 고객 리뷰를 분석하여 제품을 개선하고 싶다

자연어 처리(Natural Language Processing)

  • 언어학, 컴퓨터 과학, 인공지능 등의 한 분야
  • 컴퓨터를 이용해 자연어를 자동으로 처리하는 방법
  • 예) 고객 불만에 자동으로 응대하는 챗봇을 만들고 싶다
 

자연어

자연어(natural language): 한국어, 영어 등 자연스럽게 생겨난 언어

인공어(constructed language)

  • 에스페란토(1887): 자멘호프가 국제적 의사소통을 위해 개발
  • 나비: 영화 아바타의 외계인 언어로 사용하기 위해 개발

통제자연어(controlled natural language): 자연어에서 어휘, 문법 및 의미 등을 단순하게 제한하여 만든 인공어

형식어(formal language): 수식, 프로그래밍 언어 등

 

자연어의 특징

  • 규칙이 복잡하고, 예외가 많음
  • 음운론, 통사론, 의미론 등 다양한 수준으로 이뤄져 있음
    • 음소 phoneme: 언어에서 소리의 가장 작은 단위, 그 자체로는 의미가 없음
    • 형태소 morpheme: 의미가 있는 가장 작은 단위 (예: multi-)
    • 단어 word: 독립적으로 쓰일 수 있는 형태소 (예: media)
    • 구문 구조 syntax: 단어들이 모여서 문장을 이루는 구조
  • 해석을 위해서는 여러 수준에 대한 복합적 고려가 필요
  • 예: Time flies like an arrow; fruit flies like a banana.
  • 순서, 의존성, 불연속적 변화
  • 언어의 다양성
 

자연어 처리의 접근 방식

  • 규칙 기반 rule-based

    • 언어의 규칙을 프로그래밍
    • 단순한 처리는 쉽게 가능
    • 다양한 예외, 애매성 등으로 복잡한 처리는 어려움
  • 머신 러닝 machine learning

    • 방대한 데이터를 바탕으로 패턴을 추출
    • 복잡한 처리도 가능
    • 데이터를 손으로 분류하는 비용이 높음

퀴즈

최근 자연어 처리에서는 규칙 기반의 방식보다 머신 러닝 기반의 방식이 더 많이 사용되고 있습니다. 그 이유는 무엇일까요?