형태소분석

Saltlux

Jump to: navigation, 찾기

개요

자연어 처리 시스템은 영어, 일본어, 중국어, 한국어와 같은 자연어를 입력 받아 이를 분석하는 시스템을 의미합니다. 이러한 자연어 처리 시스템은 크게 형태소분석, 구문분석, 의미분석 단계로 나뉘며, 이 단계에서는 각각 애매성이 발생하는데, 이를 처리하기 위한 과정을 자연어 처리라고 합니다.

Image:semantic_technology_01_7.jpg

형태소 분석(Morphological analysis)은 자연어 처리 시스템의 첫 단계로서 ‘단어(word)’(한국어 에서는 띄어쓰기 단위의 어절이라고 함)를 구성하는 각각의 형태소(morpheme)들을 인식하고 불규칙 활용이나 축약, 탈락 현상이 일어난 형태소는 원형을 복원하는 과정으로 기술합니다.

형태소란 일반적으로 다음과 같이 정의합니다.

  • 의미가 있는 최소한의 단위(minimally meaningful unit)
  • 문법적, 관계적인 뜻을 나타내는 단어 또는 단어의 부분.


즉. 언어를 분석하기 위한 기본 단위로 의미를 가지는 요소로서는 더 이상 분석 할 수 없는 가장 작은 문법 단위를 형태소라고 정의하고 있다. 한국어를 예를 들어 설명하면 단순어(simple word)의 어근(stem), 단일 어미나 조사, 접두사(prefix), 접미사(suffix) 들과 같이 더 이상 분석하게 되면 뜻을 잃어 버리는 언어의 최소 단위를 의미합니다.
Image:semantic_technology_01_8.jpg
형태소 분석은 위 그림과 같은 각각의 과정을 통해서 이루어지며 언어적인 특정에 따라서 약간씩 틀려지기도 합니다. 영어의 경우 각 단어의 품사를 결정하는 것입니다. 영어에서 대부분의 명사는 동사로도 쓰일 수 있는 등 영어에서는 품사의 중의성(lexical ambiguity)이 매우 많습니다.

예를 들어, breakfast라는 단어는 ‘아침’이라는 명사만이 아니라, ‘아침을 먹다’라는 동사로도 쓸 수 있습니다. 일본어의 경우에는 단어를 띄어 쓰는 공백이라는 것이 존재하지 않으므로 단어에 대한 명확한 정의를 내리는 것이 어렵습니다. 한국어는 교착어로 문장 속에서 활용할 때 단어(어간)에 조사나 어미(어미)를 붙여 상황에 맞게 사용 하기 때문에 형태소의 품사에 대한 중의성이 매우 많습니다. 띄어쓰기의 오류가 있을 경우 더 중의성은 더 높아 지기 때문에 기계로 처리하기가 어렵습니다.

어휘 분석(Lexical Analysis)
단어 또는 어절의 형태론적 특성을 처리하는 일반적인 규칙 또는 통사적인 규칙을 통해 단어를 구성하고 있는 형태소의 후보 목록을 만드는데 있습니다. 그리고 이렇게 작성된 목록은 품사 태깅에서 적절한 방법을 통해 단어 혹은 어절의 올바른 형태소 분석 결과를 만들어 냅니다. 한국어의 경우 어휘 형태소(또는 실질 형태소)와 문법 형태소(또는 형식 형태소)가 결합되어 단어를 이루고 있기 때문에 단어로부터 각 형태소를 분리하고 분리된 형태소의 원형을 복원해야 하며, 이 과정을 위한 방법론으로는 다음과 같은 방법론이 있습니다.

한글 형태소 분석 기법 유형

분류 기준 분석 유형
형태소 분석 모델 언어 독립적, 언어 종속적 모델
분석 알고리즘 규칙 기반, 사전 기반, 말뭉치 기반
분석 방향 Bottom-up parallel / Top-down predictive
어절 검색 방향 좌우 분석, 우좌 분석, 양방향 분석
결합 제약 어절형성 규칙과 결합제약 규칙, 접속 정보에 의한 결합 제약
문법형태소 사전 단위 형태소 수록, 결합 형태소 수록
형태소 처리 단위 자소 단위, 음절 단위


위의 표에 기술 된 것과 같은 방법론을 통해 어절 또는 단어에서 형태소 분석을 수행하며, 이와 같은 방법을 수행 할 때 주의 해야 할 것은 분석 결과의 과 생성(over-generation) 문제가 발생 할 수 있습니다. 형태소 분석기의 품사 태깅(POS, Part of Speaking)은 규칙에 의한 방식, 기계학습을 이용하는 통계적 방식 등 다양한 방법이 있습니다.

  • Markov Model Tagger
  • Hidden Markov Model Tagger (*) 
  • Transformation-based Tagger (*)
  • Neural network
  • Decision Tree …


이러한 여러 가지의 방법론 중 통계적 처리 과정을 간략히 소개 하면 다음과 같습니다.
Image:semantic_technology_01_9.jpg

위의 경우처럼 여러 개의 가능한 품사 열 중 통계적으로 가장 확률 값이 높은 열을 찾아내는 것이 품사 태깅입니다. 이러한 방법론 중에서 대표적인 것이 은닉 마로코프 방법론(HMM, Hidden Markov method)과 CRF(Conditional Random Field)과 같은 것이 있습니다. 은닉 마르코프 방법론을 통해 다음과 같이 표현 할 수 있습니다.
Image:semantic_technology_01_10.jpg

또한 아래의 Markov 가정 도입하여 단순화 시킵니다.

  • 가정1: 현재 단어는 이전 단어에만 의존
  • 가정2: 현재 단어의 품사 현재 단어에만 의존
Image:semantic_technology_01_11.jpg

참고 자료

  • Natural Language Understanding [J. Allen]
  • 한국어 형태소 분석과 정보 검색[강승식]
  • 차세대 웹과 온톨리지의 핵심기술 자연언어처리[황도삼, 최기선, 김태석 공역]


콘텐트 히스토리