언어자원

Saltlux

Jump to: navigation, 찾기

언어자원은 자연어 처리를 위한 기반이 되는 언어말뭉치, 기계사전 등을 총칭하여 부르는 용어입니다.

언어자원은 크게 NLP엔진에서 사용하는 사전과 이러한 사전을 만들거나 엔진의 분석 결과 등을 저장하는 말뭉치 등으로 나눌 수 있습니다.

말뭉치
- 말뭉치(corpus)란 언어를 연구하는 각 분야에서 필요로 하는 연구재료로서, 언어의 본질적인 모습을 총체적으로 드러내 보여 줄 수 있는 자료의 집합을 뜻하며, 컴퓨터 상에서 가공, 처리하며 분석할 수 있도록 저장된 자연언어의 자료입니다.

말뭉치의 유형
가공여부에 따른 분류
- 아무런 가공이 되어 있지 않은 원시 말뭉치 (raw corpus)
- 품사를 비롯한 각종 문법 정보를 붙인 주석 말뭉치 (annotated/tagged corpus)
- 고차원적인 분석을 한 분석 말뭉치 (analyzed corpus)


내용에 따른 분류
- 문어, 구어 말뭉치
- 일반 말뭉치, 균형 말뭉치

말뭉치의 예
Penn Tree Bank
PENN TREE BANK의 예

기계사전
- NLP시스템이 활용하는 사전을 의미하며, 형태소분석기, 구문분석기, 기계번역기 등의 다양한 언어분석시스템에 맡도록 구성됩니다. 기계사전은 사람이 읽는 사전과는 달리 컴퓨터가 빠른 속도로 접근하여 사용할 수 있도록 바이너리 형태로 저장됩니다. 대표적으로 사용되는 방식은 해시방식, 트라이방식, 이진트리 방식 등이 있습니다. 일반적으로 한국어와 같은


형태소사전
- 형태소 분석기를 위한 사전으로, 형태소, 품사, 연결관계 등의 정보가 포함되어 있습니다.


구문분석사전
- 격틀 (주어, 목적어, 용어관계)정보 등이 포함되어 구문분석 등에 활용됩니다.

시소러스사전
시소러스는 어휘 간의 관계정보를 조직화해 명시한 것으로 관계정보는 다음과 같습니다.

  • 상위개념(BT: border term)
  • 하위개념(NT: Narrower Term)
  • 용례나 동의어 (UF: Use For Or Synonymous)
  • 관계어 (RT: Related Term)
  • 대체어 (USE)


시소러스 사전의 예

Wordnet (http://wordnet.princeton.edu/)
- 워드넷은 미국 프린스톤 대학의 인지과학연구실에서 영어 어휘 (명사, 동사, 형용사, 부사)에 대하여 동의어, 반의어, 상위어/하위어 등에 대한 정보를 담고 있습니다.

Image:wordnet30.jpg
WORDNET 3.0 온라인 검색의 화면 (love 로 검색하였을 때)

  WORDNET 3.0 어휘의 수

POS Unique String Synsets Total Word-Sense Pairs
Noun 117,798 82,115 146,312
Verb 11,529 13,767 25,047
Adjective 21,479 18,156 30,002
Adverb 4,481 3,621 5,580
Totals 155,287 117,659 206,941



솔트룩스 시소러스
번역기의 의미애매성 해소 및 정보검색 질의 확장용으로 설계된 솔트룩스 시소러스는 2715개의 항목으로 약 60만 어휘로 구성되어 있습니다.

Image:treeview.jpg
시소러스 검색 화면의 예

역어사전
- 기계번역 시스템을 위한 사전으로 목적언어에 대한 역어 및 의미애매성해소를 위한 시소러스 등의 다양한 정보가 포함됩니다.

콘텐트 히스토리