언어자원
Saltlux
언어자원은 자연어 처리를 위한 기반이 되는 언어말뭉치, 기계사전 등을 총칭하여 부르는 용어입니다.
언어자원은 크게 NLP엔진에서 사용하는 사전과 이러한 사전을 만들거나 엔진의 분석 결과 등을 저장하는 말뭉치 등으로 나눌 수 있습니다.
말뭉치
- 말뭉치(corpus)란 언어를 연구하는 각 분야에서 필요로 하는 연구재료로서, 언어의 본질적인 모습을 총체적으로 드러내 보여 줄 수 있는 자료의 집합을 뜻하며, 컴퓨터 상에서 가공, 처리하며 분석할 수 있도록 저장된 자연언어의 자료입니다.
말뭉치의 유형
가공여부에 따른 분류
- 아무런 가공이 되어 있지 않은 원시 말뭉치 (raw corpus)
- 품사를 비롯한 각종 문법 정보를 붙인 주석 말뭉치 (annotated/tagged corpus)
- 고차원적인 분석을 한 분석 말뭉치 (analyzed corpus)
내용에 따른 분류
- 문어, 구어 말뭉치
- 일반 말뭉치, 균형 말뭉치
말뭉치의 예
PENN TREE BANK의 예
기계사전
- NLP시스템이 활용하는 사전을 의미하며, 형태소분석기, 구문분석기, 기계번역기 등의 다양한 언어분석시스템에 맡도록 구성됩니다. 기계사전은 사람이 읽는 사전과는 달리 컴퓨터가 빠른 속도로 접근하여 사용할 수 있도록 바이너리 형태로 저장됩니다. 대표적으로 사용되는 방식은 해시방식, 트라이방식, 이진트리 방식 등이 있습니다. 일반적으로 한국어와 같은
형태소사전
- 형태소 분석기를 위한 사전으로, 형태소, 품사, 연결관계 등의 정보가 포함되어 있습니다.
구문분석사전
- 격틀 (주어, 목적어, 용어관계)정보 등이 포함되어 구문분석 등에 활용됩니다.
시소러스사전
시소러스는 어휘 간의 관계정보를 조직화해 명시한 것으로 관계정보는 다음과 같습니다.
- 상위개념(BT: border term)
- 하위개념(NT: Narrower Term)
- 용례나 동의어 (UF: Use For Or Synonymous)
- 관계어 (RT: Related Term)
- 대체어 (USE)
시소러스 사전의 예
Wordnet (http://wordnet.princeton.edu/)
- 워드넷은 미국 프린스톤 대학의 인지과학연구실에서 영어 어휘 (명사, 동사, 형용사, 부사)에 대하여 동의어, 반의어, 상위어/하위어 등에 대한 정보를 담고 있습니다.
WORDNET 3.0 온라인 검색의 화면 (love 로 검색하였을 때)
WORDNET 3.0 어휘의 수
| POS | Unique String | Synsets | Total Word-Sense Pairs |
| Noun | 117,798 | 82,115 | 146,312 |
| Verb | 11,529 | 13,767 | 25,047 |
| Adjective | 21,479 | 18,156 | 30,002 |
| Adverb | 4,481 | 3,621 | 5,580 |
| Totals | 155,287 | 117,659 | 206,941 |
솔트룩스 시소러스
번역기의 의미애매성 해소 및 정보검색 질의 확장용으로 설계된 솔트룩스 시소러스는 2715개의 항목으로 약 60만 어휘로 구성되어 있습니다.
시소러스 검색 화면의 예
역어사전
- 기계번역 시스템을 위한 사전으로 목적언어에 대한 역어 및 의미애매성해소를 위한 시소러스 등의 다양한 정보가 포함됩니다.









