자동분류(Document Classification)

Saltlux

Jump to: navigation, 찾기

1. 문서분류의 정의

문서 분류/범주화 (Document Classification/categorization)은 문서를 그 내용을 기준으로 하여 하나 혹은 그 이상의 범주(category)에 할당하는 것입니다.
문서 분류 작업은 두 종류로 나누어 생각해 볼 수 있습니다.
지도적(Supervised) 문서 분류는 샘플 문서들에 대한 정확한 분류 결과를 외부의 정보로서 제공되어 이를 참고할 수 있고, 비지도적(Unsupervised) 문서 분류의 경우는 외부의 정보를 참조하지 않고 수행해야만 합니다.
물론 반지도적(Semi-supervised) 문서 분류가 있을 수 있습니다. 이 경우에는 문서의 일부분에 대하여 외부 메커니즘에 의해 분류되어 있을 수 있습니다. 기본적으로는 문서 분류를 정하고(Categorization) 각각의 분류에 맞는 샘플 문서들을 다양한  가중치를 적용 해서 학습 시켜 최적의 분류 조건은 찾아 낼수 있습니다.
학습을 통해서 최적의 분류 조건에 대한 특성을 정하여 이 후 새로운 문서에 대하여 그 문서의 특성을 추출한 후 자동으로 정해진 분류에 맞게 분류를 하는 기능입니다

2. 문서 분류 기법

문서 분류에 활용되는 각종 기법들은 다음과 같습니다.
  • Naive Bayes Classifier
  • Tf-idf
  • Latent Semantic Indexing
  • Support Vector Machines
  • Artificial Neural Network
  • kNN
  • decision trees (such as ID3)
  • Concept Mining


그리고 이러한 접근 방법들은 자연어 처리에 기반을 두고 있습니다.

3. 응용가장 간단하게 이를 적용해 볼 수 있는 사례는 스팸 필터링입니다. 메일 문서가 스팸인지/아닌지에 대한 이항(binary) 분류를 적용하여 접근할 수 있습니다.

4. 적용 사례는
 케리스 , KORTA , LG 전자 가 있습니다.


[작성: 솔트룩스 프로젝트 그룹 이윤성]