자동군집(Document Clustering)
Saltlux
목차 |
개요
문서 군집화 (Document Clustering) 혹은 텍스트 군집화 (Text Clustering)는 정보 추출 (Information Retrieval), 자연어 처리 (Natural Language Processing), 기계 학습 (Machine Learning) 분야에서 개념을 빌려온 데이터 군집화 (Data Clustering)와 깊은 관계가 있습니다.
데이터 군집화는 데이터들을 각각 다른 그룹으로 분류하여, 각 그룹 내의 데이터들이 유사성을 가질 수 있도록, 즉 공통적인 특성을 공유할 수 있도록 하는 기법입니다. 자동군집과 자동분류와는 하기 그림과 같은 차이가 있으며, 군집화는 미지의 데이터들이 비슷한 특성을 바탕으로 추론이 되는 기법입니다. 이를 위한 데이터 간 근접 정도를 거리 척도 (Distance measure)를 이용하여 구하게 되며, 해당 군집으로 각 검색 결과들이 어떤 분류를 가지고 있는지 동향 파악이 가능하게 됩니다.
문서 군집화는 비지도적 문서 구조화, 자동 토픽 추출, 고속 정보 검색 혹은 필터링을 구현하는 데 사용됩니다.
소개
특성추출 (Feature Extraction)에 의한 문서 각각의 키워드에서 가중치 특성을 추출하고, 이 특성의 유사도를 이용하여 비슷한 것끼리 군집을 합니다. 웹 검색 엔진은 가끔 수천 페이지의 검색 결과를 돌려줄 때가 있고, 이로 인해 사용자는 적합한 정보를 식별하거나 살펴보기 어렵게 됩니다. 이럴 때 군집 기술을 적용해 자동적으로 검색 된 문서들을 의미 있는 범주들로 묶어서 사용자에게 편의를 제공할 수 있습니다.
구분하려고 하는 각 분류에 대한 아무런 지식이 없는 상태에서 분류하는 것이므로 자율학습 (Unsupervised Learning)에 해당합니다. 즉 Sample들에 대한 지식 없이 유사도 (Similarity)에 근거하여 클러스터 (Cluster)를 구분합니다. 패턴 공간에 주어진 유한 개의 패턴들이 서로 가깝게 모여서 무리를 이루고 있는 패턴 집합을 군집 (Cluster) 이라 하고 무리를 지워나가는 처리 과정을 클러스터링 (Clustering)이라 합니다.
클러스터링은 하나의 데이터를 여러 개의 부분집합으로 분할하는 것을 의미하며, 그때 각 부분집합에 있는 데이터는 몇 가지의 공통된 특징을 공유하는데, 그것은 몇 가지 거리 측정법을 사용하여 유사도 (Similarity or Proximity)를 계산함으로써 이루어집니다. 최초 검색된 결과가 리턴 되면 검색된 결과를 통해서 각 문서에 특성 값들에 의한 벡터 값이 추출 공간상에 놓여 지게 됩니다. 각 문서들은 공간상에 벡터 값들은 위치가 정해지게 되고 각 위치들은 서로 군집을 이루게 됩니다. 공간상에서 여러 각 문서들이 여러 군집이 나누어 지면 그 군집에 대한 대표 키워드가 추출이 되게 됩니다. 만약 각 추출된 하나의 군집 내에서 또 다른 여러 개의 군집으로 나누어 질 경우 그 군집은 또 다시 여러 개의 군집을 이루어서 각 군집을 대표하는 대표 키워드를 추출 사용자에게 보여 지게 됩니다.
사례 및 활용
자동군집이 사용된 웹 사이트의 사례로는 clusty.com 과 한국 교육학술 정보원의 주제별 보기 기능 등이 있습니다.
<clusty.com>
< KERIS 주제별 보기 >
참고 자료
1) http://en.wikipedia.org/wiki/Document_clustering
2) Nicholas O. Andrews, Edward A. Fox, “Recent Developments in Document Clustering”, Virginia Tech, 2007









