문서요약(Document Summarization)

Saltlux

Jump to: navigation, 찾기

목차

개요

문서 요약 (혹은 문서 자동 요약: Automatic Document Summarization)은 컴퓨터 프로그램을 이용해서 문서가 담고 있는 핵심 의미를 유지하면서 문장의 길이를 효과적으로 줄여 문서의 축약 버전을 생성하는 작업입니다. 문서 요약 과정을 통한 생산물은 원래 문서의 중요한 부분을 담고 있어야만 합니다. 정보의 홍수로 인하여 일관성 (Coherence)있고 정확한 요약문의 필요성은 높아져가고 있습니다. 이러한 문서 요약 기술의 활용은 구글과 같은 검색 엔진에서 볼 수 있으며, 하기 그림과 같이 일관성 있는 요약 기술은 문장의 길이, 문법, 스타일 및 문장 가중치 등을 고려해야 유용한 문서 요약을 만들어 낼 수 있습니다.

소개

크게 나누어 볼 때 두 가지 접근 방법이 있습니다. 추출 요약 (Extraction)과 생성 요약 (Abstraction)입니다. 추출 요약은 시스템이 판단할 때 중요하다 생각하는 문서의 일부분 (중요 구/문장/절)을 선택하여 제공하는 것입니다. 또 이 추출요약은 언어자원을 사용하는 담화수준 (Discourse-Level) 접근방법과 통계적인 방법을 이용하는 표층수준 (Surface-Level) 접근 방법으로 나눌 수 있습니다.

담화수준 접근방법은 사람의 문서 요약과정과 근접하며 상대적으로 높은 성능을 보입니다. 그러나 언어자원 구축을 위해 많은 시간과 비용이 소모되고, 유지보수 또한 쉽지 않다는 단점이 있습니다. 이에 비해 표층수준 접근방법은 상대적으로 낮은 성능과 특정 자질이 부족할 경우 시스템 구현에 어려운 단점이 있으나 보다 영역에 종속되지 않은 포괄적인 시스템이 구축이 가능합니다.

이에 비해 생성 요약은 원본 문서의 내용을 더 간결하게 바꿔 쓰는 (Paraphrasing) 작업이 추가됩니다. 즉, 생성 요약은 추출 요약보다 원문을 더 강력하게 축약한다고 볼 수 있습니다. 그러나 이러한 작업은 자연어 생성 기술을 필요로 하고, 이는 아직은 성숙되지 않은 기술 분야라는 문제가 있습니다. 대부분의 자동 시스템에서 추출 요약은 문장 또는 여러 문서에서 중요 단어, 어절, 구문, 요점들을 파악하기 위해서 언어학적이고 통계적인 방법을 사용합니다. 그 후, 각 문장은 중요단어나 구의 존재비율 값을 할당 받습니다.

최근에는 하기와 같은 기계학습 기술이 문서요약에 성공적으로 적용된 사례도 찾아 볼 수 있습니다. 

  • Binary Classfiers
  • Markov Models
  • Bayesian Methods
  • Heuristic methods to determine feature weights
  • Graph-based methods

Image:Summary.jpg

사례 및 활용

도서관에 책을 찾을 때, 우리는 책의 서지 내용을 참고합니다. 서지에는 책에 수록되어있는 핵심내용과 중요 문으로 구성되어 있어서, 책의 내용을 대략적으로 파악할 수 있습니다. 텍스트 마이닝 기법을 이용한 문서요약기능도 이와 마찬가지 입니다. 문서요약은 전자도서관, KMS, 서적관련 업무 등, 다양한 분야에 적용해서 활용할 수 있습니다. 또한, 현재의 가장 큰 문서 요약의 이슈는 평가문제입니다. ‘좋은’ 요약이라는 인간의 판단은 매우 주관적이고 편차가 크므로, 이를 자동화하기는 매우 어려운 것이 현실입니다. 물론 수작업으로 평가할 수 있겠으나, 이는 시간과 노동집약적일 뿐 아니라, 평가하는 인력이 요약문뿐만이 아닌 원문 또한 읽어야 한다는 문제가 있습니다. 그리고 또 다른 이슈는 일관성 (Coherence)과 문서 내용을 충분히 반영하는 지의 여부 (Coverage)입니다.

참조문헌

1) http://en.wikipedia.org/wiki/Automatic_summarization
2) Krysta M. Svore, Lucy Vanderwende, Christopher J. C. Burges, “Enhancing Single-document Summarization by Combining RankNet and Third-party Sources”, Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pp 448~457, Prague, June 2007
3) K. Sparck Jones, “Automatic Summarizing: Factors and Directions”, Advances in Automatic Text Summarization, The MIT Press, 1999.
4) 송원문, 김영진, 김은주, 김명원, “동적 연결 그래프를 이용한 자동 문서 요약 시스템”, 정보과학회 논문지, 소프트웨어 및 응용 제36권 제1호, 2009년 1월

콘텐트 히스토리