문서요약(Document Summarization)

Saltlux

Jump to: navigation, 찾기

1.문서분류의 정의
문서 요약 (혹은 문서 자동 요약: Automatic Document Summarization)은 컴퓨터 프로그램을 이용해 문서의 축약 버전을 생성하는 작업입니다.
문서 요약 과정을 통한 생산물은 원래 문서의 중요한 부분을 담고 있어야만 합니다.
정보의 홍수로 인하여 일관성(coherence)있고 정확한 요약문의 필요성은 높아져가고 있습니다. 이러한 문서 요약 기술의 활용은 구글과 값은 검색 엔진에서 볼 수 있습니다.

2. 문서 요약 기법
크게 나누어 볼 때 두 가지 접근 방법이 있습니다. 추출 요약(extraction)과 생성 요약 (abstraction)입니다.
추출 요약은 시스템이 판단할 때 중요하다 생각하는 문서의 일부분 (중요 구/문장/절)을 선택하여 제공하는 것입니다.
이에 비해 생성 요약은 원본 문서의 내용을 더 간결하게 바꿔 쓰는(paraphrasing) 작업이 추가됩니다.
즉 생성 요약은 추출 요약보다 원문을 더 강력하게 축약한다고 볼 수 있습니다. 그러나 이러한 작업은 자연어 생성 기술을 필요로 하고, 이는 아직은 성숙되지 않은 기술 분야라는 문제가 있습니다.
Image:Summary.jpg


3. 활용
도서관에 책을 찾을 때, 우리는 책의 서지 내용을 참고합니다. 서지에는 책에 수록되어있는 핵심내용과 중요문으로 구성되어 있어서, 책의 내용을 대략적으로 파악할 수 있습니다.
텍스트 마이닝 기법을 이용한 문서요약기능도 이와 마찬가지 입니다.
문서요약은 전자도서관, KMS, 서적관련 업무 등, 다양한 분야에 적용해서 활용할 수 있습니다.

4. 평가
현재의 가장 큰 이슈는 평가의 문제입니다. ‘좋은’ 요약이라는 인간의 판단은 매우 주관적이고 편차가 크므로, 이를 자동화하기는 매우 어려운 것이 현실입니다.
물론 수작업으로 평가할 수 있겠으나, 이는 시간과 노동집약적일 뿐 아니라, 평가하는 인력이 요약문뿐만이 아닌 원문 또한 읽어야 한다는 문제가 있습니다.
다른 이슈는 일관성(coherence)과 문서 내용을 충분히 반영하는 지 여부(coverage)입니다.

[작성 : 솔트룩스 프로젝트그룹 정재훈]