특성추출(Feature Extraction)

Saltlux

Jump to: navigation, 찾기

특성추출(Feature Extraction)
1. 특성추출의 정의

데이터마이닝에서의 특성 추출(Feature Extraction)은 알고리즘 적용 대상인 입력 데이터가 처리하기에 너무 거대하고 데이터 내부에도 중복이 매우 심할 때, (즉 데이터는 많지만, 실제 ‘정보’는 많지 않을 경우) 해당 입력 데이터를 특성들의 집합의 형태로 요약된 표현으로 변환하는 것입니다.
텍스트마이닝에 있어 입력 데이터인 문서/텍스트에 대한 특성 추출 결과는 명사 위주의 키워드를 특성으로 보고, 그들의 벡터 형태로 표현됩니다.
이러한 모델은 각 키워드간의 연관 관계를 고려하지 않은 형태의 추상화이고, 보통 “Bag of Words” 모델이라고 부릅니다.
2. Bag of Words 모델
이는 자연어 처리 및 정보 검색에서 사용되는 텍스트 간략화/추상화를 위한 가정입니다. 여기에서 텍스트는 순서가 없는 단어의 집합으로 가정됩니다. (문법 및 단어 순서는 무시됩니다.)
이 모델을 통한 특성 추출 결과는 단어 별로 빈도 등의 가중치를 적용한 Word-Weight의 벡터입니다. 이것이 텍스트마이닝에서 흔히 이야기하는 ‘특성 벡터’입니다.


image:semantic_technology_03_5_1.jpg 

3.특성추출의 활용

추출한 특성은 특성 별로 가중치가 적용됩니다. 가중치가 높은 특성일 수록 문서의 특성을 잘 나타냅니다.
[IN2] DOR (Document Object Retrival) 에 텍스트 마이닝 기술을 활용해 각 문서의 특성을 추출하고 색인하여, 검색과 연동 했을 때,
- 각 문서의 핵심키워드 추출 / 검색 가능 (특성키워드 검색)
- 가중치 적용 검색 : 검색어 별로 가중치를 다르게 하여 검색하므로써 보다 높은 정확율을 구현합니다.
- 유사문서 검색
- 요약문, 중요문 추출.
위와 같은 기능을 수행할 수 있습니다.

또, 텍스트 마이닝으로 추출된 특성으로 해당 문서 전체의 성격과 특성을 구분 지을 수 있습니다. 각 문서의 특성이 정해지면, 비슷한 문서끼리의 군집( Clustering )과 분류( Classification )가 가능해 집니다.

[작성 : 솔트룩스 프로젝트그룹 정재훈]