특성추출(Feature Extraction)
Saltlux
목차 |
개요
데이터마이닝에서의 특성 추출 (Feature Extraction)은 알고리즘 적용 대상인 입력 데이터가 처리하기에 너무 거대하고 데이터 내부에도 중복이 매우 심할 때, (즉 데이터는 많지만, 실제 ‘정보’는 많지 않을 경우) 해당 입력 데이터를 특성들의 집합의 형태로 변환하는 것입니다. 특성 추출은 많은 양의 데이터를 정확하게 기술하기 필요한 리소스의 양을 단순화 하는 작업을 포함하고 있습니다. 복잡한 데이터를 분석할 때 큰 문제점중의 하나는 변수의 양에 있습니다. 일반적으로 많은 양의 변수 분석은 높은 메모리와 계산을 필요로 합니다.
소개
텍스트마이닝에 있어 입력 데이터인 문서 및 텍스트에 대한 특성 추출 결과는 명사 위주의 키워드를 특성으로 보고, 그들의 벡터 형태로 표현됩니다. 이러한 모델은 각 키워드간의 연관 관계를 고려하지 않은 형태의 추상화이고, 보통 ‘bag-of-words (BOW)’ 모델이라고 부릅니다. 이는 자연어 처리 및 정보 검색에서 사용되는 텍스트 간략화 및 추상화를 위한 가정입니다.
여기에서 텍스트는 순서가 없는 단어의 집합으로 가정됩니다. (문법 및 단어 순서는 무시됩니다.) 조금 자세히 설명하면 문서모음 D에서 적어도 한번씩 나타나는 모든 단어들을 사전 W라 가정하면, 문서 dn의 ‘bag-of-words’는 벡터의 가중치 (w1n, …, w|W|n)로 표현됩니다. 가장 단순한 케이스의 경우 그 가중치는 win ∈ {0, 1} 이며 문서상의 특별한 단어의 있고 없음을 나타냅니다. 일반적인 경우 win 는 n번째의 문서에서 i번째의 단어의 횟수를 의미하며 빈도수를 나타냅니다. 일반화는 문서 길이의 차이점을 확인해 0에서 1사이의 빈도수로 나타낼 수 있습니다.
문서 셋 D에서 BOW 표현으로의 변형은 가로는 문서 벡터 그리고 세로는 단어들로 이루어진 매트릭스로 볼 수 있습니다. 이러한 개념은 매트릭스 문서 기술이 군집과 다차원을 줄일 수 있는 일에 적용이 됩니다. 그리고 문서들이 벡터로 표현되기 때문에 예전의 거리 유사도 측정 방법과 비교 될 수 있습니다. 이 모델을 통한 특성 추출 결과는 단어 별로 빈도 등의 가중치를 적용한 Word-Weight의 벡터입니다. 이것이 텍스트마이닝에서 흔히 이야기하는 ‘특성 벡터’입니다.
사례 및 활용
추출한 특성은 특성 별로 가중치가 적용됩니다. 가중치가 높은 특성일 수록 문서의 특성을 잘 나타냅니다. [IN2] DOR (Document Object Retrieval) 에 텍스트 마이닝 기술을 활용해 각 문서의 특성을 추출하고 색인하여, 검색과 연동 했을 때, 다음과 같은 기능을 수행할 수 있습니다.
- 각 문서의 핵심키워드 추출 및 검색 가능 (특성키워드 검색)
- 가중치 적용 검색: 검색어 별로 가중치를 다르게 하여 검색 함으로써 보다 높은 정확률 달성
- 유사문서 검색
- 요약문, 중요문 추출
또한, 텍스트 마이닝으로 추출된 특성으로 해당 문서 전체의 성격과 특성을 구분 지을 수 있으며, 각 문서의 특성이 정해지면 비슷한 문서끼리의 군집 (Clustering)과 분류 (Classification)가 가능해 집니다.
참고 자료
1) Text Mining Approaches and Applications, Milos Radovanovic & Mirjana Ivanovic, Novi Sad J. Math, Vol. 38, No. 3, 2008, 227-234
2) Introducing Text Mining, Mohamed M. El Wakil, Cairo University
3) Text Mining with Information Extraction, Raymond J. Mooney and Un Yong Nahm, Multilinguialism and Electronic Language Management: Proceedings of the 4th Internation MIDP Colloquium, September 2003.
4) 특허분석의 텍스트 마이닝 기법, 고광국, 한국 과학기술 정보연구원
5) http://en.wikipedia.org/wiki/Feature_extraction









