의미기반 검색
Saltlux
목차 |
개요
종래의 정보 검색(Information Retrieval)이라 함은 이미 우리들과 친숙한 기술이며 학문입니다. 위키피디아의 정의를 살펴보면 문서내에 있는 내용, 또는 문서 그 자체를 찾는 학문으로 쉽게 우리가 사용하고 있는 구글, 야후 등은 이러한 문서 검색을 수행하는 소프트웨어를 서비스로 제공하는 형태라고 이해할 수 있습니다. 시맨틱 검색은 아직 개념 정립이 되어 가는 중이나, 현재의 키워드 검색을 뛰어 넘는 검색 경험을 제공하려고 하는 시도와 기술을 총칭합니다.
위키피디아의 사전적 정의를 살펴보면, 시맨틱 네트워크상의 정보(XML, RDF 등)를 바탕으로 기존의 검색 성능을 향상 시키려는 연구 분야로 예를 들어 구글의 PageRank 방식과 같은 맥락으로 검색어와 문서의 유사도를 계산할 때 언어의 의미적 정보를 사용하여 검색을 하는 방식이라 말합니다. 사실 시맨틱 검색이란 용어는 종래의 키워드 검색 기술을 발전시키기 위한 접근방식 즉, 전통적인 자연어처리(NLP) 기술로 대변되던 기술에서 시맨틱 웹(Semantic Web)과 온톨로지(Ontology)라는 개념이 등장하면서, 시맨틱 기술을 이용한 검색기술에 이르기까지 널리 이용되고 있는 중입니다. 그러므로, 현 시점에서의 시맨틱 검색(Semantic Search)은 검색 기술 분야의 새로운 패러다임이며, 다양한 기술과 서비스 모델로 해석되어 연구 발전되고 있는 영역이라 말할 수 있습니다.
시맨틱 검색 접근의 3가지 방식
시맨틱 검색이 등장과 함께 이슈화된 이유는 기존의 TF-IDF(Term Frequency Inverse Document Frequency)로 대변되는 키워드의 출현 빈도의 계산하여 문서와 검색어의 유사도로 검색하는 기술을 발전시켜 정보의 의미를 파악하여 어떻게 하면 좀 더 사용자의 검색의도에 맞는 결과를 줄 수 있을까라는 정보검색 분야에 공통의 고민을 해결하기 위함일 것입니다. 그렇다면, 현재까지 의미검색의 연구방향과 기술은 어떻게 발전되고 있는지 살펴보겠습니다.
시맨틱 웹 기반 검색
첫 번째로 시맨틱 웹(Semantic Web) 기술이 등장하면서 대두된 시맨틱 검색 분야는 크게 두 가지로 나뉘게 됩니다. 하나는 도메인 지식(개념, 관계)을 온톨로지 언어들(RDF/S, OWL)로 모델링하고 해당 문서들을 시맨틱 어노테이션하여 시맨틱 쿼리 언어인 SPARQL과 키워드 검색을 적절히 조합하여 시맨틱 태깅된 인스턴스를 찾는 방법과 실제 RDF/S나 OWL등 웹 상에 존재하는 시맨틱 태깅된 정보를 찾는 분야로 구분됩니다. 실제 전자의 경우도 의료분야, 디지털라이브러리 분야 등, 구체적인 도메인내의 버티컬(Vertical) 검색 영역으로 발전하거나 웹 영역을 대상하는 하는 경우 등 다양한 형태를 보입니다.
[그림 1 HTML의 시맨틱 태깅]
[그림 1]에서 보듯이 HTML로 표현되는 정보들은 각 시맨틱 언어들로 태그를 부착할 수 있습니다. 주요 시맨틱 언어들은 RDF, RDF/S, OWL, Mircoformats, RDFa 등을 나열할 수 있으며, W3C의 표준화된 기술입니다. 이러한 시맨틱 태깅은 HTML에 국한되지 않으며 관계형 데이터베이스(RDB)의 텍스트 정보, HTML 태그 등 다양한 데이터에 시맨틱 언어를 사용하여 사전 정의된 의미를 부착할 수 있는데, 사전 정의된 의미는 즉, 시맨틱 웹 기술 분야의 온톨로지를 뜻합니다. 온톨로지는 정보의 도메인과 서비스 형태에 따라 개별적으로 정의될 수 있으며, 많은 곳에서 참조되며 사용되는 Dublin Core, SIOC, SKOS, FOAF, ResumeRDF, DOAP 등과 같은 이미 정의된 온톨로지를 이용할 수도 있습니다.
[그림 2 시맨틱 쿼리 언어(SPAQL)을 통한 데이터 통합]
시맨틱 태깅을 통해서 생성된 정보들은 위 그림에서 보듯이 SPARQL(Simple Protocol and RDF Query Language) 같은 시맨틱 쿼리 언어를 통해서 질의가 가능합니다. SPARQL 역시 W3C의 표준 기술로 DQL, RDQL 의 발전된 단계로 RDF와 같은 그래프 구조의 데이터에 적합한 질의 언어입니다. 위 그림에서 설명한 내용은 이기종의 분산된 데이터를 시맨틱 태깅 과정과 시맨틱 자원 추출 과정을 통해서 레파지토리에 저장하고 이를 SPARQL을 통해서 여러 응용서비스에서 이용하게 하는 구조로 데이터 통합 관점에서 시맨틱 검색을 조명한 내용입니다.
[그림 3 KERIS 시맨틱 검색 by Saltlux]
위 그림은 솔트룩스의 한국교육학술정보원(KERIS)의 시맨틱 검색 구축 사례로써 오라클과 같은 RDB의 데이터를 시맨틱 태깅하고 F-Logic 규칙 기반 추론을 적용하여 질의/검색하는 구조로 시맨틱 검색의 첫 번째 접근방식에 해당하는 사례입니다.
[그림 4 Museum Finland by SECO]
위 그림은 핀란드의 SECO(Semantic Computing Research Group)에서 개발한 Museum Finland시스템으로서 박물관 데이터를 온톨로지 메타데이터 기반으로 지식베이스를 구축하고 검색하는 프로젝트입니다.
W3C에서 표준안으로 채택된 RDF와 OWL 등의 시맨틱 언어는 지식표현의 수준이 넓고 깊으며 기술논리(Description Logic) 수준의 추론이 가능하므로, 기계가독형 정보를 생산하기 적합합니다. 또한 분산된 이기종의 정보를 온톨로지와 시맨틱 쿼리 언어로 통합 검색할 수 있는 장점이 있습니다. 반면 기존의 정보를 자동으로 어노테이션하는데는 현재 기술수준으로 부담이 되는 부분이 존재하므로, 표현 수위를 적절히 조절할 필요가 있습니다. 현재 텍스트마이닝을 비롯하여 개체명인식(Named Entity Recognition) 기술등 정보추출 기술을 통한 시맨틱 어노테이션을 자동화하기 위한 연구가 지속되고 있으며 기존 문서 또는 생성될 문서에 시맨틱 태깅을 용이하게 하는 저작도구와 RDFa, Microformat 등의 기술은 본격적으로 도래할 시맨틱 검색에 활력을 불어넣을 것으로 판단됩니다.
후자인 경우로 웹 상의 시맨틱 자원들을 검색하는 접근방식은 전자의 방식과 유사할 수 있지만, 특정 도메인에 국한되지 않고 그 대상이 웹상의 RDF 등과 같은 시맨틱 태깅 정보를 검색하는 방식입니다.
[그림 5 SWSE by DERI]
대표적으로 위의 DERI 연구소에서 개발한 SWSE 검색엔진은 시맨틱 웹의 표준언어로 표현되는 정보(Object)를 객체 지향적인 관점(Object Oriented) 에서 검색하거나 네비게이션 해주는 검색엔진으로 최초 검색어로부터 정보를 객체단위로 찾아가는 인터페이스를 지원합니다. 이것은 웹상의 텍스트 문서를 찾는 개념이 아닌 객체(Object) 단위로 RDF 자원을 검색하는 것으로 범위를 넓혔습니다. SWSE는 Falcon, Swoogle, Waston, DBpedia의 데이터 셋을 대상으로 약 10억건의 RDF 문서를 URI(유니크한 URI부여)를 구분하여 수집하고 검색 서비스를 제공하고 있습니다. SWSE는 내부 쿼리엔진으로 W3C 표준 질의언어인 SPARQL을 사용하여 질의를 처리합니다.
[그림 6 SWOOGLE by UMBC]
위의 UMBC swoogle로는 웹 상에 존재하는 온톨로지 및 시맨틱 언어자원을 검색할 수 있습니다.
자연어처리 기술 기반 검색
두 번째로 자연어 처리를 통한 자연어 검색 분야는 초기에 문장형태의 자연어 검색문을 해석하고 의미를 찾아내 정답을 제시하는 QnA 형태의 검색시스템 모습을 보였습니다. 하지만, 복잡한 자연어형태의 질의 해석하는 것에서 벗어나 현재는 아래의 Powerset(http://www.powerset.com/) 과 같은 키워드 검색과 문장형 검색에 균형을 맞추어 검색 결과를 제공하는 추세로 변화하고 있습니다.
[그림 7 powerset.com의 검색]
Sensebot(http://www.sensebot.net)은 사용자의 검색어에 대한 결과 웹 페이지 리스트를 보여주는 방식이 아닌, 각 사이트 또는 문서의 요약(Summary)된 정보를 제공하는 검색엔진입니다. 검색 자체는 구글과 같은 검색엔진을 사용하며, 검색 결과를 사전에 텍스트 마이닝하여 요약정보를 만들어 놓고 이를 제공합니다. 이처럼 자연어 처리와 텍스트 마이닝을 이용한 언어학 관점에서의 의미 검색 분야도 지속적인 연구가 진행되고 있습니다.
[그림 8 SenseBot Search Engine]
비주얼라이제이션 기반 검색
세 번째로 비쥬얼한 기능을 동반한 브라우징을 통반한 검색 분야는 검색 색인어에 부가적인 정보 태깅을 통해서 관련된 정보를 보여주고, 검색 사용자가 정보를 손쉽게 찾아갈 수 있게 하는 방향으로 발전하고 있습니다. 이 영역은 별도 시맨틱 검색 영역이라기 보다는 web2.0 기술 등장과 함께 현재 검색분야의 트렌드며 많은 가능성을 갖고 있는 영역입니다. [그림 9]의 Owlim.com 은 한국어 개체명 추출과 키워드의 Co-occurrence를 이용하여 단어들 간의 연관관계를 자동 생성하여 이를 검색에 활용하는 서비스로 관계정보를 비쥬얼하게 표현하고 시간의 축으로 그 내용을 요약하여 검색할 수 있습니다.
[그림 9 owlim.com의 검색 by saltlux]
[그림 10 evri.com의 검색]
이렇게 시맨틱 검색의 목적을 달성하기 위한 다양한 학계와 기업의 접근방식을 살펴 보았습니다.
의미기반(Meaning/Semantic based) 검색이란, 말 그대로 넓은 영역과 기술을 포괄하는 단어로 구체적인 영역으로 한정하기는 힘들 것입니다. 본 장에서는 크게 시맨틱 기술을 이용한 온톨로지컬 검색 영역과 텍스트마이닝 영역, 그리고 키워드 검색을 발전시키는 영역으로 나누어 언급한 것입니다.
정리
기업 내를 비롯한 웹 영역에서 정보의 흐름은 검색기술이 많은 부분을 차지하고 있습니다. 매 시각 매초 수많은 검색 사이트에 검색어가 입력되고 검색 결과는 사용자에게 흘러갑니다. 검색 사용자들은 현재의 검색 기술에 익숙해져 있는 반면, 사용자 스스로 새로운 니즈를 표현하고 있습니다. 검색하고자 하는 의도에 맞는 결과, 부가적인 연관정보 제공, 보기 싶고 찾기 편한 결과, 검색 시간 단축, 의미의 중의성 해결 등등 사용자의 니즈 또한 다양합니다. 이러한 니즈에 대한 해결은 시맨틱 검색이란 기술 영역으로 연구가 발전되고 있습니다.
현재 시맨틱 검색 기술은 앞의 사례에서 살펴본 대로 온톨로지를 포함한 시맨틱 검색영역과 텍스트마이닝을 이용한 보다 발전적인 단계의 검색 기술 개발에 초점을 맞추고 있습니다. 이를 추상적인 시맨틱 검색 개발이란 용어로 한정하기 보다는 지식이 소통(Communicating Knowledge)되고 자연스런 정보 검색 행위 안에서 정보를 발견(Discovery)하여 궁극적으로 검색 사용자에게 보다 나은 결과를 제공하기 위한 연구 및 개발의 경향이라 볼 수 있습니다.
콘텐트 히스토리
[작성: 솔트룩스 시맨틱 그룹]









