DOR

Saltlux

Jump to: navigation, 찾기

[IN2]DOR 개요
[IN2] DOR은 자체 기술로 개발한 고품질 형태소 분석기를 포함하고 있으며, 기존 검색엔진이 제공하는 키워드 검색 뿐 아니라, 문서 내 표, 이미지와 같은 구조적 정보를 이용한 검색이 가능한 통합 검색엔진입니다.
[IN2]DOR은 [IN2] TMS(텍스트마이닝 시스템)과 손쉽게 연동을 지원하여, 조직 내외부의 비정형 지식 자산을 활용하기 위한 획기적인 기능과 안정성 그리고 높은 확장성과 가용성을 제공함으로써 고객의 실질적 ROI 향상을 목표로 하고 있습니다.

  • 차세대 지식 검색 시스템 (비정형 지식 - 표/그래프/이미지 등 검색)
  • 키워드 검색과 전문검색(FTR : Full Text Retrieval) 기능의 장점만을 결합
  • 대용량 검색과 대규모 동시 사용자를 위한 고성능 분산 인덱싱, 분산 검색 기능 지원
  • 다양한 검색식 지원과 Auto-Navigation & Highlighting, 검색 문장 미리 보기 기능 제공


[IN2]DOR 주요 특징
image:semantic_product_01_2_01.jpg
1. 탁월한 검색 품질

  • 고품위 언어분석 : 띄어쓰기 보정, 고유명사 추정, 철자오류 교정, 복합명사 분해 기능이 포함된 고성능 형태소 분석 시스템이 적용
  • 하이브리드 검색 알고리즘 채용 : Keyword 검색과 FTR 검색의 장점만을 채용, 높은 검색 정확률과 전문(全文) 검색 기능 동시 확보. 알짜검색 기능 제공
  • 다양한 연산식 : and, or, not, near, fuzzy 등 다양한 연산자 제공, 여러 문자 검색 ‘*’ , 한 문자 검색 ‘?’ 기능 제공, 다중 괄호 검색식 지원
  • 유의어, 시소러스 확장: 유의어, 시소러스 사전을 사용하여 사용자 질의어 확장 기능을 통해 검색 대상을 효과적으로 확장하여 숨겨져 있는 정보의 검색이 가능


2. 차별화된 개체 검색

  • 문서 개체 분석 인덱싱 : 복합문서에서 표, 이미지, 그래프, 등 문서 내에 내장 개체들을 분석/검색
  • 검색 문장 미리 보기 : 검색된 문서를 내려 받기 전에 미리 확인해 볼 수 있음. 텍스트만 추출된 전문 미리 보기 기능 포함
  • 검색 위치 자동 이동 및 하일라이팅 : 검색 문장 위치로 자동 이동 (Auto-Navigation) 및 검색된 키워드와 개체(그림, 그래프, 표, 동영상 등) 하일라이팅 기능 제공


3. 고기능 대용량 통합 검색

  • 통합 정보 검색 : 인덱스 에이전트를 통해 R-DB, Domino DB, Web, File 형태의 다양한 정보원으로부터 정보를 자동 수집, 인덱싱하고 이를 통합 검색하는 기능을 제공함으로, 분산되어 있는 지식 정보를 효과적으로 통합하고 접근이 가능
  • 대용량 분산처리 지원 : 방대한 정보의 인덱싱을 위해 효과적 분산 인덱싱과 분산 검색 기능을 제공하고 있으며, XML기반의 meta data 검색 모듈을 통해 다양한 검색 범위 설정과 필드 별 가중치 적용이 가능


4. 자연어 다국어 검색

  • 자연어 질의 분석 : 키워드 중심의 불리언(boolean) 질의 뿐만 아니라, 의미 분석 수준의 온전한 자연어 검색 기능을 제공하며 특히, "해운대에서 가장 싸고, 가까운 중국집은 ?“과 같이 자연어 질의를 통한 사용자 지정 복합 랭킹 지원
  • 추천 질의어 제공 : 자연어 질의는 종종 의미 중의성과 띄어쓰기 및 철자 오류 등을 포함. IN2]의 질의 분석 시스템은 중의성 있는 다수개의 분석 결과를 우선순위별로 제시하거나, 사용자에게 추천 질의어를 제공하는 기능 제공
  • 다양한 적용 분야 : 지역정보 검색, 전자상거래, 맞춤형 지식 검색 뿐 아니라 홈 네트워크, 텔레메틱스 등 유비쿼터스 컴퓨팅 환경의 다양한 분야에 적용 가능
  • 다국어 확장 : 유니코드와 다국어 고정밀 형태소 분석기에 기반하고 있습니다. 또한, 하나의 언어로 검색 요청을 해도 "CAR", "自動車", 다른 언어로 되어 있는 정보를 검색 출력하는 교차어 검색 기능을 제공. (예 : "자동차“ "じどうしゃ“)
  • 다국어 자동 번역 연동 : 수집, 검색된 다국어 정보에 대해서, 당사에서 개발한 TransWiz와 연동함으로 자동으로 번역하는 기능 추가 가능


플랫폼
: Intel x86 : MS Windows 2000/2003Server, Linux
: SUN SPARC : Solaris 8(SUN OS 5.8)
: IBM POWPC : AIX 4.3
: HP PA-RISC: HP-UX 11.x
: Intel Itanium: HP-UX 11i

History
2003년 08월 신소프트웨어 대상
2007년 09월 GS(Good Software)인증


[IN2]DOR 시스템 구성도



[IN2] Indexer/Searcher

[IN2] Indexer 서버는 인덱스(역파일)의 생성과 문서의 생성/삭제 등의 인덱스와 관련된 기능을 담당합니다.

[IN2] Searcher 서버는 인덱스(역파일)에서 어플리케이션에서 요청한 질의를 분석하여 검색을 수행하고, 결과를 전달합니다.

[IN2]Indexe/Searcher는 동일 Process내에서 운영이 가능하며, 시스템 구성에 따라, 인덱스(역파일)을 공유하여 분산된 환경에서도 동작이 가능합니다.

[IN2] TMSTagger
검색 대상 문서에 대해 검색키워드를 추출을 합니다. 자체 개발한 고성능 형태소 분석기를 포함하고 있습니다.


[IN2] IndexAgent
SCRIPT(XML)을 해석 하여, 데이터베이스에서 데이터를 가져와서 [IN2] Indexer에 색인을 요청합니다.

  • Scheduler가 내장되어 있어 색인 주기를 조정이 가능합니다.
  • JDBC를 지원하는 모든 데이터베이스에 사용이 가능합니다.

     ex) ORACLE, MS-SQL, MYSQL, DB2 등

  • DOMINO 데이터베이스(Notes)의 경우 DIIOP 프로토콜을 사용이 가능합니다.


[IN2] Navigator
문서를 서버에서 내려 받아, 해당 검색어가 존재하는 위치로 이동을 하여 줍니다.

  • ActiveX로 제공이 됩니다.
  • URL을 지정하면 HTTP 통신을 사용해서 문서를 내려 받습니다.


[IN2] DICSearcher
데이터베이스에서 단어목록을 읽고, 어플리케이션 요청에 따라 자동완성 단어 검색, 동의어 단어 검색, 텍스트에 용어에 대한 하이퍼링크 추가 작업을 수행합니다. 

  • 데이터베이스에서 읽어 들일 방법은 SCRIPT(XML)로 지정을 합니다.
  • Scheduler가 내장되어 있어 주기적으로 데이터를 다시 읽어 들입니다.


[IN2] ServerAgent
관리서버([IN2] Admin)의 요청에 따라 [IN2] 서버들을 제어하는 역할을 합니다.

  • 서버들 시작 또는 중지 등의 제어를 합니다.
  • 서버들 로그와 시스템 자원(메모리, 디스크, CPU)을 모니터링 합니다.
  • 데이터베이스에서 사용자 사전과 불용어 사전 등을 내려 받아 [IN2] TMSTagger가 사용하는 사전 데이터를 교체하는 역할을 합니다.


☞ [IN2]Admin은 [IN2]서버들을 관리하기 위한 웹 베이스의 관리도구입니다.
☞ [IN2]Admin을 사용하지 않는 경우 [IN2] ServerAgent는 동작 시킬 필요가 없습니다.
☞ 각 시스템에 하나만 운영을 합니다.

[IN2] CAMEO
질의어 통계, 색인 통계, 로그 이벤트 등을 하나의 서버에서 관리를 하여 줍니다.

  • 주기적으로 검색어 통계 연산을 수행합니다.
  • 각 시스템에 있는 로그들을 [IN2]ServerAgent를 통해 수집하여, 데이터베이스에 통합하여 기록하여 둡니다.


☞ [IN2] CAMEO는 MySQL 5.0이상을 기본 데이터베이스로 사용합니다.