The Large Knowledge Collider
Saltlux
Large Knowledge Collider(LarKC, EU FP7)
개요
현재의 시맨틱 웹 추론 시스템은 이동기기로부터 나오는 수백만 데이터를 분석하거나, 테라바이트의 과학연구용 데이터, 수천명의 지식근로자가 기업에서 관리하는 데이터를 처리와 같은 규모면에서의 시맨틱 웹 분야 응용프로그램의 처리 요구사항을 충족시키지 못하고 있습니다. 이에 대해 초대용량 지식 가속기인 Large Knowledge Collider 를 구축할 계획을 하게 되었습니다.
현재 규모면에서 처리가능한 수준을 넘어서는 시맨틱 컴퓨팅을 위한 통합 플랫폼을 구축하여 이동통신 서비스, 바이오-의료연구, 의용약품 발견 분야와 같은 상이한 정보 원천이 대용량으로 처리하게 합니다.
LarKC 통합 플랫폼은 데이터베이스, 기계학습, 인지과학, 시맨틱 웹 등등의 다양한 분야에 대해 다양한 기술들을 사용해 볼 수 있는 플러그인 형태의 아키텍처입니다.
플랫폼은 컴퓨터 클러스터을 기반으로 구축되며 컨소시엄 이외의 연구원들과 실제 사용자들이 자신의 실험들과 응용 프로그램들을 적절한 플러그인 컴포넌트를 추가하여 활용해 볼 수 있는 환경을 제공합니다.
이런 플랫폼을 개발하는 LarKC 프로젝트는 EU FP7 연구 프로젝트의 하나입니다.
EU FP7
7th Framework Programme for Research and Technological Development의 약자로 유럽 최대의 연구 기금으로 운영되고 있습니다. 2007년부터 2013년까지 7년간 투입되는 연구 기금의 총액은 5억유로(한화 약 100조원)의 규모입니다. 참여는 유럽국가에 한정되어 있지 않으며 세계 모든 국가에서 누구나 유럽경제와 기술의 발전에 도움이 된다고 판단이 되면 참여가 허용이 됩니다. “Call for Proposal” 형태로 참가 신청을 받고 까다로운 심사에 의해 통과될 경우 공동 연구활동에 참여하고 기금 지원을 받게 됩니다.
[EU FP7 로고]
[EU FP7 예산]
LarKC 참가기관 예산규모
3개 대륙 12개국의 13개 참가기관이 LarKC 프로젝트에 참여하고 있습니다. 전체 1000만 유로 예산중 700만 유로를 EU에서 제공하고 있습니다.
연구과제 기간
2008년 4월 1일부터 시작하여 2011년 09월 30일 까지 3년 6개월 간 M01부터 M42 나누어 각 WorkPackage에 참여한 기관들이 연구활동을 합니다.
연구과제 책임자
주요 연구과제 책임자는 디터 펜젤과 프랭크 반 하멜론 교수이며 모두 시맨틱 웹 기술관련 세계적인 명성을 얻고 있습니다.
Dieter Fensel
디터 펜젤 교수는 University of Karlsruhe (AIFB), University of Amsterdam (UvA), Vrije Universiteit Amsterdam (VUA)의 교수를 역임하였으며, 2002년에 Institute for Computer Science, University Innsbruck의 소장을 역임하였습니다.2003년에 Digital Enterprise Research Institute (DERI) 를 창설하고 Scientific Director로 2006년까지 활동하였으며 특히 2006년에는 Digital Enterprise Research Institute (DERI) Innsbruck의 이사를 역임하였습니다.
약 200 여 편의 논문을 저술하였으며, 200 여 군데 이상의 워크샵과 컨퍼런스를 조직하였고 현재 29 개의 국제 프로젝트와 18개의 국내 프로젝트에 참여하고 있으며, 50 여명의 석박사를 배출하였습니다.
Frank von hamelen
University of Edinburgh (Department of AI) 에서 meta-level reasoning으로 학위를 받았으며, OWL 언어를 디자인한 사람 중의 한 명입니다. 또한 Sesame RDF storage와 검색 엔진의 개발자이기도 합니다. 100 여편 이상의 논문을 저술했으며, 많은 논문과 저술에 인용되어 Hirsch index로 랭킹 35위에 있습니다. 5권의 책을 저술했으며 그 중의 한 권인 “A Semantic Web Primer”는 한국어, 중국어, 스페인어, 일어 등으로도 번역되어 많은 대학의 교재로 사용되고 있습니다.
LarKC 주요 목표
LarKC 연구과제는 다음과 같은 3가지 주요 목표를 가지고 있습니다.
1. 대용량 시맨틱 컴퓨팅이 가능한 플러그인 기반의 통합 플랫폼 설계
2. 대용량 시맨틱 컴퓨팅기반 플러그인 통합 플랫폼에 대한 참고대상이 될 수 있는 플랫폼 구현
3. 다양한 분야에서 필요로 하는 기능들을 바탕으로 만들어진 컴포넌트들의 매끄러운 통합이 가능한 개념적 통합의 달성
4. 도시환경에서의 데이터 통합을 바탕으로 한 서비스, 암연구 분야에 대한 과학 기록물의 메타 분석 서비스, 약물 발견 처리 과정에서 데이터 분석 및 통합 서비스를 제공할 수 있는 응용분야를 통해 그 효과를 알릴 수 있는 구축 사례
연구개발 내용
LarKC는 11개의 연구범위를 가지고 있으며 그 구조는 다음과 같습니다.
[연구활동 내용과 담당 기관]
[LarKC 추론 처리 과정 및 플랫폼 아키텍쳐]
Work Package(WP)
워크패키지는 LarKC 프로젝트 안에 있는 서브 프로젝트로서 LarKC 프로젝트의 특정 주요 목적에 대한 성과에 기여하는 특정 세부적인 목표를 각각 가지고 있습니다. 이들 각 워크패키지 팀들은 리더가 있으며 해당 워크패키지의 전반적인 기술적 조건에 대한 책임을 지고 있습니다. 해당 워크패키지에 소속된 다른 파트너 기관들에게 해당 패키지의 목표에 맞는 업무들을 할당합니다. 각 워크패키지들은 컨소시엄 전체 회의 및 전화회의와 같은 채널을 통해 긴밀히 정보교환을 하게 됩니다. 워크패키지 별 연구 내용은 다음과 같습니다.
WP1 : Conceptual Framework, Evaluation
서로 다른 추론 모델을 통합하여 10억개 이상의 사실들에 대한 추론을 수행하는 방법을 연구합니다. 알고리즘적 스키마를 개발하여 통합된 추론 모델을 실제로 구현합니다.
WP2 : Retrieval, Selection
대규모 시맨틱 저장소로부터 특정 추론 요청에 대한 관련 지식을 식별하고 위치시키는 기능에 대한 대용량 처리가 가능한 솔루션 개발을 담당합니다.
WP3 : Abastraction, Learning
추론을 하기 위해 적절한 형태로 지식을 추출하고 제공하는 방법에 대한 연구를 합니다.
이 기능을 구현하기 위한 주요 방법들로는 일반 텍스트로부터 기계적으로 추상화하고 이를 더욱 정형화된 지식 형태인 RDF로 만드는 기계학습 솔루션을 개발하는 것입니다.
WP4 : Reasoning, Deciding
LarKC의 주요 목적 중 하나로서 대규모 데이터 집합에 대해 추론을 하는 것입니다.
이 데이터 집합들은 단순한 질의부터 양적인 면에서 모든 추론 기능들을 사용해야 하는 질의까지 다양한 수준으로 복잡성을 가진 대규모 데이터 집합입니다.
WP5 : Colider Platform
LarKC 플랫폼의 특성으로서 오픈 소스 플랫폼, 운영체제에 독립적이며 분산 플랫폼으로 개발하는 담당을 합니다.
WP6 : Usecase : Real time city
오늘날 도심 시스템의 비효율성을 줄이고, 더 나아가 미래형 도시로 가는 응용 과제로서 도시들 내에서 실시간 통제 분야를 LarKC 플랫폼을 사용하여 해결하고자 하는 사용 예제를 개발합니다.
WP7a, b : Usecase : Semantic integration for Early Clinical Development
LarKC 플랫폼을 사용하여 다음과 같은 도전과제들에 대한 새로운 해결방법을 개발하려 합니다.
약물 발견 파이브라인, 암과 기타 질병의 유전적 전염, 발암물질 연구
WP8 : Trainning, Dissemination, Community building, fertilization
LarKC를 실제 현실에 LarKC의 영향력을 극대화 하기 위해 전파, 커뮤니티 형성, 성숙화 활동을 수행합니다.
WP9 : Exploitation, standards
LarKC를 현실적 영향력 극대화를 위해 활용 및 적용 활동과 표준화와 같은 활동에 더욱 지원하고 있습니다.
WP10 : Project Management
EU 프로젝트들의 관리측면에서 상당한 경험을 가자고 있는 DERI Innsbruck에서 LarKC 프로젝트를 리딩하고 있습니다. 프로젝트 관리에 대한 전체적인 관리는 주기적인 미팅, 스케쥴에 따른 기술 워크샵, 이해력을 돕는 프로젝트 포털과 프로젝트 관리 위원회 통해 폭넓은 커뮤니케이션 기회를 확보하고 있습니다.
LarKC 전파활동
웹사이트, 위키, 블러그, 메일링 리스트를 사용하여 LarKC 프로젝트에 대한 홍보 및 의견 수렴을 하고 있으며 Innsbruk university의 STI에서 관리를 합니다. LarKC에 대한 정보는 다음의 경로를 통해 얻을 수 있습니다.
웹사이트 : www.larkc.eu
위키 : wiki.larkc.eu/LarkcProject
블러그 : http://blog.larkc.eu
메일링 리스트 : www.sti-innsbruck.at/about/mailinglists
솔트룩스의 LarKC 프로젝트 참가 배경
2003년부터 국내 산업계에선 유일하게 시맨틱 기술이 미래 산업의 핵심 기술이 될 것이라고 예측하고 연구에 많은 투자를 시작하였습니다. 2005년에는 세계적인 추론엔진 기술을 가진 독일의 Ontoprise사와 MOU를 체결하였고, DERI 산하 University of Innsbruck과 산학 협력체결을 진행하였습니다. 또한, ISWC(International Semantic Web conference), ASWC, ESWC 등 시맨틱 관련 해외 컨퍼런스에 스폰싱과 튜토리얼 및 연구사례 발표를 통하여 세계 유명 석학 및 시맨틱 산업 분야 리더들과 많은 지식 교류 활동을 수행하여 왔습니다. 이러한 활동에 힘입어 유럽의 DERI 로부터 LarKC(The Large Knowledge Collider)에 파트너로써 제안 참여를 권유받게 되었으며, 약 8개월 정도의 제안과 발표, 심사 기간을 거쳐 FP7참여가 확정되었습니다.
LarKC 프로젝트에서 솔트룩스 역할
웹에서 초 대용량 데이터에 대한 추론을 위한 infrastructure인 LarKC 플랫폼을 활용하는 WP6 Real Time City 유즈 케이스를 개발합니다. 이는 개인화와 상황인지 서비스를 바탕으로한 개발경험에서 얻은 실제 데이터를 활용한 이상적인 환경을 제공하는 것입니다. 이 밖에 LarKC 프로젝트에 대한 결과물을 지식자산화 하고 표준화하는 활동과 역할도 담당하고 있습니다.
LarKC 프로젝트 참여에 대한 기대효과
FP7과 같은 유럽의 대형 연구 프로젝트를 통한 기대효과로 제일 먼저 꼽을 수 있는 것은 시맨틱 기술 분야의 선진기술 확보하는 것입니다. 보통 공동연구 파트너 간의 오픈 소스를 지향하며 각 참여자는 Shadow Project를 진행하면서 독자적인 기술을 개발하여 연구개발에 협력하게 됩니다. 아울러 선진 기술확보 못지않게 중요한 것이 바로 기술이전 및 특허획득이 있습니다. FP7 프로젝트의 기본 원칙은 기술개발을 수행한 사람이 소유권과 특허를 가져가게 되어 있는데 LarKC 프로젝트를 통해 세계 최초의 초대용량 데이터의 추론과 그에 따라 파생되는 기술요소를 보유하게 되는 것입니다.
작성자 : 박형근


