끄적이는 메모장

1. semantic web? 본문

학문/semantic web

1. semantic web?

밥보92 2018. 3. 13. 21:41
반응형

1. semantic web 이란 무엇인가

 

우리가 알고있는 web은 무엇인가?

가장 간단하게 생각할 수 있는 형태는 백엔드에 MySQL 기반의 DB가 존재하고 PHP를 통해 DB에 저장된 데이터를 가져오며, 프론트엔드에서 HTML와 CSS를 통해 보기 좋게 데이터를 정렬해 놓은 모습이다.

 

그럼 우리가 알고있는 일반적이고 전통적인 web은 다른 web의 데이터에 접근하고 그 데이터와 내 데이터를 통합해서 사용할 수 있을까?

가능한 일이지만 쉽지는 않다. (가장 크게 접근 권한의 문제가 있다.)

 

이제 sematic web의 정의를 한번 살펴 보자 위키백과에서는 시맨틱 웹의 정의를 다음과 같이 하고 있다.

시맨틱 웹(Semantic Web)은 '의미론적인 웹'이라는 뜻으로,현재의 인터넷과 같은 분산환경에서 리소스(웹 문서, 각종 화일, 서비스 등)에 대한 정보와 자원 사이의 관계-의미 정보(Semanteme)를 기계(컴퓨터)가 처리할 수 있는 온톨로지 형태로 표현하고, 이를 자동화된 기계(컴퓨터)가 처리하도록 하는 프레임워크이자 기술이다. 웹의 창시자인 팀 버너스리1998년 제안했고 현재 W3C에 의해 표준화 작업이 진행 중이다.

뭔가 명확하게 이해하기 힘든 정의 일수도 있다. 이를 풀어서 얘기하면 다음과 같이 이해할 수 있다.

 

1. 도메인은 각자의 데이터를 가지고 있는데 이는 의미론적 특징을 가진 온톨로지 형태의 데이터이다.

2. 온톨로지 형태의 데이터를 가진 도메인은 도메인 간의 상호작용이 가능하다.

3. 도메인 간의 상호작용을 통해 도메인 통합, 데이터 추론 등의 고도화된 작업을 할 수 있다.

 

그럼 온톨로지가 어떠한 형태의 데이터인데 도메인간의 상호작용이 가능하다고 말을 하는 것일까?

 

위키백과에 따르면 사과와 빨간색을 예를 들어 설명하고 있다.

우리가 DB에 사과와 빨간색을 저장한다고 생각해보자.

 

두 데이터는 DB 내에서 서로 연관성이 있는 데이터로 취급이 될까? 당연히 아닐 것이다.

그저 전통적인 DB에서 사과는 그저 사과이고 빨간색은 그저 빨간색이다. 그 이상도 이하도 아니다.

 

하지만, 온톨로지에서 표현되는 사과와 빨간색은 아니다.

왜냐하면 온톨로지 상에서는 모든 데이터가 트리플 구조를 가진다.

트리플 구조란 하나의 데이터 표현이 (주어, 술어, 목적어) 세트로 표현되는 구조를 의미한다.

즉, "사과(주어)는(술어) 빨간색(목적어)이다"의 형태로 데이터가 저장되어 있는 것이다.

데이터의 속성, 데이터 간의 관계 등이 트리플 구조로 표현이 가능하고 이들이 모여 거대한 거미줄 모양의 데이터 셋을 형성하는 것이다.

여기까지 이해를 했다면 온톨로지가 데이터 간의 관계를 표현하고 있기 때문에 데이터의 추론에 사용 될 수 있다는 것은 이해할 수 있을 것이다.

주어가 목적어로, 목적어가 주어로 계속 재사용 되며 얽히면서 새로운관계들을 만들어 낼 수 있기 떄문이다.

 

하지만, 도메인 간의 통합은 어떻게 이루어지는지는 아직 설명 가능하지 않다.

그 비밀은 바로 URI에 있다.

온톨로지 상에서 데이터는 각 자원을 발행하는 주체를 식별하기 위해 식별자를 사용한다.

즉, 사과라는 데이터를 온톨로지에 표현하기 위해서는 단순이 '사과'가 아니라 <http://example.com/사과>처럼 이를 발행한 주체가 앞에 붙어야 한다는 것이다.

위의 예를 빌려 표현 해보자면 "사과는 빨간색이다"이라는 트리플 구조에서 사과는 A도메인 빨간색은 B도메인이라면 "는~이다"라는 서술어를 통해 A와 B도메인이 통합되는 것으로 이해할 수 있는 것이다.

사과 (A 도메인)

 빨간색 (B 도메인)

즉, 시맨틱 웹은 상호운용성에 기초하여 대규모의 데이터 구축에 의미있는 역할을하고 있다.

 

그럼 시맨틱 웹은 어느 분야에 사용 가능할까?

위키백과에서는 다음 분야에 시맨틱 웹이 사용가능하다고 말하고 있다.

  • 커뮤니티, 블로그
  • 데이터 통합
  • 포탈 및 검색
  • 시맨틱 웹 서비스
  • 기업 소프트웨어
  • 지식 관리
  • 비즈니스 인텔리전스
  • 가상 공동체에 대한 연결
  • 멀티미디어 데이터 관리
  • 콘텐츠 어댑테이션 및 명명

이 외에도 음성인식, 데이터 추론 등 인공 지능 분야에서 다양한 역할을 할 수 있는 잠재력을 가지고 있다.

 

시맨틱 웹을 이해하고 사용해보기 위해서는 트리플 데이터, 온톨로지, TDB, endpoint, SPARQL 등 다양한 지식들을 이해하고 알아야 한다.

앞으로 하나씩 끄적 해보도록하겠다.

반응형

'학문 > semantic web' 카테고리의 다른 글

[Jena ARQ] 1. fuseki - remote endpoint  (1) 2018.04.03
2. triple data?  (0) 2018.03.15