LOD 모델링 특강 - Esantomi/digital-humanities GitHub Wiki
- 제목 : LOD 모델링의 어려움 (LOD Seminar)
- 강의일 : 2023-12-07 (13:00-)
- 강의자 : 한성대학교 도서관정보문화트랙 박진호 교수님
Easy_Guide_about_LinkedOpenData.pdf
-
LOD
- 결론적으로 Linked Open Data는 사람의 이해와 활용을 전제한 문서 중심의 웹(web of documents)을 기계도 또한 사람처럼 이해하고 자동으로 처리할 수 있는 데이터 중심의 웹(web of data)으로 구축하는 것입니다.
- 누구나 활용할 수 있도록 하기 위해서는 웹에 개방되는 데이터들이 표준화된 형식을 준수해야 하고, 어떤 분야에 어떻게 활용될 수 있는지 명확하게 정의되어야 합니다.
- 이런 데이터 중심의 웹이 구현되면 열린 데이터의 조합을 기반으로 누구나 다양하고 새로운 서비스를 개발할 수 있습니다.
- 이런 의미에서 LOD는 기존의 정보 개방 혹은 데이터 개방과 다르게 새로운 서비스 실현을 가능하게 하기 때문에 가장 적극적인 형태의 개방 형태라고 볼 수 있습니다.
-
RDF
- resources : URI로 기술할 수 있는 모든 것
- description : resource를 properties로 자세히 설명하는 것
- framework : 언어 구조
- RDF Graph Model
- URI - URI - URI 연결
- URI - URI - Literal 연결
- 목적이 없어서 겪는 문제
- 기관의 경우 하나의 트렌드로 받아들여 수행하는 경우가 많음
- 현재의 불편한 상황(문제 상황)을 개선하기 위한 방법이 아니라 수행해야 하는 과제 중 하나로 여김
- 학생의 경우 대부분 과제로 수행하는 경우가 많아, 특별한 문제의식이 없는 상태에서 출발
- LOD에 대한 이해 부족이 아니라 여러 가지 대안을 고려해 보지 않은 상태에서 과제로 진행
- 기관의 경우 하나의 트렌드로 받아들여 수행하는 경우가 많음
- LOD 자체가 목적인 경우
- 그냥. 남들이 하니까.
- 개방(open)
- 내가 가진 문제를 해결할 수 있는 다양한 방법, 도구 중 하나가 LOD인 경우
- 공유
- 연결
- 재활용
- 탐색
- 문제 상황을 (가상으로) 분명히 하거나, 정말 문제라고 평소에 생각했던 부분을 모델링 대상으로 선정
- 특정 문제 상황이 데이터 간의 연결 혹은 표준화를 통해서 해결 가능한 경우로 설정
그래프 기반 데이터베이스 설계에 대한 이해 부족(상상력 부족)
- LOD의 주-술-목(SPO) 구조는 노드(node)와 간선(edge) 구조임
- Table 형태의 구조화 데이터에 익숙한 이용자의 경우 불편함을 느낄 수 있음
- 많은 양의 정보를 표 형태로 작성하기 쉬운 이유는 가장 익숙한 방식이기도 하지만 쉽게 상상하고 떠올릴 수 있는 모습이어서이기도 함
- SPO 형태는 단순하기는 하지만 table처럼 많은 양의 데이터를 정리한다고 상상하기 어려움
- 우선 표 형태로 상상하고, 적합 질의를 상세하게 작성할 것
- 우선 익숙한 표로 구성하고, 문장(SPO)으로 전환할 것
온톨로지 구축 전 먼저 온톨로지 명세서를 작성해야 함
- 온톨로지 개요
- 목적 : 온톨로지 구축 목적을 구체적으로 명시
- 이용자 : 온톨로지를 활용하여 구축한 데이터를 실제로 사용하는 목표 이용자와 온톨로지를 구축 관리하는 관리자들을 명시
- 대상 분야 : 온톨로지의 지식 분야(e.g. 산림, 도서, 사람, 생물 등)
- 시나리오
- 이용자 시나리오 구성
- 단계별 절차 및 수행 내용(각 단계별 수행 내용 명시)
- 적합 질의 : 온톨로지 구성을 통해 해결, 제시해야 하는 적합 질의 명시
- 온톨로지 모델 정보
- 온톨로지 버전(이력 관리 필요, 각 버전별로 온톨로지 정보 제공 필요) 등등
-
Hackable URI
- 구조를 짐작할 수 있게 하는 URI
- 국가서지LOD 데이터현황 참고
-
DBpedia
- 위키백과 프로젝트에서 만든 정보로부터 구조화된 내용을 추출하기 위한 프로젝트
- 실제 웹 사이트 구축 방식
- 개념적 모델링 : 도메인별 전문가와 실제 이용자 참여. 중요 요소 리스트화 및 관계 설정
- 구축할 웹 페이지가 아니라 모델링 대상에만 집중
- 데이터 모델링
- URI 디자인 : 사람 중심의 가독성, hackable, 지속적인 접근성, 각각의 객체를 구분할 수 있는 하나의 식별자, 향후 변화가 가능한 명칭-구조는 제외
- 웹 페이지 디자인 : 모든 객체를 표현할 수 있는 각각의 페이지 구성
- 레이아웃 적용
- 테스트 : 시스템적 기능, 성능 외에 개념적 모델링이 반영되었는가 등 확인
- 개념적 모델링 : 도메인별 전문가와 실제 이용자 참여. 중요 요소 리스트화 및 관계 설정
- OCLC WorldCat
- 총 470개 이상의 언어로 된 아날로그, 디지털 자산을 보유하고 있는 세계 최대의 도서관 카탈로그 사이트
-
5-Star Open Data
- ★ Available on the web (whatever format) but with an open licence, to be Open Data
- ★★ Available as machine-readable structured data (e.g. excel instead of image scan of a table)
- ★★★ as (2) plus non-proprietary format (e.g. CSV instead of excel)
- ★★★★ All the above plus, Use open standards from W3C (RDF and SPARQL) to identify things, so that people can point at your stuff
- ★★★★★ All the above, plus: Link your data to other people’s data to provide context
- 참고 : w3 LinkedData
-
JSON-LD
- JSON-LD(JavaScript Object Notation for Linked Data)는 JSON을 사용하여 링크드 데이터를 인코딩하는 방식
- 예시
{ "@context": { "name": "http://xmlns.com/foaf/0.1/name", "homepage": { "@id": "http://xmlns.com/foaf/0.1/workplaceHomepage", "@type": "@id" }, "Person": "http://xmlns.com/foaf/0.1/Person" }, "@id": "https://me.example.com", "@type": "Person", "name": "John Smith", "homepage": "https://www.example.com/" }