LOD 모델링 특강 - Esantomi/digital-humanities GitHub Wiki

목차

특강 정보

  • 제목 : LOD 모델링의 어려움 (LOD Seminar)
  • 강의일 : 2023-12-07 (13:00-)
  • 강의자 : 한성대학교 도서관정보문화트랙 박진호 교수님

LOD와 RDF

Easy_Guide_about_LinkedOpenData.pdf

  • LOD
    • 결론적으로 Linked Open Data는 사람의 이해와 활용을 전제한 문서 중심의 웹(web of documents)을 기계도 또한 사람처럼 이해하고 자동으로 처리할 수 있는 데이터 중심의 웹(web of data)으로 구축하는 것입니다.
    • 누구나 활용할 수 있도록 하기 위해서는 웹에 개방되는 데이터들이 표준화된 형식을 준수해야 하고, 어떤 분야에 어떻게 활용될 수 있는지 명확하게 정의되어야 합니다.
    • 이런 데이터 중심의 웹이 구현되면 열린 데이터의 조합을 기반으로 누구나 다양하고 새로운 서비스를 개발할 수 있습니다.
    • 이런 의미에서 LOD는 기존의 정보 개방 혹은 데이터 개방과 다르게 새로운 서비스 실현을 가능하게 하기 때문에 가장 적극적인 형태의 개방 형태라고 볼 수 있습니다.
  • RDF
    • resources : URI로 기술할 수 있는 모든 것
    • description : resource를 properties로 자세히 설명하는 것
    • framework : 언어 구조
  • RDF Graph Model
    • URI - URI - URI 연결
    • URI - URI - Literal 연결

LOD 모델링 수행 시 어려움(1)

  • 목적이 없어서 겪는 문제
    • 기관의 경우 하나의 트렌드로 받아들여 수행하는 경우가 많음
      • 현재의 불편한 상황(문제 상황)을 개선하기 위한 방법이 아니라 수행해야 하는 과제 중 하나로 여김
    • 학생의 경우 대부분 과제로 수행하는 경우가 많아, 특별한 문제의식이 없는 상태에서 출발
      • LOD에 대한 이해 부족이 아니라 여러 가지 대안을 고려해 보지 않은 상태에서 과제로 진행
  • LOD 자체가 목적인 경우
    • 그냥. 남들이 하니까.
    • 개방(open)
  • 내가 가진 문제를 해결할 수 있는 다양한 방법, 도구 중 하나가 LOD인 경우
    • 공유
    • 연결
    • 재활용
    • 탐색
  • 문제 상황을 (가상으로) 분명히 하거나, 정말 문제라고 평소에 생각했던 부분을 모델링 대상으로 선정
    • 특정 문제 상황이 데이터 간의 연결 혹은 표준화를 통해서 해결 가능한 경우로 설정

LOD 모델링 수행 시 어려움(2)

그래프 기반 데이터베이스 설계에 대한 이해 부족(상상력 부족)

  • LOD의 주-술-목(SPO) 구조는 노드(node)와 간선(edge) 구조임
    • Table 형태의 구조화 데이터에 익숙한 이용자의 경우 불편함을 느낄 수 있음
    • 많은 양의 정보를 표 형태로 작성하기 쉬운 이유는 가장 익숙한 방식이기도 하지만 쉽게 상상하고 떠올릴 수 있는 모습이어서이기도 함
    • SPO 형태는 단순하기는 하지만 table처럼 많은 양의 데이터를 정리한다고 상상하기 어려움
  • 우선 표 형태로 상상하고, 적합 질의를 상세하게 작성할 것
    • 우선 익숙한 표로 구성하고, 문장(SPO)으로 전환할 것

온톨로지 명세서의 구조

온톨로지 구축 전 먼저 온톨로지 명세서를 작성해야 함

  • 온톨로지 개요
    • 목적 : 온톨로지 구축 목적을 구체적으로 명시
    • 이용자 : 온톨로지를 활용하여 구축한 데이터를 실제로 사용하는 목표 이용자와 온톨로지를 구축 관리하는 관리자들을 명시
    • 대상 분야 : 온톨로지의 지식 분야(e.g. 산림, 도서, 사람, 생물 등)
  • 시나리오
    • 이용자 시나리오 구성
    • 단계별 절차 및 수행 내용(각 단계별 수행 내용 명시)
    • 적합 질의 : 온톨로지 구성을 통해 해결, 제시해야 하는 적합 질의 명시
  • 온톨로지 모델 정보
    • 온톨로지 버전(이력 관리 필요, 각 버전별로 온톨로지 정보 제공 필요) 등등

기존 사례 참고

  • Hackable URI
  • DBpedia
    • 위키백과 프로젝트에서 만든 정보로부터 구조화된 내용을 추출하기 위한 프로젝트
  • 실제 웹 사이트 구축 방식
    1. 개념적 모델링 : 도메인별 전문가와 실제 이용자 참여. 중요 요소 리스트화 및 관계 설정
      • 구축할 웹 페이지가 아니라 모델링 대상에만 집중
    2. 데이터 모델링
    3. URI 디자인 : 사람 중심의 가독성, hackable, 지속적인 접근성, 각각의 객체를 구분할 수 있는 하나의 식별자, 향후 변화가 가능한 명칭-구조는 제외
    4. 웹 페이지 디자인 : 모든 객체를 표현할 수 있는 각각의 페이지 구성
    5. 레이아웃 적용
    6. 테스트 : 시스템적 기능, 성능 외에 개념적 모델링이 반영되었는가 등 확인
  • OCLC WorldCat
    • 총 470개 이상의 언어로 된 아날로그, 디지털 자산을 보유하고 있는 세계 최대의 도서관 카탈로그 사이트

개념 잡기

  • 5-Star Open Data
    5-star
    • ★ Available on the web (whatever format) but with an open licence, to be Open Data
    • ★★ Available as machine-readable structured data (e.g. excel instead of image scan of a table)
    • ★★★ as (2) plus non-proprietary format (e.g. CSV instead of excel)
    • ★★★★ All the above plus, Use open standards from W3C (RDF and SPARQL) to identify things, so that people can point at your stuff
    • ★★★★★ All the above, plus: Link your data to other people’s data to provide context
  • JSON-LD
    • JSON-LD(JavaScript Object Notation for Linked Data)는 JSON을 사용하여 링크드 데이터를 인코딩하는 방식
    • 예시
      {
        "@context": {
      	"name": "http://xmlns.com/foaf/0.1/name",
      	"homepage": {
      	  "@id": "http://xmlns.com/foaf/0.1/workplaceHomepage",
      	  "@type": "@id"
      	},
      	"Person": "http://xmlns.com/foaf/0.1/Person"
        },
        "@id": "https://me.example.com",
        "@type": "Person",
        "name": "John Smith",
        "homepage": "https://www.example.com/"
      }
      
⚠️ **GitHub.com Fallback** ⚠️