소설의 언어를 데이터로 읽는다는 것 - Esantomi/digital-humanities GitHub Wiki
제목
소설의 언어를 데이터로 읽는다는 것 -‘한국현대문학데이터분석연구’ 강의 사례를 기반으로-
주제어
문학어, 내러티브, 의미단위, 데이터 세트, “쓰여지는 텍스트”, 네트워크, 미시적 읽기
목차:
Ⅰ. 내러티브라는 자질과 의미단위
Ⅱ. “쓰여지는 텍스트”로서 데이터 세트
Ⅲ. 네트워크와 형식 그리고 시간성
Ⅳ. 결론
인물 탐색
논문 리뷰
- 논문 특이사항
- 연구자가 공동강의로 진행한 2021년 3월 학기 성균관대학교 대학원 수업인 <한국현대문학데이터분석연구>의 강의사례를 기반
- 논문 결과물
Ⅰ. 내러티브라는 자질과 의미단위
텍스트의 분절, 의미단위 추출, 의미단위의 데이터화를 통해 소설의 서사적 특징을 보다 체계적으로 분석하는 방법
- 텍스트 분석
- 비문학 텍스트 : 단어 중심, TF-IDF, W2V 등의 빈도나 단어 임베딩 기반 처리
- 문학 텍스트(소설) : 내러티브 자질 때문에 단어 중심 언어처리 방법이 부적합함
- 개념어 사용이 적고 내러티브 자질 포함
- 비시간적 구조에 적합한 단어 빈도/가중치 모델 적용 어려움
- 소설은 명사보다 동사나 형용사(서술어) 중요도가 높음
- 서사(시간 흐름에 따른 상호작용적 의미 단위의 축적)가 중요
- 문학 연구에서 서사성을 반영한 분석 모델 강구를 위한 제안
- 의미 단위 기준의 분석
- 소설 텍스트의 ‘의미 단위’로의 분절
- 의미 단위: 연구 목적, 연구자의 판단에 따른 임의적 분절, 단위화 (최소 문장, 문단 단위)
- 메타언어적 데이터 표현
- 의미단위 개념화/범주화 (예: 국가, 평가 분야, 평가)
- 메타화행
- 화행에 대한 메타성
- 특정 발화(화행)의 의도를 규정하는 식의 화행
- 이는 연구자마다 다를 수 있음 = 설계의 문제
- 한계: 과도한 단순화, 이원화로 이어질 수 있음
- 의미 수행적인 데이터 표현
- 메타언어적 데이터 표현의 한계를 극복하기 위해 제안함
- 플롯을 따라가며 문장 단위를 실제적 분석 대상으로 간주함
- 규칙이 없고, 독자의 자의적 독법에 따름
- 텍스트의 다양한 입구와 경로 체험 가능
- 메타언어적 데이터 표현
- 네트워크를 이용한 분석
- 의미 단위 기준의 분석
Ⅱ. “쓰여지는 텍스트”로서 데이터 세트
- 롤랑 바르트의 미시적 읽기 사례: 『S/Z』
- 발자크의 중편소설 『사라진(Sarrasine)』을 561개 '독해단위(lexis)'로 분절
- 해석적(HER), 의소적(SEM), 행동적(ACT), 상징적(SYM), 준거적(REF) 코드 아래 독해단위 분석
- 독해단위는 단어, 문장, 단락 등 다양한 수준 포함
- 예: 『사라진(Sarrasine)』에서 "사라진은 누구인가?"에 대해 153번 독해단위에서 언급
- 153번 독해단위 - 1번 독해단위(작품 제목)와 연결됨
- 분절된 텍스트는 총체성과 외부성을 상실하고 "무한한 차이의 장 속에 분산"됨
- 해석적(HER), 의소적(SEM), 행동적(ACT), 상징적(SYM), 준거적(REF) 코드 아래 독해단위 분석
- 발자크의 중편소설 『사라진(Sarrasine)』을 561개 '독해단위(lexis)'로 분절
- 의미단위 구성?
- 정해진 규칙이 없는, 연구자(독자)의 자의적인 독해를 펼쳐 보이는 작업
- 연구자의 판단에 따른 임의적 분절, 단위화
- 정해진 규칙이 없는, 연구자(독자)의 자의적인 독해를 펼쳐 보이는 작업
- 연구자의 판단에 따른 의미단위 조직화의 사례
- ① 이인직 소설의 감정 표현 분석
- 이인직 소설에서는 감정과 그 표현이 서사 추동의 원동력임에 주목함
- 공간, 감정주체, 감정촉발원, 감정촉발원-Class, 화제, 감정, 감정범주(희로애경), 페이지, 전체문장 등으로 데이터셋 구성
- 의미단위로 살펴볼 경우, 감정 표현의 흐름을 통해 소설이 내포한 또 다른 서사(감정 서사)를 확인 가능
- 주로 여성이 감정 표현의 주체
- 공포, 놀람, 슬픔의 감정이 주를 이룸
- ② 이인직 소설의 소리음 활용과 서사구조 간 관계 탐색
- 새소리(까마귀, 까치)가 인간사 변화의 복선 역할
- 메타언어적 범주화가 아닌 소리의 관계망 구성에 초점을 맞춰 문장의 재조직화 가능
- 같은 문장도 독자(연구자)에 따라 다르게 해석 가능하다는 것
- 미시적 읽기(micro reading): 분석단위가 될 수 있는 문장을, 보다 작은 의미 요소로 분석해 내는 매우 꼼꼼한 독해
- 대화와 서술을 구분해야 하는가? 동일한 분석단위인가?
- 감정이 형용사로 표현된 경우와 동사로 표현된 경우는 동일한가? 등등
- 데이터셋을 구축하며 지속적으로 기준을 수정하는 작업을 수행
- 즉, 텍스트를 수없이 반복해 읽으며 구조화하는 작업
- 휴먼 코딩은 직관의 적극적 사용이 필요하나, 고유한 텍스트에 대한 것이므로 확장성, 일반성이 떨어짐
- 롤랑 바르트: 단순한 읽혀지는(lisible) 텍스트가 아닌, 쓰여지는(scriptible) 텍스트
- 독자-텍스트의 관계를 재조직하는 과정 ≒ 데이터셋으로 텍스트를 읽는 작업
- 텍스트와의 거리 확보라는 측면에서 멀리서 읽기와 관련성이 있음
- 미시적 읽기(micro reading): 분석단위가 될 수 있는 문장을, 보다 작은 의미 요소로 분석해 내는 매우 꼼꼼한 독해
- ① 이인직 소설의 감정 표현 분석
Ⅲ. 네트워크와 형식 그리고 시간성
형식성
- 의미단위 기반의 구조화와 달리, 네트워크는 의미단위 전체를 펼쳐 보일 수 있음
- 네트워크는 '형식성'을 가지고, 규칙과 패턴을 엄격히 따르며, 무한히 확장되지도 않음
- 즉, 노드(node), 엣지(edge) 등의 형식을 통해 구체화됨
- 네트워크의 중심성(centrality)을 가진 '중심 노드'가 반드시 핵심은 아닐 수 있음
- 복수의 관계망 속에 소규모 네트워크, 끊어진 네트워크가 전체성, 확장 가능성으로 이어질 수 있음
- 네트워크는 '형식성'을 가지고, 규칙과 패턴을 엄격히 따르며, 무한히 확장되지도 않음
시간성
- 네트워크상의 연결은 두 노드를 잇는 하나의 엣지로 동일하게 표현되며, 시간성이 반영되지 않음
- 형질 분기 네트워크
- 『그래프, 지도, 나무』에서 제시한 시간성이 중심이 된 네트워크
- 문학의 특성상 시간성을 다루는 네트워크 모색이 필요함
- 『그래프, 지도, 나무』에서 제시한 시간성이 중심이 된 네트워크
- 예: 이인직, 「혈의누」에 나타난 가족 네트워크 변화 양상 시각화
- 이인직 신소설의 가족 서사 - 한국어문학 지식공유 위키
- TimelineJS를 활용해 네트워크의 해체, 재배열을 시간적 순서로 보이고자 함
- 가족 네트워크의 해체는 행동 촉박의 주 원인이자 주제적 의미의 원천
- 이인직 신소설의 가족 서사 - 한국어문학 지식공유 위키
- 이인직의 신소설 사례를 바탕으로 "이인직 소설의 진화계통도(evolutionary tree)"가 그려짐
- 서사성을 반영한 네트워크 시각화 방법론 모색 요청