Text Classification - penny4860/study-note GitHub Wiki

참고자료
- 텐서플로와 머신러닝으로 시작하는 자연어 처리
- 이미지와 Text정보들을 이용한 쇼핑 카테고리 분류 AI
- convolutional neural network for sentence classification

1. 데이터 분석

Histogram
- x축 : 레이블
- y축 : 데이터 숫자 / 문장의 길이
Box Plot
- 레이블 별 데이터 숫자
워드 클라우드
- 가장 많이 사용된 단어를 시각화

2. 데이터 전처리

형분기로 tokenizing
- 어간 추출 옵션 : stem=True
- sentence -> word list
불용어 (stopword) 삭제
vectorize
- index 변환 : tf.Tokenizer 모듈
  - word list를 index list로 변환
- 패딩 : tf.pad_sequence 모듈
  - 모든 index list를 fixed length로 맞춘다.

3. RNN text 분류기

index list
Embedding Layer
LSTM -> LSTM
- 이전 step의 출력과
- 현재 step의 Embedding Layer 출력을 입력받는다.
fc + softmax

4. CNN text 분류기

index list : [sequence,]
- [30]
embed list : [sequence, embed-size, 1]
- [30, 64, 1]
cnn :
- input tensor : [sequence, embed-size, 1]
- kernel :
  - [kh-size, kw-size, input-depth, output-depth]
  - [1/2/3/4, embed-size, 1, n-filters]
    - kh-size를 여러개로 filtering 하고 concat
    - 네이버 카테고리 매칭의 경우 1/2/3/4 4개를 사용했다고 함.
- output tensor : [sequence, 1, n-filters*4]
max pooling
- [sequence, 1, n-filters*4] ==> [1, 1, n-filters*4]
flatten
- [1, 1, n-filters*4] ==> [n-filters*4,]
fc + softmax
- [n-filters*4,] ==> [n-categories,]

4.1. Text CNN 구현 과정

1) 학습 데이터 정리

text / label 을 1개의 텍스트파일로 저장
pandas로 1번에 읽거오거나 readlines() 로 1줄씩 읽어오자.

2) Text 정제작업

한국어의 경우 형분기를 써서 정제작업을 해줘야 함.
조사제거 / 불용어제거

3) word2vec 모델 빌드

gensim 라이브러리 사용해서 단어를 vector로 바꿔주는 word2vec model을 빌드한다.

model = Word2Vec(cleaned_text_list, 64, window, min_count)
# model.mv.voca : 단어사전
# 단어사전에 있는 단어는 64-d vector로 만들어줄수 있다.

4) keras Tokenizer 빌드

단어 1개를 숫자 1개 (index)로 바꿔주는 Tokenizer를 만들어주는 작업

# 0번 index는 단어 사전에 없는 모든 단어(unknown)의 index
t = Tokenizer(voca_size + 1)
t.fit_on_text(...)
# json 파일로 저장

5) 임베딩 매트릭스 빌드

3)과정에서 만들어놓은 임베딩 매트릭스를 keras에서 사용할 수 있는 형태의 matrix로 바꾸어 주는 작업
입 출력 관계
1. 입력
  - word2vec 모델 : 3)과정 에서 빌드
  - keras Tokenizer : 4)과정에서 빌드
2. 출력
  - 임베딩 matrix : [voca_size + 1, 64]
    - 0-th row vector : unknown 에 대한 embedding vector
    - 1-th row vector : keras Tokenizer의 1번 index의 단어에 대한 embedding vector
단어 ---> index ---> embedding vector
1. 단어 ---> index
  - Tokenizer
2. index ---> embedding vector
  - word2vec

6) Keras Model 구현

Embedding Layer -> cnn -> pooling -> fc + softmax

Embedding Layer
1. 입력
  - index list : [1, 10, 0, 0, 0]
2. 출력
  - embeding vector : (5, 64)

7) Batch Generator 구현

(index_list, ys) 를 학습할 모델에 넘겨야 함.
각 batch 별로
- xs : raw text ---> cleaned text ---> index
  - 정제함수 : 2)에서 형분기 쓸것
  - Tokenizer : 4)에서 빌드한 keras tokenizer를 쓸것
- ys : 카테고리 텍스트 ---> 카테고리 인덱스 ---> 1-hot
  - category text : index 테이블을 만들어야 함.

8) 예측과정

입 출력
- input : raw text
- output : 카테고리 text
준비물
- 정제함수 : 2)에서 사용한 형분기
- Keras Tokenizer : 4)에서 빌드한 keras tokenizer
- 학습한 모델
- category text : index 테이블
과정
1. raw text ---> cleaned text
  - 정제함수 사용
2. cleaned text ---> index
  - Keras Tokenizer 사용
3. index ---> pred category index
  - 모델
4. category index ---> 카테고리 text
  - category text : index 테이블을 역으로 사용