GAN - newlife-js/Wiki GitHub Wiki

GAN

1. Deep Learning 개요

인공지능 (Artificial Intelligence) 지식(정적) : 어떤 것에 대한 인식, 이해
지능(동적) : 지식을 알아내고 상황에 대응하는 능력(학습과 추론)
지성(목적/목표지향) : 지능을 활용하는 성향/성질
인공지능 : 기계적으로 지식을 알아내고, 대응하는 능력
기계학습 : 데이터로부터 스스로 학습
데이터에서 내재된 패턴, 규칙 등에서 학습을 통하여 특징을 구분하고 기억하는 것.
학습: 주어진 데이터의 평가를 통해 특징을 찾고, 특징들의 조합으로 고차원의 특징을 찾는 것
Deep Neural Network : 인공신경망 계층화 MLP -> Deep NN
기계학습 분류
Supervised Learning - classification / regression
Unsupervised Learning - clustering / generative model
Reinforcement Learning
Regression : 어떤 입력 데이터에 대해 출력에 영향을 주는 조건을 고려한 평균값 구하기

Linear regression : 특징의 선형결합으로 value추정
- y(종속변수) 갯수 -> univariate / multivariate regression
Logistic regression : 분류(-♾️ ~ +♾️ 를 0~1의 확률로 변환)
- category 갯수 -> binomial / multinomial logistic regression

각각의 뉴런 node가 regression model로 구성된다고 생각하면 됨.
activation function의 종류가 linear / nonlinear / logistic 만듦

multinomial logistic regression

각 클래스에 해당할 확률의 합이 1이 되도록(softmax) y 벡터를 출력

학습 용어

Epoch: 모든 data를 한 번 학습
Batch size: 학습 한 번에 사용되는 dataset 크기
Iteration: batch_size로 학습 시행하는 것
1 Epoch = batch_size * #of_iteration(= #of_data / batch_size)

Cost function / Loss function
Cost function : 학습을 통해 최소화하려는 function Loss function : cost function을 구성하는 subset
Optimization Algorithm
Loss function의 값을 최소화하는 알고리즘
예) SGD, momentom, NAG, Adagrad 등
Learning rate
학습 속도와 성능에 영향을 주는 hyper parameter
Overfitting
Training Data에 최적화되어 성능이 저하되는 문제
모델으 ㅣ복잡도가 커질수록 Training loss는 지속적으로 감소 / Validation loss는 다시 증가

2. Keras

모델 설계

Sequential model

model = keras.models.Sequential()
model.add(keras.~)
model.add(layers.~)
~~~

Functional API

input_x = keras.Input(shape=(28,28))
x0 = layers.Flatten()(input_x)
x1 = layers.Dense(~)(x0)
output_x = layer.Dense(~)(x1)
model = keras.Model(inputs=input_x, outputs=output_x)

Subclassing API

class MyModel(keras.Model):
  ~~~~~

visualize

model.summary()
keras.utils.plot_model(model, 'model.png', hsow_shapes=True)

Compile method

내장 함수의 'name'으로 지정

model.compile(loss='categorical_crossentropy', 
              optimizer='Adam', 
              metrics=['accuracy', 'mse'])

내장함수를 지정

model.compile(optimizer=keras.optimizers.RMSprop(learning_rate=0.01, rho=0.9), 
              loss=keras.losses.CategoriclCrossentropy(), 
              metrics=[keras.metrics.CategoricalAccuracy()])

내장함수의 인스턴스로 지정

opt = keras.optimizers.Adam(learning_rate=0.01(
loss = keras.losses.SparseCategoricalCrossentropy()
metric = keras.metrics.CategoricalAccuracy()
model.compile(loss=loss, optimizer=opt, metrics=[metric]

모델 저장

model.save('save_model') // SavedModel 포맷 저장
keras.models.save_model(model, 'save_model') // SavedModel 포맷 저장

model.save("model_save.h5") // HDF5 파일로 저장

모델 복원

model = keras.models.load_model('save_model')

layers API

Input
Flatten
Dense
Activation(sigmoid, relu 등)
Dropout
Batch Normalization : 배치 단위로 통계적 특성이 다르기 때문에, 레이어 출력의 통계적 특성이 흔들림 -> 학습속도 둔화 => Batch 단위로 normalization하여 학습속도를 향상시킴

CNN 관련 layer

Conv2d : CNN Convolution layer
MaxPooling2D : downsampling(연산 ⬇️)
Conv2DTranspose : upsampling(성능 향상)

3. Generative Model

학습 데이터 분포와 유사한 분포를 갖는 데이터를 생성하는 모델

4. AutoEncoder / Denoise AutoEncoder

Encoder: 입력 값을 구조화된 값(잠재공간ㅇ)에 맵핑하는 함수
Decoder:잠재 공간의 값을 다른 도메인으로 맵핑하는 함수
Code: 잠재 공간의 벡터를 말함.

AE는 수학적으로 PCA와 유사하지만 스스로 최적화
Latent space: 압축된 저차원 공간
Latent variables: 저장된 변수
적용 분야: Denoising, Super-resolution, Semantic Segmentation

핵심 기능:

고차원 -> 저차원 특징 발견
핵심 속성 보존(손상된 이미지 복구)
주요 변동 요인을 시각화
비선형 차원 축소(특별한 고차원 데이터 처리에 강력한 도구)

한계:

Decoding 결과의 quality 낮음(latent attribute가 discrete하게 표현되면 overfitting ⬆️)
-> latent attribute를 분포로 표현하자
Latent space에 비대칭 mapping(decoding range 불균형)
-> encoder가 만드는 분포를 정규분포로 제한(encoder의 출력이 정규분포에서 벗어나면 loss가 커지도록 설계)
각 글자 분포의 불균형, 넓은 분포와 좁은 분포가 혼재

VAE(Variational Auto Encoder)

Latent variables가 갖고 있는 특징을 잘 표현하는 decoder와 data-latent variable 간에 mapping을 잘 하는 encoder의 결합
좋은 latent variables(P(z))를 뽑는 것이 중요, 하지만 너무 어려우므로 좋은 encoder q(z|x)를 찾자.. -> Variational Inference 사용

Variational Inference

decoder는 p(x|z)를 학습해야 하는데, prior P(z)를 알 수 없으므로, 학습이 불가능하기 떄문에 q(z|x)로 P(z)를 근사함
복잡한 distribution 을 더 간단한 encoder distribution q(z|x)을 이용해서 근사하는 것..
KL divergence를 이용(p(z)와 q(z|x) 사이의 KL Divergence를 계산하고, D_KL이 줄어드는 쪽으로 q_파이(z|x)의 파이를 조금씩 업데이트해서 최적의 P(z)와 유사한 분포를 얻음
-> p(x|z)를 maximize 하도록 학습하는 것을 q(z|x)를 학습하는 것으로 대체함.
VAE_loss = decoder_loss + encoder_loss

Entropy: 정보량의 기대값(평균 정보량)
정보량은 발생 확률과 반비례(1/p) -> -log(p)
기대값 -> -plog(p) 정보량의 합 -> -plog(p)의 합
KL divergence: 정보 손실량의 기대값
정보의 손실량: 확률분포 p와 q 사이의 정보량의 차이 -> -log(q) + log(p)
기대값 -> -plog(q) + plog(p)의 합 (= D_KL(p||q) )
D_KL이 최소가 되도록 q를 수정
Cross entropy
D_KL의 뒷항은 q와 무관하므로, 앞 항(p*log(q)의 합)만 최소화
Maximum Likelihood Estimation
likelihood: 관찰로부터 모수를 예측하는 것
학습: 확률 관점에서 보면 Maximum Likelihood 찾는 것

5. GAN(Generative Adversarial Network)

어떠한 분포의 데이터도 모방 / 생성 모델과 판별 모델이 경쟁하는 구조
생성 모델은 data class의 분포를 모델링
판별 보델은 data class의 경계를 모델링

noise z로부터 Generator가 G(z)라는 fake 데이터를 생성
Discriminator가 real data인 p(x)와 G(z)를 비교하여 Real일 확률(D(x))을 출력

Discriminator는 gradient ascent: max(log(D(x))

Real에 대해 확률이 1 -> 기대값 0(최댓값) Fake에 대해 확률이 0 -> 기대값 0(최댓값)

Generator는 gradient descent: min(1-log(D(G(z))) -> max(log(D(Gz))

Fake에 대해 D의 확률이 1 -> 기대값 -♾️

각 모델의 loss function을 따로 두어서 각자 학습
loss를 최소화하는 데에는 D_JS(Jesen-Shannon Divergence)를 사용(대칭적인 D_KL)

GAN 학습이 어려운 이유

붕괴(축소): Mode collapsing
모델이 multi-modal(쌍봉) 데이터 분포를 모두 커버하지 못하고 다양성을 잃어버림
loss만을 줄이려고 하기 때문에 한쪽 봉으로만 bias됨
Oscillation 쌍봉의 한쪽 봉으로 bias된 형태를 왔다리갔다리 함
서로의 반대방향으로 학습이 진행되어 실패를 반복

해결책: Loss함수 개선

Wasserstein GAN
LS_GAN

CGAN(Conditinal GAN)

DCGAN에 의해 생성된 이미지는 랜덤이므로, 특정 이미지를 제어할 수 있도록 condition을 부여함

Condition: label의 one-hot code
판별기: condition을 이미지와 같은 형태로 변형하여 이미지와 concatenate하여 input으로 공급
생성기: latent vector와 label을 결합하여 input으로 공급

응용: text를 condition으로 변환하여, text를 이미지로 변환하도록 할 수도 있음..

ACGAN(Auxiliary classifier GAN)

생성기는 동일하나, 판별기를 2개의 모델로 구성
참/거짓 구분(binary) + 이미지 라벨 판단(categorical)
label을 이미지에 concatenate하지 않고, 이미지에서의 출력이 sigmoid로 들어가기 전에 따로 분기하여 softmax로 출력하여 reak label과 비교

CGAN, ACGAN으로는 원하는 정도로 기울어지고, 굵어진 숫자를 생성할 수는 없음
잠재공간에 정보들이 얽혀있기 때문에...

InfoGAN

잠재공간의 코드를 풀어서 정리해 해석 가능한 z-vector를 추가 구성
Z=(z,c) z: noise vector(얽힌 코드), c: latent code(해석 가능)
생성기 입장에서는 z와 c를 구분하지 않음
loss 함수에 상호정보량 term 추가
상호정보량(mutual information): 두 확률변수의 의존성, 공유 entropy, I(X;Y) = D_KL(p(x,y)||p(x)p(y))
여기서는 I(c'; G(z,c))를 사용함, z,c로부터 생성된 이미지와 판별기 잠재코드 c'의 상호정보량

Pix2Pix

Image-to-Image Translation with CGAN
input 이미지를 새로운 domain으로 translation(스케치 -> real object 등)