iai‐c‐sheets - waegari/waegari.github.io GitHub Wiki

AI Final Exam – 개괄 정리 (Cheat Sheet, Overview)

1. Bayesian Network & 확률

Bayesian Network: 조건부 확률 분포를 그래프로 표현, 각 노드는 확률 변수, 엣지는 조건부 의존성 의미
Conditional Independence: 두 변수 A, B가 S에 대해 조건부 독립 ↔ $P(A,B|S) = P(A|S)P(B|S)$
d-separation: 그래프 구조 상 경로가 차단(block)되는지로 조건부 독립성 판정
- Chain, Fork: 가운데 노드(관찰 시) → 막힘
- Collider(V-structure): 가운데 노드(관찰 시) → 열림 (또는 그 후손 관찰)
전체 확률의 법칙: $P(B) = P(B|A)P(A) + P(B|\neg A)P(\neg A)$
Bayes 정리: $P(A|B) = \frac{P(B|A)P(A)}{P(B)}$
확률 표(CPT, Conditional Probability Table) 읽기와 계산

2. Information Theory

Entropy (엔트로피): 불확실성, $H(X) = -\sum p(x) \log_2 p(x)$
Conditional Entropy: $H(X|Y)$, $Y$를 알 때 $X$의 불확실성
Information Gain: $IG = H(부모) - \sum_{자식} P(자식)H(자식)$
KL Divergence: $KL(P||Q) = \sum P(x) \log \frac{P(x)}{Q(x)}$, 비대칭

3. Decision Tree

정보 이득(Information Gain): 분할 전/후 엔트로피 차
Gini Index: 분류 트리에서 불순도 측정

4. Neural Network (MLP, CNN, RNN, LSTM, Transformer)

4-1. 기본 구조/연산

Fully Connected Layer: 입력 노드 수 × 출력 노드 수 + bias (e.g., (input+1)×output)
Convolutional Layer
- Output size: $\left(\frac{W-K+2P}{S}+1\right)$, H/W 각각
- 파라미터 수: (필터크기 × 입력채널수 + bias) × 필터 수
- Batch 처리: Batch size × Output shape (e.g., B×H×W×C)
Dropout: 학습 시 임의로 일부 노드 비활성화
Batch Norm / Layer Norm: 배치/레이어 기준 정규화

4-2. Activation Functions

Sigmoid: $\sigma(x) = \frac{1}{1+e^{-x}}$, 미분: $\sigma(x)(1-\sigma(x))$
ReLU: $f(x)=\max(0,x)$, 미분: 0(음수), 1(양수)
Softmax: $softmax(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}}$

4-3. Optimization

Loss Function: MSE, Cross-Entropy 등
Gradient Descent / SGD / Adam: 가중치 업데이트
Backpropagation: Chain rule로 미분 전파

4-4. RNN/LSTM/GRU

RNN: $h_t = \tanh(Wx_t + Uh_{t-1} + b)$
LSTM: 게이트 구조로 긴 시퀀스 정보 보존 (input, forget, output gate)
Vanishing/Exploding Gradient: RNN에서 기울기 소실/폭주, LSTM/GRU로 완화

4-5. Transformer & Attention

Self-Attention: 쿼리(Q), 키(K), 밸류(V) 계산, 모든 토큰 쌍 상호작용
Multi-Head Attention: 여러 attention head로 다양한 feature 학습
Positional Encoding: 순서 정보 부여
Masking: padding/미래 정보 차단
Parameter 계산: projection(Q,K,V) = (input_dim × head_dim × 3) × head 수

5. Regularization & Generalization

L1/L2 Regularization: 가중치 크기(희소성/작은 값) 제약
Dropout: 랜덤 뉴런 제거(과적합 완화)
Early Stopping: 검증 오차 기준 학습 중단
Overfitting/Underfitting: 과대/과소적합 개념

6. Reinforcement Learning

MDP (Markov Decision Process): 상태, 행동, 전이확률, 보상
Policy: 상태→행동 결정(결정론적/확률적)
Value Function / Q-Function: 기대 보상, Q-learning update
TD Error: target - 현재 Q값
Policy Gradient: 정책 직접 미분

7. 기타 주요 개념

Universal Approximation Theorem: 1개의 은닉층만으로 임의의 함수 근사 가능
No Free Lunch Theorem: 모든 문제에 만능인 알고리즘 없음
Adversarial Training: 적대적 샘플로 강인성 증가
Curriculum Learning: 쉬운 예제부터 학습
Residual Connection / Skip Connection: 정보 손실/gradient 소실 방지

AI Final Exam – 용어 사전 및 주요 정리

A. 확률/그래프/정보이론

Bayesian Network (베이지안 네트워크)

조건부 독립 관계를 그래프로 표현하는 모델. 노드는 변수, 엣지는 조건부 의존을 의미.

Conditional Independence (조건부 독립)

두 변수 X, Y가 S에 대해 조건부 독립: $P(X, Y|S) = P(X|S)P(Y|S)$

d-separation

그래프 구조상 정보의 흐름이 막히는 조건. d-separation이 성립하면 조건부 독립이 됨.

Chain Rule of Probability (확률의 곱셈법칙)

여러 확률 변수의 결합 확률을 조건부 확률의 곱으로 분해: $P(A, B, C) = P(A)P(B|A)P(C|A,B)$

Law of Total Probability (전체 확률의 법칙)

$P(B) = P(B|A)P(A) + P(B|\neg A)P(\neg A)$

Bayes' Theorem (베이즈 정리)

$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$

Conditional Probability Table (CPT, 조건부 확률 표)

그래프 모델의 각 노드(변수)에 대한 조건부 확률 분포를 표로 정리한 것.

Entropy (엔트로피)

확률 변수 X의 불확실성 척도. $H(X) = -\sum p(x) \log_2 p(x)$

Conditional Entropy (조건부 엔트로피)

$H(X|Y)$: Y를 알 때 남은 X의 불확실성.

Mutual Information (상호 정보량)

$I(X;Y) = H(X) - H(X|Y)$, X와 Y가 얼마나 정보를 공유하는지.

KL Divergence (Kullback-Leibler Divergence, 쿨백-라이블러 발산)

두 분포 P, Q의 차이: $KL(P||Q) = \sum_x P(x)\log \frac{P(x)}{Q(x)}$ (비대칭)

B. 의사결정트리/학습이론

Decision Tree (의사결정트리)

데이터를 분할하며 예측하는 트리 구조 모델.

Information Gain (정보 이득)

분할 전후 엔트로피 감소량: $IG = H(부모) - \sum_{자식} P(자식)H(자식)$

Gini Index (지니 계수)

분류 트리에서 불순도 척도: $Gini = 1 - \sum p_k^2$

Overfitting (과적합), Underfitting (과소적합)

과적합: 학습 데이터에 지나치게 특화됨.
과소적합: 데이터의 패턴을 충분히 학습하지 못함.

C. 신경망(MLP/CNN/RNN/Transformer)

Fully Connected Layer (FC, 완전연결층)

입력 모든 노드와 출력 모든 노드가 연결된 층.

Convolutional Layer (CNN, 합성곱 신경망 층)

국소 영역을 필터(커널)로 스캔해 특징 추출.

Feature Map

CNN 층의 각 필터가 출력하는 결과 행렬/텐서.

Batch Normalization

미니배치 단위로 평균, 분산을 정규화하여 학습 안정화.

Layer Normalization

각 샘플 내부에서 정규화. 주로 sequence 모델(Transformer 등)에 활용.

Dropout

학습 중 임의로 일부 노드/연결을 0으로 만들어 과적합 방지.

Activation Function (활성화 함수)

뉴런의 출력에 비선형성을 부여.
- Sigmoid: $\sigma(x)=1/(1+e^{-x})$, 미분은 $\sigma(x)(1-\sigma(x))$
- ReLU: $f(x)=\max(0,x)$, 미분은 0 또는 1
- Softmax: 다중 분류용, 확률 분포 출력

Universal Approximation Theorem (보편근사정리)

은닉층이 충분히 넓으면 임의의 연속함수를 근사할 수 있음.

Residual Connection (Skip Connection, 잔차 연결)

입력을 다음 블록 출력에 더함. 정보 손실/gradient 소실 방지.

Batch Size (배치 크기)

한 번에 학습하는 데이터 샘플 수.

D. RNN/LSTM/Sequence Model

Recurrent Neural Network (RNN, 순환신경망)

시퀀스 데이터 처리. 이전 상태(hidden state)가 현재 입력과 함께 다음 상태 계산에 사용.

Vanishing/Exploding Gradient

역전파 과정에서 기울기가 0 또는 매우 커져서 학습이 불안정해지는 현상.

Long Short-Term Memory (LSTM)

RNN의 한 종류. 게이트 구조로 긴 시퀀스 의존성을 보존.

Gated Recurrent Unit (GRU)

LSTM의 간단화 버전.

E. Transformer/Attention

Self-Attention

쿼리(Q), 키(K), 밸류(V)로 모든 단어 쌍 상호작용, 가중합을 구함.

Multi-Head Attention

여러 attention head로 다양한 정보를 동시에 학습.

Positional Encoding

시퀀스 내 순서 정보를 부여하는 추가 벡터.

Masked Attention

미래 정보를 가릴 때(디코더 등) 사용하는 마스킹.

Weight Tying

임베딩 레이어 등에서 가중치 공유.

F. 최적화/일반화/정규화

Loss Function (손실 함수)

MSE, Cross-Entropy 등. 모델 예측과 정답의 차이 측정.

Gradient Descent (경사하강법)

손실 함수 미분(기울기) 방향으로 파라미터 업데이트.

Stochastic Gradient Descent (SGD)

데이터 일부(미니배치)로 경사하강법 적용.

Adam Optimizer

적응적 모멘텀 및 학습률 사용, 빠르고 안정적.

L1/L2 Regularization

가중치의 크기를 제한, 과적합 방지.
- L1: 가중치 절댓값 합
- L2: 가중치 제곱합

Early Stopping

검증 오차가 증가하기 시작하면 학습 조기 중단.

Curriculum Learning

쉬운 예제부터 점차 어려운 예제로 학습.

Adversarial Training

적대적 예제를 활용하여 모델의 강인성 향상.

G. 강화학습

Markov Decision Process (MDP)

상태, 행동, 전이 확률, 보상으로 이루어진 수학적 모델.

Policy (정책)

상태에서 행동을 선택하는 규칙(결정론적/확률적).

Q-Function (Q값, Q(s,a))

특정 상태-행동에서의 기대 보상.

Value Iteration

가치 함수(V, Q) 갱신 반복으로 최적 정책 추정.

Policy Gradient

정책 자체를 미분하여 최적화.

TD Error (Temporal Difference Error)

TD 오차 = (새로운 target Q) - (현재 Q)

H. 기타

No Free Lunch Theorem

만능 학습 알고리즘은 없다. 문제마다 최적 방법이 다르다.

Lottery Ticket Hypothesis

좋은 초기화가 된 작은 네트워크(복권)가 대형 모델 내에 존재한다는 가설.

AI Final Exam – Advanced Detailed Cheat Sheet

1. Bayesian Network & Conditional Independence (심화)

Bayesian Network: Directed acyclic graph (DAG)로 확률 변수들의 조건부 의존 관계를 표현. 각 노드는 변수, 엣지는 직접적 조건부 의존(부모-자식).
- Joint Distribution Factorization: $P(X_1, ..., X_n) = \prod_{i=1}^n P(X_i | Parents(X_i))$
- CPT(Conditional Probability Table): 각 노드별 부모 상태별 확률 분포.
- Markov Blanket: 특정 노드의 확률에 영향을 주는 최소 변수 집합(부모, 자식, 자식의 다른 부모).
d-separation: 조건부 독립 판단 공식.
- Chain/Fork: (A→B→C, A←B→C) — 중간 B가 관측되면 A,C는 독립.
- Collider: (A→B←C) — B 또는 B의 후손 관찰 전엔 막힘(독립), 관찰 시 열림(비독립).
- Blocked/Unblocked Path: 조건(관측 변수)에 따라 정보 흐름(확률적 의존성)이 열리고 닫힘.
Conditional Independence vs. d-separation:
- d-separation이 성립하면 항상 조건부 독립이지만, 실제 분포(파라미터)가 그래프 구조와 다를 경우 예외 가능(이론/실전 구분).
- 시험에서는 주로 그래프 구조(정의적 성질)에 기반.
Probabilistic Inference: 마진/조건부 확률 계산시 전체 확률의 법칙, 베이즈 정리, 변환·테이블 합산 필수.
- Marginalization: 불필요 변수 합산.
- Evidence Variable: 관찰된 변수(=조건).
- Causal vs. Diagnostic Inference: 원인→결과(Forward), 결과→원인(Backward).

2. Information Theory (엔트로피, 정보이득 등)

Shannon Entropy:
- 정의: $H(X) = -\sum_{x} P(x)\log_2 P(x)$
- 최댓값: 균등 분포일 때, $\log_2 n$ (n=상태 수).
Conditional Entropy:
- $H(X|Y) = \sum_y P(y) H(X|Y=y)$
- Y를 알 때 X의 불확실성. Y가 X를 완전히 결정하면 0.
Information Gain (정보 이득):
- 트리 분할 기준, 엔트로피 감소량.
- $IG = H(parent) - \sum_{child} P(child)H(child)$
Gini Index:
- $Gini = 1 - \sum_{k} p_k^2$
- 2개 클래스일 때 최대 0.5, 완전 분리 시 0.
KL Divergence (Kullback-Leibler):
- $KL(P||Q) = \sum_x P(x)\log \frac{P(x)}{Q(x)}$
- P=정답분포, Q=모델분포, 불일치(벌점) 척도. 비대칭, 항상 0 이상.
- Cross-Entropy와의 관계: $H(P,Q) = H(P) + KL(P||Q)$

3. Decision Tree (트리 분할, 정보이득, 엔트로피 등)

분할 규칙: 정보 이득이 최대인 속성 선택.
Stopping Criteria: 엔트로피 0 (순수 노드), max depth, 최소 샘플 수 등.
Overfitting 방지: 가지치기(pruning), min samples/leaf, max depth.
Ensemble Tree: 랜덤 포레스트, 부스팅 등(트리 집합, 변형).

4. Neural Network (MLP/CNN/RNN/LSTM/Transformer) – Advanced

4-1. Parameter Calculation & 구조

FC Layer: (input_dim + 1) × output_dim (bias 포함)
CNN
- Output Shape: $H_{out} = \left\lfloor \frac{H_{in} - K + 2P}{S} + 1 \right\rfloor$
- Parameters: (K×K×in_channels + 1) × num_filters
- Feature Map: Batch 포함 $B×H_{out}×W_{out}×C_{out}$
RNN/LSTM
- RNN weights: $input_dim × hidden_dim + hidden_dim × hidden_dim + bias$
- LSTM: 각 gate마다 input, hidden 모두에 대해 W, U, bias (4배 필요)
- Shared weights: 타임스텝마다 동일 가중치(Backprop Through Time)
Dropout, Batch Norm, Layer Norm: 각각의 수식과 동작 메커니즘 암기
- Batch Norm: $\frac{x-\mu_B}{\sqrt{\sigma^2_B+\epsilon}}$ (배치 평균·분산 사용)
- Layer Norm: 한 샘플 내 뉴런 값 정규화

4-2. Activation Functions & 미분

Sigmoid:
- $\sigma(x) = \frac{1}{1+e^{-x}}$,
- 미분: $\sigma(x)(1-\sigma(x))$
ReLU: $f(x)=\max(0,x)$,
- 미분: $f'(x)=1 (x>0), 0 (x\le0)$
Softmax: $softmax(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}}$
Temperature Scaling (Softmax): 온도 T 높이면 확률 분포 평탄화, 낮추면 sharp.

4-3. Loss Functions, Optimization, Backpropagation

Cross-Entropy Loss: $L=-\sum y_i \log p_i$ (정답 원핫 y, 예측 p)
Mean Squared Error (MSE): $L = \frac{1}{n}\sum (y-\hat{y})^2$
Gradient Descent, SGD, Adam: 각 수식과 하이퍼파라미터(모멘텀, 러닝레이트 등)
Backpropagation:
- Chain rule을 통한 미분값 전달
- $\frac{\partial L}{\partial w} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial x} \cdot \frac{\partial x}{\partial w}$
- Multi-layer일 때 층별로 미분값 곱셈
Vanishing/Exploding Gradient:
- RNN에서 반복 곱셈으로 기울기 0 or 무한대로 발산, LSTM/GRU, gradient clipping으로 해결

4-4. Transformer, Self-Attention, Position Encoding, Masking

Self-Attention:
- Q(query), K(key), V(value) 행렬 계산
- Attention score: $score(Q,K) = \frac{QK^T}{\sqrt{d_k}}$
- Weighted sum: attention score로 V 가중합
Multi-Head Attention: 여러 head가 각기 projection 수행(병렬)
Positional Encoding:
- $\text{PE}{pos,2i} = \sin(\frac{pos}{10000^{2i/d{model}}})$
- $\text{PE}{pos,2i+1} = \cos(\frac{pos}{10000^{2i/d{model}}})$
Masking:
- Padding masking: 패딩 위치 attention score -inf로 덮어 무시
- Causal masking: 미래 token에 가중치 못 주게 함 (디코더)
Weight tying: input/output embedding weight 공유로 파라미터 수 감소

5. Regularization, Generalization, Training Tricks

L1/L2 Regularization:
- L1: $loss + \lambda\sum|w|$, 희소성 유도
- L2: $loss + \lambda\sum w^2$, 가중치 크기 축소
Early Stopping: 검증 오차 최소 시점에서 학습 중단(과적합 방지)
Ensemble, Bagging, Boosting: 여러 모델 결합하여 성능 향상
Adversarial Training:
- 입력에 작은 노이즈(적대적 샘플) 추가해 강인성 증가

6. Reinforcement Learning (심화)

MDP (Markov Decision Process): (S, A, P, R, $\gamma$) 튜플,
- S: 상태, A: 행동, P: 전이 확률, R: 보상, $\gamma$: 할인율
Policy: $\pi(a|s)$ 상태에서 행동 선택 확률분포(결정론적/확률적)
Value Function: $V^\pi(s)$, $Q^\pi(s,a)$ — 기대 보상
Q-learning:
- update: $Q(s,a) \leftarrow Q(s,a) + \alpha(r + \gamma\max_{a'}Q(s',a') - Q(s,a))$
- TD error: $r + \gamma\max Q(s',a') - Q(s,a)$
Policy Gradient:
- Objective: $J(\theta) = \mathbb{E}_\pi[R]$
- Update: $\theta \leftarrow \theta + \alpha\nabla_\theta J(\theta)$

7. 기타 심화 개념/정리

Universal Approximation Theorem:
- 단일 은닉층(비선형)이 임의의 연속함수 근사 가능(수학적 증명)
No Free Lunch Theorem:
- 모든 데이터/문제에 최적화된 하나의 알고리즘은 존재하지 않음.
Lottery Ticket Hypothesis:
- 랜덤 초기화 네트워크 내에서 "복권 서브네트워크"가 발견될 경우, pruning해도 성능 유지 가능(실험적 증거).

8. 실전적 주의/시험 포인트

계산 문제:
- 파라미터 개수, output size, loss/backprop 공식, conditional probability 등 직접 계산 연습 필요
그래프 구조 이해:
- d-separation, blocked/unblocked path 도식화, collider 조건 암기
딥러닝 구조/수식:
- forward/backward pass, optimizer 차이, attention/transformer 공식
RNN/Transformer/Attention 차이점:
- 장단기 의존성, 병렬성, 연산 구조, 학습 방법 비교