iai‐c‐sheets - waegari/waegari.github.io GitHub Wiki
AI Final Exam – 개괄 정리 (Cheat Sheet, Overview)
1. Bayesian Network & 확률
-
Bayesian Network: 조건부 확률 분포를 그래프로 표현, 각 노드는 확률 변수, 엣지는 조건부 의존성 의미
-
Conditional Independence: 두 변수 A, B가 S에 대해 조건부 독립 ↔ $P(A,B|S) = P(A|S)P(B|S)$
-
d-separation: 그래프 구조 상 경로가 차단(block)되는지로 조건부 독립성 판정
- Chain, Fork: 가운데 노드(관찰 시) → 막힘
- Collider(V-structure): 가운데 노드(관찰 시) → 열림 (또는 그 후손 관찰)
-
전체 확률의 법칙: $P(B) = P(B|A)P(A) + P(B|\neg A)P(\neg A)$
-
Bayes 정리: $P(A|B) = \frac{P(B|A)P(A)}{P(B)}$
-
확률 표(CPT, Conditional Probability Table) 읽기와 계산
2. Information Theory
- Entropy (엔트로피): 불확실성, $H(X) = -\sum p(x) \log_2 p(x)$
- Conditional Entropy: $H(X|Y)$, $Y$를 알 때 $X$의 불확실성
- Information Gain: $IG = H(부모) - \sum_{자식} P(자식)H(자식)$
- KL Divergence: $KL(P||Q) = \sum P(x) \log \frac{P(x)}{Q(x)}$, 비대칭
3. Decision Tree
- 정보 이득(Information Gain): 분할 전/후 엔트로피 차
- Gini Index: 분류 트리에서 불순도 측정
4. Neural Network (MLP, CNN, RNN, LSTM, Transformer)
4-1. 기본 구조/연산
-
Fully Connected Layer: 입력 노드 수 × 출력 노드 수 + bias (e.g., (input+1)×output)
-
Convolutional Layer
- Output size: $\left(\frac{W-K+2P}{S}+1\right)$, H/W 각각
- 파라미터 수: (필터크기 × 입력채널수 + bias) × 필터 수
- Batch 처리: Batch size × Output shape (e.g., B×H×W×C)
-
Dropout: 학습 시 임의로 일부 노드 비활성화
-
Batch Norm / Layer Norm: 배치/레이어 기준 정규화
4-2. Activation Functions
- Sigmoid: $\sigma(x) = \frac{1}{1+e^{-x}}$, 미분: $\sigma(x)(1-\sigma(x))$
- ReLU: $f(x)=\max(0,x)$, 미분: 0(음수), 1(양수)
- Softmax: $softmax(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}}$
4-3. Optimization
- Loss Function: MSE, Cross-Entropy 등
- Gradient Descent / SGD / Adam: 가중치 업데이트
- Backpropagation: Chain rule로 미분 전파
4-4. RNN/LSTM/GRU
- RNN: $h_t = \tanh(Wx_t + Uh_{t-1} + b)$
- LSTM: 게이트 구조로 긴 시퀀스 정보 보존 (input, forget, output gate)
- Vanishing/Exploding Gradient: RNN에서 기울기 소실/폭주, LSTM/GRU로 완화
4-5. Transformer & Attention
- Self-Attention: 쿼리(Q), 키(K), 밸류(V) 계산, 모든 토큰 쌍 상호작용
- Multi-Head Attention: 여러 attention head로 다양한 feature 학습
- Positional Encoding: 순서 정보 부여
- Masking: padding/미래 정보 차단
- Parameter 계산: projection(Q,K,V) = (input_dim × head_dim × 3) × head 수
5. Regularization & Generalization
- L1/L2 Regularization: 가중치 크기(희소성/작은 값) 제약
- Dropout: 랜덤 뉴런 제거(과적합 완화)
- Early Stopping: 검증 오차 기준 학습 중단
- Overfitting/Underfitting: 과대/과소적합 개념
6. Reinforcement Learning
- MDP (Markov Decision Process): 상태, 행동, 전이확률, 보상
- Policy: 상태→행동 결정(결정론적/확률적)
- Value Function / Q-Function: 기대 보상, Q-learning update
- TD Error: target - 현재 Q값
- Policy Gradient: 정책 직접 미분
7. 기타 주요 개념
- Universal Approximation Theorem: 1개의 은닉층만으로 임의의 함수 근사 가능
- No Free Lunch Theorem: 모든 문제에 만능인 알고리즘 없음
- Adversarial Training: 적대적 샘플로 강인성 증가
- Curriculum Learning: 쉬운 예제부터 학습
- Residual Connection / Skip Connection: 정보 손실/gradient 소실 방지
AI Final Exam – 용어 사전 및 주요 정리
A. 확률/그래프/정보이론
Bayesian Network (베이지안 네트워크)
- 조건부 독립 관계를 그래프로 표현하는 모델. 노드는 변수, 엣지는 조건부 의존을 의미.
Conditional Independence (조건부 독립)
- 두 변수 X, Y가 S에 대해 조건부 독립: $P(X, Y|S) = P(X|S)P(Y|S)$
d-separation
- 그래프 구조상 정보의 흐름이 막히는 조건. d-separation이 성립하면 조건부 독립이 됨.
Chain Rule of Probability (확률의 곱셈법칙)
- 여러 확률 변수의 결합 확률을 조건부 확률의 곱으로 분해: $P(A, B, C) = P(A)P(B|A)P(C|A,B)$
Law of Total Probability (전체 확률의 법칙)
- $P(B) = P(B|A)P(A) + P(B|\neg A)P(\neg A)$
Bayes' Theorem (베이즈 정리)
- $P(A|B) = \frac{P(B|A)P(A)}{P(B)}$
Conditional Probability Table (CPT, 조건부 확률 표)
- 그래프 모델의 각 노드(변수)에 대한 조건부 확률 분포를 표로 정리한 것.
Entropy (엔트로피)
- 확률 변수 X의 불확실성 척도. $H(X) = -\sum p(x) \log_2 p(x)$
Conditional Entropy (조건부 엔트로피)
- $H(X|Y)$: Y를 알 때 남은 X의 불확실성.
Mutual Information (상호 정보량)
- $I(X;Y) = H(X) - H(X|Y)$, X와 Y가 얼마나 정보를 공유하는지.
KL Divergence (Kullback-Leibler Divergence, 쿨백-라이블러 발산)
- 두 분포 P, Q의 차이: $KL(P||Q) = \sum_x P(x)\log \frac{P(x)}{Q(x)}$ (비대칭)
B. 의사결정트리/학습이론
Decision Tree (의사결정트리)
- 데이터를 분할하며 예측하는 트리 구조 모델.
Information Gain (정보 이득)
- 분할 전후 엔트로피 감소량: $IG = H(부모) - \sum_{자식} P(자식)H(자식)$
Gini Index (지니 계수)
- 분류 트리에서 불순도 척도: $Gini = 1 - \sum p_k^2$
Overfitting (과적합), Underfitting (과소적합)
- 과적합: 학습 데이터에 지나치게 특화됨.
- 과소적합: 데이터의 패턴을 충분히 학습하지 못함.
C. 신경망(MLP/CNN/RNN/Transformer)
Fully Connected Layer (FC, 완전연결층)
- 입력 모든 노드와 출력 모든 노드가 연결된 층.
Convolutional Layer (CNN, 합성곱 신경망 층)
- 국소 영역을 필터(커널)로 스캔해 특징 추출.
Feature Map
- CNN 층의 각 필터가 출력하는 결과 행렬/텐서.
Batch Normalization
- 미니배치 단위로 평균, 분산을 정규화하여 학습 안정화.
Layer Normalization
- 각 샘플 내부에서 정규화. 주로 sequence 모델(Transformer 등)에 활용.
Dropout
- 학습 중 임의로 일부 노드/연결을 0으로 만들어 과적합 방지.
Activation Function (활성화 함수)
-
뉴런의 출력에 비선형성을 부여.
- Sigmoid: $\sigma(x)=1/(1+e^{-x})$, 미분은 $\sigma(x)(1-\sigma(x))$
- ReLU: $f(x)=\max(0,x)$, 미분은 0 또는 1
- Softmax: 다중 분류용, 확률 분포 출력
Universal Approximation Theorem (보편근사정리)
- 은닉층이 충분히 넓으면 임의의 연속함수를 근사할 수 있음.
Residual Connection (Skip Connection, 잔차 연결)
- 입력을 다음 블록 출력에 더함. 정보 손실/gradient 소실 방지.
Batch Size (배치 크기)
- 한 번에 학습하는 데이터 샘플 수.
D. RNN/LSTM/Sequence Model
Recurrent Neural Network (RNN, 순환신경망)
- 시퀀스 데이터 처리. 이전 상태(hidden state)가 현재 입력과 함께 다음 상태 계산에 사용.
Vanishing/Exploding Gradient
- 역전파 과정에서 기울기가 0 또는 매우 커져서 학습이 불안정해지는 현상.
Long Short-Term Memory (LSTM)
- RNN의 한 종류. 게이트 구조로 긴 시퀀스 의존성을 보존.
Gated Recurrent Unit (GRU)
- LSTM의 간단화 버전.
E. Transformer/Attention
Self-Attention
- 쿼리(Q), 키(K), 밸류(V)로 모든 단어 쌍 상호작용, 가중합을 구함.
Multi-Head Attention
- 여러 attention head로 다양한 정보를 동시에 학습.
Positional Encoding
- 시퀀스 내 순서 정보를 부여하는 추가 벡터.
Masked Attention
- 미래 정보를 가릴 때(디코더 등) 사용하는 마스킹.
Weight Tying
- 임베딩 레이어 등에서 가중치 공유.
F. 최적화/일반화/정규화
Loss Function (손실 함수)
- MSE, Cross-Entropy 등. 모델 예측과 정답의 차이 측정.
Gradient Descent (경사하강법)
- 손실 함수 미분(기울기) 방향으로 파라미터 업데이트.
Stochastic Gradient Descent (SGD)
- 데이터 일부(미니배치)로 경사하강법 적용.
Adam Optimizer
- 적응적 모멘텀 및 학습률 사용, 빠르고 안정적.
L1/L2 Regularization
-
가중치의 크기를 제한, 과적합 방지.
- L1: 가중치 절댓값 합
- L2: 가중치 제곱합
Early Stopping
- 검증 오차가 증가하기 시작하면 학습 조기 중단.
Curriculum Learning
- 쉬운 예제부터 점차 어려운 예제로 학습.
Adversarial Training
- 적대적 예제를 활용하여 모델의 강인성 향상.
G. 강화학습
Markov Decision Process (MDP)
- 상태, 행동, 전이 확률, 보상으로 이루어진 수학적 모델.
Policy (정책)
- 상태에서 행동을 선택하는 규칙(결정론적/확률적).
Q-Function (Q값, Q(s,a))
- 특정 상태-행동에서의 기대 보상.
Value Iteration
- 가치 함수(V, Q) 갱신 반복으로 최적 정책 추정.
Policy Gradient
- 정책 자체를 미분하여 최적화.
TD Error (Temporal Difference Error)
- TD 오차 = (새로운 target Q) - (현재 Q)
H. 기타
No Free Lunch Theorem
- 만능 학습 알고리즘은 없다. 문제마다 최적 방법이 다르다.
Lottery Ticket Hypothesis
- 좋은 초기화가 된 작은 네트워크(복권)가 대형 모델 내에 존재한다는 가설.
AI Final Exam – Advanced Detailed Cheat Sheet
1. Bayesian Network & Conditional Independence (심화)
-
Bayesian Network: Directed acyclic graph (DAG)로 확률 변수들의 조건부 의존 관계를 표현. 각 노드는 변수, 엣지는 직접적 조건부 의존(부모-자식).
- Joint Distribution Factorization: $P(X_1, ..., X_n) = \prod_{i=1}^n P(X_i | Parents(X_i))$
- CPT(Conditional Probability Table): 각 노드별 부모 상태별 확률 분포.
- Markov Blanket: 특정 노드의 확률에 영향을 주는 최소 변수 집합(부모, 자식, 자식의 다른 부모).
-
d-separation: 조건부 독립 판단 공식.
- Chain/Fork: (A→B→C, A←B→C) — 중간 B가 관측되면 A,C는 독립.
- Collider: (A→B←C) — B 또는 B의 후손 관찰 전엔 막힘(독립), 관찰 시 열림(비독립).
- Blocked/Unblocked Path: 조건(관측 변수)에 따라 정보 흐름(확률적 의존성)이 열리고 닫힘.
-
Conditional Independence vs. d-separation:
- d-separation이 성립하면 항상 조건부 독립이지만, 실제 분포(파라미터)가 그래프 구조와 다를 경우 예외 가능(이론/실전 구분).
- 시험에서는 주로 그래프 구조(정의적 성질)에 기반.
-
Probabilistic Inference: 마진/조건부 확률 계산시 전체 확률의 법칙, 베이즈 정리, 변환·테이블 합산 필수.
- Marginalization: 불필요 변수 합산.
- Evidence Variable: 관찰된 변수(=조건).
- Causal vs. Diagnostic Inference: 원인→결과(Forward), 결과→원인(Backward).
2. Information Theory (엔트로피, 정보이득 등)
-
Shannon Entropy:
- 정의: $H(X) = -\sum_{x} P(x)\log_2 P(x)$
- 최댓값: 균등 분포일 때, $\log_2 n$ (n=상태 수).
-
Conditional Entropy:
- $H(X|Y) = \sum_y P(y) H(X|Y=y)$
- Y를 알 때 X의 불확실성. Y가 X를 완전히 결정하면 0.
-
Information Gain (정보 이득):
- 트리 분할 기준, 엔트로피 감소량.
- $IG = H(parent) - \sum_{child} P(child)H(child)$
-
Gini Index:
- $Gini = 1 - \sum_{k} p_k^2$
- 2개 클래스일 때 최대 0.5, 완전 분리 시 0.
-
KL Divergence (Kullback-Leibler):
- $KL(P||Q) = \sum_x P(x)\log \frac{P(x)}{Q(x)}$
- P=정답분포, Q=모델분포, 불일치(벌점) 척도. 비대칭, 항상 0 이상.
- Cross-Entropy와의 관계: $H(P,Q) = H(P) + KL(P||Q)$
3. Decision Tree (트리 분할, 정보이득, 엔트로피 등)
- 분할 규칙: 정보 이득이 최대인 속성 선택.
- Stopping Criteria: 엔트로피 0 (순수 노드), max depth, 최소 샘플 수 등.
- Overfitting 방지: 가지치기(pruning), min samples/leaf, max depth.
- Ensemble Tree: 랜덤 포레스트, 부스팅 등(트리 집합, 변형).
4. Neural Network (MLP/CNN/RNN/LSTM/Transformer) – Advanced
4-1. Parameter Calculation & 구조
-
FC Layer: (input_dim + 1) × output_dim (bias 포함)
-
CNN
- Output Shape: $H_{out} = \left\lfloor \frac{H_{in} - K + 2P}{S} + 1 \right\rfloor$
- Parameters: (K×K×in_channels + 1) × num_filters
- Feature Map: Batch 포함 $B×H_{out}×W_{out}×C_{out}$
-
RNN/LSTM
- RNN weights: $input_dim × hidden_dim + hidden_dim × hidden_dim + bias$
- LSTM: 각 gate마다 input, hidden 모두에 대해 W, U, bias (4배 필요)
- Shared weights: 타임스텝마다 동일 가중치(Backprop Through Time)
-
Dropout, Batch Norm, Layer Norm: 각각의 수식과 동작 메커니즘 암기
- Batch Norm: $\frac{x-\mu_B}{\sqrt{\sigma^2_B+\epsilon}}$ (배치 평균·분산 사용)
- Layer Norm: 한 샘플 내 뉴런 값 정규화
4-2. Activation Functions & 미분
-
Sigmoid:
- $\sigma(x) = \frac{1}{1+e^{-x}}$,
- 미분: $\sigma(x)(1-\sigma(x))$
-
ReLU: $f(x)=\max(0,x)$,
- 미분: $f'(x)=1 (x>0), 0 (x\le0)$
-
Softmax: $softmax(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}}$
-
Temperature Scaling (Softmax): 온도 T 높이면 확률 분포 평탄화, 낮추면 sharp.
4-3. Loss Functions, Optimization, Backpropagation
-
Cross-Entropy Loss: $L=-\sum y_i \log p_i$ (정답 원핫 y, 예측 p)
-
Mean Squared Error (MSE): $L = \frac{1}{n}\sum (y-\hat{y})^2$
-
Gradient Descent, SGD, Adam: 각 수식과 하이퍼파라미터(모멘텀, 러닝레이트 등)
-
Backpropagation:
- Chain rule을 통한 미분값 전달
- $\frac{\partial L}{\partial w} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial x} \cdot \frac{\partial x}{\partial w}$
- Multi-layer일 때 층별로 미분값 곱셈
-
Vanishing/Exploding Gradient:
- RNN에서 반복 곱셈으로 기울기 0 or 무한대로 발산, LSTM/GRU, gradient clipping으로 해결
4-4. Transformer, Self-Attention, Position Encoding, Masking
-
Self-Attention:
- Q(query), K(key), V(value) 행렬 계산
- Attention score: $score(Q,K) = \frac{QK^T}{\sqrt{d_k}}$
- Weighted sum: attention score로 V 가중합
-
Multi-Head Attention: 여러 head가 각기 projection 수행(병렬)
-
Positional Encoding:
- $\text{PE}{pos,2i} = \sin(\frac{pos}{10000^{2i/d{model}}})$
- $\text{PE}{pos,2i+1} = \cos(\frac{pos}{10000^{2i/d{model}}})$
-
Masking:
- Padding masking: 패딩 위치 attention score -inf로 덮어 무시
- Causal masking: 미래 token에 가중치 못 주게 함 (디코더)
-
Weight tying: input/output embedding weight 공유로 파라미터 수 감소
5. Regularization, Generalization, Training Tricks
-
L1/L2 Regularization:
- L1: $loss + \lambda\sum|w|$, 희소성 유도
- L2: $loss + \lambda\sum w^2$, 가중치 크기 축소
-
Early Stopping: 검증 오차 최소 시점에서 학습 중단(과적합 방지)
-
Ensemble, Bagging, Boosting: 여러 모델 결합하여 성능 향상
-
Adversarial Training:
- 입력에 작은 노이즈(적대적 샘플) 추가해 강인성 증가
6. Reinforcement Learning (심화)
-
MDP (Markov Decision Process): (S, A, P, R, $\gamma$) 튜플,
- S: 상태, A: 행동, P: 전이 확률, R: 보상, $\gamma$: 할인율
-
Policy: $\pi(a|s)$ 상태에서 행동 선택 확률분포(결정론적/확률적)
-
Value Function: $V^\pi(s)$, $Q^\pi(s,a)$ — 기대 보상
-
Q-learning:
- update: $Q(s,a) \leftarrow Q(s,a) + \alpha(r + \gamma\max_{a'}Q(s',a') - Q(s,a))$
- TD error: $r + \gamma\max Q(s',a') - Q(s,a)$
-
Policy Gradient:
- Objective: $J(\theta) = \mathbb{E}_\pi[R]$
- Update: $\theta \leftarrow \theta + \alpha\nabla_\theta J(\theta)$
7. 기타 심화 개념/정리
-
Universal Approximation Theorem:
- 단일 은닉층(비선형)이 임의의 연속함수 근사 가능(수학적 증명)
-
No Free Lunch Theorem:
- 모든 데이터/문제에 최적화된 하나의 알고리즘은 존재하지 않음.
-
Lottery Ticket Hypothesis:
- 랜덤 초기화 네트워크 내에서 "복권 서브네트워크"가 발견될 경우, pruning해도 성능 유지 가능(실험적 증거).
8. 실전적 주의/시험 포인트
-
계산 문제:
- 파라미터 개수, output size, loss/backprop 공식, conditional probability 등 직접 계산 연습 필요
-
그래프 구조 이해:
- d-separation, blocked/unblocked path 도식화, collider 조건 암기
-
딥러닝 구조/수식:
- forward/backward pass, optimizer 차이, attention/transformer 공식
-
RNN/Transformer/Attention 차이점:
- 장단기 의존성, 병렬성, 연산 구조, 학습 방법 비교