iai‐c‐sheets - waegari/waegari.github.io GitHub Wiki

AI Final Exam – 개괄 정리 (Cheat Sheet, Overview)


1. Bayesian Network & 확률

  • Bayesian Network: 조건부 확률 분포를 그래프로 표현, 각 노드는 확률 변수, 엣지는 조건부 의존성 의미

  • Conditional Independence: 두 변수 A, B가 S에 대해 조건부 독립 ↔ $P(A,B|S) = P(A|S)P(B|S)$

  • d-separation: 그래프 구조 상 경로가 차단(block)되는지로 조건부 독립성 판정

    • Chain, Fork: 가운데 노드(관찰 시) → 막힘
    • Collider(V-structure): 가운데 노드(관찰 시) → 열림 (또는 그 후손 관찰)
  • 전체 확률의 법칙: $P(B) = P(B|A)P(A) + P(B|\neg A)P(\neg A)$

  • Bayes 정리: $P(A|B) = \frac{P(B|A)P(A)}{P(B)}$

  • 확률 표(CPT, Conditional Probability Table) 읽기와 계산


2. Information Theory

  • Entropy (엔트로피): 불확실성, $H(X) = -\sum p(x) \log_2 p(x)$
  • Conditional Entropy: $H(X|Y)$, $Y$를 알 때 $X$의 불확실성
  • Information Gain: $IG = H(부모) - \sum_{자식} P(자식)H(자식)$
  • KL Divergence: $KL(P||Q) = \sum P(x) \log \frac{P(x)}{Q(x)}$, 비대칭

3. Decision Tree

  • 정보 이득(Information Gain): 분할 전/후 엔트로피 차
  • Gini Index: 분류 트리에서 불순도 측정

4. Neural Network (MLP, CNN, RNN, LSTM, Transformer)

4-1. 기본 구조/연산

  • Fully Connected Layer: 입력 노드 수 × 출력 노드 수 + bias (e.g., (input+1)×output)

  • Convolutional Layer

    • Output size: $\left(\frac{W-K+2P}{S}+1\right)$, H/W 각각
    • 파라미터 수: (필터크기 × 입력채널수 + bias) × 필터 수
    • Batch 처리: Batch size × Output shape (e.g., B×H×W×C)
  • Dropout: 학습 시 임의로 일부 노드 비활성화

  • Batch Norm / Layer Norm: 배치/레이어 기준 정규화

4-2. Activation Functions

  • Sigmoid: $\sigma(x) = \frac{1}{1+e^{-x}}$, 미분: $\sigma(x)(1-\sigma(x))$
  • ReLU: $f(x)=\max(0,x)$, 미분: 0(음수), 1(양수)
  • Softmax: $softmax(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}}$

4-3. Optimization

  • Loss Function: MSE, Cross-Entropy 등
  • Gradient Descent / SGD / Adam: 가중치 업데이트
  • Backpropagation: Chain rule로 미분 전파

4-4. RNN/LSTM/GRU

  • RNN: $h_t = \tanh(Wx_t + Uh_{t-1} + b)$
  • LSTM: 게이트 구조로 긴 시퀀스 정보 보존 (input, forget, output gate)
  • Vanishing/Exploding Gradient: RNN에서 기울기 소실/폭주, LSTM/GRU로 완화

4-5. Transformer & Attention

  • Self-Attention: 쿼리(Q), 키(K), 밸류(V) 계산, 모든 토큰 쌍 상호작용
  • Multi-Head Attention: 여러 attention head로 다양한 feature 학습
  • Positional Encoding: 순서 정보 부여
  • Masking: padding/미래 정보 차단
  • Parameter 계산: projection(Q,K,V) = (input_dim × head_dim × 3) × head 수

5. Regularization & Generalization

  • L1/L2 Regularization: 가중치 크기(희소성/작은 값) 제약
  • Dropout: 랜덤 뉴런 제거(과적합 완화)
  • Early Stopping: 검증 오차 기준 학습 중단
  • Overfitting/Underfitting: 과대/과소적합 개념

6. Reinforcement Learning

  • MDP (Markov Decision Process): 상태, 행동, 전이확률, 보상
  • Policy: 상태→행동 결정(결정론적/확률적)
  • Value Function / Q-Function: 기대 보상, Q-learning update
  • TD Error: target - 현재 Q값
  • Policy Gradient: 정책 직접 미분

7. 기타 주요 개념

  • Universal Approximation Theorem: 1개의 은닉층만으로 임의의 함수 근사 가능
  • No Free Lunch Theorem: 모든 문제에 만능인 알고리즘 없음
  • Adversarial Training: 적대적 샘플로 강인성 증가
  • Curriculum Learning: 쉬운 예제부터 학습
  • Residual Connection / Skip Connection: 정보 손실/gradient 소실 방지

AI Final Exam – 용어 사전 및 주요 정리


A. 확률/그래프/정보이론

Bayesian Network (베이지안 네트워크)

  • 조건부 독립 관계를 그래프로 표현하는 모델. 노드는 변수, 엣지는 조건부 의존을 의미.

Conditional Independence (조건부 독립)

  • 두 변수 X, Y가 S에 대해 조건부 독립: $P(X, Y|S) = P(X|S)P(Y|S)$

d-separation

  • 그래프 구조상 정보의 흐름이 막히는 조건. d-separation이 성립하면 조건부 독립이 됨.

Chain Rule of Probability (확률의 곱셈법칙)

  • 여러 확률 변수의 결합 확률을 조건부 확률의 곱으로 분해: $P(A, B, C) = P(A)P(B|A)P(C|A,B)$

Law of Total Probability (전체 확률의 법칙)

  • $P(B) = P(B|A)P(A) + P(B|\neg A)P(\neg A)$

Bayes' Theorem (베이즈 정리)

  • $P(A|B) = \frac{P(B|A)P(A)}{P(B)}$

Conditional Probability Table (CPT, 조건부 확률 표)

  • 그래프 모델의 각 노드(변수)에 대한 조건부 확률 분포를 표로 정리한 것.

Entropy (엔트로피)

  • 확률 변수 X의 불확실성 척도. $H(X) = -\sum p(x) \log_2 p(x)$

Conditional Entropy (조건부 엔트로피)

  • $H(X|Y)$: Y를 알 때 남은 X의 불확실성.

Mutual Information (상호 정보량)

  • $I(X;Y) = H(X) - H(X|Y)$, X와 Y가 얼마나 정보를 공유하는지.

KL Divergence (Kullback-Leibler Divergence, 쿨백-라이블러 발산)

  • 두 분포 P, Q의 차이: $KL(P||Q) = \sum_x P(x)\log \frac{P(x)}{Q(x)}$ (비대칭)

B. 의사결정트리/학습이론

Decision Tree (의사결정트리)

  • 데이터를 분할하며 예측하는 트리 구조 모델.

Information Gain (정보 이득)

  • 분할 전후 엔트로피 감소량: $IG = H(부모) - \sum_{자식} P(자식)H(자식)$

Gini Index (지니 계수)

  • 분류 트리에서 불순도 척도: $Gini = 1 - \sum p_k^2$

Overfitting (과적합), Underfitting (과소적합)

  • 과적합: 학습 데이터에 지나치게 특화됨.
  • 과소적합: 데이터의 패턴을 충분히 학습하지 못함.

C. 신경망(MLP/CNN/RNN/Transformer)

Fully Connected Layer (FC, 완전연결층)

  • 입력 모든 노드와 출력 모든 노드가 연결된 층.

Convolutional Layer (CNN, 합성곱 신경망 층)

  • 국소 영역을 필터(커널)로 스캔해 특징 추출.

Feature Map

  • CNN 층의 각 필터가 출력하는 결과 행렬/텐서.

Batch Normalization

  • 미니배치 단위로 평균, 분산을 정규화하여 학습 안정화.

Layer Normalization

  • 각 샘플 내부에서 정규화. 주로 sequence 모델(Transformer 등)에 활용.

Dropout

  • 학습 중 임의로 일부 노드/연결을 0으로 만들어 과적합 방지.

Activation Function (활성화 함수)

  • 뉴런의 출력에 비선형성을 부여.

    • Sigmoid: $\sigma(x)=1/(1+e^{-x})$, 미분은 $\sigma(x)(1-\sigma(x))$
    • ReLU: $f(x)=\max(0,x)$, 미분은 0 또는 1
    • Softmax: 다중 분류용, 확률 분포 출력

Universal Approximation Theorem (보편근사정리)

  • 은닉층이 충분히 넓으면 임의의 연속함수를 근사할 수 있음.

Residual Connection (Skip Connection, 잔차 연결)

  • 입력을 다음 블록 출력에 더함. 정보 손실/gradient 소실 방지.

Batch Size (배치 크기)

  • 한 번에 학습하는 데이터 샘플 수.

D. RNN/LSTM/Sequence Model

Recurrent Neural Network (RNN, 순환신경망)

  • 시퀀스 데이터 처리. 이전 상태(hidden state)가 현재 입력과 함께 다음 상태 계산에 사용.

Vanishing/Exploding Gradient

  • 역전파 과정에서 기울기가 0 또는 매우 커져서 학습이 불안정해지는 현상.

Long Short-Term Memory (LSTM)

  • RNN의 한 종류. 게이트 구조로 긴 시퀀스 의존성을 보존.

Gated Recurrent Unit (GRU)

  • LSTM의 간단화 버전.

E. Transformer/Attention

Self-Attention

  • 쿼리(Q), 키(K), 밸류(V)로 모든 단어 쌍 상호작용, 가중합을 구함.

Multi-Head Attention

  • 여러 attention head로 다양한 정보를 동시에 학습.

Positional Encoding

  • 시퀀스 내 순서 정보를 부여하는 추가 벡터.

Masked Attention

  • 미래 정보를 가릴 때(디코더 등) 사용하는 마스킹.

Weight Tying

  • 임베딩 레이어 등에서 가중치 공유.

F. 최적화/일반화/정규화

Loss Function (손실 함수)

  • MSE, Cross-Entropy 등. 모델 예측과 정답의 차이 측정.

Gradient Descent (경사하강법)

  • 손실 함수 미분(기울기) 방향으로 파라미터 업데이트.

Stochastic Gradient Descent (SGD)

  • 데이터 일부(미니배치)로 경사하강법 적용.

Adam Optimizer

  • 적응적 모멘텀 및 학습률 사용, 빠르고 안정적.

L1/L2 Regularization

  • 가중치의 크기를 제한, 과적합 방지.

    • L1: 가중치 절댓값 합
    • L2: 가중치 제곱합

Early Stopping

  • 검증 오차가 증가하기 시작하면 학습 조기 중단.

Curriculum Learning

  • 쉬운 예제부터 점차 어려운 예제로 학습.

Adversarial Training

  • 적대적 예제를 활용하여 모델의 강인성 향상.

G. 강화학습

Markov Decision Process (MDP)

  • 상태, 행동, 전이 확률, 보상으로 이루어진 수학적 모델.

Policy (정책)

  • 상태에서 행동을 선택하는 규칙(결정론적/확률적).

Q-Function (Q값, Q(s,a))

  • 특정 상태-행동에서의 기대 보상.

Value Iteration

  • 가치 함수(V, Q) 갱신 반복으로 최적 정책 추정.

Policy Gradient

  • 정책 자체를 미분하여 최적화.

TD Error (Temporal Difference Error)

  • TD 오차 = (새로운 target Q) - (현재 Q)

H. 기타

No Free Lunch Theorem

  • 만능 학습 알고리즘은 없다. 문제마다 최적 방법이 다르다.

Lottery Ticket Hypothesis

  • 좋은 초기화가 된 작은 네트워크(복권)가 대형 모델 내에 존재한다는 가설.

AI Final Exam – Advanced Detailed Cheat Sheet


1. Bayesian Network & Conditional Independence (심화)

  • Bayesian Network: Directed acyclic graph (DAG)로 확률 변수들의 조건부 의존 관계를 표현. 각 노드는 변수, 엣지는 직접적 조건부 의존(부모-자식).

    • Joint Distribution Factorization: $P(X_1, ..., X_n) = \prod_{i=1}^n P(X_i | Parents(X_i))$
    • CPT(Conditional Probability Table): 각 노드별 부모 상태별 확률 분포.
    • Markov Blanket: 특정 노드의 확률에 영향을 주는 최소 변수 집합(부모, 자식, 자식의 다른 부모).
  • d-separation: 조건부 독립 판단 공식.

    • Chain/Fork: (A→B→C, A←B→C) — 중간 B가 관측되면 A,C는 독립.
    • Collider: (A→B←C) — B 또는 B의 후손 관찰 전엔 막힘(독립), 관찰 시 열림(비독립).
    • Blocked/Unblocked Path: 조건(관측 변수)에 따라 정보 흐름(확률적 의존성)이 열리고 닫힘.
  • Conditional Independence vs. d-separation:

    • d-separation이 성립하면 항상 조건부 독립이지만, 실제 분포(파라미터)가 그래프 구조와 다를 경우 예외 가능(이론/실전 구분).
    • 시험에서는 주로 그래프 구조(정의적 성질)에 기반.
  • Probabilistic Inference: 마진/조건부 확률 계산시 전체 확률의 법칙, 베이즈 정리, 변환·테이블 합산 필수.

    • Marginalization: 불필요 변수 합산.
    • Evidence Variable: 관찰된 변수(=조건).
    • Causal vs. Diagnostic Inference: 원인→결과(Forward), 결과→원인(Backward).

2. Information Theory (엔트로피, 정보이득 등)

  • Shannon Entropy:

    • 정의: $H(X) = -\sum_{x} P(x)\log_2 P(x)$
    • 최댓값: 균등 분포일 때, $\log_2 n$ (n=상태 수).
  • Conditional Entropy:

    • $H(X|Y) = \sum_y P(y) H(X|Y=y)$
    • Y를 알 때 X의 불확실성. Y가 X를 완전히 결정하면 0.
  • Information Gain (정보 이득):

    • 트리 분할 기준, 엔트로피 감소량.
    • $IG = H(parent) - \sum_{child} P(child)H(child)$
  • Gini Index:

    • $Gini = 1 - \sum_{k} p_k^2$
    • 2개 클래스일 때 최대 0.5, 완전 분리 시 0.
  • KL Divergence (Kullback-Leibler):

    • $KL(P||Q) = \sum_x P(x)\log \frac{P(x)}{Q(x)}$
    • P=정답분포, Q=모델분포, 불일치(벌점) 척도. 비대칭, 항상 0 이상.
    • Cross-Entropy와의 관계: $H(P,Q) = H(P) + KL(P||Q)$

3. Decision Tree (트리 분할, 정보이득, 엔트로피 등)

  • 분할 규칙: 정보 이득이 최대인 속성 선택.
  • Stopping Criteria: 엔트로피 0 (순수 노드), max depth, 최소 샘플 수 등.
  • Overfitting 방지: 가지치기(pruning), min samples/leaf, max depth.
  • Ensemble Tree: 랜덤 포레스트, 부스팅 등(트리 집합, 변형).

4. Neural Network (MLP/CNN/RNN/LSTM/Transformer) – Advanced

4-1. Parameter Calculation & 구조

  • FC Layer: (input_dim + 1) × output_dim (bias 포함)

  • CNN

    • Output Shape: $H_{out} = \left\lfloor \frac{H_{in} - K + 2P}{S} + 1 \right\rfloor$
    • Parameters: (K×K×in_channels + 1) × num_filters
    • Feature Map: Batch 포함 $B×H_{out}×W_{out}×C_{out}$
  • RNN/LSTM

    • RNN weights: $input_dim × hidden_dim + hidden_dim × hidden_dim + bias$
    • LSTM: 각 gate마다 input, hidden 모두에 대해 W, U, bias (4배 필요)
    • Shared weights: 타임스텝마다 동일 가중치(Backprop Through Time)
  • Dropout, Batch Norm, Layer Norm: 각각의 수식과 동작 메커니즘 암기

    • Batch Norm: $\frac{x-\mu_B}{\sqrt{\sigma^2_B+\epsilon}}$ (배치 평균·분산 사용)
    • Layer Norm: 한 샘플 내 뉴런 값 정규화

4-2. Activation Functions & 미분

  • Sigmoid:

    • $\sigma(x) = \frac{1}{1+e^{-x}}$,
    • 미분: $\sigma(x)(1-\sigma(x))$
  • ReLU: $f(x)=\max(0,x)$,

    • 미분: $f'(x)=1 (x>0), 0 (x\le0)$
  • Softmax: $softmax(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}}$

  • Temperature Scaling (Softmax): 온도 T 높이면 확률 분포 평탄화, 낮추면 sharp.


4-3. Loss Functions, Optimization, Backpropagation

  • Cross-Entropy Loss: $L=-\sum y_i \log p_i$ (정답 원핫 y, 예측 p)

  • Mean Squared Error (MSE): $L = \frac{1}{n}\sum (y-\hat{y})^2$

  • Gradient Descent, SGD, Adam: 각 수식과 하이퍼파라미터(모멘텀, 러닝레이트 등)

  • Backpropagation:

    • Chain rule을 통한 미분값 전달
    • $\frac{\partial L}{\partial w} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial x} \cdot \frac{\partial x}{\partial w}$
    • Multi-layer일 때 층별로 미분값 곱셈
  • Vanishing/Exploding Gradient:

    • RNN에서 반복 곱셈으로 기울기 0 or 무한대로 발산, LSTM/GRU, gradient clipping으로 해결

4-4. Transformer, Self-Attention, Position Encoding, Masking

  • Self-Attention:

    • Q(query), K(key), V(value) 행렬 계산
    • Attention score: $score(Q,K) = \frac{QK^T}{\sqrt{d_k}}$
    • Weighted sum: attention score로 V 가중합
  • Multi-Head Attention: 여러 head가 각기 projection 수행(병렬)

  • Positional Encoding:

    • $\text{PE}{pos,2i} = \sin(\frac{pos}{10000^{2i/d{model}}})$
    • $\text{PE}{pos,2i+1} = \cos(\frac{pos}{10000^{2i/d{model}}})$
  • Masking:

    • Padding masking: 패딩 위치 attention score -inf로 덮어 무시
    • Causal masking: 미래 token에 가중치 못 주게 함 (디코더)
  • Weight tying: input/output embedding weight 공유로 파라미터 수 감소


5. Regularization, Generalization, Training Tricks

  • L1/L2 Regularization:

    • L1: $loss + \lambda\sum|w|$, 희소성 유도
    • L2: $loss + \lambda\sum w^2$, 가중치 크기 축소
  • Early Stopping: 검증 오차 최소 시점에서 학습 중단(과적합 방지)

  • Ensemble, Bagging, Boosting: 여러 모델 결합하여 성능 향상

  • Adversarial Training:

    • 입력에 작은 노이즈(적대적 샘플) 추가해 강인성 증가

6. Reinforcement Learning (심화)

  • MDP (Markov Decision Process): (S, A, P, R, $\gamma$) 튜플,

    • S: 상태, A: 행동, P: 전이 확률, R: 보상, $\gamma$: 할인율
  • Policy: $\pi(a|s)$ 상태에서 행동 선택 확률분포(결정론적/확률적)

  • Value Function: $V^\pi(s)$, $Q^\pi(s,a)$ — 기대 보상

  • Q-learning:

    • update: $Q(s,a) \leftarrow Q(s,a) + \alpha(r + \gamma\max_{a'}Q(s',a') - Q(s,a))$
    • TD error: $r + \gamma\max Q(s',a') - Q(s,a)$
  • Policy Gradient:

    • Objective: $J(\theta) = \mathbb{E}_\pi[R]$
    • Update: $\theta \leftarrow \theta + \alpha\nabla_\theta J(\theta)$

7. 기타 심화 개념/정리

  • Universal Approximation Theorem:

    • 단일 은닉층(비선형)이 임의의 연속함수 근사 가능(수학적 증명)
  • No Free Lunch Theorem:

    • 모든 데이터/문제에 최적화된 하나의 알고리즘은 존재하지 않음.
  • Lottery Ticket Hypothesis:

    • 랜덤 초기화 네트워크 내에서 "복권 서브네트워크"가 발견될 경우, pruning해도 성능 유지 가능(실험적 증거).

8. 실전적 주의/시험 포인트

  • 계산 문제:

    • 파라미터 개수, output size, loss/backprop 공식, conditional probability 등 직접 계산 연습 필요
  • 그래프 구조 이해:

    • d-separation, blocked/unblocked path 도식화, collider 조건 암기
  • 딥러닝 구조/수식:

    • forward/backward pass, optimizer 차이, attention/transformer 공식
  • RNN/Transformer/Attention 차이점:

    • 장단기 의존성, 병렬성, 연산 구조, 학습 방법 비교