CV 9. Deep Learning - waegari/waegari.github.io GitHub Wiki

챕터 9: Deep Learning (딥러닝)

1. 딥러닝, 왜 필요한가?

이미지 분류의 난점:
- Viewpoint 변화(카메라 각도/거리/스케일), 조명, 변형, 가림(occlusion), 배경 복잡도 등
- 기존 전통적 방식(템플릿 매칭, 피처 기반 매칭)으로는 한계
딥러닝(Deep Neural Network):
- 대규모 데이터/복잡한 문제에서도 ‘특징 추출+분류’까지 자동 학습
- 인간 수준/초월하는 인식 정확도 달성

2. 딥러닝 이전의 접근법

템플릿 기반 매칭:
- “이 패턴이랑 얼마나 비슷?” → 템플릿 이미지와 픽셀별 비교
피처 기반 매칭:
- 에지/코너 등 강한 특징 검출 → 분류기는 SVM, KNN 등 전통 ML 사용
피처 디스크립터+분류기:
- HOG, LBP, SIFT 등 피처 추출 후 분류

3. 딥러닝 기본 구조(신경망 네트워크)

Neural Network:
- 입력층(Features) → 여러 개의 은닉층(Hidden Layers) → 출력층(Classes)
- 각 연결마다 Weight, Bias
- Activation Function(ReLU, Sigmoid, Softmax 등)
- 학습: 정답(라벨)과 예측값의 차이(Loss)를 역전파(Backpropagation)로 최소화
Supervised/Unsupervised/Semi-supervised Learning
- 대표적 데이터셋: MNIST(손글씨), CIFAR, ImageNet 등

4. CNN (Convolutional Neural Network) 구조 및 핵심 연산

Convolution Layer(합성곱층):
- 입력 이미지에 필터(커널) 적용, 로컬 특징(Edge, Texture, Object part 등) 추출
- Stride, Padding 개념 중요 (Feature Map 크기 조절)
ReLU(Activation):
- 비선형성 추가, 음수는 0으로 처리
Pooling Layer:
- Max/Avg Pooling 등, 공간 크기 축소/불변성 강화(위치, 노이즈 등)
Fully Connected Layer:
- 마지막 단계에서 모든 노드 연결, 클래스별 확률 출력(Softmax)
Loss Function:
- Cross-Entropy Loss, MSE 등
학습:
- Forward → Loss 계산 → Backpropagation으로 파라미터(W, b) 업데이트

5. 주요 네트워크 구조 (사례)

LeNet-5:
- 초창기 CNN, MNIST(손글씨) 분류에 성공, Conv-Pool-FC 구조
AlexNet:
- 2012 ILSVRC에서 대혁신, 8레이어(5 Conv+3 FC), ReLU/Dropout/데이터 증강 적용
그 이후:
- VGGNet, GoogLeNet, ResNet 등 “더 깊고 넓은” 구조 등장
- Transfer Learning(전이학습), Fine-tuning(미세조정) 등

6. 딥러닝 기반 영상 분석의 실제 문제

이미지 분류(Classification):
- 하나의 이미지를 ‘1개 클래스’로 구분
객체 검출(Object Detection):
- 여러 개 객체 위치(사각형) + 종류 예측
세그멘테이션(Segmentation):
- 각 픽셀 단위로 클래스 지정(예: 사람/배경)
객체 트래킹(Tracking):
- 영상 내 객체의 위치 추적

7. 딥러닝의 한계/실전 적용시 고려사항

데이터 부족/편향(Bias), 오버피팅
연산량/메모리, 실시간 처리 한계
설명 가능성(XAI), 윤리/프라이버시 문제
과적합 방지법: Dropout, Regularization, Data Augmentation 등

8. 시험에 자주 나오는 세부 포인트/수식

Convolution 연산:

$$ y[i, j] = \sum_{m} \sum_{n} x[i+m, j+n] \cdot k[m, n] $$
ReLU: $f(x) = \max(0, x)$
Pooling: $\max$ 또는 $\text{avg}$ 연산
Backpropagation/Gradient Descent 원리
Fully Connected 계산: $y = Wx + b$
Softmax:

$$ \text{softmax}(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}} $$
Cross-Entropy Loss:

$$ L = -\sum_{i=1}^{C} y_i \log(\hat{y}_i) $$

( $y_i$: 정답, $\hat{y}_i$: 예측값 )

[암기/메모용 키워드]

Deep Learning = “End-to-End 학습”, 대규모 데이터
CNN: Convolution, Pooling, ReLU, Fully Connected, Softmax
LeNet, AlexNet, VGG, ResNet, Transfer Learning
Backpropagation, Gradient Descent, Cross-Entropy
Classification, Detection, Segmentation, Tracking
오버피팅, Regularization, Data Augmentation, Explainable AI