분류의 기초★★★ - smart1004/doc GitHub Wiki

분류의 기초
https://datascienceschool.net/view-notebook/e2790743099742a396cfa4955ffc8a1f/

분류(classification)는 독립 변수(feature) 값이 주어졌을 때 그 독립 변수 값과 가장 연관성이 큰 종속변수 카테고리(클래스)를 계산하는 문제이다. 현실적인 문제로 바꾸어 말하면 어떤 표본에 대한 데이터가 주어졌을 때 그 표본이 어떤 카테고리 혹은 클래스에 속하는지를 알아내는 문제이기도 하다. 선택해야 할 카테고리 혹은 클래스가 미리 주어졌다는 점에서 보기가 주어진 객관식 시험 문제를 푸는 것과 비슷하다고 말할 수 있다.

분류 모형의 종류¶ 분류 문제를 푸는 방법은 크게 두 가지로 나눌 수 있다. 하나는 주어진 데이터를 카테고리에 따라 서로 다른 영역으로 나누는 경계면(decision boundary)을 찾아낸 다음 이 경계면으로부터 주어진 데이터가 어느 위치에 있는지를 계산하는 판별 함수(discriminant function)를 이용하는 판별함수 모형이고 또 다른 하나는 주어진 데이터에 대해(conditionally) 각 카테고리 혹은 클래스가 정답일 조건부 확률(conditional probability)를 계산하는 조건부 확률 모형이다. 조건부 확률 기반 방법은 조건부 확률을 계산하는 방법에 따라 직접 조건부 확률 함수를 추정하는 판별(discriminative) 모형과 베이즈 정리를 사용하는 생성(generative) 모형으로 나누어진다.

아래 표에 여러가지 분류 모형과 각 분류 모형이 어떤 방법론에 속하는지를 나타내었다.