확률론 - BD-SEARCH/MLtutorial GitHub Wiki
확률변수
확률변수 (Random Variable)
- 표곤공간의 각 원소에 하나의 실수를 대응시킬 때의 실수
확률변수의 종류
- 이산확률변수(Discrete Random Variable): 확률변수 X의 집합을 셀 수 있는 경우
- P(X=x) 값을 표현할 수 있다.
- 예: 주사위의 눈이 6일 확률을 구할 수 있다.
- P(X=x) 값을 표현할 수 있다.
- 연속확률변수(Continuous Random Variable): 확률변수 X의 집합을 셀 수 없는 경우
- P(X=x) 값을 표현할 수 없다.
- 예: 컵에 담긴 물이 정확히 1L일 확률은 0이다. (단, 물의 양이 0.999~1.001인 확률과 같이, 범위를 정하면 확률을 구할 수 있다.)
- P(X=x) 값을 표현할 수 없다.
reference
확률질량함수와 확률밀도함수
-
확률질량함수 (Probability Mass Function): 이산 확률 변수에서 특정 값에 대한 확률을 나타내는 변수
- 확률질량함수 값은 전부 0 이상이어야 한다.
- 확률질량함수 값을 전부 합하면 1이 되어야 한다.
- 어느 구간 내에 있는 모든 확률 변수에 대한 확률값을 합하면, 확률 변수가 그 구간에 속할 확률을 구할 수 있다.
-
확률밀도함수 (Probability Dense Function, PDF): 연속 확률 변수에서 확률 변수의 분포를 나타내는 함수
- 확률밀도함수 값은 전부 0 이상이어야 한다.
- 모든 구간에 대하여 __적분__하면 그 값은 1이 되어야 한다.
- 확률밀도함수 그래프의 넓이는 확률값이다. 즉, 어느 구간에 대해 __적분__하면, 확률 변수가 그 구간에 속할 확률을 구할 수 있다.
reference
누적분포함수
누적분포함수(Cumulative Distribution Function)는 확률 변수가 특정 값 이하일 때의 모든 확률값을 누적하여 합한 것이다.
-
F(x) = P(X=<x)
-
이산확률변수의 누적분포함수: x 이하의 모든 X의 P(X) 값을 전부 합한다.
-
연속확률변수의 누적분포함수: x 이하의 모든 X에 대하여 P(X) 값을 전부 적분한다.
reference
- https://blog.naver.com/mykepzzang/220835517006
- https://blog.naver.com/mykepzzang/220836321999
- https://blog.naver.com/piry777/100164573719
공분산과 상관계수
공분산(covariance)
- 각 확률변수 등이 어떻게 퍼져 있는지 나타내는 값
- Cov(X, Y) = X의 편차와 Y의 편차를 곱한 것의 평균
범위에 따른 공분산의 의미
- Cov(X, Y) > 0: X가 증가할 때 Y도 증가한다
- Cov(X, Y) == 0: 두 변수는 서로 선형관계가 없다.
- Cov(X, Y) < 0: X가 증가할 때 Y는 감소한다.
공분산의 문제점
- X, Y의 단위의 크기에 영향을 받는다.
상관계수 (Correlation)
상관계수 = (X, Y의 공분산) / (X, Y의 분산의 기하평균)
범위에 따른 상관계수의 특징
- 1: 완전선형 상관관계
- 0: 상관관계가 없음
- -1: 완전선형 반상관관계
reference