본문 바로가기

스터디

사이파이로 공부하는 확률분포

FINNN 2020. 5. 19. 14:37

베르누이 분포

베르누이 시행 : 결과가 두 가지 중 하나로만 나오는 시행
베르누이 확률변수 : 베르누이 시행의 결과를 실수 0 또는 1로 바꾼 것
1이 나올 확률 $\mu$가 parameter
베르누의 확률분포 : 베르누이 확률변수의 분포
$Bern(x;\mu)=\mu^x(1-\mu)^{1-x}$

이항분포

성공 확률이 $\mu$인 베르누이 시행을 $N$번 반복할 때, 성공 횟수
$Bin(x;N,\mu)={N \choose x}\mu^x(1-\mu)^{1-x}$

카테고리 분포

베르누이 분포의 확장판
다중 분류에 사용됨
각각의 항목이 확률값($\mu_i$)을 가짐
즉, $\sum_{i=1}^{K}\mu_i=1$
$Cat(\boldsymbol{x};\boldsymbol{\mu})=Cat(x_1,x_2,...,x_K;\mu_1,\mu_2,...,\mu_K)=\prod_{k=k}^{K}\mu_{k}^{x_k}$

다항분포

이항분포의 확장판
ex. 주사위를 $N$번 던져 각 면이 나오는 횟수 집합의 분포
$Mu(x;N,\mu)={N \choose x_1,...x_k}\prod_{k=1}^{K}\mu_{k}^{x_k}$

감마분포

지수 분포는 첫 번째 사건이 발생할 때 까지 걸린 시간에 대한 분포였다.
감마 분포는 $n$ 번째 사건이 발생할 때 까지 걸린 시간에 대한 분포다.
즉, 지수 분포는 감마 분포에 $n=1$을 대입한 특수한 경우이다.
신뢰성 공학 등에서 고장을 묘사할 때 사용한다.
$a$는 발생 횟수, $b$는 1회 발생 간격이다.

정규분포

연속 확률 분포 중 대표적
통계적 추론에서 매우 중요하게 취급됨
잡음(noise)을 모델링하거나, 자연적으로 발생하는 현상을 모델링할 때 사용
정규분포를 그대로 사용하려니 적분 등의 연산이 복잡하여 보통은 표준정규분포로 만들어 사용한다.

중심극한정리

모집단의 분포를 모르더라도 표본의 크기가 충분히 크다면 표본 평균들의 분포가 정규 분포를 따른다.
표본 평균들이 이루는 표본 분포와 모집단 간의 관계를 증명함으로써, 수집한 표본의 통계량(statistics)을 이용해 모수(parameters)를 추정할 수 있는 수학적 근거를 마련

카이제곱분포

정규분포를 제곱하거나, 정규분포를 제곱한 것을 더한 것을 카이제곱분포라고 한다.
제곱해서 더한 것이므로 0보다 큰 영역에서만 그려진다.
감마분포의 특수한 형태($X\sim Gamma(a=r/2, b=2) \Leftrightarrow \chi^2(r)$)
왼쪽으로 치우치고, 오른쪽으로 긴 꼬리를 갖는 분포
자유도 $n$이 커질수록 종모양의 분포에 가까워진다. 즉, $n$이 커질수록 카이제곱분포는 정규분포에 근사한다.
$X$가 $\chi^2(n_1)$을 따르고, $Y$가 $\chi^2(n_2)$를 따르고, $X$, $Y$가 서로 독립이라면 $X+Y=\chi^2(n_1+n_2)$가 된다. 이를 "$\chi^2$분포의 가법성"이라고 한다.

활용

표본분산 $s^2$의 분포
범주형 자료 분석의 카이제곱 검정

t 분포

정규분포의 한계를 극복하기 위해 개발됨
정규분포는 표본의 수가 적으면 신뢰도가 낮아진다. 정규분포보다 한 단계 예측범위가 넓은 분포를 사용하는데, 이것이 t분포이다.
공식 외울 필요 없다.
t 분포의 확률밀도함수는 표준정규분포와 비슷하게 종 모양의 분포를 이루며, t=0에 대해 좌우 대칭이다.
다만, t 분포의 꼬리 부분은 표준정규분포보다 약간 더 두터우며(팻 테일), 이는 자유도 $r$이 커질수록 표준정규분포에 가까워진다.

활용

평균에 대한 검정이나 추정을 할 때 많이 쓰임

F-분포

카이제곱 분포는 한 집단의 분산을 다룸
F-분포는 두 집단의 분산을 다룸
두 집단의 분산의 비율을 통해 분산의 크기를 비교한다.
비율이 1에 가까울수록 두 분산의 크기가 비슷한 것이며, 1에서 멀어질수록 두 분산의 크기가 다른 것이다.
각각의 카이제곱분포는 자유도를 가지고 있으므로 이들이 F-분포의 자유도가 된다.
공식 외울 필요 없다.
일반적으로 왼쪽으로 치우친 모양을 가지고 있다.

활용

분산에 대한 검정이나 추정을 할 때 많이 쓰임
또한, 세 개 이상의 평균 집단의 차이를 검정할 때도 쓰임

베타 분포

정규 분포는 $(-\infty, \infty)$에 대해 정의할 수 있지만 베타 분포는 $(0, 1)$에 대해 정의할 수 있다.
통계에서 이와 동일한 특성을 갖는 것이 확률이다. 따라서 어떠한 확률을 모델링하기 위한 수단으로 사용할 수 있다.
$\alpha$, $\beta$를 parameter로 갖는다. 이들이 베타 분포의 모양을 결정한다고 해서 형상인자(shape factor)라고 부르기도 한다.($\alpha>0$, $\beta>0$)
베타 분포의 앞에 붙은 것들은 PDF의 적분값이 1이 되도록 만들어주기 위한 상수로, 베타 함수(beta function)이라고 한다.

출처

저작자표시 비영리 변경금지 (새창열림)

'스터디' 카테고리의 다른 글

02 Fundamentals of Machine Learning (0)	2020.08.07
01 Motivations and Basics (0)	2020.08.07
6. 피지엠파이(pgmpy)로 공부하는 확률론: 베이즈 정리 (0)	2020.04.28
4. 심파이(SymPy)로 공부하는 미적분 (0)	2020.04.14
3-4. 고급 선형대수: SVD(1) (0)	2020.03.30

티스토리툴바