본문 바로가기

스터디

사이파이로 공부하는 확률분포

베르누이 분포

  • 베르누이 시행 : 결과가 두 가지 중 하나로만 나오는 시행
  • 베르누이 확률변수 : 베르누이 시행의 결과를 실수 0 또는 1로 바꾼 것
  • 1이 나올 확률 $\mu$가 parameter
  • 베르누의 확률분포 : 베르누이 확률변수의 분포
  • $Bern(x;\mu)=\mu^x(1-\mu)^{1-x}$

이항분포

  • 성공 확률이 $\mu$인 베르누이 시행을 $N$번 반복할 때, 성공 횟수
  • $Bin(x;N,\mu)={N \choose x}\mu^x(1-\mu)^{1-x}$

카테고리 분포

  • 베르누이 분포의 확장판
  • 다중 분류에 사용됨
  • 각각의 항목이 확률값($\mu_i$)을 가짐
  • 즉, $\sum_{i=1}^{K}\mu_i=1$
  • $Cat(\boldsymbol{x};\boldsymbol{\mu})=Cat(x_1,x_2,...,x_K;\mu_1,\mu_2,...,\mu_K)=\prod_{k=k}^{K}\mu_{k}^{x_k}$

다항분포

  • 이항분포의 확장판
  • ex. 주사위를 $N$번 던져 각 면이 나오는 횟수 집합의 분포
  • $Mu(x;N,\mu)={N \choose x_1,...x_k}\prod_{k=1}^{K}\mu_{k}^{x_k}$

감마분포

  • 지수 분포는 첫 번째 사건이 발생할 때 까지 걸린 시간에 대한 분포였다.
  • 감마 분포는 $n$ 번째 사건이 발생할 때 까지 걸린 시간에 대한 분포다.
  • 즉, 지수 분포는 감마 분포에 $n=1$을 대입한 특수한 경우이다.
  • 신뢰성 공학 등에서 고장을 묘사할 때 사용한다.
  • $a$는 발생 횟수, $b$는 1회 발생 간격이다.

정규분포

  • 연속 확률 분포 중 대표적
  • 통계적 추론에서 매우 중요하게 취급됨
  • 잡음(noise)을 모델링하거나, 자연적으로 발생하는 현상을 모델링할 때 사용
  • 정규분포를 그대로 사용하려니 적분 등의 연산이 복잡하여 보통은 표준정규분포로 만들어 사용한다.

중심극한정리

  • 모집단의 분포를 모르더라도 표본의 크기가 충분히 크다면 표본 평균들의 분포가 정규 분포를 따른다.
  • 표본 평균들이 이루는 표본 분포와 모집단 간의 관계를 증명함으로써, 수집한 표본의 통계량(statistics)을 이용해 모수(parameters)를 추정할 수 있는 수학적 근거를 마련

카이제곱분포

  • 정규분포를 제곱하거나, 정규분포를 제곱한 것을 더한 것을 카이제곱분포라고 한다.
  • 제곱해서 더한 것이므로 0보다 큰 영역에서만 그려진다.
  • 감마분포의 특수한 형태($X\sim Gamma(a=r/2, b=2) \Leftrightarrow \chi^2(r)$)
  • 왼쪽으로 치우치고, 오른쪽으로 긴 꼬리를 갖는 분포
  • 자유도 $n$이 커질수록 종모양의 분포에 가까워진다. 즉, $n$이 커질수록 카이제곱분포는 정규분포에 근사한다.
  • $X$가 $\chi^2(n_1)$을 따르고, $Y$가 $\chi^2(n_2)$를 따르고, $X$, $Y$가 서로 독립이라면 $X+Y=\chi^2(n_1+n_2)$가 된다. 이를 "$\chi^2$분포의 가법성"이라고 한다.

활용

  • 표본분산 $s^2$의 분포
  • 범주형 자료 분석의 카이제곱 검정

t 분포

  • 정규분포의 한계를 극복하기 위해 개발됨
  • 정규분포는 표본의 수가 적으면 신뢰도가 낮아진다. 정규분포보다 한 단계 예측범위가 넓은 분포를 사용하는데, 이것이 t분포이다.
  • 공식 외울 필요 없다.
  • t 분포의 확률밀도함수는 표준정규분포와 비슷하게 종 모양의 분포를 이루며, t=0에 대해 좌우 대칭이다.
  • 다만, t 분포의 꼬리 부분은 표준정규분포보다 약간 더 두터우며(팻 테일), 이는 자유도 $r$이 커질수록 표준정규분포에 가까워진다.

활용

  • 평균에 대한 검정이나 추정을 할 때 많이 쓰임

F-분포

  • 카이제곱 분포는 한 집단의 분산을 다룸
  • F-분포는 두 집단의 분산을 다룸
  • 두 집단의 분산의 비율을 통해 분산의 크기를 비교한다.
  • 비율이 1에 가까울수록 두 분산의 크기가 비슷한 것이며, 1에서 멀어질수록 두 분산의 크기가 다른 것이다.
  • 각각의 카이제곱분포는 자유도를 가지고 있으므로 이들이 F-분포의 자유도가 된다.
  • 공식 외울 필요 없다.
  • 일반적으로 왼쪽으로 치우친 모양을 가지고 있다.

활용

  • 분산에 대한 검정이나 추정을 할 때 많이 쓰임
  • 또한, 세 개 이상의 평균 집단의 차이를 검정할 때도 쓰임

베타 분포

  • 정규 분포는 $(-\infty, \infty)$에 대해 정의할 수 있지만 베타 분포는 $(0, 1)$에 대해 정의할 수 있다.
  • 통계에서 이와 동일한 특성을 갖는 것이 확률이다. 따라서 어떠한 확률을 모델링하기 위한 수단으로 사용할 수 있다.
  • $\alpha$, $\beta$를 parameter로 갖는다. 이들이 베타 분포의 모양을 결정한다고 해서 형상인자(shape factor)라고 부르기도 한다.($\alpha>0$, $\beta>0$)
  • 베타 분포의 앞에 붙은 것들은 PDF의 적분값이 1이 되도록 만들어주기 위한 상수로, 베타 함수(beta function)이라고 한다.

출처