본문 바로가기

스터디

6. 피지엠파이(pgmpy)로 공부하는 확률론: 베이즈 정리

모든 내용을 다루진 않고 베이즈 정리만 다루겠다.

 

베이즈 정리

개념

베이즈 정리는 데이터라는 조건이 주어졌을 때 조건부 확률을 구하는 공식이다.

즉, 새로운 데이터(x)가 들어온다면 새로운 데이터의 조건부 확률을 구하는 것이다.

따라서 데이터가 주어지기 전의 사전확률값이 데이터가 주어지면서 어떻게 변하는지 계산할 수 있다.

 

이것은 새로운 데이터가 들어왔을 때 매우 유용하다.

어제 분석 결과에 오늘 들어온 데이터만 업데이트하면 어떻게 변할지 결과를 계산할 수 있기 때문이다.

 

 

공식

$P(A|B)= \frac{P(B|A)P(A)}{P(B)}$

 

여기서 P(A)는 사전확률(prior)이고 사건 B가 발생하기 전에 가지고 있던 사건의 확률이다.

P(A|B)는 사후확률로, 사건 B가 발생하고 이 정보를 반영한 확률이다.

P(B|A)는 가능도라고 하고, P(B)는 정규화 상수 혹은 증거라고 한다.

 

 

베이즈 정리의 확장 1

사건 $A_i$가 서로 배타적이라고 하자(교집합이 없음) 그렇다면 다음의 식을 만족한다.

 

1.$A_i \cap A_j = \emptyset$

2. $A_1 \cup A_2 \cup \cdots = \Omega$(표본공간)

 

사건을 모두 더하면 표본공간이 돼야하기 때문에 2번식 만족한다.

예를 들어, 동전이 앞면일 확률과 동전이 뒷면일 확률을 모두 더하면 동전의 표본공간인 1이 나와야 한다.

 

* 독립과 배타적인 것은 비슷하면서 다른데, 이 개념은 여기서 확인하면 된다.

 

 

위의 식을 가지고 베이즈 정리를 변형할 수 있다.

 

$P(A_1|B) 
= \dfrac{P(B|A_1)P(A_1)}{P(B)} \\
= \dfrac{P(B|A_1)P(A_1)}{\sum_i P(A_i, B)} \\
= \dfrac{P(B|A_1)P(A_1)}{\sum_i P(B|A_i)P(A_i)}$

 

여기서 $\sum_i P(A_i, B) = P(B)$인 이유는 2번(A사건을 모두 더하면 전체 집합이다)조건을 만족하기 때문이다.

 

예를 들어, 주사위를 던지고 동전을 던지는데 동전이 앞면이 나올 확률은 P(동전이 앞면이 나올 확률)과 같다.

하지만, 다르게 보자면 P(동전이 앞면 나올 확률 n 주사위가 1이 나올 확률) + ... + P(동전이 앞면 나올 확률 n 주사위가 6이 나올 확률)로도 설명할 수 있다.

즉, P(동전이 앞면이 나올 확률)= P(동전이 앞면 나올 확률 n 주사위가 1이 나올 확률) + ... + P(동전이 앞면 나올 확률 n 주사위가 6이 나올 확률)라고정의할수있다.

 

 

따라서 i사건에 대한 조건부 확률값은 아래처럼 설명할 수 있다.

 

$P(A_i|B) = \dfrac{P(B|A_i)P(A_i)}{P(B|A_1)P(A_1)+...+P(B|A_i)P(A_i)+...+P(B|A_n)P(A_n)}$

 

만약, 사건이 4가지가 있다면 분모는 모두 동일하므로 분자의 값만 비교하면 된다. 즉, 분자에 비례하여 확률을 설명할 수 있다.

 

사건이 2가지일 때

사건이 2가지일 때는 사건1이 일어났다, 일어나지 않았다라고 정리할 수 있다.

$A_1= A, A_2= A^C$

때문에 이를 아래와 같이 확장할 수 있다.

 

 

$P(A|B) 
= \dfrac{P(B|A)P(A)}{P(B)} \\
= \dfrac{P(B|A)P(A)}{P(B,A) + P(B,A^C)} \\
= \dfrac{P(B|A)P(A)}{P(B|A)P(A) + P(B|A^C)P(A^C)} \\
= \dfrac{P(B|A)P(A)}{P(B|A)P(A) + P(B|A^C)(1 - P(A))}$

 

 

베이즈 정리의 확장2 

사건 A에서 사건 B가 추가됐을때의 확률을 베이즈 정리로 계산한다. 여기서 추가적인 사건 C가 발생했다면 베이즈 정리는 다음과 같이 쓸 수 있다

 

$P(A|B,C)= \frac{P(C|A,B)P(A|B)}{P(C|B)}$

 

 

증명

$P(A|B,C)= \frac{P(A,B,C)}{P(B,C)}=\frac{P(C|A,B)P(A,B)}{P(C|B)P(B)}=\frac{P(C|A,B)P(A|B)P(B)}{P(C|B)P(B)} =  \frac{P(C|A,B)P(A|B)}{P(C|B)}$

 

 

 

공부할 자료

http://godingmath.com/bayestheroem

'스터디' 카테고리의 다른 글

01 Motivations and Basics  (0) 2020.08.07
사이파이로 공부하는 확률분포  (0) 2020.05.19
4. 심파이(SymPy)로 공부하는 미적분  (0) 2020.04.14
3-4. 고급 선형대수: SVD(1)  (0) 2020.03.30
선형대수  (0) 2020.03.30