모든 내용을 다루진 않고 베이즈 정리만 다루겠다.
베이즈 정리
개념
베이즈 정리는 데이터라는 조건이 주어졌을 때 조건부 확률을 구하는 공식이다.
즉, 새로운 데이터(x)가 들어온다면 새로운 데이터의 조건부 확률을 구하는 것이다.
따라서 데이터가 주어지기 전의 사전확률값이 데이터가 주어지면서 어떻게 변하는지 계산할 수 있다.
이것은 새로운 데이터가 들어왔을 때 매우 유용하다.
어제 분석 결과에 오늘 들어온 데이터만 업데이트하면 어떻게 변할지 결과를 계산할 수 있기 때문이다.
공식
$P(A|B)= \frac{P(B|A)P(A)}{P(B)}$
여기서 P(A)는 사전확률(prior)이고 사건 B가 발생하기 전에 가지고 있던 사건의 확률이다.
P(A|B)는 사후확률로, 사건 B가 발생하고 이 정보를 반영한 확률이다.
P(B|A)는 가능도라고 하고, P(B)는 정규화 상수 혹은 증거라고 한다.
베이즈 정리의 확장 1
사건 $A_i$가 서로 배타적이라고 하자(교집합이 없음) 그렇다면 다음의 식을 만족한다.
1.$A_i \cap A_j = \emptyset$
2. $A_1 \cup A_2 \cup \cdots = \Omega$(표본공간)
사건을 모두 더하면 표본공간이 돼야하기 때문에 2번식 만족한다.
예를 들어, 동전이 앞면일 확률과 동전이 뒷면일 확률을 모두 더하면 동전의 표본공간인 1이 나와야 한다.
* 독립과 배타적인 것은 비슷하면서 다른데, 이 개념은 여기서 확인하면 된다.
위의 식을 가지고 베이즈 정리를 변형할 수 있다.
$P(A_1|B)
= \dfrac{P(B|A_1)P(A_1)}{P(B)} \\
= \dfrac{P(B|A_1)P(A_1)}{\sum_i P(A_i, B)} \\
= \dfrac{P(B|A_1)P(A_1)}{\sum_i P(B|A_i)P(A_i)}$
여기서 $\sum_i P(A_i, B) = P(B)$인 이유는 2번(A사건을 모두 더하면 전체 집합이다)조건을 만족하기 때문이다.
예를 들어, 주사위를 던지고 동전을 던지는데 동전이 앞면이 나올 확률은 P(동전이 앞면이 나올 확률)과 같다.
하지만, 다르게 보자면 P(동전이 앞면 나올 확률 n 주사위가 1이 나올 확률) + ... + P(동전이 앞면 나올 확률 n 주사위가 6이 나올 확률)로도 설명할 수 있다.
즉, P(동전이 앞면이 나올 확률)= P(동전이 앞면 나올 확률 n 주사위가 1이 나올 확률) + ... + P(동전이 앞면 나올 확률 n 주사위가 6이 나올 확률)라고정의할수있다.
따라서 i사건에 대한 조건부 확률값은 아래처럼 설명할 수 있다.
$P(A_i|B) = \dfrac{P(B|A_i)P(A_i)}{P(B|A_1)P(A_1)+...+P(B|A_i)P(A_i)+...+P(B|A_n)P(A_n)}$
만약, 사건이 4가지가 있다면 분모는 모두 동일하므로 분자의 값만 비교하면 된다. 즉, 분자에 비례하여 확률을 설명할 수 있다.
사건이 2가지일 때
사건이 2가지일 때는 사건1이 일어났다, 일어나지 않았다라고 정리할 수 있다.
$A_1= A, A_2= A^C$
때문에 이를 아래와 같이 확장할 수 있다.
$P(A|B)
= \dfrac{P(B|A)P(A)}{P(B)} \\
= \dfrac{P(B|A)P(A)}{P(B,A) + P(B,A^C)} \\
= \dfrac{P(B|A)P(A)}{P(B|A)P(A) + P(B|A^C)P(A^C)} \\
= \dfrac{P(B|A)P(A)}{P(B|A)P(A) + P(B|A^C)(1 - P(A))}$
베이즈 정리의 확장2
사건 A에서 사건 B가 추가됐을때의 확률을 베이즈 정리로 계산한다. 여기서 추가적인 사건 C가 발생했다면 베이즈 정리는 다음과 같이 쓸 수 있다
$P(A|B,C)= \frac{P(C|A,B)P(A|B)}{P(C|B)}$
증명
$P(A|B,C)= \frac{P(A,B,C)}{P(B,C)}=\frac{P(C|A,B)P(A,B)}{P(C|B)P(B)}=\frac{P(C|A,B)P(A|B)P(B)}{P(C|B)P(B)} = \frac{P(C|A,B)P(A|B)}{P(C|B)}$
공부할 자료
'스터디' 카테고리의 다른 글
01 Motivations and Basics (0) | 2020.08.07 |
---|---|
사이파이로 공부하는 확률분포 (0) | 2020.05.19 |
4. 심파이(SymPy)로 공부하는 미적분 (0) | 2020.04.14 |
3-4. 고급 선형대수: SVD(1) (0) | 2020.03.30 |
선형대수 (0) | 2020.03.30 |