본문 바로가기

스터디

(12)
Logistic Regression(로지스틱 회귀) - binomial 혹은 multinomial에 적용 가능한 확률론적 분류기(probabilitic classifier) - 로지스틱 회귀는 시그모이드의 특별한 형태 $$f(x) = \frac{1}{1+e^{-x}} $$ - 로지스틱 회귀를 역함수 형태로 만들면 로짓 함수(logit function)이라 하며, 이는 $$f(x) = log(\frac{x}{1-x}) $$ 로 표현함. - linear regression에서 첫 항을 더미변수 1로 놓았을 때, $\hat {f(x)} = X\theta$로 표현함. 여기서, logistic regression을 위한 베르누이 분포의 pmf (우리가 궁극적으로 찾아야 할 식)는 $$P(y|x) = \mu (x)^y(1-\mu (x))^{1-y}$$ 임 한편, $..
03 Naive Bayes Classifier 출처 03 Naive Bayes Classifier Optimal Classification $X=x_1, x_2, ...$이 주어지고, $x_i$이 $y_1$으로 분류될 확률이 $P(Y=y_1|X=x_i)$(초록색 선)이고, $y_2$으로 분류될 확률이 $P(Y=y_2|X=x_i)$(빨간색 선)이다. $x_i$가 그림의 왼쪽에 위치해 있다고 가정하자. 그렇다면 $P(Y=y_1|X=x_i)>P(Y=y_2|X=x_i)$이므로 $x_i$는 $y_1$으로 분류된다. 마찬가지로 $x_i$가 그림의 오른쪽에 위치해 있다고 가정하자. 그렇다면 $P(Y=y_1|X=x_i)|Y=y)$에 적용시키면 $\prod_{i}^d P(X=x_i|Y=y)$으로 바뀐다. 이 때 필요한 확률값의 수는 $(2-1)dk$개이다. 사실 모..
02 Fundamentals of Machine Learning 출처 02 Fundamentals of Machine Learning 완벽한 세상에서만 잘 작동된다. 관측 에러가 없으며, 일관적이지 않은 관측 또한 없다. 랜덤(stochastic) 이벤트가 발생하지 않는다. 모든 경우의 수를 다 설명할 수 있는 수준의 많은 데이터를 확보했다. Decision Tree error가 있는 데이터에 통계적 기법을 가미해 학습을 할 수 있는 가장 간단한 방법이 Decision Tree 기준이 되는 피처를 정해 데이터셋을 나누고, 나눠진 각각에 대해 다시 피처를 정해 데이터셋을 나누는 작업을 반복해 분류 작업을 수행 어떤 피처를 선택할지 결정하기 위해 Entropy, Information Gain 개념 도입 Entropy 확률 변수의 불확실성을 측정하기 위한 지표 ex 1) ..
01 Motivations and Basics 출처 01_Motivations_and_Basics Thumbtack Question 당신은 백만장자에게 고용되었다. 백만장자는 압정을 던져 앞면이 나오는가 뒷면이 나오는가를 맞추는 도박을 하려고 하는데, 이것을 해도 손해는 보지 않을지 고민이 되어 당신을 고용하였다. 백만장자를 위해 압정 던지기 게임과 그와 관련된 확률 이론을 공부해보자. 압정 던지기 게임에서 이기기 위해서는 앞면, 뒷면이 나올 확률을 정확하게 알아야 한다. 압정은 앞, 뒤가 다르게 생겨 각각이 나올 확률이 p, 1-p이다. p=0.5가 아니라는 점에서 동전 던지기 게임과는 다르다. 1. Tossing 이러한 문제를 해결하기 위해 가장 쉽게 떠올릴 수 있는 방법은 압정을 던져보는 것이다. 당신은 백만장자 앞에서 압정을 다섯 번 던졌다...
사이파이로 공부하는 확률분포 베르누이 분포 베르누이 시행 : 결과가 두 가지 중 하나로만 나오는 시행 베르누이 확률변수 : 베르누이 시행의 결과를 실수 0 또는 1로 바꾼 것 1이 나올 확률 $\mu$가 parameter 베르누의 확률분포 : 베르누이 확률변수의 분포 $Bern(x;\mu)=\mu^x(1-\mu)^{1-x}$ 이항분포 성공 확률이 $\mu$인 베르누이 시행을 $N$번 반복할 때, 성공 횟수 $Bin(x;N,\mu)={N \choose x}\mu^x(1-\mu)^{1-x}$ 카테고리 분포 베르누이 분포의 확장판 다중 분류에 사용됨 각각의 항목이 확률값($\mu_i$)을 가짐 즉, $\sum_{i=1}^{K}\mu_i=1$ $Cat(\boldsymbol{x};\boldsymbol{\mu})=Cat(x_1,x_2,...,..
6. 피지엠파이(pgmpy)로 공부하는 확률론: 베이즈 정리 모든 내용을 다루진 않고 베이즈 정리만 다루겠다. 베이즈 정리 개념 베이즈 정리는 데이터라는 조건이 주어졌을 때 조건부 확률을 구하는 공식이다. 즉, 새로운 데이터(x)가 들어온다면 새로운 데이터의 조건부 확률을 구하는 것이다. 따라서 데이터가 주어지기 전의 사전확률값이 데이터가 주어지면서 어떻게 변하는지 계산할 수 있다. 이것은 새로운 데이터가 들어왔을 때 매우 유용하다. 어제 분석 결과에 오늘 들어온 데이터만 업데이트하면 어떻게 변할지 결과를 계산할 수 있기 때문이다. 공식 $P(A|B)= \frac{P(B|A)P(A)}{P(B)}$ 여기서 P(A)는 사전확률(prior)이고 사건 B가 발생하기 전에 가지고 있던 사건의 확률이다. P(A|B)는 사후확률로, 사건 B가 발생하고 이 정보를 반영한 확률이..
4. 심파이(SymPy)로 공부하는 미적분 책에 있던 모든 내용을 다루지는 않는다. 어렵거나 부연 설명이 필요한 부분만 다룰 것이다. 1. 테일러 급수 2. Gradient Vector, Jacobian Matrix, Hessian Matrix 테일러 급수 테일러 급수(Taylor Series) 또는 테일러 전개(Taylor Expansion)은 어떤 함수 $f(x)$를 우리가 다루기 쉬운 다항함수 형태로 바꾸어 준다. $f(x)=p_{\infty}(x)$ $p_n(x)=f(a)+f'(a)(x-a)+{f''(a)\over 2!}(x-a)^2+...+{f^{(n)}(a)\over n!}(x-a)^n$ $\qquad\quad=\Sigma_{k=0}^{n}{f^{(k)}(a)\over k!}(x-a)^k$ 근사다항식의 차수가 높으면 높을수록 $p_n(..
3-4. 고급 선형대수: SVD(1) Quick Review (1) Diagonalization Eigenvectors가 역행렬이 존재할 때(=선형독립일 때) $A=V\Lambda V^{-1}$과 같이 분해할 수 있다. (2) 대칭행렬의 대각화 1. 실수 대칭행렬 A의 고유값은 실수다. 2. 고유값이 서로 다른 고유벡터는 직교한다.(항상 대각화 가능하다) 3. 대칭행렬 A가 양의 (준)정부호이면 고유값은 모두 양수이거나 0이다. (3) 분산행렬 임의의 실수행렬 $X$에 대해 $A=X^TX$ 혹은 $A=XX^T$를 만족하는 $A$를 분산행렬이라고 한다. 1. 대칭행렬이다. 2. 양의 준정부호이다. 3. $X$가 풀랭크이면, $A$의 역행렬이 존재한다. (4) $A=V\Lambda V^T$ $\begin{cases} v_i^Tv_j=0(i \n..