데이터 맛집은 데이터의 민주화를 꿈꿉니다.
-
스터디
Logistic Regression(로지스틱 회귀)
- binomial 혹은 multinomial에 적용 가능한 확률론적 분류기(probabilitic classifier) - 로지스틱 회귀는 시그모이드의 특별한 형태 $$f(x) = \frac{1}{1+e^{-x}} $$ - 로지스틱 회귀를 역함수 형태로 만들면 로짓 함수(logit function)이라 하며, 이는 $$f(x) = log(\frac{x}{1-x}) $$ 로 표현함. - linear regression에서 첫 항을 더미변수 1로 놓았을 때, $\hat {f(x)} = X\theta$로 표현함. 여기서, logistic regression을 위한 베르누이 분포의 pmf (우리가 궁극적으로 찾아야 할 식)는 $$P(y|x) = \mu (x)^y(1-\mu (x))^{1-y}$$ 임 한편, $..
-
스터디
03 Naive Bayes Classifier
출처 03 Naive Bayes Classifier Optimal Classification $X=x_1, x_2, ...$이 주어지고, $x_i$이 $y_1$으로 분류될 확률이 $P(Y=y_1|X=x_i)$(초록색 선)이고, $y_2$으로 분류될 확률이 $P(Y=y_2|X=x_i)$(빨간색 선)이다. $x_i$가 그림의 왼쪽에 위치해 있다고 가정하자. 그렇다면 $P(Y=y_1|X=x_i)>P(Y=y_2|X=x_i)$이므로 $x_i$는 $y_1$으로 분류된다. 마찬가지로 $x_i$가 그림의 오른쪽에 위치해 있다고 가정하자. 그렇다면 $P(Y=y_1|X=x_i)|Y=y)$에 적용시키면 $\prod_{i}^d P(X=x_i|Y=y)$으로 바뀐다. 이 때 필요한 확률값의 수는 $(2-1)dk$개이다. 사실 모..
-
스터디
02 Fundamentals of Machine Learning
출처 02 Fundamentals of Machine Learning 완벽한 세상에서만 잘 작동된다. 관측 에러가 없으며, 일관적이지 않은 관측 또한 없다. 랜덤(stochastic) 이벤트가 발생하지 않는다. 모든 경우의 수를 다 설명할 수 있는 수준의 많은 데이터를 확보했다. Decision Tree error가 있는 데이터에 통계적 기법을 가미해 학습을 할 수 있는 가장 간단한 방법이 Decision Tree 기준이 되는 피처를 정해 데이터셋을 나누고, 나눠진 각각에 대해 다시 피처를 정해 데이터셋을 나누는 작업을 반복해 분류 작업을 수행 어떤 피처를 선택할지 결정하기 위해 Entropy, Information Gain 개념 도입 Entropy 확률 변수의 불확실성을 측정하기 위한 지표 ex 1) ..
-
스터디
01 Motivations and Basics
출처 01_Motivations_and_Basics Thumbtack Question 당신은 백만장자에게 고용되었다. 백만장자는 압정을 던져 앞면이 나오는가 뒷면이 나오는가를 맞추는 도박을 하려고 하는데, 이것을 해도 손해는 보지 않을지 고민이 되어 당신을 고용하였다. 백만장자를 위해 압정 던지기 게임과 그와 관련된 확률 이론을 공부해보자. 압정 던지기 게임에서 이기기 위해서는 앞면, 뒷면이 나올 확률을 정확하게 알아야 한다. 압정은 앞, 뒤가 다르게 생겨 각각이 나올 확률이 p, 1-p이다. p=0.5가 아니라는 점에서 동전 던지기 게임과는 다르다. 1. Tossing 이러한 문제를 해결하기 위해 가장 쉽게 떠올릴 수 있는 방법은 압정을 던져보는 것이다. 당신은 백만장자 앞에서 압정을 다섯 번 던졌다...
-
카테고리 없음
PRML 1.2 확률론 본문
1.2.0. 확률의 법칙 1. 합의 법칙 두사건 A,B가 동시에 일어나지 않을때, A사건 일어나는 경우의 수가 m, B사건이 일어나는 경우의 수n m+n 2. 곱의 법칙 두사건 A,B가 동시에 일어날 떄, A사건 일어나는 경우의 수가 m, B사건이 일어나는 경우의 수n m*n 3. 베이즈정리 단하게 이와 관련된 수식을 정리해본다. 이 때 ci=∑_jnijci=∑jnij 이다. 이로부터 합의 법칙을 유도할 수 있다. 곱의 법칙도 간단하다. 1.2.1. 확률 밀도 (Probabilty densities) 연속적인 변수에서 그변수의 확율이 주어지면 P(x)를 확률 밀도라고 부른다. 확률 값을 구간(range)으로 표현한다. : R(x,x+δx), 여기서 δxδx 가 0에 수렴한다면, 값은 p(x)p(x) 가 ..
-
카테고리 없음
PRML_1.2확률론 - Intro
INTRO 편차들을 제곱한 다음 편차 제곱의 평균을 구할 수 있다.(참고로 편차의 합은 항상 0이 나온다. ) "편차 제곱의 평균”이 바로 분산이다. 그래서 분산 구하는 공식을 자세히 살펴보면, 이러한 상황을 알 수가 있는데, 분산을 공식으로 나타내면 아래와 같다. 보통 모집단의 분산을 모분산이라고 부르고, 표본의 분산을 표본분산이라고 부른다.(표준편차도 “모표준편차”와 “표본표준편차”로 나뉜다) 그런데 모분산과 표본분산의 공식은 약간 다른데, 공식은 아래와 같다.(표본분산은 n-1로 나눈다) 확률변수X가 있을때 우리가 흔히 이 분포를 나타낼때 쓰는것이 첫번째로 평균이고, 두번째로 분산이다. 평균으로써 분포의 중간부분을 알아내고분산으로써 분포가 얼마나 퍼져있는지 알아낸다. 더 알고싶으면 Skewness ..
-
스터디
사이파이로 공부하는 확률분포
베르누이 분포 베르누이 시행 : 결과가 두 가지 중 하나로만 나오는 시행 베르누이 확률변수 : 베르누이 시행의 결과를 실수 0 또는 1로 바꾼 것 1이 나올 확률 $\mu$가 parameter 베르누의 확률분포 : 베르누이 확률변수의 분포 $Bern(x;\mu)=\mu^x(1-\mu)^{1-x}$ 이항분포 성공 확률이 $\mu$인 베르누이 시행을 $N$번 반복할 때, 성공 횟수 $Bin(x;N,\mu)={N \choose x}\mu^x(1-\mu)^{1-x}$ 카테고리 분포 베르누이 분포의 확장판 다중 분류에 사용됨 각각의 항목이 확률값($\mu_i$)을 가짐 즉, $\sum_{i=1}^{K}\mu_i=1$ $Cat(\boldsymbol{x};\boldsymbol{\mu})=Cat(x_1,x_2,...,..
-
스터디
6. 피지엠파이(pgmpy)로 공부하는 확률론: 베이즈 정리
모든 내용을 다루진 않고 베이즈 정리만 다루겠다. 베이즈 정리 개념 베이즈 정리는 데이터라는 조건이 주어졌을 때 조건부 확률을 구하는 공식이다. 즉, 새로운 데이터(x)가 들어온다면 새로운 데이터의 조건부 확률을 구하는 것이다. 따라서 데이터가 주어지기 전의 사전확률값이 데이터가 주어지면서 어떻게 변하는지 계산할 수 있다. 이것은 새로운 데이터가 들어왔을 때 매우 유용하다. 어제 분석 결과에 오늘 들어온 데이터만 업데이트하면 어떻게 변할지 결과를 계산할 수 있기 때문이다. 공식 $P(A|B)= \frac{P(B|A)P(A)}{P(B)}$ 여기서 P(A)는 사전확률(prior)이고 사건 B가 발생하기 전에 가지고 있던 사건의 확률이다. P(A|B)는 사후확률로, 사건 B가 발생하고 이 정보를 반영한 확률이..