INTRO
편차들을 제곱한 다음 편차 제곱의 평균을 구할 수 있다.(참고로 편차의 합은 항상 0이 나온다. )
"편차 제곱의 평균”이 바로 분산이다. 그래서 분산 구하는 공식을 자세히 살펴보면, 이러한 상황을 알 수가 있는데, 분산을 공식으로 나타내면 아래와 같다.
보통 모집단의 분산을 모분산이라고 부르고, 표본의 분산을 표본분산이라고 부른다.(표준편차도 “모표준편차”와 “표본표준편차”로 나뉜다) 그런데 모분산과 표본분산의 공식은 약간 다른데, 공식은 아래와 같다.(표본분산은 n-1로 나눈다)
확률변수X가 있을때 우리가 흔히 이 분포를 나타낼때 쓰는것이 첫번째로 평균이고, 두번째로 분산이다.
평균으로써 분포의 중간부분을 알아내고분산으로써 분포가 얼마나 퍼져있는지 알아낸다.
더 알고싶으면 Skewness 혹은 직접 시각화 해보거나 방법이 있지만 우선 가장 쉽고 잘표현되는것이 평균과 분산이다.
Cov(X, Y) > 0 X가 증가 할 때 Y도 증가한다.
Cov(X, Y) < 0 X가 증가 할 때 Y는 감소한다.
Cov(X, Y) = 0 공분산이 0이라면 두 변수간에는 아무런 선형관계가 없으며 두 변수는 서로 독립적인 관계에 있음을 알 수 있다.
그러나 두 변수가 독립적이라면 공분산은 0이 되지만, 공분산이 0이라고 해서 항상 독립적이라고 할 수 없다.
확률변수 X의 평균(기대값), Y의 평균을 각각
이라 했을 때, X,Y의 공분산은 아래와 같다.
즉, 공분산은 X의 편차와 Y의 편차를 곱한것의 평균이라는 뜻이다.
그런데 공분산에도 문제점이 하나 있다.
X와 Y의 단위의 크기에 영향을 받는다는 것이다.
즉 다시말해 100점만점인 두과목의 점수 공분산은 별로 상관성이 부족하지만 100점만점이기 때문에 큰 값이 나오고
10점짜리 두과목의 점수 공분산은 상관성이 아주 높을지만 10점만점이기 때문에 작은값이 나온다.
이것을 보완하기 위해 상관계수(Correlation)가 나타난다.
1. 상관계수의 절대값은 1을 넘을 수 없다.
2. 확률변수 X, Y가 독립이라면 상관계수는 0이다.
3. X와 Y가 선형적 관계라면 상관계수는 1 혹은 -1이다.(양의 선형관계면 1, 음의 선형관계면 -1)