머신런닝 스터디를 위한 사전준비 - 통계학적 기법
평균, 분산, 표준편차
- 평균(mean, average) : 주어진 값의 합을 측정갯수로 나눈 값
- 분산(Variance) : 변량들이 퍼져있는 정도. 분산이 크면 들죽날죽 불안정하다는 뜻
- 표준편차(standard daviation) : 분산은 수치가 너무 크므로 제곱근으로 줄인 값
변량 | 175 | 177 | 179 | 181 | 183 |
---|---|---|---|---|---|
평균 | $\frac{175+177+179+181+183}{5} = 179$ | ||||
편차 | 175 - 179 = -4 | 177 - 179 = -2 | 179 - 179 = 0 | 181 - 179 = 2 | 183 - 179 = 4 |
편차제곱 | 16 | 4 | 0 | 4 | 16 |
분산 | $\frac{16+4+0+4+16}{5} = 8$ | ||||
표준편차 | $\sqrt{8} = 2.828$ |
상관계수
분포에서 두 변수간의 관계를 파악하는 값으로 두 변수가 서로 비례하면 양의 상관관계, 반비례하면 음의 상관관계라 한다.
상관계수를 나타내는 식은 아래와 같다.
정규분포
정규분포는 현재 가장 보편적으로 사용되고 있는 분포로 좌우대칭의 종모양의 분포이다.
정규분포는 평균이 $\mu$이고 표준편차가 $\sigma$인 연속확률분포로 여기서 $\mu$는 분포의 중심(가장 높게 올라간 값)이고 $\sigma$는 분포가 흩어진 정도(평균에서 얼마나 멀리 퍼져있는지)를 나타낸다.
즉, $\sigma$가 높고 $\mu$가 낮을수록 그래프는 납작한 종모양이 된다.