머신런닝 스터디를 위한 사전준비 - 통계학적 기법

less than 1 minute read

평균, 분산, 표준편차

  1. 평균(mean, average) : 주어진 값의 합을 측정갯수로 나눈 값
  2. 분산(Variance) : 변량들이 퍼져있는 정도. 분산이 크면 들죽날죽 불안정하다는 뜻
  3. 표준편차(standard daviation) : 분산은 수치가 너무 크므로 제곱근으로 줄인 값
변량 175 177 179 181 183
평균 $\frac{175+177+179+181+183}{5} = 179$        
편차 175 - 179 = -4 177 - 179 = -2 179 - 179 = 0 181 - 179 = 2 183 - 179 = 4
편차제곱 16 4 0 4 16
분산 $\frac{16+4+0+4+16}{5} = 8$        
표준편차 $\sqrt{8} = 2.828$        

상관계수

분포에서 두 변수간의 관계를 파악하는 값으로 두 변수가 서로 비례하면 양의 상관관계, 반비례하면 음의 상관관계라 한다.
상관계수를 나타내는 식은 아래와 같다.

정규분포

정규분포는 현재 가장 보편적으로 사용되고 있는 분포로 좌우대칭의 종모양의 분포이다.
정규분포는 평균이 $\mu$이고 표준편차가 $\sigma$인 연속확률분포로 여기서 $\mu$는 분포의 중심(가장 높게 올라간 값)이고 $\sigma$는 분포가 흩어진 정도(평균에서 얼마나 멀리 퍼져있는지)를 나타낸다.
즉, $\sigma$가 높고 $\mu$가 낮을수록 그래프는 납작한 종모양이 된다.