실제 모분산은 알 수가 없는 경우가 많기 때문에 통계학에서는 표본분산을 많이 사용합니다.
사실 모분산이나 모평균은 미지의 모수로 간주합니다. 알수가 없다는 거지요.
(초급 통계학에서는 모분산이나 모평균이 얼마라고 하는 연습문제들이 있는데, 이는 통계학 연습문제일 뿐, 대규모의 모집단에서 모분산이나 모평균을 알기란 불가능합니다. 예를 들어 우리나라 남자들의 평균키가 173cm이다 하는 것은 잘 추출된 표본, 예를 들어 1,000명의 평균키일 뿐, 전국민의 평균키값을 정확하게 얻을 수 없습니다. 전수조사를 하는 것도 어렵고 설사 전수조사를 한다고 하더라도 그 과정에서도 여러가지 유형의 오류가 발생하기 때문입니다.)
통계분석이라는 게 모집단으로부터 추출된 표본을 가지고 분석하는 것이므로, 모분산 대신 표본분산을 사용합니다.
그런데, 왜 표본분산은 n 대신 n-1로 나눌까요?
표본분산은 (n-1)로 나눠야 좋은 추정량이 되기 때문입니다.
(추정량이란 표본평균, 표본분산....같은 것으로 미지의 모수를 추정하는데 사용하는 방법을 말합니다.)
뽑아낸 표본의 분산이라는 것은 각각의 자료가 평균(표본평균)으로부터 얼마나 떨어져 있는가를 나타내는 수치입니다.
편차= (각 데이터 - 표본평균) 라고 할 때, 이들 편차들의 합은 0이니까,
n개의 편차 중에서 (n-1)개의 편차만 가지고도 나머지 1개는 그냥 확정되겠지요.
(쉽게 이해가 안 되시면 아무 데이터를 가지고 연습해 보시면 이해하실 겁니다.)
그러니까, n-1개만 사용하면 되는 겁니다. (이것은 자유도(degree of freedom)의 개념과 연결됩니다.)
* 자유도 (n-1)인 카이제곱 분포
즉," (n-1)*표본분산 나누기 모분산"이 자유도(n-1)인 카이제곱 분포를 따른다는 위의 내용을 가지고,
표본분산의 기대값이 모분산이 되는 불편추정량임을 증명할 수가 있습니다.
'한쪽으로 편중되어 있지 않다(不偏, unbiasedness)'의 뜻으로
추정량(여기서는 표본분산)의 기대값이 모수(여기서는 모분산)이어야 한다는 성질인데,
만약 n-1대신 n으로 나누게 되면 이런 불편추정량으로서의 성질이 없게 되는 것이죠.
즉, 표본분산은 모분산의 추정량(estimator)인데, 좋은 추정량으로서 가져야 할 성질 중의 하나가, 불편성(unbiasedness)이고
표본분산이 불편추정량되기 위해서는 n-1로 나눠 줘야 하는 겁니다.
요약하면, 표본분산에서 n-1로 나누어주는 이유는 n 보다 추정량의 성질이 좋기 때문입니다. 아무튼, 앞으로는 표본분산 구할 때 n-1로 나누어 주시면 됩니다.