이전 포스팅 때 상관계수를 구하는 공식을 사용하면서 각 변수의 표준편차를 구하는 계산식을 올렸었습니다.
그런데 아마 유심히 보셨다면 왜 표준편차를 구하는데 표본의 개수인 n으로 나누지 않고 n-1로 나눌까 궁금할 수 있을 것 같습니다.
그래서 이번 포스팅에서는 자유도의 개념에 대해 이해해보고자 합니다.
1. 표준편차 계산식
우선 모집단의 표준편차를 계산하는 방법을 먼저 살펴보겠습니다.
표준편차(standard deviation)는 데이터의 산포도를 나타내는 지표로, 데이터 값들이 평균으로부터 얼마나 퍼져있는지를 측정합니다.
표준편차 = √(Σ((데이터 값 - 평균)²) / n)
여기서 Σ는 합을 나타내고, 데이터 값은 각각의 변수 값, 평균은 변수의 평균값, n은 데이터의 개수입니다.
2. 샘플의 표준편차
샘플의 표준편차(sample standard deviation)는 전체 모집단의 표준편차를 계산하는 대신 모집단을 대표하는 샘플 데이터로부터 표본의 표준편차를 추정하는 것입니다.
샘플의 표준편차
= √(Σ((데이터 값 - 평균)²) / (n - 1))
마찬가지로, 여기서 Σ는 합을 나타내고, 데이터 값은 각각의 변수 값, 평균은 변수의 평균값, n은 샘플의 개수입니다.
그런데 여기서 한 가지 눈여겨볼 점은 모집단의 표준편차를 구할 때와 다르게 n-1로 분모를 나눴다는 점입니다.
3. 자유도
(DF, degree of freedom)
샘플의 표준편차를 계산할 때 분모에 (n - 1)로 나누는 이유는 지금부터 알아볼 통계학의 개념인 "자유도(degree of freedom)" 때문입니다.
자유도는 샘플 데이터에서 독립적인 정보의 수를 의미합니다.
더 구체적으로 설명하자면, 자유도는 모집단이나 샘플 데이터에서 독립적으로 변동할 수 있는 값의 개수를 의미합니다. 즉, 데이터 분석 시 제약 조건으로 인해 변동할 수 없는 값의 개수를 제외한 독립적인 값의 개수입니다.
말이 좀 어렵게 느껴질 수 있습니다만, 예를 들어, 샘플의 평균을 추정할 때, 샘플의 크기가 n이라면, n개의 독립적인 정보를 사용하여 평균을 추정할 수 있습니다. 이때, 자유도는 n - 1입니다. 이는 하나의 데이터 값이 다른 데이터 값에 의해 결정되기 때문에 하나의 독립적인 정보를 잃는 것을 반영한 것입니다.
이 때문에 샘플의 표준편차를 구할 때는, 분모에 n으로 나누는 것이 아니라 (n - 1)로 나눠서 샘플 데이터의 자유도를 보정합니다. 이 방식을 통해 샘플 데이터로부터 모집단을 더욱 정확하게 추정할 수 있게 됩니다.
자유도는 나중에 이야기해 볼 통계적 검정에서도 사용됩니다. t-분포, 카이제곱 분포 등 가설 검정에서도 표본의 자유도를 고려하여 검정 통계량을 계산합니다. 이를 통해 통계적으로 유의한 결과를 도출할 수 있습니다.
'통계학 용어' 카테고리의 다른 글
유의수준과 제1종 오류, 제2종 오류 (0) | 2023.10.14 |
---|---|
통계적 검정 방법- 가설 검정이란? (0) | 2023.10.13 |
상관계수-두 변수간의 선형관계를 나타내는 지표 (0) | 2023.10.12 |
샘플을 추출하는 여러가지 방법(샘플링, sampling) (0) | 2023.10.12 |
모집단과 모집단을 대표하는 샘플, 샘플링편향 (1) | 2023.10.11 |