본문 바로가기
통계학 용어

통계학의 대표값 - 평균, 중앙값, 최빈값

by SEMOM 2023. 10. 10.
728x90

통계학에서 대표값은 크게 평균, 중앙값, 최빈값으로 볼 수 있습니다.
 

1. 평균(Mean)

 
평균은 모든 데이터 값들의 총합을 데이터의 개수로 나눈 값입니다. 주로 연속형 데이터에 사용되며, 데이터의 중심 위치를 나타내는 대표값입니다. 평균은 모든 데이터 포인트의 영향을 받기 때문에 이상치(outlier)에 민감할 수 있습니다. 예를 들어, 1, 2, 3, 4, 5라는 다섯 개의 숫자가 있을 때, 이들의 평균은 (1 + 2 + 3 + 4 + 5) / 5 = 3입니다. 그런데 100이라는 이상치(outlier)가 1개라도 존재한다면 평균은 19.1로 매우 크게 변동하게 됩니다. 만약 이 100이라는 값은 데이터의 특성을 나타내지 못하는 이상치라면 저 평균값은 데이터 전체를 대표하는 값이라고 보기엔 힘들 것입니다.
그러나 평균은 데이터의 전반적인 경향을 파악하는 데 사용되기에 좋은 대표값임은 분명합니다.
 
단순평균 외에도 사용빈도는 낮지만 가중평균, 기하평균, 조화평균, 절사평균 등이 사용될 수 있습니다.
 
* 가중평균 (Weighted Mean): 데이터가 가중치를 가지는 경우, 각 데이터 값에 가중치를 곱한 후 총합을 가중치의 총합으로 나눈 값입니다.

* 기하평균 (Geometric Mean): 양수인 데이터의 곱을 데이터의 개수로 거듭제곱한 값의 n번째 루트로 계산된 값입니다. 주로 비율, 변화율, 성장률 등을 계산할 때 사용됩니다.

* 조화평균 (Harmonic Mean): 데이터의 역수의 산술 평균의 역수로 계산된 값입니다. 주로 비율과 평균속도, 평균비율 등을 계산할 때 사용됩니다.

* 절사평균 (Trimmed Mean): 데이터의 일부를 제외한 후 남은 값들의 평균을 계산한 값입니다. 이상치의 영향을 줄이고 데이터의 전반적인 경향을 파악하는 데 사용됩니다.
 

2. 중앙값(Median)

 
중앙값은 데이터를 크기순으로 나열했을 때 가운데 위치한 값입니다. 즉, 전체 데이터를 반으로 나누는 값입니다. 데이터 집합의 이상치에 덜 민감하며, 데이터가 대칭적으로 분포되어 있는 경우에 주로 사용됩니다. 예를 들어, 1, 2, 3, 4, 5라는 다섯 개의 숫자가 있을 때, 중앙값은 3입니다. 만약 데이터가 짝수 개라면, 가운데 두 값의 평균을 중앙값으로 사용합니다. 중앙값은 데이터의 중심적 경향을 파악하는 데 유용합니다.
 

3. 최빈값(Mode)


최빈값은 데이터에서 가장 자주 나타나는 값입니다. 데이터의 빈도수를 분석하여 가장 많이 나타나는 값을 찾습니다. 이는 주로 범주형 데이터나 이산형 데이터에 사용됩니다. 예를 들어, 1, 2, 2, 3, 4, 4, 4, 5라는 숫자들이 있을 때, 최빈값은 4입니다. 최빈값은 데이터에서 가장 빈번하게 나타나는 값으로, 데이터의 분포를 파악하는 데 유용합니다.
 
위에서 언급한 3가지 대표값은 통계학에서 데이터를 요약하고 대표하는 지표로 주요하게 사용되지만 각각의 한계점을 지니고 있습니다. 따라서 각각의 특징을 잘 알고 상황에 따라 적절한 대표값을 활용할 수 있어야 합니다.