이번에 알아볼 용어는 통계학에서 빠질 수 없는 평균, 분산과 표준편차입니다.
지난 포스트 때 통계학에서 대표값에 대해 알아보았다면 그 대표값이 표현하지 못하는 데이터의 분포 정도를 알아보는 값이 분산, 표준편차라고 볼 수 있습니다.
1. 평균(Mean)
대표값의 하나인 평균을 먼저 다시 한번 알아보겠습니다. 통계학에서 평균은 데이터의 총합을 데이터의 개수로 나눈 값입니다. 평균은 데이터 집합의 중심 경향성을 나타내는 지표로 사용됩니다.
평균은 아래와 같이 계산합니다.
평균 = 데이터의 총합 / 데이터의 개수
평균은 데이터의 대표값으로 많이 사용되며, 데이터의 중심 경향성을 파악하는 데에 유용합니다. 하지만 이상치(outlier)와 같은 극단적인 값이 있는 경우에는 평균이 왜곡될 수 있으므로, 이러한 경우에는 중앙값(median)과 같은 다른 대표값을 함께 고려하는 것이 좋습니다.
2. 분산(Variance)
분산은 데이터 값들이 평균에서 얼마나 멀리 퍼져있는지를 나타내는 지표입니다. 각 데이터들의 값과 평균 간의 거리의 제곱을 구한 후, 이를 모두 더하여 데이터 개수로 나눕니다. 분산의 값이 클수록 데이터가 평균에서 멀리 퍼져있음을 의미합니다. 분산은 음수가 아니며, 제곱의 단위를 가지기 때문에 원래 데이터와 단위가 다를 수 있습니다.
예를 들어 학급에 10명의 학생들이 있다고 가정해 봅시다. 이들의 수학 시험 점수는 다음과 같습니다.
70, 75, 80, 85, 90, 95, 100, 105, 110, 115.
1. 먼저, 분산을 계산하기 위해 평균을 구합니다. (70+75+80+85+90+95+100+105+110+115)/10 = 95
2. 다음으로, 각 학생의 점수와 평균 간의 차이를 계산하여 제곱합니다. 그리고 이 값을 모두 더합니다. (70-95)^2 + (75-95)^2 + (80-95)^2 + (85-95)^2 + (90-95)^2 + (95-95)^2 + (100-95)^2 + (105-95)^2 + (110-95)^2 + (115-95)^2 = 2000
3. 마지막으로, 이 값을 데이터 개수로 나누어 분산을 구합니다. 2000/10 = 200
따라서, 이 학급의 수학 시험 점수의 분산은 200입니다.
3.표준편차(Standard Deviation)
표준편차는 분산의 제곱근으로, 데이터의 퍼짐 정도를 측정하는 지표입니다. 분산과 달리 원래 데이터와 동일한 단위를 가지며, 평균에서 데이터가 얼마나 떨어져 있는지를 표현합니다. 표준편차가 클수록 데이터가 더욱 퍼져있음을 의미합니다.
위의 예시에서 분산은 200이었으므로, 표준편차는 분산의 제곱근인 sqrt(200) = 약 14.14입니다.
표준편차는 데이터의 퍼짐 정도를 보다 직관적으로 이해할 수 있으며, 분산보다 많이 사용됩니다.
표준편차는 데이터의 변동성을 파악하고, 데이터가 얼마나 평균 주위에 집중되어 있는지를 알려줍니다.
위의 예시에서 본다면 만약 수학 시험의 표준편차가 14.14이고, 국어 시험의 표준편차가 5였다면 표준편차가 더 큰 수학시험이 좀 더 학생들 간의 변별력이 큰 시험이었다고 판단할 수 있을 것입니다.
표준편차를 활용하는 사례는 아주 많습니다.
1. 주식 시장에서 표준편차는 주가의 변동성을 측정하는 데 사용됩니다. 주식의 표준편차가 높을수록 주가의 변동이 크고 불안정한 것을 의미합니다. 투자자들은 주식의 표준편차를 고려하여 리스크를 고려하고 투자 결정을 내립니다.
2. 제조업 분야에서는 제품의 품질을 관리하기 위해 표준편차를 사용합니다. 제품의 속성(크기, 무게 등)의 표준편차가 크다면 제조 과정에 문제가 있을 수 있으며, 일정 수준의 동일한 품질을 위해 노력해야 합니다.
3. 기상 데이터에서 표준편차는 기후 패턴의 변동성을 파악하는 데 사용됩니다. 예를 들어, 일일 온도의 표준편차가 크다면 날씨가 불안정하고 예측이 어려울 수 있으며, 폭염, 한파 등의 기상 이벤트 발생 가능성이 높을 수 있습니다.
'통계학 용어' 카테고리의 다른 글
자유도- 샘플의 표준편차는 왜 n-1로 나눌까 (0) | 2023.10.13 |
---|---|
상관계수-두 변수간의 선형관계를 나타내는 지표 (0) | 2023.10.12 |
샘플을 추출하는 여러가지 방법(샘플링, sampling) (0) | 2023.10.12 |
모집단과 모집단을 대표하는 샘플, 샘플링편향 (1) | 2023.10.11 |
통계학의 대표값 - 평균, 중앙값, 최빈값 (0) | 2023.10.10 |