본문 바로가기
통계학 용어

모집단과 모집단을 대표하는 샘플, 샘플링편향

by SEMOM 2023. 10. 11.
728x90

모집단과 샘플은 중요한 통계학 용어 중 하나입니다.
이번 포스팅에서는 그 개념과 샘플링 방법에 대해 살펴보고 샘플링편향이라는 개념에 대해서도 알아보도록 하겠습니다.

1. 모집단(population)


조사 대상 전체의 집단을 의미합니다.
예를 들어, 우리나라 학생들의 키를 조사한다면, 전국의 모든 학생들을 대상으로 하는 것이 모집단이 됩니다. 모집단은 크기가 매우 크기 때문에 모든 데이터를 수집하는 것은 현실적으로 어렵습니다. 이 때문에 모집단의 특성을 알기 위해 샘플을 추출하는 것이고 통계적 기법이 활용됩니다.

2. 샘플(sample)


모집단의 일부분으로, 모집단에서 무작위로 선택한 데이터 집합을 의미합니다. 샘플은 모집단을 대표할 수 있는 특성을 가져야 하며, 모집단을 대표하는 샘플을 선택하는 것은 통계학적으로 매우 중요합니다. 예를 들어, 모집단이 우리나라 학생들의 키라면, 대표적인 샘플은 전국의 각 학년에서 무작위로 선택한 일부 학생들의 키를 조사하는 것입니다. 만약 중학교 1학년의 키만 샘플로 추출하고 이것을 우리나라 학생들의 키라고 하면 모집단을 대표하는 값이라 할 수 없을 것입니다.

샘플을 사용하는 이유는 모집단의 모든 데이터를 수집하는 것이 현실적으로 어렵기 때문입니다. 또한, 샘플을 사용하면 모집단을 대표할 수 있는 특성을 파악할 수 있습니다.

샘플을 추출하는 방법 즉, 샘플링 방법에는 여러 가지가 있으며, 적절한 샘플링 방법을 선택하는 것이 중요합니다. 샘플링 방법에 따라 샘플링 편향이 발생할 수 있으며, 이는 모집단을 대표하지 못하는 샘플을 선택하는 것을 의미합니다. 따라서, 샘플링 과정에서는 샘플링 편향을 최소화하고 모집단을 잘 대표할 수 있는 샘플을 선택하는 것이 중요합니다.

3. 샘플링편향

샘플링 편향(sampling bias)은 샘플을 선택하는 과정에서 모집단을 대표하지 못하게 하는 편향을 의미합니다. 이는 샘플링 과정에서 발생하는 오차로 인해 모집단의 특성을 왜곡시킬 수 있습니다.

샘플링 편향은 여러 가지 요인으로 인해 발생할 수 있습니다. 몇 가지 예를 들어보겠습니다:

1. 샘플링 방법 자체가 모집단의 특성을 고려하지 않고 선택되는 경우 발생할 수 있습니다.
예를 들어, 전국 학생의 키를 조사하는데 특정 지역의 학교에서에서만 샘플링을 하여 학생들의 키를 조사한다면, 전국 학생의 키를 대표하지 못할 수 있습니다.

2. 설문조사의 경우, 일부 참여자들이 자발적으로 응답하거나 거부할 수 있습니다. 이로 인해 응답자의 특성이 모집단의 특성과 다를 수 있습니다. 예를 들어, 어떤 상품에 대한 만족도 조사를 진행할 때, 만족하지 않은 사람들의 응답률이 만족하는 사람보다 더 높을 경우, 전체 소비자의 실제 만족도를 왜곡시킬 수 있습니다.

3. 특정 조건을 충족하지 않는 개체들을 샘플에서 제외하는 경우, 모집단의 특성을 대표하지 못할 수 있습니다. 예를 들어, 어떤 건강조사에서 흡연자를 대상으로 샘플을 추출하여 비흡연자를 샘플에서 제외한다면, 전체 인구의 흡연율을 정확히 파악하기 어렵습니다.