본문 바로가기
통계학 용어

정규성을 확인하는 여러가지 방법

by SEMOM 2023. 12. 11.
728x90

이번 시간에는 정규성을 확인하는 여러 가지 방법에 대해 알아보도록 하겠습니다.
정규성을 확인하는 방법 중 가장 일반적인 방법은 히스토그램, Q-Q플롯 등을 이용하여 시각적으로 판단하는 방법과 통계적인 검정을 사용하는 것입니다.

1. 히스토그램

데이터의 분포를 시각화하는 가장 기본적인 방법 중 하나입니다. 데이터를 히스토그램으로 그려서 종 모양을 확인할 수 있습니다. 정규분포와 비슷한 형태를 보여주는 것이 정규성을 나타냅니다.

2. Q-Q 플롯

Q-Q 플롯은 주어진 데이터와 정규분포의 분위수를 비교하여 정규성을 확인하는 방법입니다. 만약 데이터가 정규분포를 따른다면, QQ 플롯은 점들이 대각선에 가깝게 나타날 것입니다.

3. 앤더슨-달링 통계량(Anderson-Darling statistic)

앤더슨-달링 통계량은 주어진 데이터가 특정 분포에 얼마나 잘 적합하는지를 평가하기 위해 사용되는 통계량입니다. 주로 정규성 검정에 활용됩니다.

앤더슨-달링 통계량은 아래와 같이 계산합니다.

1. 주어진 데이터를 오름차순으로 정렬합니다.
2. 정렬된 데이터에서 각 관측값의 누적 분포 함수값을 계산합니다.
3. 기대 분포 (예: 정규분포)의 누적 분포 함수값을 계산합니다.
4. 각 관측값과 기대 분포의 누적 분포 함수값 사이의 차이를 계산합니다.
5. 차이에 가중치를 부여하여 앤더슨-달링 통계량을 계산합니다.

앤더슨-달링 통계량은 일반적으로 양수의 값을 가지며, 값이 클수록 데이터가 기대 분포와의 불일치 정도가 크다는 것을 의미합니다. 이 통계량은 검정 통계량과 유사하게 사용되며, 임계값과 비교하여 검정 결과를 해석합니다. 보통 유의 수준 (예: 0.05)과 비교하여 p-value를 계산하여 검정 결과를 해석합니다. 즉, p-value가 유의 수준보다 작을 경우, 기각 영가설로 데이터가 기대 분포와 일치하지 않는다고 결론지을 수 있습니다.

앤더슨-달링 통계량은 정규성 검정 이외에도 다른 분포에 대한 적합성 검정에도 사용될 수 있습니다.

4. 샤피로-윌크 검정 (Shapiro-Wilk test)

정규성 검정 중 보편적으로 사용되는 검정 방법 중 하나입니다. 이 검정은 주어진 데이터가 정규분포를 따르는지 여부를 통계적으로 검증합니다. 결과값으로 p-value가 제공되며, 일반적으로 유의 수준 (예: 0.05)과 비교하여 검정 결과를 해석합니다.

4. 콜모고로프-스미르노프 검정 (Kolmogorov-Smirnov test)

정규성 검정 중 다른 대안적인 방법입니다. 이 검정은 주어진 데이터와 정규분포의 누적 분포 함수를 비교하여 정규성을 판단합니다. 마찬가지로 p-value를 통해 검정 결과를 해석합니다.

이러한 방법들은 데이터의 정규성을 확인하는 데에 도움을 줄 수 있습니다. 그러나 정규성 검정은 통계적 가정에 의존하는 것이므로, 데이터의 특성과 분석 목적에 따라 적절한 방법을 선택해야 합니다.

정규성 검증은 통계 분석의 신뢰성과 정확성을 보장하는 데 중요한 요소입니다. 데이터가 정규분포를 따른다면, 다양한 통계적 기법을 적용할 수 있고, 추정치의 신뢰성을 평가하여 더 정확한 결과를 얻을 수 있습니다.