이번 포스트에서는 조건부 확률을 계산하는 데 사용되는 개념인 베이즈정리와 여기서 발생할 수 있는 기저율 오류에 대해 알아보려고 합니다.
1. 사전확률, 전이확률, 사후확률
베이즈정리를 이해하기 위해서는 우선 사전확률, 전이확률, 사후확률의 개념을 알아야 합니다.
- 사전확률(Prior Probability)
사전확률은 어떤 사건이 발생하기 전에 이미 알고 있는 확률입니다. 사건에 대한 기존의 정보를 기반으로 결정됩니다.
- 전이확률 (Transition Probability)
전이확률은 한 사건이 일어났을 때 다른 사건이 발생할 확률을 의미합니다. 조건부확률의 개념이며 사건 간의 관련성과 종속성을 표현합니다.
- 사후확률 (Posterior Probability)
사후확률은 사건이 발생한 후에 얻은 정보를 바탕으로 업데이트된 확률입니다. 이는 사전확률과 전이확률을 사용하여 계산됩니다. 베이즈 정리를 통하여 계산하는 확률이 사후확률의 개념입니다.
2. 베이즈정리란?
사전확률과 전이확률을 알고 있는 상태에서 사후확률을 구하는 것이 베이즈 정리의 목적이라 할 수 있습니다.
베이즈 정리는 다음과 같은 수식으로 표현됩니다.
P(A|B) = (P(B|A) * P(A)) / P(B)
여기서,
P(A|B)는 사건 B가 발생했을 때 사건 A가 발생할 조건부 확률을 나타냅니다.
P(B|A)는 사건 A가 발생했을 때 사건 B가 발생할 조건부 확률을 나타냅니다.
P(A)는 사건 A의 사전 확률을 나타냅니다.
P(B)는 사건 B의 사전 확률을 나타냅니다.
베이즈 정리는 사건 B가 발생했을 때, 사건 A의 조건부 확률을 계산하는 데 사용합니다. 이를 통해 새로운 정보가 주어졌을 때, 이전 정보와 결합하여 업데이트된 확률을 계산할 수 있습니다.
3. 베이즈정리의 예시
특정 질병을 진단하는 상황을 가정하여 예시를 들어보겠습니다. 병에 걸릴 확률을 A라고 하고, 양성 판정을 받을 확률을 B라고 합시다. 이전에 수행된 연구에서 해당 질병에 걸릴 확률이 1%라고 알려져 있다고 가정해 보겠습니다. 그리고 해당 검사의 정확도에 따라 양성 판정을 받을 확률이 80%라고 가정하겠습니다.
이 경우, 베이즈 정리를 사용하여 실제로 병에 걸렸을 때 양성 판정을 받을 확률을 계산할 수 있습니다.
P(A) = 0.01 (병에 걸릴 확률)
P(B|A) = 0.8 (병에 걸린 사람이 양성 판정을 받을 확률)
P(B) = ?
사전 확률인 P(B)를 계산하기 위해, 양성 판정을 받을 확률을 알아야 합니다. 이는 병에 걸릴 확률과 양성 판정을 받을 확률을 모두 고려해야 합니다.
P(B) = P(B|A) * P(A) + P(B|~A) * P(~A)
여기서, P(~A)는 병에 걸리지 않을 확률로, 1 - P(A)로 계산합니다.
P(B|~A)는 병에 걸리지 않은 사람이 양성 판정을 받을 확률로, 검사의 오진율로 가정하겠습니다. 여기서는 5%라고 가정하겠습니다.
이제 계산을 해보면,
P(B) = (0.8 * 0.01) + (0.05 * 0.99)
= 0.008 + 0.0495
= 0.0575
따라서, 양성 판정을 받을 확률은 0.0575 (약 5.75%)입니다.
4. 기저율 오류
기저율 오류란 사람들이 본인이 믿는 일부 정보만으로 통계적 확률을 무시한 채 결론에 이르러 발생할 수 있는 오류를 말합니다.
기저율 오류는 다음과 같은 상황에서 발생할 수 있습니다. 가령, 어떤 질병의 발생률이 매우 낮다고 가정해 봅시다. 이때, 해당 질병을 감염했다고 판단하는 검사의 정확도가 높다고 해도, 검사 결과로부터 얻은 양성 판정이 실제로 질병에 걸린 확률이 높다는 것은 아닐 수 있습니다. 왜냐하면, 검사 결과로부터 양성 판정을 받을 확률이 상대적으로 매우 낮은 기저율로 인해 영향을 받을 수 있기 때문입니다.
이 때문에 희귀병의 경우 단 한 번의 검사만으로 확진 판정을 내리기 어렵고 몇 차례에 걸쳐 계속해서 양성 판정을 받아야 확진 판정을 내릴 수 있습니다.
'통계학 용어' 카테고리의 다른 글
기술통계(1)-데이터의 척도 (0) | 2023.11.19 |
---|---|
분산분석(ANOVA)-일원분산분석 (0) | 2023.11.18 |
이산확률분포-포아송분포란? (1) | 2023.11.05 |
이항분포의 계산- 이항분포의 평균, 분산 (0) | 2023.11.04 |
이항분포와 베르누이 분포-성공이냐 실패냐 배타적 사건의 분포 (1) | 2023.11.01 |