참고주소: http://synap.tistory.com/entry/조건부-확률베이지안의-이해를-위한-예제-및-풀이

자료설명
:

위의 글(참고주소)에서는 조건부 확률에 의한 분류 알고리즘인 <나이브-베이지안> 분류 방법을 설명하고 있습니다. 예제를 통하여 자세하게 설명하여 나이브-베이지안 알고리즘의 동작 원리를 이해하는 데 도움이 되는 자료입니다.

내용일부


 예제1) 하얀별사탕, 분홍별사탕

건빵 2봉지를 샀다. 그래서 별사탕도 2봉지다. 첫번째 봉지에는 하얀별사탕이 10개, 분홍별사탕이 30개 들었고, 두번째 봉지에는 각각 20개씩 들었다. 두봉지의 별사탕을 하나의 접시에 담고, 눈을 감은채 별사탕하나를 집어들었다. 눈을 뜨고 집어든 별사탕을 지그시 살펴보니 분홍별사탕이다. 이 별사탕이 첫번째 봉지에서 나왔을 확률은?

별사탕이 40개씩 들었다는게 알려지면 엄청 잘팔리겠군.
음... 첫번째봉지에 분홍별사탕이 더 많이 있었으니,
아무리못해도 50%이상의 확률이 나와야 한다.

풀어보자. 일단 문제를 확률적으로 표현해보면 아래와 같다.
P(첫번째봉지|분홍별사탕) = P(분홍별사탕|첫번째봉지)P(첫번째봉지)/P(분홍별사탕)

P(분홍별사탕|첫번째봉지) = 30/40
P(첫번째봉지) = 40/80
P(분홍별사탕) = 50/80

각각의 확률을 적용하면,
P(첫번째봉지|분홍별사탕) = (30/40) * (40/80) / (50/80)
 = (30 * 40 * 80) / (40 * 80 * 50) = 30/50 = 60/100 = 60%

따라서, 답은 60%이다.

 

예제3) 99% 폐암진단시약

우리나라 충청,전북 등 자연적으로 우랴늄 함량이 높은 지역 일부에서 평생 1백명 가운데 1명이 폐암에 걸려 사망할 위험이 있는 등 라돈 농도가 위험수위인 것으로 밝혀졌다. 해당지역 주민한명이 폐암을 99% 진단하는 시약으로 진단한 결과 폐암 양성반응을 확인했을 경우, 이 주민이 실제로 폐암에 걸렸을 확률은?

가정이 많이 필요한 문제로군.
먼저, 흡연자 비흡연자 성별, 직업 등 다른 모든 조건은 별개로 하고
해당지역주민이 폐암에 걸릴 확률은 1%라고 하자.

(음... 폐암에 걸려 사망한 사람을 전체주민에서 빼게되면,
문제가 복잡해진다. 폐암에 걸려도 사망하지 않는다고 하고)
문제를 좀 더 간단히 해서 전체주민의 1%가 폐암환자라고 하자.

99% 진단이라는 건 무슨 뜻일까?
알려진 폐암환자 100명을 대상으로 했을 때 99명을 양성으로 판정하고,
알려진 정상인 100명을 대상으로 했을 때 1명을 양성으로 판정한다고 보면 되겠군.

풀어보자. 문제를 확률적으로 표현해보면 아래와 같다.

P(폐암|양성) = P(양성|폐암)P(폐암)/P(양성)

P(양성|폐암) = 99/100
P(폐암) = 1/100
P(양성) = ??? 여기서 한번 생각을 해야하는군...

모든 주민을 대상으로 진단했을 때 양성반응이 나올 확률은?
(주민은 99%의 정상인과 1%의 폐암환자로 구성됨을 기억하자)
P(양성) = P(양성|정상)P(정상) + P(양성|폐암)P(폐암)
= (1/100)*(99/100) + (99/100)*(1/100) = 198/10000
따라서 대략2%정도가 된다

여기서 잠깐! 베이스의 정리의 형태를 조금 수정해보자.
베이스의 정리에서 P(B) = P(B|A)P(A) + P(B|~A)P(~A) 로 쓸 수 있으므로

P(A|B) = P(B|A)P(A)/P(B)

 =           P(B|A)P(A)            
   P(B|A)P(A) + P(B|~A)P(~A)


공식의 새로운 형태는 P(B)의 계산을 아예 공식에 적용한 것이다.

이제, 각각의 확률을 적용하면,
P(폐암|양성) = (99/100) * (1/100) / (198/10000) = 1/2 = 50%

따라서, 답은 50%이다. 양성반응이 나와도 조금만 겁먹자.
확률은 반반이니까...

 

 

by 에이아이 2009. 8. 12. 00:03