정리 중인 자료입니다.

참고자료

[제4판] 현대통계학 (박정식, 윤영선) 13장. (p.293-)
에듀팜 [SPSS기초] 17장-27장


t-검정은 언제 사용하는가?


모집단의 평균을 알고 있고,
표본의 평균과 분산을 알고 있을 때
표본의 평균이 표본의 평균과 같은가 다른 가를 검정하는 것.

예를 들어보자.

예제1.
일본 초등학생들의 IQ 평균이 105라고 하자. 한국의 100명의 초등학생들을 표본으로 IQ를 검사해보니 평균이 110이 나왔다. 그러면 한국의 초등학생들이 일본 초등학생보다 IQ가 높다고 결론 내릴 수 있는가? (이 결론을 내리기 위해서는 사실 100명의 표본 초등학생에 대한 분산 정보가 필요하다.)

예제2.
2000년대 한국 고3학생들의 키가 165cm 였다고 하자. 최근(2009년) 고3학생 200명을 표본으로 키를 측정해보니 평균이 170cm 가 나왔다. 그러면 학생들의 키가 이전보다 증가되었다고 결론을 내릴 수 있는가?


t-검정 검정 방법

간단하게 t-검정을 하는 방법을 설명한다.
표본에 대하여 t-검정 통계량 값을 계산한다. (-4에서 4정도 사이의 값을 얻게 된다.)
그 값이 t-분포의 그래프의 양 끝 쪽에 속할 수록 모집단과 평균이 다르다는 것을 보여준다.
지정한 유의확률(%)을 가지고 유의값을 선정하여 검정할 수 있다.


좀 더 자세하게 t-검정을 분류해 볼 수 있다. 

*  1표본 t-검정 (또는 일표본 t-검정)
*  독립 2표본 t-검정
*  대응 2표본 t-검정
 
위의 예제1, 예제2는 모두 1표본 t-검정에 속하는 예이다.


독립 2표본 t-검정이란?

위에서 t-검정은 모집단의 분포를 모르고, 표본 집단에서의 분포(평균, 분산)을 아는 상황인 것을 기억하자. 
독립 2표본 t-검정이란 2개의 표본을 추출한 후 이 두개 집단의 분포(평균, 분산) 정보를 이용하여 두 표본의 모집단에 차이가 있는지를 검정하는 것이다. 

예를 들어, 한국 고3학생 100명의 키를 측정하고, 일본 고3학생 100명의 키를 측정한 후 이 표본 데이터를 기초로하여, 한국, 일본 고3학생의 키에 차이가 있는가에 대한 결론을 얻고 싶을 때 독립 2표본 t-검정을 수행한다.  


대응 2표본 t-검정

한 개체에게서 2회의 반응값을 얻은 경우 그 차이가 존재하는 가를 검정한다. 즉, 한 개체에 대하여
이름에서 [대응]은 짝(Pair)를 의미한다.
다시 말하면, 두번의 반복측정에서 얻어진 결과가 차이가 있는 지를 비교한다.
두 모집단의 원자료를 각각 요약하는 것이 아니라 대신 차이값의 자료를 얻고자 한다.

예를들어, 새로 개발된 간수치안정제가 효과가 있는지를 검정한다고 해보자. 10명의 환자에 대하여 개발된 약을 먹기 전과 후의 간 수치를 측정한다. 이 실험 값을 토대로 하여 간의 수치를 개선하는 효과가 있는 지를 검정한다. (이 실험에서 한 사람에 대하여 2개의 값이 쌍으로의 성격을 갖는다.)

비슷한 예로, 감기약을 먹기 전과 후의 몸의 열의 변화가 생기는지를 검정한다고 하자. 10명의 환자에 대하여 먹기 전과 먹은 후의 값(쌍, 대응)들을 얻는다.

다른 예로, A사건이 발생하기 이전과 이후의 특정 당(한나라당)에 대한 지지율의 변화가 발생했는 지를 검정한다고 해보자. 100명의 사람을 대상으로 하여 A사건 이전의 한나라당에 대한 지지율과 A사건 발생 후의 한나라당에 대한 지지율을 측정한다.

다른 예로, 어떤 교육단체에서 독서를 통한 심리안정 치료 방법을 개발했다고 하자. 100명의 정서장애자들에게 대하여 교육을 받기 전과 받은 후의 정서장애 정도를 측정한다.  

-----------------------------

그럼, t-검정과 Z-검정의 차이를 살펴보자.

Z검정은 모집단의 평균과 분산을 모두 알고 있을 때, 어떤 레코드 또는 표본 집단이 모집단에 속하는가를 검정하는 것이다. 즉, t-검정은 모집단의 평균을 알지만 분산은 모른다는 점에서 차이가 있다.

모집단의 분산을 모르기 때문에 레코드들이 Z-분포를 한다고 말할 수 없다.
따라서 그러한 경우 t-분포를 따른다고 할 수 있다. (t-분포는 정규분포와 유사한 모양을 갖지만, 더 넓게 펼쳐진다는 차이가 있으며, 그 정도는 표본집단의 분산과 레코드의 개수를 가지고 결정된다.)

Z-분포와 t-분포의 차이를 살펴보자.
Z-분포는 모집단의 평균과 분산을 알고 있을 때의 정규분포를 의미한다.
반면, t-분포는 표본집단의 평균과 분산, 그리고 자료(레코드) 수를 알고 있을 때의 분포를 의미한다.

Z-분포 ----> 정규분포를 따른다.
t-분포 ----> 자유도가 (n-1)인 t-분포를 따른다.


사용자 삽입 이미지



by 에이아이 2009. 10. 11. 21:26

참고1 : http://hoksi.com/Standard_Normal_Distribution_Table.htm
참고2 : http://www.statsoft.com/textbook/sttable.html#z

정규분포에 대한 개념 설명 : http://tong.nate.com/jinkwan5/49693374
표준정규분포에 대한 설명 : http://blog.naver.com/at3650?Redirect=Log&logNo=40066177242
6 Sigma : http://blog.naver.com/noijws?Redirect=Log&logNo=130035107783

엑셀로 만든 표준정규분포표

사용자 삽입 이미지

위의 표는 중앙을 기준으로 했을 때의 너비를 가지고 작성한 표입니다.

반면 아래와 같이 좌측 끝을 기준으로 했을 때의 너비를 가지고 작성한 표의 내용입니다.

사용자 삽입 이미지


by 에이아이 2009. 10. 11. 18:51

출처(번역) : http://blog.naver.com/omega71/50007604090
출처(원문) : http://people.cs.ubc.ca/~murphyk/Bayes/bayes.html

아래 내용은 A Brief Introduction to Graphical Models and Bayesian Networks 에서 번역하고, Gurugail.com의 GGOP(Virtual Dog) 프로젝트에 맞추어 수정, 요약한 것입니다.

Bayesian Network는

"확률 이론과 그래픽 이론의 결합으로 이루어진 그래픽 모델(Graphical Models)"

이라고 짧게 표현될 수 있다. 그래픽 모델의 기본적 아이디어는 복잡한 시스템을 간단한 모듈로서의 구성을 그래프적으로 표현이 가능하다는 특징이 있다. 그럼으로써 그 모듈이 어떻게 서로 연관성을 가지는지를 확률적 이론에 기반하여 표현이 가능하며, 하나의 모듈은 노드(Node)로써 표현이 가능하며, 모듈간의 관계는 호(Arc)로 표현된다. 그래픽 모델은 방향성(Directed or Undirected)이나 노드의 순환성(Cyclic or nonCyclic)에 따라서 HMM(Hidden Markow Models), FA(Factor Analysis), Kalman Filters 등 여러 가지가 있으며, 그 중 하나가 Baysian Network이다.


I. BN의 그래픽 표기법(Representation)

그래픽 모델에서, 노드는 랜덤 변수(Random Variables)를 나타내며, 호는 노드들간의 관계성을 가리킨다. 중요한 사실은 그래픽적 표현만으로 Fully Joint Probabilty Distribution의 표현이 가능하다라는 것이다. 이는 다시 말해, BN으로 표현이 되면, 랜덤 변수의 모든 조합으로 구성된 확률 분포도를 알 수 있다라는 말이다.

BN는 그래픽 모델 중에서 방향성이 있으며, 비순환의 그래픽 모델을 말한다. 줄여서 DAG, (Directed ACyclic Graph)라고 한다. 아래 간단한 예제 BN을 살펴보자. BN의 설명에서 종종 등장하는 예제이다. 잔디(WetGrass)가 젖을 경우는 스프린클러(Sprinkler)가 동작하거나 비가 오거나의 경우를 BN으로 표현한 것이다. 아래 예에서 "날씨가 흐릴 때 비가 올 확률", 즉 P(R=T| C=T) = 0.8이다.

 

어떤 상황을 BN으로 구성하기 위해서는 위와 같은 경우처럼,

1. 시스템을 표현할 수 있는 노드 구성
2. 노드와의 연결성 (Arc 구성)
3. 확률 테이블(CPT) 구성

하면 모든 것이 끝난다. 단, 중요한 사실은 노드간의 조건부 독립(Conditional Indendence)의 특성을 부여하면서 구성해야 된다는 사실이다. 조건부 독립을 확인하기 위한 D-seperation 알고리즘?도 있고, 복잡도 하지만 간단히, 제 생각으로는 적어도 Virtual Dog에서 느낌상으로 조건부 독립적으로 노드를 구성하면 OK이다. 위의 예에서는 스프린쿨러(S)가 동작할 경우와 비가 올 경우는 흐린날(C)이라는 조건에서 서로 조건부 독립이다.

위와 같은 BN이구성되면, "잔디가 젖었을 때(W), 스프린쿨러(S)가 동작하였을 확률"을 아래 식처럼 직접 계산할 수 있다. CPT에 직접적으로 표현이 되지 않았지만, 추론이라는 Method에 의해 표현(계산, 추측, 추론)될 수 있는 것이다.


다른 모든 경우도 수식으로 계산이 가능한 것이다. 다만 직접 계산을 할 경우 기하급수적으로 계산량이 증가하기 때문에, Approximation 방법을 이용하기도 한다고 한다. 계산 방법은 이 문서에서는 생략하고, 다만 그냥 개념만 이해하고 갔으면 한다. 하나 더 추가할 개념은 여기서 W가 Evidence가 되고 S가 Query가 되는 셈이며( 잔디가 젖었다는 사실을 알고, 그에 상응하는 S의 확률을 쿼리), 이런 식의 계산을 Bottom-up reasoning 이라고 한다.

II. 추론(Inference)

BN에서 추론이란 무엇일까, 어떤 의미를 추론이라고 할까? 위에서 잠깐 언급한 Evidence와 Query를 먼저 이해해야 한다. BN에서 추론이란 "알고 있는 확률변수를 이용해서 원하는(알고자 하는) 확률값을 구하는 과정"이라 할 수 있다. 위의 과정이 바로 추론과정이다. 위 그림의 BN에서는 Casuality(원인 -> 결과)에 따른 확률값은 표현이 되어 있고(CPT), 위 수식과 같이 "잔디가 젖었을 때(W), 스프린쿨러(S)가 동작하였을 확률"은 CPT를 이용해 바로 구할 수는 없다. 그럼으로 계산이나 Approximation 방법 등을 이용한 추론을 해야 한다. 물론 어떻게 보면 확률 계산에 불과하지만, 그러한 계산이 노드에 따라서 기하 급수적으로 증가하기 때문에 여러 가지 추론 알고리즘이 있다. (Variable Elimination, Dynamic Programming, Approximation Algorithms, etc)


1. Variable Elimination

추론을 하는 방법 중의 하나이다. 기본 생각은 추론을 원하고자 하는 식을 CPT의 Factored Representation으로 표현하는 것이다. 그것은 관계 없는 변수에 대한 경우의 합계 표현으로 가능하다. 설명이 잘 이해가 되지 않을 것이다. ^^; 고등학교 때 배운 확률을 잘 생각해보자. Joint Probability에서 랜던 변수 X, Y가 있고, Y는 Boolean Variable이라고 가정하면

P(X=i) = P(X=i, Y=false) + P(X=i, Y=true) 인 것이 생각이 나는지... 아무튼 이와 같은 원리와 그리고 Bayes 이론을 사용해서 확률값을 구하는 방법론이 Variable Elimination이다.


WetGrass(P(W=true))인 확률을 구하기 위해서 위와 같은 단계를 거치면, 결국 CPT에 있는 확률값들을 이용해서 구할 수 있는 것이다. 왜 이 방법이 "변수 제거(Variable Elimination)"인지는 확률값을 구하기 위해서는 Innermost가 우선적으로 구해지고, 그에 따라 Summation 되는 변수(c,s,r) 등이 차례로 구해지는 과정에서 생긴 이름으로 생각된다.

III. 학습(Learning)

BN에서 학습이란, 주어진 학습 데이타를 이용하여, 그래프의 Topology를 구성하는 것과 CPT(Conditional Probability Table)을 구성하는 것을 말하며, 그래프의 Topology를 구성하는 것이 CPT를 구성하는 것보다 어려운 작업이다. 데이터 혹은 그래프에 따라 조건별 학습 방법은 아래와 같다.

Structure
Observability
Method
Known Full Maximum Likelihood Estimation
Known Partial EM (or gradient ascent)
Unknown Full Search through model space
Unknown Partial EM + search through model space

1. Structure가 Known이며, 학습 데이터도 Full Observability할 경우의 예
(Maximum Likelihood Estimation)

이와 같은 경우도 그래픽의 구조나 CPT를 구하기 위한 모든 학습 데이터가 주어지기 때문에 단순 Counting으로 추측할 수 있다. 가령 위 그림에서 W 노드의 CPT를 구한다고 가정하면, 다음과 같이 Maximum Likelihood Estimation 방법을 이용한다.

식을 보면 단순히 Counting만으로 W 노드의 CPT를 구하는 것을 볼 수 있다.(N는 경우의 수)

by 에이아이 2009. 10. 10. 12:04