F-검정에 대해서 공부해보자.
몇 결정트리 알고리즘에서 t-검정, F검정을 사용하기 때문에
해당 결정트리 알고리즘을 잘 이해하기 위해서는 이러한 통계 검정 방법들을 잘 이해해두어야 한다.

F-검정은 언제 사용할까?
F-검정은 두 모집단의 분산의 차이가 있는가를 검정할 때 사용한다.
(두 집단의 평균의 차이가 존재하는가가 아니라 분산의 차이가 있는가를 검정한다.)

F-검정의 특징
F-검정값은 항상 1보다 같거나 크다. (두 표본집단의 분산 값을 나눈 것이므로, 큰 것이 분모, 작은 것이 분자)
F값이 클수록 두 집단간의 분산의 차이가 존재하는 것을 의미한다.

예1. (제4판. 현대통계학. p.349-350)
예를들어, 어느 중학교에서 1학년 학생들의 성적의 차이(분산)이 2학년이 되면 더 커질 것이라고 예상된다. 실제로 그런가 검정해보자. 1학년에서 7명을 뽑고, 2학년에서 9명을 뽑아서 각각의 성적의 분산을 조사해 봤더니, 1학년의 분산은 9.0 이었고, 2학년의 분산은 19.8 이었다. 두 모집단의 분산은 같다고 볼 수 있을까? 알파=0.05 에서 검정해보자.
F(8,6) = 4.15 이다. (자유도는 개체 크기에서 1씨 뺀 값으며 2개가 사용된다. F분포표에서 찾아보자.)
F = 19.8 / 9 = 2.2 이다. 2.2 < 4.15 이므로 F=2.2는 기각역 안에 있으며, 귀무가설을 기각할 수 없다.
즉, 2학년학생의 성적 차이가 1학년 학생의 성적차이보다 크다고 할 수 없다.  

F-분포표

F검정에 필요한 F분포표를 첨부하였다.
F검정표는 두 개의 자유도 값을 사용한다. (행, 열에 두 표본의 자유도가 사용된다.)



참고자료
[1] 제4판 현대통계학, 박정식/윤영선. p.335- (15장)

by 에이아이 2009. 10. 14. 18:45