CHAID 알고리즘 소개

나무를 구축하는 방식이 CART 와 흡사하나 데이터를 분할하는 방식에 차이가 있다.

다시 말해, 최적의 분할, 즉 최적의 예측변수를 선택하는데 있어 엔트로피나 지니 매트릭스 대신
통계학의 카이스퀘어 테스트를 사용한다.

따라서 이 방법은 범주형 자료에 대해서만 적용할 수 있다.
수치형 속성(나이 등) 범주형으로 변환한 후에 입력해야 한다. (10대, 20대, ... 등) 

< CHAID > : Chi-squared Automatic Interaction Detection (1980, KASS) 
CHAID 알고리즘은 Chi-suare검정 또는 F-검정을 이용하여 데이터를 분리하는 방법을 사용한다. (범주형의 속성에 대해서는 Chi-squre검정을 사용하고, 연속형 변수에 대해서는 F-검정을 사용한다.)
참고자료 : 사례로 배우는 데이터마이닝 [자유아카데미, 최종후/소선하] p.27 

 [논문] 의사결정트리 알고리즘의 성과 비교에 관한 연구 (광운대 경영정보학과 김신곤, 박성용)

2.1 CHAID(Chi-square Automatic Interaction Detection)

1975년 J.A. Hatigan에 의해 처음 발표된 CHAID 알고리즘은 카이제곱-검정 (이산형 목표변수) 또는 F-검정 (연속형 목표변수)을 이용하여 다지분리(Multiway Split)를 수행하는 알고리즘으로 1963년 J.A.Morgan과 J.N.Sonquist이 발표한 AID (Automatic Interaction Detection) 시스템에서 유래되었다. AID 에서 암시하고 있는 것과 같이 CHAID는 원래 변수들 간의 통계적 관계를 찾는 것이 그 목적이었다. 변수들 간의 통계적인 관계는 다시 의사결정트리를 통해 표현될 수 있었으므로, 이 방법은 분류기법(Classification Technique)으로써 사용할 수 있다[Thearling, 1995].
계속...


by 에이아이 2009. 7. 29. 19:08