글
다중공선성 이란?
데이터분석 시 영향을 주는 다중공선성에 대하여 정리해보았습니다. 다중공선성은 데이터의 입력변수들 간에 상관성이 존재하는 특성으로 회귀분석 등 통계분석에서 부정적인 영향을 미치는 것으로 알려져있습니다.
데이터마이닝의 결정트리 등의 분석에서도 아직까지 충분한 연구가 이루어지지는 않았지만 영향을 주는 것으로 평가됩니다. 아래의 글에 다중공선성의 정의, 문제점(영향), 해결방법 등에 대해서 정리해보았습니다.
http://blog.daum.net/data_mining/90
다중공선성을 측정하는 방법
입력 데이터에 다중공선성이 얼마나 강하게 존재하는가를 파악하는 것이 필요합니다.
다중공선성을 진단하는 수식으로는 VIF, Tolerance, CN (Condition Number) 등이 있습니다.
아래에 각 방법에 대한 자세한 설명을 추가하였습니다. 상세보기를 클릭하세요.
[상세보기] VIF 측정 방법 (Variation Inflation Factor, 분산 팽창 인자)
[상세보기] Tolerance 측정 방법 (공차한계) (참고글 : 공차한계, 더빈왓슨 SPSS 수행)
[상세보기] CN 측정 방법 (Condition Number)
[상세보기] Eigen Value 측정법
SPSS 를 통한 다중공선성 (VIF, Tolerance, CN) 측정 방법
SPSS 프로그램을 사용하여 주어진 데이터에 대한 측정을 할 수 있습니다.
자세한 방법을 단계별로 설명하였으니 여기 를 클릭하여 참고하기 바랍니다.
다중공선성을 해결하는 방법
다중공선성으로 인해 발생하는 문제를 해결하는 방법은 크게 3가지 접근방식으로 구분될 수 있다.
(1) 데이터의 전처리
(2) 알고리즘의 보완
(3) 결과모델의 해석 방법의 개선
(1) 데이터의 전처리 - 변수들 간의 상관성(다중공선성)을 측정하여 상관성이 존재하는 변수 중 일부를 선택(다른 변수들은 제거)하는 방법을 사용한다. 또는 새로운 변수를 생성하는 방법도 있다. 요인분석(Factor Analysis)를 사용하여 새로운 변수를 생성할 수 있다.
(2) 알고리즘 자체를 보완하는 방법이다. OLS 회귀분석을 대표적인 예로 들 수 있다.
(3) 다중공선성의 문제를 해결하기 위해 특별한 조치를 취하지 않는다. 다만, 다중공선성을 고려하여 데이터를 해석한다면 해석에의 오류를 방지할 수 있다. 즉, 결정트리를 생성 후 그냥 해석하는 것이 아니라 입력 변수들의 상관성을 조사한 후 고려하여 트리를 보고 결론을 내린다.
다중공선성을 해결에 대한 여러 연구들
[1] Facing Multicollinearity in Data Mining - 본 논문에서는 데이터마이닝의 알고리즘들이 입력 데이터의 다중공선성에 어떻게 영향을 받는지 연구하였다.
[2] Input Data for Decision Tree - 본 연구에서는 다중공선성 등의 입력 데이터의 특성이 결정트리 분석에 어떠한 영향을 미치는 지를 연구하였다.
참고할 만한 좋은 자료들
PCA 를 통한 다중공선성 해결
http://blog.naver.com/count9560?Redirect=Log&logNo=90010540218
다중공선성 VIF 구하는 방법 설명 (예제 사용하여 SAS로 분석한 내용 설명)
http://blog.naver.com/brown924/100031453734
데이터분석 관련 블로그 중 <다중공선성> 설명
http://kr.blog.yahoo.com/skk1991/754126
CN (Condition Number) 를 측정하는 방법 설명 (SAS를 사용하여)
http://blog.naver.com/dusal0814?Redirect=Log&logNo=110030801794
아래 블로그 글에서는 VIF에 대해서 자세히 설명하고 있습니다.
http://blog.naver.com/weblogic1?Redirect=Log&logNo=30033926666
다중공선성의 측정방법 및 평가기준 정리
http://blog.naver.com/miokid?Redirect=Log&logNo=2191779
다중공선성을 설명하기 위해 작성한 PPT 파일
아래 파일은 개인정리용으로 암호를 설정하여 두었습니다. 암호가 필요하다면 별도로 문의하세요.
2009년 1월 25일 (정리용) |
(상관관계를 구하는 방법부터 다중공선성까지 자세히 정리함, 더빈왓슨 구하는 방법도 설명함) |
2009년 1월 29일 (보고용) |
(정리용 파일에서 내용을 축소하였음) |
'스터디 자료' 카테고리의 다른 글
[통계학] 요인분석 (Factor Analysis) 소개 (59) | 2009.07.24 |
---|---|
예제를 통한 요인분석(Factor Analysis) [1] (3) | 2009.07.24 |
VIF 다중공선성 진단 수식 (판단기준) (0) | 2009.07.20 |
Support Vector Machine (SVM) 분류 알고리즘 (1) | 2009.07.16 |
고유값(Eigen value) 고유벡터(Eigen Vector) (1) | 2009.07.13 |
RECENT COMMENT