다중공선성 이란?

데이터분석 시 영향을 주는 다중공선성에 대하여 정리해보았습니다. 다중공선성은 데이터의 입력변수들 간에 상관성이 존재하는 특성으로 회귀분석 등 통계분석에서 부정적인 영향을 미치는 것으로 알려져있습니다.

데이터마이닝의 결정트리 등의 분석에서도 아직까지 충분한 연구가 이루어지지는 않았지만 영향을 주는 것으로 평가됩니다. 아래의 글에 다중공선성의 정의, 문제점(영향), 해결방법 등에 대해서 정리해보았습니다.
http://blog.daum.net/data_mining/90


다중공선성을 측정하는 방법

입력 데이터에 다중공선성이 얼마나 강하게 존재하는가를 파악하는 것이 필요합니다. 
다중공선성을 진단하는 수식으로는 VIF, Tolerance, CN (Condition Number) 등이 있습니다.
아래에 각 방법에 대한 자세한 설명을 추가하였습니다. 상세보기를 클릭하세요.

[상세보기] VIF 측정 방법  (Variation Inflation Factor, 분산 팽창 인자)
[상세보기] Tolerance 측정 방법 (공차한계) (참고글 : 공차한계, 더빈왓슨 SPSS 수행)
[상세보기] CN 측정 방법  (Condition Number)
[상세보기] Eigen Value 측정법


SPSS 를 통한 다중공선성 (VIF, Tolerance, CN) 측정 방법

SPSS 프로그램을 사용하여 주어진 데이터에 대한 측정을 할 수 있습니다.
자세한 방법을 단계별로 설명하였으니 여기 를 클릭하여 참고하기 바랍니다.


다중공선성을 해결하는 방법

다중공선성으로 인해 발생하는 문제를 해결하는 방법은 크게 3가지 접근방식으로 구분될 수 있다.

(1) 데이터의 전처리
(2) 알고리즘의 보완
(3) 결과모델의 해석 방법의 개선

(1) 데이터의 전처리 - 변수들 간의 상관성(다중공선성)을 측정하여 상관성이 존재하는 변수 중 일부를 선택(다른 변수들은 제거)하는 방법을 사용한다. 또는 새로운 변수를 생성하는 방법도 있다. 요인분석(Factor Analysis)를 사용하여 새로운 변수를 생성할 수 있다.

(2) 알고리즘 자체를 보완하는 방법이다. OLS 회귀분석을 대표적인 예로 들 수 있다.

(3) 다중공선성의 문제를 해결하기 위해 특별한 조치를 취하지 않는다. 다만, 다중공선성을 고려하여 데이터를 해석한다면 해석에의 오류를 방지할 수 있다. 즉, 결정트리를 생성 후 그냥 해석하는 것이 아니라 입력 변수들의 상관성을 조사한 후 고려하여 트리를 보고 결론을 내린다.


다중공선성을 해결에 대한 여러 연구들

[1] Facing Multicollinearity in Data Mining - 본 논문에서는 데이터마이닝의 알고리즘들이 입력 데이터의 다중공선성에 어떻게 영향을 받는지 연구하였다.  

[2] Input Data for Decision Tree - 본 연구에서는 다중공선성 등의 입력 데이터의 특성이 결정트리 분석에 어떠한 영향을 미치는 지를 연구하였다.

참고할 만한 좋은 자료들

PCA 를 통한 다중공선성 해결  
http://blog.naver.com/count9560?Redirect=Log&logNo=90010540218 

다중공선성 VIF 구하는 방법 설명 (예제 사용하여 SAS로 분석한 내용 설명)
http://blog.naver.com/brown924/100031453734

데이터분석 관련 블로그 중 <다중공선성> 설명
http://kr.blog.yahoo.com/skk1991/754126

CN (Condition Number) 를 측정하는 방법 설명 (SAS를 사용하여) 
http://blog.naver.com/dusal0814?Redirect=Log&logNo=110030801794

아래 블로그 글에서는 VIF에 대해서 자세히 설명하고 있습니다. 
http://blog.naver.com/weblogic1?Redirect=Log&logNo=30033926666 

다중공선성의 측정방법 및 평가기준 정리
http://blog.naver.com/miokid?Redirect=Log&logNo=2191779


다중공선성을 설명하기 위해 작성한 PPT 파일 

아래 파일은 개인정리용으로 암호를 설정하여 두었습니다. 암호가 필요하다면 별도로 문의하세요.

 2009년 1월 25일 (정리용)  
(상관관계를 구하는 방법부터 다중공선성까지 자세히 정리함, 더빈왓슨 구하는 방법도 설명함)
 2009년 1월 29일 (보고용)  
(정리용 파일에서 내용을 축소하였음)



 

 


by 에이아이 2009. 7. 13. 22:06