이런 교회 되게 하소서  - 소리엘

아래 블로그 글을 클릭하시면 노래를 들을 수 있습니다.

http://blog.daum.net/dbdheldk/6863736

nwc 악보 파일입니다.


신고
by 에이아이 2009.07.14 18:35

다중공선성 이란?

데이터분석 시 영향을 주는 다중공선성에 대하여 정리해보았습니다. 다중공선성은 데이터의 입력변수들 간에 상관성이 존재하는 특성으로 회귀분석 등 통계분석에서 부정적인 영향을 미치는 것으로 알려져있습니다.

데이터마이닝의 결정트리 등의 분석에서도 아직까지 충분한 연구가 이루어지지는 않았지만 영향을 주는 것으로 평가됩니다. 아래의 글에 다중공선성의 정의, 문제점(영향), 해결방법 등에 대해서 정리해보았습니다.
http://blog.daum.net/data_mining/90


다중공선성을 측정하는 방법

입력 데이터에 다중공선성이 얼마나 강하게 존재하는가를 파악하는 것이 필요합니다. 
다중공선성을 진단하는 수식으로는 VIF, Tolerance, CN (Condition Number) 등이 있습니다.
아래에 각 방법에 대한 자세한 설명을 추가하였습니다. 상세보기를 클릭하세요.

[상세보기] VIF 측정 방법  (Variation Inflation Factor, 분산 팽창 인자)
[상세보기] Tolerance 측정 방법 (공차한계) (참고글 : 공차한계, 더빈왓슨 SPSS 수행)
[상세보기] CN 측정 방법  (Condition Number)
[상세보기] Eigen Value 측정법


SPSS 를 통한 다중공선성 (VIF, Tolerance, CN) 측정 방법

SPSS 프로그램을 사용하여 주어진 데이터에 대한 측정을 할 수 있습니다.
자세한 방법을 단계별로 설명하였으니 여기 를 클릭하여 참고하기 바랍니다.


다중공선성을 해결하는 방법

다중공선성으로 인해 발생하는 문제를 해결하는 방법은 크게 3가지 접근방식으로 구분될 수 있다.

(1) 데이터의 전처리
(2) 알고리즘의 보완
(3) 결과모델의 해석 방법의 개선

(1) 데이터의 전처리 - 변수들 간의 상관성(다중공선성)을 측정하여 상관성이 존재하는 변수 중 일부를 선택(다른 변수들은 제거)하는 방법을 사용한다. 또는 새로운 변수를 생성하는 방법도 있다. 요인분석(Factor Analysis)를 사용하여 새로운 변수를 생성할 수 있다.

(2) 알고리즘 자체를 보완하는 방법이다. OLS 회귀분석을 대표적인 예로 들 수 있다.

(3) 다중공선성의 문제를 해결하기 위해 특별한 조치를 취하지 않는다. 다만, 다중공선성을 고려하여 데이터를 해석한다면 해석에의 오류를 방지할 수 있다. 즉, 결정트리를 생성 후 그냥 해석하는 것이 아니라 입력 변수들의 상관성을 조사한 후 고려하여 트리를 보고 결론을 내린다.


다중공선성을 해결에 대한 여러 연구들

[1] Facing Multicollinearity in Data Mining - 본 논문에서는 데이터마이닝의 알고리즘들이 입력 데이터의 다중공선성에 어떻게 영향을 받는지 연구하였다.  

[2] Input Data for Decision Tree - 본 연구에서는 다중공선성 등의 입력 데이터의 특성이 결정트리 분석에 어떠한 영향을 미치는 지를 연구하였다.

참고할 만한 좋은 자료들

PCA 를 통한 다중공선성 해결  
http://blog.naver.com/count9560?Redirect=Log&logNo=90010540218 

다중공선성 VIF 구하는 방법 설명 (예제 사용하여 SAS로 분석한 내용 설명)
http://blog.naver.com/brown924/100031453734

데이터분석 관련 블로그 중 <다중공선성> 설명
http://kr.blog.yahoo.com/skk1991/754126

CN (Condition Number) 를 측정하는 방법 설명 (SAS를 사용하여) 
http://blog.naver.com/dusal0814?Redirect=Log&logNo=110030801794

아래 블로그 글에서는 VIF에 대해서 자세히 설명하고 있습니다. 
http://blog.naver.com/weblogic1?Redirect=Log&logNo=30033926666 

다중공선성의 측정방법 및 평가기준 정리
http://blog.naver.com/miokid?Redirect=Log&logNo=2191779


다중공선성을 설명하기 위해 작성한 PPT 파일 

아래 파일은 개인정리용으로 암호를 설정하여 두었습니다. 암호가 필요하다면 별도로 문의하세요.

 2009년 1월 25일 (정리용)  
(상관관계를 구하는 방법부터 다중공선성까지 자세히 정리함, 더빈왓슨 구하는 방법도 설명함)
 2009년 1월 29일 (보고용)  
(정리용 파일에서 내용을 축소하였음)



 

 


신고
by 에이아이 2009.07.13 22:06

주성분분석 및 요인분석을 공부하는 중에
고유값과 고유벡터 개념이 필요하여 정리해보았습니다.

고유값(Eigen value) 과 고유벡터(Eigen Vector) 가 무엇인지?
그리고 주어진 행렬에 대하여 답을 구하는 절차를 정리하였습니다.  

http://blog.daum.net/data_mining/93

* 다음 블로그에서 티스토리로 이사중입니다.



신고
by 에이아이 2009.07.13 21:50

[DVD] You are Special 의 주제 음악입니다.



DVD 케이스에 적혀있는 내용으로 이 애니메이션을 소개합니다.  

A Story about Selft-Worth ( Max Lucado 맥스 루케이도)
맥스루케이도의 유명 수상작, 어린이 베스트 셀러 책을
3-D 애니메이션으로 제작한 이 작품은 아무것도 잘 할 게 없는
펀치넬로가 다른 사람들의 평가나 시선과는 상관없이, 자신이
왜 세상에 단 하나뿐인 특별한 존재인지를 발견해가는
아름다운 과정을 그리고 있습니다.


작은 나무사람들은 서로에게 금빛별표나 회색점표를 붙이며 하루를 보냅니다.
재능있고 멋진 사람에게는 반짝반짝 빛나는 금빛별표를, 실수가 많고 볼품없는
사람에게는 초라한 회색점표를 붙여줍니다. 아무것도 잘 하는게 없는 주인공
펀치넬로는 태어나서 한 번도 금빛별표를 받아본적이 없고 온 몸에 회색점표만이
가득합니다. 그러던 어느 날, 루시아라는 친구를 통해 자신을 만든 엘리 아저씨를
만나게 되면서, 자신이 이 세상에 하나밖에 없는 특별하고
소중한 존재라는 것을 깨닫게 됩니다.
"나는 나라는 이유만으로 아주 특별한 사람이야!"


미국 네트즌들의 찬사!
세상에 어린이들이 꼭 봐야할 애니메이션이 있다면, 바로 이 이야기이다.
놀랍다-눈시울이 붉어지는 아름다운 결말
작은 이야기에 담긴 깊은 메시지
어린이 뿐만 아니라 어른에게도 감동을 주는 훌륭한 작품이다.

공개된 영상이 있어서 주소를 연결합니다. ( 애니메이션 보기 )

신고
by 에이아이 2009.07.13 20:43
by 에이아이 2009.07.13 20:33
티스토리 블로그를 개설하였습니다.

초대장을 보내주신 분께 감사하네요.

관리 방법이 익숙하지 않아 아직은 좀 사용이 불편하지만 ...

곧 익숙해 질거라 생각됩니다.

아직은 잘 모르겠지만 다른 블로그보다 기능이 좋은 것 같습니다.
신고
by 에이아이 2009.07.12 12:51