SVM이란 무엇인가?

SVM은 분류 알고리즘의 하나이다.
결정트리, 신경망 등의 분류 알고리즘보다 일반화 능력이 좋으며 성능(분류율)이 좋은 것으로 평가되고 있다.

SVM은 1970년대 후반에 Vlamir Vapnik (추가설명보기) 에 의해 제안되었다. 많이 주목받지 못하다가 1990년대 들어 필기인식 등의 분야에 우수한 성능이 입력되었고, 지금은 많은 분야에서 사용되고 있다.

SVM은 Support Vector Mahine 의 약어로서
한글로는 "서포트 백터 머신" 또는 "지지 벡터 머신" 이라고 부른다.
(참고 - Support : 지지, 지지하다.)

SVM 은 결정트리, 신경망 보다 성능이 좋다! 왜 좋을까?

SVM > 신경망 > 결정트리

일반적으로 결정트리보다 신경망이 분류율이 좋다.
결정트리가 각 변수에 따라 수직적으로 분류 기준을 찾지만, 신경망 모형은 여러 개의 변수를 가중치를 사용하여 동시에 고려하므로 유연한 분류가 가능하기 때문이다.

그리고 SVM은 신경망보다 분류율이 좋은 것으로 평가된다.
신경망 모델은 분류율을 최대(오류율을 최소)로 하는 것을 목적으로 하지만 SVM은 분류율을 최대로 하되 더 나아가 분류를 구분하는 기준(여백)을 최대화 하는 것까지 고려한다.

참고할 만한 자료들 



패턴인식 (5장. SVM, p137 - )

http://blog.naver.com/minas_isil/140072165900

http://blog.naver.com/lioler/20067595405 (SVM 시뮬)
http://blog.naver.com/lioler/20066894531 (SVM)
http://blog.naver.com/lioler/20065743327 (선형 SVM)
http://blog.naver.com/lioler/20065745557 (비선형 SVM)

http://www.aistudy.co.kr/pattern/support_vector_machine.htm

http://channelofchaos.blogspot.com/2007/08/svm_10.html

http://www.support-vector.net/index.html








 

by 에이아이 2009. 7. 16. 11:05

다중공선성 이란?

데이터분석 시 영향을 주는 다중공선성에 대하여 정리해보았습니다. 다중공선성은 데이터의 입력변수들 간에 상관성이 존재하는 특성으로 회귀분석 등 통계분석에서 부정적인 영향을 미치는 것으로 알려져있습니다.

데이터마이닝의 결정트리 등의 분석에서도 아직까지 충분한 연구가 이루어지지는 않았지만 영향을 주는 것으로 평가됩니다. 아래의 글에 다중공선성의 정의, 문제점(영향), 해결방법 등에 대해서 정리해보았습니다.
http://blog.daum.net/data_mining/90


다중공선성을 측정하는 방법

입력 데이터에 다중공선성이 얼마나 강하게 존재하는가를 파악하는 것이 필요합니다. 
다중공선성을 진단하는 수식으로는 VIF, Tolerance, CN (Condition Number) 등이 있습니다.
아래에 각 방법에 대한 자세한 설명을 추가하였습니다. 상세보기를 클릭하세요.

[상세보기] VIF 측정 방법  (Variation Inflation Factor, 분산 팽창 인자)
[상세보기] Tolerance 측정 방법 (공차한계) (참고글 : 공차한계, 더빈왓슨 SPSS 수행)
[상세보기] CN 측정 방법  (Condition Number)
[상세보기] Eigen Value 측정법


SPSS 를 통한 다중공선성 (VIF, Tolerance, CN) 측정 방법

SPSS 프로그램을 사용하여 주어진 데이터에 대한 측정을 할 수 있습니다.
자세한 방법을 단계별로 설명하였으니 여기 를 클릭하여 참고하기 바랍니다.


다중공선성을 해결하는 방법

다중공선성으로 인해 발생하는 문제를 해결하는 방법은 크게 3가지 접근방식으로 구분될 수 있다.

(1) 데이터의 전처리
(2) 알고리즘의 보완
(3) 결과모델의 해석 방법의 개선

(1) 데이터의 전처리 - 변수들 간의 상관성(다중공선성)을 측정하여 상관성이 존재하는 변수 중 일부를 선택(다른 변수들은 제거)하는 방법을 사용한다. 또는 새로운 변수를 생성하는 방법도 있다. 요인분석(Factor Analysis)를 사용하여 새로운 변수를 생성할 수 있다.

(2) 알고리즘 자체를 보완하는 방법이다. OLS 회귀분석을 대표적인 예로 들 수 있다.

(3) 다중공선성의 문제를 해결하기 위해 특별한 조치를 취하지 않는다. 다만, 다중공선성을 고려하여 데이터를 해석한다면 해석에의 오류를 방지할 수 있다. 즉, 결정트리를 생성 후 그냥 해석하는 것이 아니라 입력 변수들의 상관성을 조사한 후 고려하여 트리를 보고 결론을 내린다.


다중공선성을 해결에 대한 여러 연구들

[1] Facing Multicollinearity in Data Mining - 본 논문에서는 데이터마이닝의 알고리즘들이 입력 데이터의 다중공선성에 어떻게 영향을 받는지 연구하였다.  

[2] Input Data for Decision Tree - 본 연구에서는 다중공선성 등의 입력 데이터의 특성이 결정트리 분석에 어떠한 영향을 미치는 지를 연구하였다.

참고할 만한 좋은 자료들

PCA 를 통한 다중공선성 해결  
http://blog.naver.com/count9560?Redirect=Log&logNo=90010540218 

다중공선성 VIF 구하는 방법 설명 (예제 사용하여 SAS로 분석한 내용 설명)
http://blog.naver.com/brown924/100031453734

데이터분석 관련 블로그 중 <다중공선성> 설명
http://kr.blog.yahoo.com/skk1991/754126

CN (Condition Number) 를 측정하는 방법 설명 (SAS를 사용하여) 
http://blog.naver.com/dusal0814?Redirect=Log&logNo=110030801794

아래 블로그 글에서는 VIF에 대해서 자세히 설명하고 있습니다. 
http://blog.naver.com/weblogic1?Redirect=Log&logNo=30033926666 

다중공선성의 측정방법 및 평가기준 정리
http://blog.naver.com/miokid?Redirect=Log&logNo=2191779


다중공선성을 설명하기 위해 작성한 PPT 파일 

아래 파일은 개인정리용으로 암호를 설정하여 두었습니다. 암호가 필요하다면 별도로 문의하세요.

 2009년 1월 25일 (정리용)  
(상관관계를 구하는 방법부터 다중공선성까지 자세히 정리함, 더빈왓슨 구하는 방법도 설명함)
 2009년 1월 29일 (보고용)  
(정리용 파일에서 내용을 축소하였음)



 

 


by 에이아이 2009. 7. 13. 22:06

주성분분석 및 요인분석을 공부하는 중에
고유값과 고유벡터 개념이 필요하여 정리해보았습니다.

고유값(Eigen value) 과 고유벡터(Eigen Vector) 가 무엇인지?
그리고 주어진 행렬에 대하여 답을 구하는 절차를 정리하였습니다.  

http://blog.daum.net/data_mining/93

* 다음 블로그에서 티스토리로 이사중입니다.



by 에이아이 2009. 7. 13. 21:50
| 1 ··· 3 4 5 6 |