연구에 참고한 논문들 리스트를 정리합니다.

[09.08.24] Instability of decision tree classification algorithms (보기 : http://ai-times.tistory.com/329)

결정트리와 다중공선성에 대한 주제로 검색한 논문이다. DODD 를 통한 해외 박사논문이며 University of Illinois at Urbana-Champaign 에서 2001년 수여된 논문이다.

(주제) 다중공선성에 견고한 결정트리, 데이터마이닝 분석

[1] Facing Multicollinearity in Data Mining (보기: http://ai-times.tistory.com/148)
이 논문에서는 다중공선성의 특성이 데이터마이닝 분석 기법들에 미치는 영향에 대해서 조사하였다. MLP 등의 비모수적 알고리즘들은 다중공선성에 견고한 반면, CART 등의 결정트리 알고리즘은 그렇지 못함을 제시하고 있다.

[2] Input Data for Decision Tree (보기 : http://ai-times.tistory.com/149)

결정트리 알고리즘에 입력 데이터의 특성이 미치는 영향을 연구하였다. (1) 비선형성 (2) 다중공선성 (3) 공분산성 (4) 이상치 의 4가지 상태를 실험을 통해 연구하였다. 특히 다중공선성은 결정트리 알고리즘에 부정적 영향을 주는 것, 그리고 변수 제거가 해결책이 되지 않음을 설명한다. 

[3] Extacting Decisioin Tree from Trained Neural Network (보기: http://ai-times.tistory.com/150 )
신경망 모델을 통해서 결정트리를 생성하는 방법을 제안합니다. 결정트리의 장점(설명력, 규칙도출)과 신경망의 장점(데이터 특성에 견고함 즉 유연함, 높은 정확도)을 결합하기 위한 방법입니다.

[4] 지지벡터머신을 이용한 결정트리 (보기: http://ai-times.tistory.com/151)
백터머신을 사용하여 결정트리를 생성하는 방법입니다. 이 논문 역시 다중공선성 등 데이터의 특성에 약한 ID3 계열의 결정트리 알고리즘을 보완하기 위한 논문입니다.  

[5] 다중공선성 상태의 주성분회귀와 능형회귀 (보기: http://ai-times.tistory.com/152
다중공선성이 회귀분석에 미치는 영향과 이를 해결하기 위한 능형회귀를 설명한다. 

[6] 상호작용효과를 포함한 다중회귀분석에서 주효과의 검증에 대한 연구 (1994년 서울대 경영학과 이유재)
(보기: http://ai-times.tistory.com/154)

[7] 능형회귀에서의 로버스트한 K의 선택 방법 (보기: http://ai-times.tistory.com/153)


< 결정트리 비교 및 활용에 관한 논문들 >

[1] 결정트리 비교 연구 (CHAID와 CART 비교) (보기 : http://ai-times.tistory.com/155)

1999년 논문으로 통계학 기반의 대표적인 결정트리 알고리즘인 CHAID와 CART에 대해서 비교한 논문입니다. 데이터를 가지고 분석한 결과를 비교합니다.  

[2] 대졸자의 취업에 대한 CHAID 분석 (보기 : http://ai-times.tistory.com/156)







 

by 에이아이 2009. 8. 24. 18:47
논문 정보

원문 파일
   
저자 Li, Ruey-Hsia
학위 Ph.D.
학위수여대학 University of Illinois at Urbana-Champaign.
수여년도 2001
페이지수 86 p.
지도교수/심사위원 Adviser: Geneva G. Belford.
언어 영어
주제어 Computer Science
초록
  Fundamental theorems are derived for the instability problem of decision tree classification algorithms. The instability problem of decision tree classification algorithms is that small changes in input training samples may cause dramatically large changes in the output tree classifiers. The past research emphasized the instability of the prediction but not the tree structure change, which is more important to provide consistent, stable, and insightful information to facilitate the process of decision making.
  We present theorems to prove the relationship between a data change and the resulting tree structure change (i.e., split change). The relative sensitivity between two splits is defined based on the theorems as the smallest change that may cause the superior split to become inferior. A split is defined to be almost as good as another split if the relative sensitivity of the two splits is small. The Instability Theorem provides the cause of the instability problem. Algorithms are presented to lessen the instability problem.
  Empirical results illustrate that the trees constructed by the proposed algorithm are more stable, noise-tolerant, informative, expressive, and concise. The proposed sensitivity measure can be used as a metric to evaluate the stability of splitting predicates. The tree sensitivity is an indicator of the confidence level in rules and the effective lifetime of rules.

사용자 삽입 이미지
by 에이아이 2009. 8. 24. 18:42
논문설명

대표적인 의사결정트리 알고리즘으로 널리 알려져 있는 C4.5 알고리즘의 책에 대한 Review 자료입니다.  
데이터마이닝을 연구하는 경우 읽어두면 도움이 될 유용한 자료라고 생각됩니다.

논문정보

 원본파일

 검색방법 

http://www.springerlink.com/content/v986m1562062hk51/

 출처정보

Quinlan, J. R. (1993). C4.5 programs for machine learning. Morgan Kaufman.  


                      Review : C4.5 programs for machine learning

1. Overview (개관) 

Algorithms for constructing decision trees are among the most well known and widely used for all machine learning methods. Among decision tree algorithms, J. Ross Quinlan's ID3 and its successor, C4.5, are probably the most popular in the machine learning community.
결정트리를 구축하는 알고리즘들은 기계학습 방법들 중에서도 가장 잘 알려져있고 널리 사용되는 있는 방법들에 속해있다. 결정트리 알고리즘 중에서도, J. Ross Quinlan 의 제안한 ID3와 그 후속 알고리즘인 C4.5 은 아마도 기계 학습 분야에서 가장 인기있는 방법들일 것이다.

These algorithms and variations on them have been the subject of numerous research papers since Quinlan introduced ID3. Until recently, most researchers looking for an introduction to decision trees turned to Quinlan's seminal 1986 Machine Learning journal article [Quinlan, 1986].
이 알고리즘과 이로부터 발전된 알고리즘들은 Quinlan 이 ID3 알고리즘을 소개한 이후로 수많은 연구논문들의 주제가 되어왔다. 대부분의 결정트리를 소개하는 연구들은 Quinlan 이 1986년 기계학습 저널의 논문을 참고하고 있다.

In this book, C4.5: Programs for Machine Learning, Quinlan has put together a definitive, much needed description of his complete system, including the latest developments. As such, this book will be a welcome addition to the library of many researchers and students.
이 책(C4.5 기계학습을 위한 프로그램)에서, 저자 Quinlan은 (가가 최근에 개발한 내용을 포함하여) 그의 완전한 시스템에 대한 명확하고 더욱 자세한 설명들을 종합하였다. 때문에, 이 책은 많은 연구자들과 학생들에게 환영받는 추가자료가 될 것이다.  

Quinlan discusses a wide range of issues related to decision trees, from the core alorithm for building an initial tree to methods for pruning, converting trees to rules, and handling various problems such as missing attribute values. For each of these issues, he gives a clear description of the problem, usually accompanied by an example, and he describes how C4.5 handles it. The detailed examples are usually drawn from real data sets, and they help greatly to illustrate each problem.
Quinlan은 결정트리에 관련된 (결정트리를 생성하는 중심 알고리즘부터 가지치기의 방법들, 나무를 규칙으로 변환하는 방법, 결측치와 같은 여러가지 문제들을 다루는 방법 등) 넓은 영역의 이슈들에 대해서 다룬다. 각각의 이슈들에 대해서 Quinlan은 주로 예제들을 사용하여 문제들을 명확하게 기술하고, C4.5에서 그 문제들을 처리하는 방법을 설명한다. 자세한 예제들은 주로 실 데이터에서 가져왔으며, 각 문제들을 설명하는데 많은 도움을 준다.  


2. Summary of contents (내용 요약) 

Decisioin tree algorithms begin with a set of cases, or examples, and create a tree data structure that can be used to classify new cases. Each case is described by a set of attributes (or features) which can have numeric or symbolic value. Associated with each training case is a label representing the name of class. Each internal node of a decision tree contains a test, the result of which is used to decide what branch to follow from that node.

For example, a test might ask "is x > 4 for attribute x?" If the test is true, then the case will processd down the left branch, and if not then it will follow the right branch. The leaf nodes contains class labelss instead of tests. In classification mode, when a test case (which has no label) reaches a leaf node, C4.5 classifies it using the label stroed there.

by 에이아이 2009. 7. 31. 22:17

대학졸업생들을 대상으로 설문하여 CHAID 분석을 수행한 논문입니다.

Answer Tree 프로그램을 사용하여 분석을 수행하였고,
자격증, 해외연수, 취업준비여부 등이 취업에 미치는 영향을 결정트리로 분석한 자료입니다.  

 
 

by 에이아이 2009. 7. 29. 18:30

의사결정트리에 대한 논문을 하나 소개합니다.
KISS 학술원문데이터베이스(kiss.kstudy.com)에서 검색하여 찾은 논문입니다.

1999년에 발표된 좀 오래된 논문이기는 하지만
CHAID 알고리즘과 CART 알고리즘을 자세하게 소개하고 있고,
두 방법의 차이점에 대해서도 이론 및 실제 데이터에 대한 적용 결과를 가지고 자세히 설명하고 있습니다.

논문 정보는 아래와 같습니다.

제목 : Data Mining : 의사결정트리 알고리즘의 성과 비교에 관한 연구 상세보기 
저자 : 김신곤(광운대학교 경영정보학과), 박성용(동양 Systemhouse)
년도 : 1999년
학회 : 한국경영정보학회 (춘계학술대회, Vol.1999, No.0,   Startpage 371, Endpage 383, Totalpage 13)
ECN : ECN-0102-2009-320-005682012  

원문 PDF 

 


by 에이아이 2009. 7. 29. 17:48

다중공선성의 효과와 해결책(회귀분석에서의)에 대한 논문입니다.
KISS 학술원문데이터베이스(kiss.kstudy.com)에서 검색하여 찾은 논문입니다.
(검색어는 "공선성" 으로 하여 검색하였습니다.)

1994년도에 발표된 논문으로
상호작용, 다중공선성에 대한 효과에 대해서 통계적, 수학적으로 자세하게 설명하고 있습니다.
또한 통계학 분야에서 다중공선성을 처리하는 여럭가지 방법들에 대해서 설명하고 있습니다.
(소집단 분석, 독립화 변환, 평균변환 등의 방법을 제시하고 이들을 비교하였습니다.)

논문 정보는 아래와 같습니다. 

제목 : 상호작용효과를 포함한 다중회귀분석에서 주효과의 검증에 대한 연구 상세보기
         Testing Main Effects in Interactive Multiple Regression
저자 : 이유재(서울대),  년도 : 1994년  
학회 : 한국경영학회
발행 : 경영학연구, Vol.23, No.4,   Startpage 183, Endpage 210, Totalpage 28
ECN : ECN-0102-2008-320-001032625
 

원문 PDF

 

 


 

by 에이아이 2009. 7. 29. 12:24

다중공선성의 효과와 해결책(회귀분석에서의)에 대한 참고 논문입니다.
KISS 학술원문데이터베이스(kiss.kstudy.com)에서 검색하여 찾은 논문입니다.
(검색어는 "공선성" 으로 하여 검색하였습니다.)

1993년도에 발표된 논문으로
다중공선성의 문제를 해결하는 하나의 방법은 Ridge Regression(능형회귀)에서의
k를 선택하는 방법에 대해서 설명하고 있습니다.
수식이 많고 통계지식이 부족하여 잘 이해를 못하겠네요. 나중에 다시 읽어봐야겠습니다. 

논문 정보는 아래와 같습니다.

 제목 : 능형회귀에서의 로버스트한 k 의 선택 방법 상세보기  
          Robust Selection Rules of k in Ridge Regression
 저자 : 임용빈(이화여대 통계학과),  년도 : 1993년  
 학회 : 한국통계학회
 발행 : 응용통계연구, Vol.6, No.2,   Startpage 371, Endpage 381, Totalpage 11
 ECN : ECN-0102-2008-310-002450607

원문 PDF



by 에이아이 2009. 7. 29. 12:19

다중공선성의 효과와 해결책(회귀분석에서의)에 대한 논문입니다.

KISS 학술원문데이터베이스(kiss.kstudy.com)에서 검색하여 찾은 논문입니다.
검색어는 "공선성" 으로 하여 검색하였습니다. "다중공선성"으로 검색하면 이상하게도 [다중공선성] 단어가 포함된 논문이 검색되지 않네요. 좀 문제가 있는듯...

2006년도에 발표된 논문으로
다중공선성으로 인한 해결방법으로 많이 사용되고 있는
능형회귀분석(OLS) 및 주성분회귀분석(PCR) 에 대해서 자세하게 설명한 자료입니다.  

논문 정보는 아래와 같습니다.

제목 : 자연과학편 : 다중공선성 상태의 주성분회귀와 능형회귀 상세보기  
          Principal components regression and ridge regression under the multicollinearity
저자 : 김진욱(고려대),  년도 : 2006년  
학회 : 한국체육학회
         (한국체육학회지-인문사회과학, Vol.45, No.4s,   Startpage 547, Endpage 556, Totalpage 10)
ECN : ECN-0102-2009-690-000419594


원문파일


 

by 에이아이 2009. 7. 29. 12:13
by 에이아이 2009. 7. 29. 12:09

다중공선성에 견고한 결정트리를 연구하면서 참고한 논문이다.

ID3 계열의 결정트리 알고리즘들은 다중공선성에 견고하지 못한 문제가 있다.
반면, 신경망 알고리즘은 다중공선성에 영향을 받지 않는 유연함의 장점을 갖고 있다.


결정트리는 모델을 이해하기 쉽고 의사결정에 적용하기 쉬운 장점을 갖는다.
반면, 신경망은 일반적으로 결정트리 보다 높은 성능(예측/분류 정확도)의 장점을 갖는다.
본 논문에서는 이 두 장점을 모두 취하는 것을 목표로 한다. 

본 논문의 아이디어는
신경망 모델을 학습한 후 그 모델로 부터 결정트리를 생성해내는 방법에 대한 연구이다.
신경망 모델로 부터 생성된 결정트리 모델은
기존의 결정트리보다 다중공선성 등의 데이터 특성에 견고한 장점을 갖는다고 주장한다.

by 에이아이 2009. 7. 29. 12:03
| 1 2 |