논문설명

대표적인 의사결정트리 알고리즘으로 널리 알려져 있는 C4.5 알고리즘의 책에 대한 Review 자료입니다.  
데이터마이닝을 연구하는 경우 읽어두면 도움이 될 유용한 자료라고 생각됩니다.

논문정보

 원본파일

 검색방법 

http://www.springerlink.com/content/v986m1562062hk51/

 출처정보

Quinlan, J. R. (1993). C4.5 programs for machine learning. Morgan Kaufman.  


                      Review : C4.5 programs for machine learning

1. Overview (개관) 

Algorithms for constructing decision trees are among the most well known and widely used for all machine learning methods. Among decision tree algorithms, J. Ross Quinlan's ID3 and its successor, C4.5, are probably the most popular in the machine learning community.
결정트리를 구축하는 알고리즘들은 기계학습 방법들 중에서도 가장 잘 알려져있고 널리 사용되는 있는 방법들에 속해있다. 결정트리 알고리즘 중에서도, J. Ross Quinlan 의 제안한 ID3와 그 후속 알고리즘인 C4.5 은 아마도 기계 학습 분야에서 가장 인기있는 방법들일 것이다.

These algorithms and variations on them have been the subject of numerous research papers since Quinlan introduced ID3. Until recently, most researchers looking for an introduction to decision trees turned to Quinlan's seminal 1986 Machine Learning journal article [Quinlan, 1986].
이 알고리즘과 이로부터 발전된 알고리즘들은 Quinlan 이 ID3 알고리즘을 소개한 이후로 수많은 연구논문들의 주제가 되어왔다. 대부분의 결정트리를 소개하는 연구들은 Quinlan 이 1986년 기계학습 저널의 논문을 참고하고 있다.

In this book, C4.5: Programs for Machine Learning, Quinlan has put together a definitive, much needed description of his complete system, including the latest developments. As such, this book will be a welcome addition to the library of many researchers and students.
이 책(C4.5 기계학습을 위한 프로그램)에서, 저자 Quinlan은 (가가 최근에 개발한 내용을 포함하여) 그의 완전한 시스템에 대한 명확하고 더욱 자세한 설명들을 종합하였다. 때문에, 이 책은 많은 연구자들과 학생들에게 환영받는 추가자료가 될 것이다.  

Quinlan discusses a wide range of issues related to decision trees, from the core alorithm for building an initial tree to methods for pruning, converting trees to rules, and handling various problems such as missing attribute values. For each of these issues, he gives a clear description of the problem, usually accompanied by an example, and he describes how C4.5 handles it. The detailed examples are usually drawn from real data sets, and they help greatly to illustrate each problem.
Quinlan은 결정트리에 관련된 (결정트리를 생성하는 중심 알고리즘부터 가지치기의 방법들, 나무를 규칙으로 변환하는 방법, 결측치와 같은 여러가지 문제들을 다루는 방법 등) 넓은 영역의 이슈들에 대해서 다룬다. 각각의 이슈들에 대해서 Quinlan은 주로 예제들을 사용하여 문제들을 명확하게 기술하고, C4.5에서 그 문제들을 처리하는 방법을 설명한다. 자세한 예제들은 주로 실 데이터에서 가져왔으며, 각 문제들을 설명하는데 많은 도움을 준다.  


2. Summary of contents (내용 요약) 

Decisioin tree algorithms begin with a set of cases, or examples, and create a tree data structure that can be used to classify new cases. Each case is described by a set of attributes (or features) which can have numeric or symbolic value. Associated with each training case is a label representing the name of class. Each internal node of a decision tree contains a test, the result of which is used to decide what branch to follow from that node.

For example, a test might ask "is x > 4 for attribute x?" If the test is true, then the case will processd down the left branch, and if not then it will follow the right branch. The leaf nodes contains class labelss instead of tests. In classification mode, when a test case (which has no label) reaches a leaf node, C4.5 classifies it using the label stroed there.

by 에이아이 2009. 7. 31. 22:17