Data Mining has been successful in a wide variety of application areas, including marketing, for varied purposes (Adomavicius & Tuzhinlin, 2001; Kushmerick, 1999; van der Putten, 1999; Shaw, Subramaniam, Tan, & Welge, 2001; Thearling, 1999). Data Mining itself is done using several different methods, depending on the type of data as well as the purpose of Data Mining (Ansari, Kohavi, Mason & Zheng, 2000; Cooley & Tan, 2000). For example, if the purpose is classification using real data, feed-forward neural networks might be appropriate (Ragavan & Piramuth, 1991). Decision trees might be appropriate if the purpose is classification using nominal data (Quinlan, 1993). Further, if the purpose is to identify associations in data, association rules might be appropriate (Brijs, Swinnen, Vanhoof, & Wets, 1999).
데이터마이닝은 다양한 목적으로 마케팅을 포함한 여러 분야에서 널리 성공적으로 사용되어지고 있다. 데이터마이닝은 분석을 수행하는 목적과 데이터의 종류에 따라서 여러가지 다른 방법들을 사용하여 수행된다. 예를 들어, 수치형 데이터를 사용한 분류가 목적이라면, 신경망 알고리즘이 적합할 것이다. 결정트리는 범주형 데이터에 대한 분류를 목적으로 하는 경우에 적합하다. 더 나아가, 데이터의 연관성을 규명하는 것이 목적이라면 [연관규칙탐사 분석] 이 적합할 것이다.
Decision Trees are one of the popular methods that have been used for Data Mining purporses. Decision trees can be constructed using a variety of methods. For example, C4.5(Quinlan, 1993) uses information-theoretic measures and CART (Breiman, Friedman, Olshen, & Stone, 1984) uses statistical methods.
결정트리는 데이터마이닝 목적에서 인기있는 분석 방법 중의 하나이다. 결정트리는 다양한 방법들을 사용하여 생성될 수 있다. 예를 들어, 1993년 Quinlan에 의해 제안된 C4.5 알고리즘은 정보이론 측정법을 사용하고, 1984년 Breiman 등에 의해 제안된 CART 알고리즘은 통계적인 방법들을 사용한다.
The usefulness as well as classification and computional performance of Data Mining frameworks incorporating decision trees can be improved by (1) appropriate preprocessing of input data, (2) fine-tuning the decision tree algorithm itself, and (3) better interpretation of output. There have been several studies that have addressed each of these scenarios.
결정트리를 포함한 데이터마이닝 프레임워크에서 분류 및 계산 성능 뿐 아니라 유용성 등은 다음의 여러가지 방법들에 의해 개선될 수 있다. 아래의 각 시나리오를 주제로 하는 다양한 연구들이 이루어지고 있다.
(1) 입력데이터에 대한 적절한 전처리
(2) 결정트리 알고리즘 자체를 개선
(3) 분석 결과를 해석하는 방법의 개선
Input data can be preprocessed (1) to reduce the complexity of data for ease of learning, and(2) to reduce effects due to unwanted characteristics of data.
입력 데이터는 다음의 방법들을 전처리될 수 있다.
(1) 학습과정의 편리화를 위해, 데이터의 복잡도를 감소하는 것.
(2) 원하지 않는 데이터의 특성에 의한 효과를 감소시키는 것.
The former includes such techniques as feature selection and feature construction as well as other data modifications (see, for example, Brijs & Vanhoof, 1998; Kohavi, 1995; Ragavan & Piramuthu, 1991). The latter includes removal of noisy, redundant, and irrelavant data used as input to decision tree learning.
전자(1)는 변수의 선택, 변수의 생성 기술 그리고 그 외에 데이터를 변경하는 방법들을 포함한다. 후자(2)는 결정트리 학습을 위하여 노이즈 및 중복되었거나 부적합한 데이터를 제거하는 기술이 포함된다.
We consider some characteristics of input data and its effect on the learning performance of decision trees. Specifically, we consider the effects on non-linearity, outliers, heteroschedaticity, and multicollinearity in data. These have been shown to have significant effects on regression analysis. However, there has not been any published study that deals with these characteristics and their effects on the learning performance of decision trees. Using a few small data sets that are available over the Internet, we consider each of these characteristics and compare their effects on regression analysis as well as decision trees.
본 연구에서는 입력 데이터의 몇 가지 특성들과 그 특성들이 결정트리의 학습 성능에 미치는 영향에 대해서 고려한다. 특별히, 비선형성, 이상치, 등분산성, 다중공선성 특성에 대해서 고려할 것이다. 이들 특성들은 회귀분석에서 상당한 영향을 주는 특성들로 밝혀져있다. 그러나 이들 특성들이 결정트리의 학습 성능에는 어떠한 영향을 미치는 지에 대해 발표된 연구는 거의 없다. 본 연구에서는 인터넷에서 얻을 수 있는 몇개의 작은 데이터셋을 사용하여 언급한 특성들을 고려하고 결정트리에서 이들 특성들의 영향을 비교할 것이다. (?)
The result from regression analysis are from the Internet. The contribution of this paper is in studying the effects of these characteristics on decision trees, specially See-5 (2001). Preliminary results suggest that the performance of decision trees can be improved with minor modification of input data.
회귀분석에서의 결과는 인터넷을 통해 얻었다. 본 연구의 다루는 내용은 결정트리(특히, See-5)에서 이들 특성들의 효과를 연구하는 것이다. 선행연구의 결과는 입력 데이터의 약간의 수정을 통하여 결정트리의 성능이 향상될 수 있다는 것을 보여준다.
The rest of the paper is organized as follows : Evaluation of some input data characteristics and their effects on the learning performance of decision trees is provided in the next section. Experimental results are also included in Section 2. Section 3 concludes the paper with a brief discussion of the results from this study and their implications as well as future extensions to this study. 본 논문의 나머지 부분은 다음과 같이 구성되었다. 다음 장(2장)에서는 몇 개의 입력 데이터의 특성과 이들의 결정트리 학습 성능에 대한 효과를 평가할 것이다. 2장은 실험의 결과 또한 포함하고 있다. 3장에서는 본 연구의 결과에 대한 간단한 토의내용과 향후 연구에 대해서 제시한다. |
댓글