검색결과 리스트
J48에 해당되는 글 1건
- 2009.08.01 [강좌] WEKA 사용법 (간단한 분류, 의사결정트리 분석 설명) 6
본 글에서는 대표적인 데이터마이닝 프로그램인 WEKA를 사용하여 의사결정트리 분류 분석을 수행하는 방법을 설명합니다. 프로그램을 설치하면 기본적으로 제공되는 Weather 데이터를 사용하여 분석을 해보았습니다.
Weka 시작하기
weka 프로그램 설치와 실행을 성공하였으니 간단하게 프로그램을 사용해보도록 하자.
첫 화면에서 하단에 4개의 버튼이 보이는데 그 중 [Explorer]를 클릭한다.
그러면 아래의 오른쪽 그림과 같은 화면이 생성된다.
이번에는 날씨에 관련된 다른 데이터를 선택하고 분석을 수행해보도록 하자.
이 데이터는 날씨에 따라 Play 여부를 기록한 데이터이다. 날씨의 어떠함에 따라 운동경기를 했는지, 안했는지의 과거 정보들을 기록해둔 데이터이다. 이 데이터를 분석하면 어떤 날씨 조건에서 운동을 하는 것이 좋은 가에 대한 유용한 지식을 얻을 수 있을 것이다.
먼저 데이터를 이해하기 위해 설명한다. wether.nomial.csv 파일은 메모장으로 열면 아래와 같다.
Excel 프로그램으로 파일을 열면 오른쪽 그림과 같이 볼 수 있다.
위 파일을 Weka에서 입력으로 받아 분석하기 위해서는 ARFF 형식으로 변경해주어야 한다. CSV 형식은 WEKA 프로그램에서 입력으로 허용하지 않는다. ARFF 형식으로 변경한 결과는 아래와 같다.
ARFF 형식은 왼쪽 그림과 같이 @relation, @attribute, @data 의 3개의 영역으로 표현된다. 각 내용은 아래와 같이 입력한다. @relation 데이터명칭 @attribute 속성이름 {범주형의 값 리스트 } @data |
데이터는 범주형 속성 뿐 아니라 수치형 속성을 포함할 수도 있다.
위에서 소개한 Weather 데이터의 원래 형태는 아래와 같이 수치형으로 구성되어 있다.
위 파일을 ARFF 형식으로 변환한 결과는 아래와 같다.
위에서 설명한 바와 같이 @attribute 라인을 통해 각 속성에 대한 정보를 기록한다. 이 때, 범주형 속성과 수치형 속성을 구분하여 기록해주어야 한다.
(1) 범주형 속성 (2) 수치형 속성 즉, 수치형 속성은 속성의 이름을 적어 준 후, 뒤에 real 이라고만 기록해주면 된다. 범주형 속성의 경우 값을 모두 적어주지만, 수치형은 간단하다. |
@attribute 정의 부분에서 맨 아래쪽에 기입한 속성이 분석의 목표가 되는 속성으로 인식된다.
그럼, 위에서 설명하고 준비한 weather.nominal.arff 파일을 Weka를 사용하여 분석해보도록 하자. 초기화면에서 [Open file...]을 클릭하여 해당 파일을 선택하면, 아래 그림과 같이 표시된다.
단계1. 데이터를 선택한다. (우리는 이미 전 단계에서 weather.arff 파일을 선택하였다. )
단계2. 메뉴에서 [Classify]를 선택한다. 왼쪽 상단의 [Choose] 버튼을 클릭한 후 trees 항목에 속해있는 J48 알고리즘을 선택한다.
아래의 결과에서 가장 중요한 부분은 빨강색으로 표시한 트리(tree) 부분이다. 운동 경기(play)에 영향을 주는 속성은 조명(outlook), 습도(humidity), 풍량(windy)으로 분석되었다. 가장 중요한 속성은 조망(outlook)이다.
=== Run information ===
Scheme : weka.classifiers.trees.J48 -C 0.25 -M 2 Test mode: 10-fold cross-validation === Classifier model (full training set) === J48 pruned tree Number of Leaves : 5 Time taken to build model: 0.03 seconds === Stratified cross-validation === === Summary === === Detailed Accuracy By Class === === Confusion Matrix === |
위의 텍스트로 된 Tree 결과를 시각적으로 표시하면 의미를 쉽게 이해할 수 있다. Weka에서는 텍스트 뿐 아니라 시각적인 기능도 제공하고 있다. 왼쪽 하단의 [Result list] 부분에서 방금 수행된 [tree.J48] 항목에서 마우스 오른쪽 버튼을 누른 후 [Visualzie tree]를 클릭한다.
결정트리 알고리즘들의 비교 (C4.5 / CART / CHAID) (0) | 2009.08.02 |
---|---|
[강좌] WEKA (웨카) 프로그램 다운로드 및 설치하기 (0) | 2009.08.02 |
EM 군집 알고리즘 소개 (Expectation Maximazation) (3) | 2009.08.01 |
HMM 알고리즘의 이해 (0) | 2009.07.31 |
[참고글] 많이 사용되는 Data Mining 툴은? (2004년) (2) | 2009.07.29 |
RECENT COMMENT