데이터명 : Weather
레코드수 : 14개
필드개수 : 5개

데이터설명 : 날씨에 따른 운동경기 여부를 기록한 데이터이다. 이 데이터를 분석하면 어떤 날씨에 운동을 하는가에 대한 결정 기준을 분석할 수 있다. 데이터마이닝의 분류 기법, 특히 ID3, C4.5, C5.0, CART, CHAID 등의 의사결정트리에 대한 기초 개념, 동작원리를 설명할 때 많이 사용되는 데이터이다. 레코드 개수도 많지 않고 데이터를 이해하는데 어렵지 않다. 처음 데이터마이닝 실습을 해볼 때 사용하면 좋은 데이터이다.

필드의 이해 :
데이터의 이해를 돕기 위해 포함된 5개의 변수에 대하여 간략하게 설명한다.  
위 4개의 필드는 입력 변수로 사용되고, 맨 아래의 Play 속성이 목표(종속) 변수로 사용된다.

 Outlook 조망(전반적 날씨) 정보이다. Sunny(맑은), Overcast(구름낀), Rainy(비오는) 의 3개의 값을 갖는다.
 Temperature 기온(온도) 정보이다. 데이터에서는 섭씨 온도로 표시되어 있다. 수치형 변수이며, 범주형으로 변환된 경우 hot, mild, cool 의 3개의 값으로 입력된다.
 Humidity 습도 정보이다.  수치형 변수이며, 범주형으로 변환된 경우 high, normal 2개의 값으로 입력된다.
 Windy 풍량 정보이다. TRUE(바람 붐), FALSE(바람 안붐)의 2개의 값 중 입력된다.  
 Play 운동경기 여부이다. TRUE(경기함), FALSE(경기안함)의 2개의 값 중 입력된다.


데이터 테이블

[1] 원본 데이터 형태 

 Outlook  temperature  humidity  windy  play
 sunny  85  85  FALSE   no 
 sunny  80  90   TRUE   no 
 overcast  83  86   FALSE   yes
 rainy  70  96  FALSE  yes 
 rainy  68  80  FALSE  yes
 rainy  65  70  TRUE  no
 overcast  64  65  TRUE  yes
 sunny  72  95   FALSE  no
 sunny  69  70  FALSE  yes
 rainy  75  80  FALSE  yes
 sunny  75  70  TRUE  yes
 overcast  72  90  TRUE  yes
 overcast  81  75  FALSE  yes
 rainy  71  91  TRUE  no


[2] 모든 필드가 범주형으로 변환된 형태

 Outlook  temperature  humidity  windy  play
 sunny  hot  high  FALSE   no 
 sunny  hot  high   TRUE   no 
 overcast  hot  high   FALSE   yes
 rainy  mild  high  FALSE  yes 
 rainy  cool  normal  FALSE  yes
 rainy  cool  normal  TRUE  no
 overcast  cool  normal  TRUE  yes
 sunny  mild  high   FALSE  no
 sunny  cool  normal  FALSE  yes
 rainy  mild  normal  FALSE  yes
 sunny  mild  normal  TRUE  yes
 overcast  mild  high  TRUE  yes
 overcast  hot  normal  FALSE  yes
 rainy  mild  high  TRUE  no


데이터파일

(1) CSV - 콤마로 구분된 텍스트 파일 형식 (클레멘타인 등 데이터마이닝 프로그램에서 입력 가능함) 

 CSV 형식의 데이터

 CSV 형식의 데이터 (모든 필드가 범주형 데이터)



(2) ARFF - WEAK 프로그램에서 입력받는 파일 형식

 원본 데이터의 Weka 입력 형식(arff 파일)

 모든 필드를 범주형으로 변환한 Weka 입력 형식 (arff 파일)


결정트리 분석 동영상

[1] WEKA 를 사용한 Weather 데이터의 결정트리 분석 수행




[2] Clementine 을 사용한 Weather 데이터의 결정트리 분석 수행




결정트리 분석 결과

[1] WEKA를 이용한 결정트리 분석

[2] Clementine 12.0 을 이용한 결정트리 분석




by 에이아이 2009. 9. 17. 11:53