글
데이터명 : Weather
레코드수 : 14개
필드개수 : 5개
데이터설명 : 날씨에 따른 운동경기 여부를 기록한 데이터이다. 이 데이터를 분석하면 어떤 날씨에 운동을 하는가에 대한 결정 기준을 분석할 수 있다. 데이터마이닝의 분류 기법, 특히 ID3, C4.5, C5.0, CART, CHAID 등의 의사결정트리에 대한 기초 개념, 동작원리를 설명할 때 많이 사용되는 데이터이다. 레코드 개수도 많지 않고 데이터를 이해하는데 어렵지 않다. 처음 데이터마이닝 실습을 해볼 때 사용하면 좋은 데이터이다.
필드의 이해 :
데이터의 이해를 돕기 위해 포함된 5개의 변수에 대하여 간략하게 설명한다.
위 4개의 필드는 입력 변수로 사용되고, 맨 아래의 Play 속성이 목표(종속) 변수로 사용된다.
Outlook | 조망(전반적 날씨) 정보이다. Sunny(맑은), Overcast(구름낀), Rainy(비오는) 의 3개의 값을 갖는다. |
Temperature | 기온(온도) 정보이다. 데이터에서는 섭씨 온도로 표시되어 있다. 수치형 변수이며, 범주형으로 변환된 경우 hot, mild, cool 의 3개의 값으로 입력된다. |
Humidity | 습도 정보이다. 수치형 변수이며, 범주형으로 변환된 경우 high, normal 2개의 값으로 입력된다. |
Windy | 풍량 정보이다. TRUE(바람 붐), FALSE(바람 안붐)의 2개의 값 중 입력된다. |
Play | 운동경기 여부이다. TRUE(경기함), FALSE(경기안함)의 2개의 값 중 입력된다. |
데이터 테이블
[1] 원본 데이터 형태
Outlook | temperature | humidity | windy | play |
sunny | 85 | 85 | FALSE | no |
sunny | 80 | 90 | TRUE | no |
overcast | 83 | 86 | FALSE | yes |
rainy | 70 | 96 | FALSE | yes |
rainy | 68 | 80 | FALSE | yes |
rainy | 65 | 70 | TRUE | no |
overcast | 64 | 65 | TRUE | yes |
sunny | 72 | 95 | FALSE | no |
sunny | 69 | 70 | FALSE | yes |
rainy | 75 | 80 | FALSE | yes |
sunny | 75 | 70 | TRUE | yes |
overcast | 72 | 90 | TRUE | yes |
overcast | 81 | 75 | FALSE | yes |
rainy | 71 | 91 | TRUE | no |
[2] 모든 필드가 범주형으로 변환된 형태
Outlook | temperature | humidity | windy | play |
sunny | hot | high | FALSE | no |
sunny | hot | high | TRUE | no |
overcast | hot | high | FALSE | yes |
rainy | mild | high | FALSE | yes |
rainy | cool | normal | FALSE | yes |
rainy | cool | normal | TRUE | no |
overcast | cool | normal | TRUE | yes |
sunny | mild | high | FALSE | no |
sunny | cool | normal | FALSE | yes |
rainy | mild | normal | FALSE | yes |
sunny | mild | normal | TRUE | yes |
overcast | mild | high | TRUE | yes |
overcast | hot | normal | FALSE | yes |
rainy | mild | high | TRUE | no |
데이터파일
(1) CSV - 콤마로 구분된 텍스트 파일 형식 (클레멘타인 등 데이터마이닝 프로그램에서 입력 가능함)
CSV 형식의 데이터 |
CSV 형식의 데이터 (모든 필드가 범주형 데이터) |
(2) ARFF - WEAK 프로그램에서 입력받는 파일 형식
원본 데이터의 Weka 입력 형식(arff 파일) |
모든 필드를 범주형으로 변환한 Weka 입력 형식 (arff 파일) |
결정트리 분석 동영상
[1] WEKA 를 사용한 Weather 데이터의 결정트리 분석 수행
[2] Clementine 을 사용한 Weather 데이터의 결정트리 분석 수행
결정트리 분석 결과
[1] WEKA를 이용한 결정트리 분석
[2] Clementine 12.0 을 이용한 결정트리 분석
'스터디 자료' 카테고리의 다른 글
[SPSS활용] 교차표 분석 (2) | 2009.10.05 |
---|---|
[논문] FAB : 개인화 추천 시스템 (0) | 2009.09.24 |
매개효과를 발견하는 방법 (0) | 2009.09.13 |
[참고] 데이터 분석 시 고려해야할 입력 데이터의 특성들 (0) | 2009.08.26 |
[펌] 다중공선성 (Multicollinearity)과 interaction effect(상호효과)에 대한 경영전략 적용 (0) | 2009.08.26 |
RECENT COMMENT