엑셀 프로그램에 대한 강좌를 정리합니다.
2007 버전을 중심으로 필요한 강좌들을 만들어서 추가하려 합니다.

[1] 엑셀을 이용한 회귀분석 강좌
http://blog.naver.com/stmkywb?Redirect=Log&logNo=40066760896

[2] 엑셀 2007의 메뉴를 이전 메뉴(2003 버전)의 모양으로 전환해주는 방법 (프로그램)
http://ai-times.tistory.com/410

[3] 엑셀 2003 버전의 기능을 2007에서 찾는 방법 (플래쉬로 설명)
http://ai-times.tistory.com/487

by 에이아이 2009. 12. 20. 18:47

본 강좌에서는 Weka 프로그램을 사용하여 군집분석을 수행하는 방법을 설명하고자 합니다.

Weka 프로그램을 처음 사용하는 경우 군집을 수행하는 절차 그리고 결과를 해석하기가 좀 어렵게 느껴집니다.
분류의 경우는 Tree 형태로 결과가 나오서 모델을 해석하기가 쉬운데 군집은 수행한 결과가 뭘 의미하는지 좀 해석하기가 좀 애매합니다.

간단한 예제를 가지고 Weka를 사용하여 군집분석을 수행하고 해석하는 방법을 설명하고자 합니다.
분석 데이터가 복잡하면 군집 분석도 괜히 어렵게 느껴질 수 있으므로 아주 이해하기 쉬운 간단한 데이터를 만들어 보았습니다.

분석을 위해 만들어 본 데이터를 아래에 설명합니다. 

데이터는 10명의 학생들의 수학, 물리, 영어, 중국어의 4과목의 성적으로 구성된 데이터입니다.
처음 3명의 학생은 [수학,물리] 를 잘하는 학생들이고, 다음 3명은 [영어,중국어]를 잘하는 학생들입니다. 다음 2명은 4과목이 모두 우수한 학생들이고, 마지막 2명은 모든 과목을 다 못하는 학생들입니다.

즉, 4개의 군집으로 구성한 간단한 데이터입니다. (정리하면, 군집1: 계산능력우수군집, 군집2: 외국어능력우수군집, 군집3: 전과목우수군집, 군집4: 공부와담쌓은군집)




위 그림은 데이터를 쉽게 이해하기 위하여 엑셀에서 보기 위하여 만든 CSV 형식의 파일입니다.
웨카 프로그램을 사용하여 분석하려면 아래의 그림에 표시된 Arff 형식의 파일을 사용해야 합니다.
두 가지 형식 모두 만들어서 아래에 첨부하였으니 실습해보려면 다운로드 하세요. 

 CSV 형식으로 된 데이터 파일  
 ARFF 형식으로 된 데이터 파일 (Weka 실행 용)  



웨카 프로그램을 시작합니다. 아래 그림의 왼쪽 편의 작은 윈도우가 표시됩니다.
4개의 버튼 중 [Explorer] 를 클릭합니다.

오른쪽과 같이 프로그램 화면이 표시되면, [Process] 탭에서 [Open File...] 을 클릭합니다.
분석에 사용할 데이터를 선택합니다.




위에서 첨부한 파일 [student_score.arff] 을 선택합니다.
그러면 아래와 같이 데이터의 간단한 정보를 표시합니다.




이제 군집 분석을 수행하기 위해 [Cluster] 탭으로 이동합니다.
여러가지 군집 알고리즘들이 있는데 기본적으로 EM 알고리즘이 설정되어 있습니다. 파라미터는 -I 100 -N -1 -S 100 -M 1.0E-6 으로 설정되어있습니다.



이미 기본적으로 EM 알고리즘이 선택되어 있는데 다른 알고리즘을 선택할 수도 있고, 옵션을 변경할 수도 있습니다.

[Choose] 버튼을 클릭하면 알고리즘을 선택할 수 있도록 표시됩니다.
[EM] 이라는 텍스트를 클릭한 후, 화면의 빈공간을 클릭합니다.
그러면 옵션을 변경할 수 있는 창이 표시됩니다.

여러가지 알고리즘들 중에서 가장 많이 사용되고 성능도 좋은 EM 알고리즘을 선택하겠습니다.
KMean 알고리즘의 경우 데이터의 분포에 민감하여 Outlier 에 적응력이 약합니다.
보통 EM 알고리즘은 확률에 기반하여 군집을 수행하기 때문에 KMeans보다 좋은 결과를 나타냅니다.



아래의 옵션 변경 창에서 군집의 수를 4로 변경합니다.
기본적으로 -1 이 설정되어 있습니다. (-N -1 이 그것을 의미합니다. 군집의 개수가 -1개 라는 것이 아니라 자동으로 찾겠다는 것임) 자동으로 지정된 군집의 개수는 일반적으로 적합하지 않은 경우가 많습니다. 따라서 분석하는 사람이 데이터를 잘 이해하고 적절히 지정해 주는 것이 좋습니다.

우리가 사용하는 데이터는 간단한 데이터이므로 군집의 개수가 4 가 적당하다는 것을 쉽게 알 수 있었습니다. 사실 쉽게 알 수 있도록 데이터를 만든것이지요.



데이터를 <수학논리력우수>, <인문계열능력우수>, <모든과목우수>, <모든과목저조>의 4개의 군집으로 가정하고 데이터를 생성하였으므로 군집수를 4로 입력한 것입니다.

아래와 같이 -N 4 로 옵션이 변경된 것을 확인할 수 있습니다.
Cluster Mode 를 [Use training set] 을 선택합니다. 입력 데이터로 모델을 만들고, 원 데이터를 그대로 테스트하는데 사용하겠다는 의미입니다. (훈련 데이터와 실험 데이터를 분리하려면 그 아래 옵션들을 사용해야겠습니다.)

하단의 [Start] 버튼을 누르면 분석이 수행되고 오른쪽 창에 분석 결과가 표시될 것입니다. 



결과를 해석해봅시다.
오른쪽 창의 맨 하단을 보면, 군집이 4개 생성되었다는 것을 볼 수 있습니다. 번호가 1번부터가 아니라 0번부터 붙혀졌습니다. 그래서 군집0, 군집1, 군집2, 군집3 의 이름이 부여됩니다. 우선은 각 군집에 포함된 레코드의 개수를 파악할 수 있습니다. 군집0 에는 3명의 학생이 소속되었습니다. (전체 10명이니 당연히 30% 라고 비율이 표시됩니다.) 이런식으로 군집2 에는 2명이 소속되었네요.

그런데 포함된 개수나 비율보다 더 중요한 것은 각 군집의 특성이 무엇이냐는 것입니다.
오른쪽에 스크롤을 올려서 결과 텍스트의 상단부분을 살펴보겠습니다.



텍스트 분석 결과를 위에서 부터 살펴보겠습니다.

먼저, 맨 위는 [Run information] 으로 알고리즘으 수행한 옵션 설정내용이 정리되어 있고 데이터에 대한 간단한 정보 (변수의 수, 레코드의 수) 가 표시되어 있습니다.

중요한 것은 Number of Cluster : 4 라고 된 부분의 뒤에서 부터입니다.

Cluster 0 부분은 <첫번째 클러스터(군집)> 군집0 에 대한 정리입니다.
probability : 0.3 은 전체 중 30% 즉, 3개의 데이터가 포함되어 있다는 의미입니다.
그 아래에 바로 변수들에 대한 정보(평균, 편차)가 표시되어 있습니다.
수학은 평균 38, 편차 8.4, 과학은 평균 45, 편차 4.0, 영어는 평균 95, 편차 4.0, 중국어는 평균 95, 편차 4.0 입니다. 즉, 군집0 은 [수학,과학]은 못하고 [영어,중국어] 성적이 우수한 그룹(군집)임을 이해할 수 있습니다. (편차 값이 작을 수록 군집의 밀집도가 좋다는 것을 의미합니다.)



같은 방식으로 모든 군집의 특성을 정리해보면 아래와 같습니다.

 군집이름  특성   포함된 학생수 (레코드 수)  
 군집0 (Cluster 0)  영어,중국어 성적 우수한 그룹  3명
 군집1 (Cluster 1)  전과목 성적이 우수한 그룹  2명
 군집2 (Cluster 2)  수학,과학 성적이 우수한 그룹  3명
 군집3 (Cluster 3)  공부와는 담 쌓은 그룹  2명

이렇게 해서 4개의 군집이 어떠한 특성으로 구분되었는가를 파악할 수 있습니다.
간단하게 텍스트로 되어있어 별 거 아닌 것 같지만 이 부분이 군집의 가장 중요한 내용이라고 생각됩니다.

그런데 이렇게 마무리하기에는 뭔가 좀 허전한 감이 있습니다.
우리가 원하는 것은 중요한 결과는 각 레코드가 어떤 군집에 소속되는 가에 대한 정보입니다.

아래와 같이 왼쪽 로그가 표시되는 창에서
작업 시간과 EM 이라고 표시된 부분 [19:52:58 EM] 의 형식으로 표시된 부분에서 마우스 오른족 버튼을 클릭합니다. 팝업 메뉴에서 [Visualize cluster assignments] 를 클릭합니다.  



그러면 아래와 그림과 같이 창이 표시됩니다.

중앙의 검정 부분(XY챠트)에 보면 10개의 레코드 (10명의 학생) 을 표시하는 별표 (*) 표시가 되어 있습니다.
현재 X축은 군집의 번호에 따른 구분이고 Y축은 수학 점수를 표시한 것입니다.

각 별표 (*) 는 군집에 따라 서로 다른 색상으로 표시되어 있음으로 어떤 레코드들이 서로 같은 군집에 포함되었는가를 확인할 수 있습니다. 이해하기 쉽도록 아래 그림에서는 같은 군집들을 노랑색 동그라미로 표시하였습니다.



이제 최종적으로 각 학생 (레코드) 들이 소속된 군집을 텍스트로 추출해보겠습니다.
위의 그림의 창에서 [Save] 버튼을 클릭한 후 결과 파일(arff형식)을 이름을 지정하여 저장합니다.
student_score_clustering.arff 라는 이름으로 저장한 후 그 파일을 텍스트 에디터 등으로 열어보면 아래와 같이 표시됩니다. (메모장으로는 줄 바꿈이 안되어 잘 표시가 안되니 Edit plus 또는 Utra-edit 등의 편집기를 사용하세요.)

자세히 살펴보면 원래의 레코드에 두 개의 필드가 새롭게 추가된 것을 볼 수 있습니다.
맨 앞에는 레코드별로 번호에 해당하는 변수가 추가되었고,
맨 끝에는 각 레코드가 소속된 군집을 표시하는 범주형 형태의 변수가 추가되었습니다.

아래의 데이터 부분을 보면 (@data 아래 부분)
각 레코드별로 소속된 군집번호가 부여된 것을 볼 수 있습니다.



위 결과 파일을 아래에 첨부했습니다.


결과를 보면 우리가 처음 의도했던 대로 4개의 군집으로 잘 구분되고 각 레코드들이 군집된 것을 확인할 수 있었습니다.

이것으로 Weka에서 군집 분석을 수행하는 방법을 설명하였습니다.
혹시 부족한 내용이 이나 더 궁금한 내용이 있다면 댓글에 달아주세요^^.

수고하셨습니다~.



by 에이아이 2009. 12. 12. 21:21
10명의 학생들의 수학, 과학, 영어, 중국어 의 4과목 성적으로 구성된 데이터 입니다.

데이터 파일은 아래에 첨부합니다.

 CSV 형식의 파일  
 ARFF 형식의 파일 (웨카 프로그램 입력용)  


데이터는 아래에 표시하였습니다.




ARFF 형식의 내용은 아래와 같습니다.



by 에이아이 2009. 12. 12. 21:18

'유용한 자료 모음' 카테고리의 다른 글

가족 친척간 호칭 정리  (2) 2009.10.25
by 에이아이 2009. 12. 10. 21:29

동사무소에 방문하지 않고 인터넷으로 게다가 무료로 주민등록등본(초본) 을 출력하는 방법을 설명합니다.
가끔 사용하였는데 할 때마다 기억이 잘 안나서 기억력 나쁜 나를 위해 정리해보았습니다.~

전자정부 홈페이지 http://www.egov.go.kr/ 에 방문합니다.

로그인 합니다. (처음 방문했다면 지금 회원가입하세요.)
로그인 할때는 아이디, 비밀번호 만 입력하여 로그인하면 됩니다. 처음부터 공인인증서로 로그인할 필요는 없습니다.




좌측의 자주 찾는 민원에서 [주민등록등록표등본(초본)교부 (신청)] 을 클릭합니다.
또는 중앙에 [주민등록등본] 이라는 부분이나, [인터넷발급민원] 을 클릭하는 방법도 있습니다.



화면에서 [신청하기] 버튼을 클릭합니다.
화면 아래쪽에 보면 인터넷으로 출력하면 무료라는 내용이 보입니다. (우편발송은 350원 내야하네요.)
동사무소에 방문해도 수수료를 내야하는데 동소무소에 방문할 필요도 없고, 무료라니 너무 좋네요^^.



잠깐 기다리면 프로그램을 설치하라는 메시지가 보입니다. [설치] 버튼을 누릅니다.



혹시 아래와 같이 프린터를 선택하는 화면이 나타난다면
프린터가 잘 선택되었나 확인하고 [민원 신청 계속] 버튼을 클릭합니다.




화면에 아래와 같이 내용을 입력합니다.  먼저, [검색] 버튼을 클릭한 후
수령방법 선택 창이 나타나면 [온라인발급(본인출력)] 을 클릭합니다.
그러면 원래 화면으로 돌아오는데 하단의 [민원신청하기] 버튼을 클릭합니다.



인증서를 선택하라는 창이 표시됩니다.
USB 디스크에 인증서가 있는 경우 아래와 같이 선택하고, 비밀번호를 입력한 후 [확인] 버튼을 클릭합니다.

주민등록등본(초본)을 출력하려면 인증서가 있어야 합니다. 아마 요즘은 인터넷으로 거래를 많이 하셔서 인증서를 많이들 가지고 있으실 거라 생각됩니다.




아래와 같이 작업을 처리하는 화면이 나타나면서 깜박깜박 거립니다. 잠시 여유있게 기다립시다.



이제 완료되었습니다. 아래와 같이 [문서출력] 버튼을 클릭합니다.



아래의 창이 나타나면 [인쇄하기] 버튼을 클릭합니다.



인쇄 대화상자가 나타나면 [확인] 버튼을 눌러 출력을 하면 됩니다. 

프린터로 주민등록등본이 출력되고 있습니다. 성공이네요~.

옛날에 비해서 너무 편리해졌습니다.
동사무소에 가지않고 인터넷 상으로 출력할 수 있다는 것 게다가 무료로~ 출력할 수 있다는 점이 정말 좋은 것 같습니다. 

관련사이트
http://korea.go.kr/

인터넷으로 등기부등본 출력하기

by 에이아이 2009. 12. 10. 14:03

SPSS 에서 3변수 이상의 여러 변수들 간의 상관관계를 분석하는 방법을 설명하겠습니다.
( 상관행렬을 분석하는 방법을 설명하겠습니다. ) 상관관계는 보통 피어슨 상관계수를 의미합니다.

SPSS 에서 여러 변수들의 상관관계를 분석하기 위해서는
2가지 메뉴를 사용할 수 있습니다.

1번째는 메뉴에서 [분석] - [상관분석] -[이변량 상관계수] 를 사용하는 방법이고,
2번째는 메뉴에서 [분석] - [차원감소] - [요인분석] 을 사용하는 방법입니다.

보통 첫번째 방법 만을 사용하겠지만
경우에 따라 2번째의 [요인분석] 메뉴를 사용한 상관관계 분석의 결과가 더 유용할 수 있습니다.

아래의 학생들의 성적에 대한 예제 데이터를 사용하여 설명하겠습니다.
아래 링크에서 데이터에 대한 설명을 볼 수 있고, 파일을 다운로드 받을 수 있습니다.

학생 성적 예제 데이터 설명 및 다운로드 

                                                              1번째 방법 [상관계수]

1번째 방법으로 [상관분석] 기능을 사용해 보겠습니다. 

메뉴에서 [분석] - [상관분석] - [이변량 상관계수] 를 클릭합니다.


 
아래와 같이 분석 옵션을 설정합니다.
먼저, 분석하고자 하는 변수를 모두 선택하여 오른쪽으로 이동시킵니다. (하나씩 이동해도 되고, 또는 Ctrl 키를 누르고 여러 변수를 선택한 후 이동시켜도 됩니다.) [확인] 버튼을 클릭하면 분석이 시작됩니다.



분석된 결과는 아래와 같습니다. 

상관관계는 방향성이 없으므로 분석표의 모든 값들은 대각선을 중심으로 대칭입니다. 따라서 한쪽만 보면 됩니다. 수학과 과학이 0.996 의 피어슨 상관계수 값으로 높은 상관관계를 갖는 것을 볼 수 있습니다. 또한 유의도도 0.000 으로 매우 유의하며, 매우 유의하다는 의미로 0.996** 와 같이 숫자에 ** (두개의 별표) 표시가 붙어있는 것을 볼 수 있습니다.

유의도는 0에서 1 사이의 값을 갖으며, 0에 가까울 수록 유의도가 크고, 1에 가까울수록 유의도가 낮음을 의미합니다. 보통 95% 수준에서 평가한다면, 유의도 값이 0.05 보다 작을 때 유의하다고 결론 내립니다.


 


                                                              2번째 방법 [요인분석]

2번째 방법으로 [요인분석] 기능을 사용해 보겠습니다.

메뉴에서 [분석] - [차원 감소] - [요인분석] 을 클릭합니다.



아래와 같이 옵션을 설정합니다.
선택하고자 하는 변수를 선택한 후, [기술통계] 버튼을 클릭합니다. 새로운 창에서 [계수]를 선택한 후 [계속] 버튼을 클릭합니다. 원래의 창에서 [확인] 버튼을 클릭합니다.



분석된 결과는 아래와 같습니다.

요인분석의 분석 결과의 맨 위에 상관행렬 표가 출력되었습니다.
1번째 방법을 통한 분석결과와 비교해보면 오히려 더 깔끔하게 표현된 것을 볼 수 있습니다. 유의도 등의 자세한 값들이 표시되어 있지 않아서, 단순하게 피어슨 상관계수만 보기 원할 때는
1번째의 상관분석을 사용한 결과보다 오히려 더 유용할 수 있습니다.

상관행렬 결과 아래쪽으로 계속해서 요인분석의 자세한 분석결과가 표시됩니다. 본 글에서는 요인분석을 설명하는 것이 목적이 아니기 때문에 이에 대한 설명은 하지 않겠습니다.




이것으로 상관행렬 을 계산하는 2가지 방법을 설명하였습니다.

수고하셨습니다.~

by 에이아이 2009. 12. 8. 17:57
간단한 통계 및 데이터마이닝 분석을 연습할 때 사용할 수 있는
학생들 성적에 대한 가상 데이터입니다.
간단한 통계분석, 예를 들어, 상관분석, 회귀분석, 경로분석 등을 실습할 때 간단하게 사용할 수 있습니다.

수치형 변수로만 구성된 데이터입니다.
파일의 내용은 바로 아래 그림에 표시하였습니다.







범주형 변수도 포함된 데이터입니다.
파일의 내용은 바로 아래 그림에 표시하였습니다.





by 에이아이 2009. 12. 8. 17:25
이 데이터는 경로분석의 개념을 설명하기 위해 만들어진 가상 데이터입니다.
파일은 아래에 첨부하였고, 자세한 데이터의 내용은 그 아래에 설명합니다.


파일의 내용은 아래와 같습니다.


데이터의 내용을 설명하도록 하겠습니다.

A자동차 회사가 자사에 대한 고객들의 충성도를 평가하기 위하여 설문조사를 하고자 합시다.
좀 더 자세하게는 고객들의 자사 제품(자동차)에 대한 가격만족도, 품질만족도, 브랜드태도 등이 회사에 대한 충성도에 어떻게 영향을 미치는 가를 평가하기 위하여 설문을 수행합니다.

A자동차 회사의 자동차를 이미 구매하여 사용하고 있는 8명의 고객에 대하여 설문을 받았습니다.

설문조사지의 내용은 아래와 같습니다.

1. 가격 : A사의 자동차는 가격이 적절하다고 느끼십니까?  
  (1-매우저렴 / 2-저렴 / 3-적절 / 4-비싸다 / 5-매우비싸다)

2. 품질 : A사의 자동차에 대한 품질에 만족하십니까?
  (1-매우불만족 / 4-불만족 / 3-보통 / 4-만족 / 5-매우만족)

3. 디자인 : A사의 자동차의 디자인에 만족하십니까?
  (1-매우불만족 / 4-불만족 / 3-보통 / 4-만족 / 5-매우만족)

4. 브랜드태도 : 당신은 A사의 자동차가 좋다고 느끼십니까? 
  (1-매우불만족 / 4-불만족 / 3-보통 / 4-만족 / 5-매우만족)

5. 브랜드충성도 : 당신은 A사의 자동차를 다시 구매하고 싶으십니까? 
  (1-절대안산다 / 4-안산다 / 3-보통 / 4-사고싶다 / 5-꼭다시살것이다.)

참고자료.
[1] 구조방정식 모형분석과 AMOS 16.0 이학식, 임지훈 저

위 교재의 <9장. 분석예제와 결과물 해석> p.146- 에 위 데이터에 대한 소개와 이 데이터를 사용한 분석 방법이 자세히 소개되어 있습니다.





by 에이아이 2009. 12. 6. 01:03

통계를 공부한 후에 검증할 겸 자격증 시험에 응시해봐도 좋을 것 같습니다.
보통 통계학을 전공하는 분들이 많이 취득하는 자격증이라고 합니다. 그러나 사회현상을 분석하는 작업은 많은 분야에서 필요로 하는 기술이기 때문에 꼭 통계학을 전공하지 않았더라도 취득하는 것이 많은 도움이 될 거라고 생각합니다. 

사회조사분석사 2급
http://www.q-net.or.kr/crf005.do?id=crf00503s01&gSite=Q&gId=&jmCd=9521&jmInfoDivCcd=A0

사회조사분석사 1급
http://www.q-net.or.kr/crf005.do?id=crf00503s01&gSite=Q&gId=&jmCd=9520&jmInfoDivCcd=A0


사회조사분석사 자격증 소개 동영상 
 

에듀팜에서 제공하는 <자격증 소개> 동영상
(1강 자격증 소개는 무료 강좌입니다. 자격증에 대한 자세한 소개를 들을 수 있습니다.)
http://www.edufam.co.kr/ylec/lec_list3.php?code=486711942#1


접수 및 시험 일정 (2009년 참고)

(대략 2월, 4월, 7월, 8월 정도에 접수를 받음)



자세한 내용을 확인하려면

(1)  http://www.q-net.or.kr/  사이트에 방문한 후
(2) 좌측의 메뉴에서 [시험접수] - [시험일정] 을 클릭한 후
(2) 새로운 화면의 좌측 메뉴에서 [국가자격] - [국가자격 종목별 상세정보] 클릭한 후
(3) 중앙에서 [전문사무] 범주 버튼을 클릭한다.

이제 해당 자격증에 대한 시험내용, 시험일자, 접수방법등을 확인할 수 있습니다.

기출문제

[1] 2급 기출문제 풀이 글
[2] 기출문제 압축 파일 (2급 필기시험)
by 에이아이 2009. 12. 5. 10:26

데이터명 : Boston Housing Price (보스턴 주택 가격 데이터)
레코드수 : 506 개
필드개수 :  14 개

데이터설명 : 보스턴 시의 주택 가격에 대한 데이터이다.
주택의 여러가진 요건들과 주택의 가격 정보가 포함되어 있다. 주택의 가격에 영향을 미치는 요소를 분석하고자 하는 목적으로 사용될 수 있다. 회귀분석 등의 분석에 활용될 수 있다.

보스턴 주택 데이터는 여러 개의 측정지표들 (예를 들어, 범죄율, 학생/교사 비율 등)을 포함한, 보스턴 인근의 주택 가격의 중앙값(median value)이다. 이 데이터 집합은 14개의 변수를 포함하고 있다.

필드의 이해 :
데이터의 이해를 돕기 위해 포함된 14개의 변수에 대하여 간략하게 설명한다.  
위 14개의 필드는 입력 변수로 사용되고, 맨 아래의 Play 속성이 목표(종속) 변수로 사용된다.

 [01]  CRIM 자치시(town) 별 1인당 범죄율
 [02]  ZN 25,000 평방피트를 초과하는 거주지역의 비율
 [03]  INDUS 비소매상업지역이 점유하고 있는 토지의 비율
 [04]  CHAS 찰스강에 대한 더미변수(강의 경계에 위치한 경우는 1, 아니면 0)
 [05]  NOX 10ppm 당 농축 일산화질소
 [06]  RM 주택 1가구당 평균 방의 개수
 [07]  AGE 1940년 이전에 건축된 소유주택의 비율
 [08]  DIS 5개의 보스턴 직업센터까지의 접근성 지수
 [09]  RAD 방사형 도로까지의 접근성 지수
 [10]  TAX 10,000 달러 당 재산세율
 [11]  PTRATIO 자치시(town)별 학생/교사 비율
 [12]  B 1000(Bk-0.63)^2, 여기서 Bk는 자치시별 흑인의 비율을 말함.
 [13]  LSTAT 모집단의 하위계층의 비율(%)
 [14]  MEDV 본인 소유의 주택가격(중앙값) (단위: $1,000)


데이터파일

(1) 엑셀 파일 (*.xls)

 

(2) SPSS 파일 (*.sav)

 

데이터보기

아래 그림을 클릭하면 확대하여 볼 수 있습니다.
전체 506 개의 레코드 중에서 일부만 표시한 것입니다.



참고자료
[1] 비즈니스 인텔리젼스를 위한 데이터마이닝, 사이텍미디어, 신택수, 홍태호 역 ( p33 )

by 에이아이 2009. 12. 3. 23:23
| 1 2 |