데이터명 : Boston Housing Price (보스턴 주택 가격 데이터)
레코드수 : 506 개
필드개수 :  14 개

데이터설명 : 보스턴 시의 주택 가격에 대한 데이터이다.
주택의 여러가진 요건들과 주택의 가격 정보가 포함되어 있다. 주택의 가격에 영향을 미치는 요소를 분석하고자 하는 목적으로 사용될 수 있다. 회귀분석 등의 분석에 활용될 수 있다.

보스턴 주택 데이터는 여러 개의 측정지표들 (예를 들어, 범죄율, 학생/교사 비율 등)을 포함한, 보스턴 인근의 주택 가격의 중앙값(median value)이다. 이 데이터 집합은 14개의 변수를 포함하고 있다.

필드의 이해 :
데이터의 이해를 돕기 위해 포함된 14개의 변수에 대하여 간략하게 설명한다.  
위 14개의 필드는 입력 변수로 사용되고, 맨 아래의 Play 속성이 목표(종속) 변수로 사용된다.

 [01]  CRIM 자치시(town) 별 1인당 범죄율
 [02]  ZN 25,000 평방피트를 초과하는 거주지역의 비율
 [03]  INDUS 비소매상업지역이 점유하고 있는 토지의 비율
 [04]  CHAS 찰스강에 대한 더미변수(강의 경계에 위치한 경우는 1, 아니면 0)
 [05]  NOX 10ppm 당 농축 일산화질소
 [06]  RM 주택 1가구당 평균 방의 개수
 [07]  AGE 1940년 이전에 건축된 소유주택의 비율
 [08]  DIS 5개의 보스턴 직업센터까지의 접근성 지수
 [09]  RAD 방사형 도로까지의 접근성 지수
 [10]  TAX 10,000 달러 당 재산세율
 [11]  PTRATIO 자치시(town)별 학생/교사 비율
 [12]  B 1000(Bk-0.63)^2, 여기서 Bk는 자치시별 흑인의 비율을 말함.
 [13]  LSTAT 모집단의 하위계층의 비율(%)
 [14]  MEDV 본인 소유의 주택가격(중앙값) (단위: $1,000)


데이터파일

(1) 엑셀 파일 (*.xls)

 

(2) SPSS 파일 (*.sav)

 

데이터보기

아래 그림을 클릭하면 확대하여 볼 수 있습니다.
전체 506 개의 레코드 중에서 일부만 표시한 것입니다.



참고자료
[1] 비즈니스 인텔리젼스를 위한 데이터마이닝, 사이텍미디어, 신택수, 홍태호 역 ( p33 )

by 에이아이 2009. 12. 3. 23:23
본 글에서는 SPSS를 이용하여 단순 회귀분석을 수행하는 방법을 설명하고자 합니다.

회귀분석은 여러 변수 사이의 함수식(회귀식)을 구하는 분석 방법입니다.
예를 들어, 키와 몸무게의 관계를 함수식으로 표현하는 것인데
키를 X, 몸무게를 Y로 할 때, (즉, 키를 입력변수, 몸무게를 종속변수로 설정할 때)
Y = 1.1 * X -100 과 같이 두 변수의 관계를 나타내는 함수를 계산하는 것입니다.

단순회귀분석
입력변수가 1개, 종속변수가 1개인 형태의 회귀식을 계산하는 방법이고,
다중회귀분석
입력변수가 2개 이상, 종속변수가 1개인 형태의 회귀식을 계산하는 방법입니다.

학생들의 체력검사에 대한 가상 데이터를 가지고
SPSS 에서 단순 회귀분석을 수행하는 방법을 연습해보도록 하겠습니다. 
데이터는 아래의 글을 클릭하면 확인 및 다운로드 할 수 있습니다. 

예제 데이터 (체력검사.sav) 설명 및 다운로드 

자료를 다운로드 한 후 더블클릭하면 SPSS 프로그램이 실행됩니다.

분석을 위해서
메뉴에서 [분석] - [회귀분석] - [선형...] 을 클릭합니다.



아래와 같이 회귀분석을 위한 옵션을 설정합니다.

종속변수에 [체중]을 입력하고, 독립변수에 [신장] 을 입력합니다. (두 개가 바뀌지 않도록 주의하세요.)
[통계량] 버튼을 누르면 오른쪽 창이 나타나는데 원하는 정보들을 체크한 후 [계속] 버튼 클릭합니다.
[확인] 버튼을 누르면 분석이 시작됩니다.




분석이 완료되면 아래와 같이 분석된 결과를 확인할 수 있습니다.

[계수] 분석 표를 통해서
회귀식이 Y = 1.075 * X -116.838 인 것을 확인할 수 있습니다.

[모형 요약] 분석 표를 통해서
R, R제곱, 수정된 R제곱 값을 확인할 수 있습니다. 이 값들은 약간의 차이가 있지만 간단하게 말하면 회귀식의 모형의 적합도를 의미합니다. 회귀식이 얼마나 정확하게 Y값을 예측하는 가 에 대한 값입니다.
R값만 보자면 0 에서 1 사이의 값을 갖는데 1에 가까울 수록 적합도가 높은 것을 의미합니다. 
본 분석의 경우 0.77 이므로 상당히 모형의 적합도가 높다는 것, 즉 회귀식의 정확도가 높다는 것을 의미합니다.  

공선성(다중공선성)에 대한 값도 확인할 수 있습니다. 다중공선성은 입력변수들 간의 상관관계가 얼마나 강한가 에 대한 분석결과입니다. 본 분석에서는 입력변수가 1개 뿐이므로 공선성 진단은 아무 의미가 없으나 이러한 옵션이 있다는 것을 확인하기 위해 선택하여 확인해 보았습니다.




이것으로 SPSS 에서 단순 회귀분석을 수행하는 방법의 설명을 마치도록 하겠습니다. 

수고하셨습니다.^^  

추가자료

보너스로 인터넷에 공개된 단순회귀분석에 대한 동영상 자료를 첨부했습니다.
어떤 분이 회귀분석과 SPSS에서의 사용방법을 설명한 자료입니다.


http://www.mgoon.com/mystation/folder.htm?id=10846180&folder=11569866
by 에이아이 2009. 12. 3. 12:51
간단한 SPSS 및 AMOS 프로그램의 실습에 사용할 수 있는 데이터입니다.

학생들의 체력검사에 관련된 가상 데이터로써
이해하기 쉬워 간단한 분석을 실습해 볼 때 사용하기 적합합니다.

데이터 다운로드 받기

아래의 [체력검사.sav] 파일을 클릭하여 다운로드 할 수 있습니다.


데이터 설명

필드(칼럼) 수  :    6개
레코드 수       :   25개

데이터 보기






by 에이아이 2009. 12. 3. 00:18
| 1 |