ai-times

[강좌] SPSS 사용하여 데이터의 다중공선성 진단하기

본 글에서는 SPSS 를 사용하여 데이터의 다중공선성 수치 VIF, 공차한계(Tolerance) 등을 계산하는 방법을 설명한다.

사용할 데이터 소개

실습을 위하여 간단한 데이터를 작성하였다. 데이터는 학생들의 성적에 대한 데이터로써 6개의 시험에 대한 점수로 구성되어 있다. 이 데이터에서 <수학, 과학, 영어, 독어, 체육> 은 입력변수로 사용하고, <모의수능>은 종속변수로 사용하고자 한다. 즉, 기존의 내신점수를 통해서 (모의)수능점수를 예측하는 것이 관심이다. (수능점수는 500점 만점이지만 여기서 모의수능은 100점 만점으로 가정하였다.)

이 데이터는 수학, 과학, 영어, 독어 의 4개의 변수가 다중공선성이 존재한다.
체육 변수 만 다중공선성이 없다. 데이터를 파일을 아래에 첨부하였다.

학생성적예제2_090727.sav

SPSS 에서 다중공선성 진단 방법

그럼, 이제 위 데이터를 입력하여 다중공선성을 계산해보자.
SPSS에서 다중공선성 진단을 위한 별도의 메뉴 (기능)은 존재하지 않는다.

다중공선성을 진단하려면 선형회귀분석을 수행해야 한다.
메뉴에서 [분석] - [회귀분석] - [선형] 을 클릭합니다.

옵션 설정 방법

위의 명령을 수행하면, 아래와 같은 창이 표시된다. 왼쪽에 6개의 변수가 표시된다.
[모의수능] 변수를 선택한 후 종속변수 로 이동시킨다.
나머지 모든 변수 5개를 선택한 후 독립변수 쪽으로 이동시킨다. (아래 그림에서는 독어, 체육 2개만 보이지만 가려진 것이고, 5개 모두가 입력되어 있는 상태이다.)

그리고 하단의 [통계량] 버튼을 클릭합니다.
[계속] 버튼을 클릭한 후, 이전 창이 보이면 [확인] 메뉴를 클릭합니다.

결과 해석 방법

위와 같이 수행하면 분석 후 결과 창이 나타난다. 결과의 내용 중 다중공선성과 관계된 부분들을 해석해보자.

결과 파일을 아래에 첨부하였다.

ex2_수행결과_090727.spo

먼저 [계수] 라는 제목으로 된 표를 살펴보자. 이 표의 우측에 보면 <공선성 통계량>이라는 제목이 보인다.
공차한계(Tolerance) 와 VIF(분산팽창계수) 의 값이 표시된다.

VIF 만 살펴보자. VIF 값이 10 이상이면 다중공선성의 존재하는 것으로 판단한다.
이런 기준으로 보면 <수학>, <과학> 이 다중공선성이 있음을 알 수 있다. 데이터에 보면 영어, 독어가 상관성이 높음으로 인해 다중공선성이 문제가 되어야 하는데 여기서는 이상하게도 그것이 표시되지 않음을 볼 수 있다.

이 표에 보면 <영어> 과목이 표시되지 않은 것 (제외된 것)을 볼 수 있다. 왜냐하면 다중공선성이 일정기준 이상으로 크면 SPSS 에서는 자동적으로 그 변수를 제외하기 때문에 그렇다. 즉, 원래는 <영어>, <독어> 가 모두 다중공선성이 크게 존재하는데 그 기준에 의해서 <영어> 변수가 제거된 것이다. 영어 가 제외되었기 때문에 <독어> 의 VIF는 8.233 으로 다중공선성이 약한 것으로 판단되는 것이다.

공차한계는 VIF 값의 역수이다. 따라서 공차한계를 별도로 고려할 필요는 없다.

이제 다음 표를 살펴보자.
위에서 설명했듯이 다중공선성의 기준으로 인해 <영어> 변수가 제거된 것이 표시된다.
공차한계가 0 으로 표시되있다. VIF 값은 점(.) 으로 되어있는데 이것은 무한대 값을 의미하는 것 같다.
즉, 영어 과목의 다중공선성이 VIF 가 <무한대>로 너무 커서 제외된 것으로 판단된다.

마지막 결과 표를 살펴보자. 이 표에서도 VIF 이외의 다른 다중공선성 척도를 보여준다.
< 상태지수(CN: Condition Number) > 라는 다중공선성 척도를 보여준다.

<상태지수>는 <고유값>을 가지고 계산된다. 상태지수의 계산식과 해석방법은 나중에 추가해야 하겠다.

분석을 정리하자.

즉, 위의 분석 결과를 정리해보자. 다중공선성을 측정하는 척도로 <VIF>, <공차한계>, <상태지수> 등이 있는데 SPSS 의 선형회귀분석 기능을 통해서 이 값들을 얻을 수 있었다. 중간에 옵션에서 <다중공선성> 을 체크해야 했다.

간단한 예제 데이터를 통한 본 실험의 결과를 해석을 정리하면,

VIF 값을 통해 <수학>, <과학>이 다중공선성이 존재하는 것으로 판단되었다.
<영어>는 다중공선성의 정도가 커서 회귀분석 모델 생성시 제외되었다. 즉, 원래대로라면 <영어>, <독어>도 다중공선성이 존재하는 것으로 이해할 수 있다.
체육 변수는 다중공선성이 없는 것으로 판단할 수 있다.

'스터디 자료' 카테고리의 다른 글

K-Means (K-평균) 군집 알고리즘 소개 (2)	2009.07.29
협력적 여과를 이용한 개인화 추천 (CF: Collaborative Filtering) (0)	2009.07.29
SPSS를 이용한 요인분석 결과의 해석 (37)	2009.07.27
SPSS를 이용한 요인분석(Factor Analysis) 수행 (8)	2009.07.24
[통계학] 요인분석 (Factor Analysis) 소개 (59)	2009.07.24

by 에이아이 2009. 7. 27. 22:27

SPSS를 이용한 요인분석 결과의 해석

스터디 자료

본 글에서는 SPSS를 사용하여 요인분석을 수행한 결과를 해석하는 방법에 대해서 설명한다.

만약 여러분이 SPSS 에서 해석하는 방법이 아니라,
SPSS 에서 요인 분석을 하는 방법, 절차를 알고 싶다면 여기 를 클릭하면 해당 글을 볼 수 있다.
또는 요인분석이 무엇인지? 요인분석의 개념 및 이론이 궁금하다면 여기 를 클릭하면 해당 글을 볼 수 있다.

분석 데이터의 설명

아래의 데이터를 SPSS 에 입력하여 요인분석을 수행하였다. 수행하는 방법(단계)은 이전 글 에서 설명하였으니 필요한 경우 참고하기 바란다.

우선 데이터를 다시 한번 살펴보자.
이해를 쉽게하기 위하여 간단한 예제 데이터를 사용하였다. 학생들의 성적데이터로써 [수학, 과학, 영어, 독어, 체육] 5과목의 시험 성적으로 구성되어 있다. 수학과 과학이 상관이 있으며, 영어와 독어가 관계가 있는 형태이다. 수리능력, 언어능력, 체력 의 3가지 요인으로 구성되었다는 것을 쉽게 생각할 수 있다.

	수학	과학	영어	독어	체육
학생1	90	100	30	40	80
학생2	80	90	80	90	40
학생3	30	40	100	90	90
학생4	40	45	30	40	60
학생5	50	55	85	95	100

분석 결과의 예상

위 데이터에 대해서 요인분석을 수행하면 몇 개의 요인, 즉 잠재변수가 얻어질까?
이미 위에서 설명하였듯이 2개의 요인, 이름을 붙이자면 <수리계산능력>, <외국어능력> 이라는 2개의 요인이 도출될 것으로 예상된다. 체육 점수는 이 2개의 요인에 포함되지 않음으로 별도로 하나의 요인이 될 것이다. 그래서 정확히 말하면 데이터의 요인은 3개이다. 새롭게 만들어진 요인은 2개이다.

분석결과 화면

아래와 같은 분석 결과 화면을 볼 수 있다. 결과를 해석하는 것이 중요하다. 결과의 해석 또한 많은 설명이 필요하므로 다른 글을 통해서 설명해야 하겠다. 결과 파일을 아래에 첨부하였다.

주어진 데이터를 가지고 아래의 결과를 얻는 과정을 알고 싶다면 여기(SPSS 요인분석 절차) 를 클릭하자.

분석결과의 해석

전 단계에서 설명한 대로 세팅하고 실행하면 아래와 같은 분석들이 표시된다.
여기에서 가장 중요하게 보아야 할 것은

(1) 기술통계량

각 변수에 대한 평균, 표준편차의 기본 통계 정보를 표시한다.
요인분석과 밀접한 관계가 있는 분석은 분석에 앞서 이 정도의 간단한 통계는 살펴보는 것이 필요하겠다.

(2) 상관행렬

변수들간의 상관계수 값을 행렬로 표시한다. 대략 살펴보면, 수학과 과학이 0.996 으로 높은 상관성을 가지며, 영어와 독어가 0.967 로 높은 상관성을 가지는 것을 파악할 수 있다. 체육은 다른 과목들과 상관관계가 별로 없다. (우리가 이러한 의미로 데이터를 만들었기 때문에 이러한 결과는 당연하다.)

모든 변수들 간의 상관행렬을 구하고 싶다면 (SPSS 상관행렬 계산하는 별도의 메뉴는 없음으로)
이같이 요인분석의 옵션에서 상관행렬 을 체크하여 얻을 수 있다.

(3) 공통성

공통성 표는 초기 값과 추출 값 두가지로 구성되어 있다.
초기는 항상 1이므로 별 의미는 없고, 추출 값만 보면된다. 추출 값은 0에서 1의 값을 갖는다.

추출 값의 의미는 무엇일까?
각 변수들이 나머지 다른 변수들에 얼마나 많이 영향을 받는가 (종속되어 있는가?) 를 측정한다.
각 변수에 대하여 너머지 변수들로 회귀분석을 수행했을 때 결정계수(R^2) 를 계산한 값이다. 따라서, 이 값이 1에 가까울 수록 다중공선성이 존재하고, 0에 가까울 수록 다중공선성의 정도가 없는 것으로 이해하면 된다.
즉, 각 변수의 다중공선성 수치 VIF 과 연관이 된다. (이미 알고있겠지만 다중공선성은 상관계수와 관계가 깊다. 물론 다중공선성과 상관계수는 차이가 있음으로 별도의 표로 계산한 것이다.)

수학, 과학, 영어, 독어는 높은 값을 갖는 것을 볼 때 다중공선성이 크게 존재함을 알 수 있고,
체육의 경우는 0.356 이므로 다중공선성이 별로 없다고 판단할 수 있다.

(4) 설명된 총분산

표가 좀 복잡해서 무엇을 의미하는 지 파악이 힘들 수 있다.
잠재변수(요인)을 파악하기 위하여 주성분 분석을 사용했음이 표의 하단에 표시되어 있다.
주성분 분석을 사용하면 최대로 원래의 변수만큼의 주성분 즉, 요인을 찾을 수 있다. 이 데이터에서는 원래 변수가 5개 이므로 최대 주성분도 5개이다. (표의 왼편에 보면 성분이 1부터 5까지 되어있다.)

첫번째 칼럼(초기 고유값 중 전체)를 보자. 2.804, 1.414, ... 이 부분이다. 이 표에서 가장 중요한 부분이다.
모든 성분의 고유값의 합은 변수의 수와 같다. 즉, 여기서는 5가된다. 평균적으로 고유값은 1이다.
일반적으로 고유값이 1보다 크면 의미있는 요인으로 선택하게 된다.
(물론 이 기준은 분석가에 의도에 따라 변경될 수 있다. SPSS 옵션 창에서 변경 가능하다.)
따라서 여기서는 성분1, 성분2가 선택된다. 이 고유값은 해당 요인(잠재변수)의 중요성(설명력)의 정도를 의미한다. 즉, 각 성분(요인)의 주성분을 모든 고유값의 합(여기서는 5)으로 나누면 해당 변수의 전체 데이터에 대한 설명력 % 가 계산된다.

즉, 1번째 성분(요인)은 2.804 / 5.0 = 0.451 (=45.1%) 로써 45%의 설명력을 가지고
2번째 성분(요인)은 1.414 / 5.0 = 0.392 (=39.2%) 로써 39%의 설명력을 가진다.

이 두 개의 새로운 성분만 사용해도
전체 데이터의 84.367% 를 설명(예측)할 수 있음을 말해준다.
계산식을 풀어쓰면 (2.804 + 1.414) / 5.0 = 0.84367 (=84.367%) 와 같다. 표의 맨 오른쪽에 누적 설명력(적재값)이 표시되고 있다. (적재값 이란 용어가 어색할 수 있는데 데이터에 대한 설명력[예측력]을 의미한다.)
성분1과 성분2만 선택되었기 때문에 우측에는 두 개에 대해서만 값이 입력되어 있는 것이다.

(5) 스크리 도표

스크리 도표를 사용하여 적절한 요인변수의 개수를 찾을 수 있다.
실제 분석에서는 표를 보고 산정하는 것이 아니고, 고유값의 크기를 기준으로 산정하지만,
스크리 도표는 사람이 직관적으로 적정한 요인수를 찾는데 도움을 준다.

아래 그림에서보면 처음 2개의 요인 값의 고유값(Y축)이 1 이상의 값을 갖기 때문에
2개를 선택하게 되는 것으로 판단할 수 있다. 기울기가 꺽이는 부분을 보고 선택하는 것이 아니고 Y축 값의 크기가 1 이상인가로 판단하는 것이다.

(5) 성분행렬

이 부분이 중요하다.
몇 개의 인자들이 추출되었는지 알 수 있다. 그리고 이 인자들이 원변수들에 어느정도 영향을 받고 있는지 가중치를 보여준다. 이 부분을 잘 해석하는 것이 가장 중요한 관건이다.

요인적재량 계수가 나타난다.
3개의 인자를 끄집어 내고, 각 인자들이 원래의 변수들에 어느정도의 영향을 받고 있는지를 나타내는 수치(가중치)이다. * 이부분이 가장 중요한 부분이다. 이 수치가 의미가 있다.

(6) 회전된 성분행렬

(5)에서의 성분행렬 은 명확하게 구분하여 어렵다. 해석하기가 어렵다.
(5)를 이해하기 좋게 정렬하여 보여준다.

(7) 성분변환 행렬
고등학교 수학에서 배웠던 좌표 회전을 사용한 것이다. (고등학교 때 언제 배웠었지?? 기억이 전혀...)
베리맥스라는 방법을 썻다.

[8] 회전 공간의 성분 도표
3차원 좌표공간 상에 원래의 변수들을 점으로 표시한다.
<영어, 독어>가 가까운 위치에 존재하고, <수학, 과학>이 가까운 위치에 존재하는 것을 통해
영어, 독어가 유사한 의미를 가지며 하나의 요인(예를 들어, 언어적 능력)으로 묶일 수 있고,
수학, 과학이 유사한 의미를 가지며 하나의 요인(예를 들어, 수리계산 능력)으로 묶일 수 있음을 파악할 수 있다. 체육은 다른 과목들과의 연관성이 떨어지는 것도 파악할 수 있다.

[8] 성분점수 계수 행렬

설명

[8] 성분점수 공분산행렬

설명

추가내용

[고급분석 23장] 인자분석

인자분석 = 요인분석

목적1) 잠재변인을 찾는다. - 관측된 변수로부터 숨겨진 요인을 찾는다.
설문했을 때 이 설문이 몇 가지 특성을 측정하고 있는가? 검사한다.

설문지에 대한 정보가 없을 때
이 수 많은 항목들이 몇 개의 내용을 측정하고 있는가?
이에 포함되지 못하는 속성들을 제거하기 위해 사용된다.

'스터디 자료' 카테고리의 다른 글

협력적 여과를 이용한 개인화 추천 (CF: Collaborative Filtering) (0)	2009.07.29
[강좌] SPSS 사용하여 데이터의 다중공선성 진단하기 (12)	2009.07.27
SPSS를 이용한 요인분석(Factor Analysis) 수행 (8)	2009.07.24
[통계학] 요인분석 (Factor Analysis) 소개 (59)	2009.07.24
예제를 통한 요인분석(Factor Analysis) [1] (3)	2009.07.24

by 에이아이 2009. 7. 27. 11:58

(2009. 7. 26) 맨유 vs 중국 항저우 8:2 [아시아투어 중]

카테고리 없음

8:2 골이 정말 많이 났네요. 마이클 오언(23분), 베르바토프(30분), 토시치, 오언(39분), 나니(49분), 긱스(62분), 중국(77분), 긱스(88분), 중국(92분) 입니다.

박지성은 후반 15분 즈음 들어와서 6번째 긱스의 골을 박지성이 어시스트 했습니다.

by 에이아이 2009. 7. 27. 09:45

ai-times

글

[강좌] SPSS 사용하여 데이터의 다중공선성 진단하기

설정

'스터디 자료' 카테고리의 다른 글

글

SPSS를 이용한 요인분석 결과의 해석

설정

'스터디 자료' 카테고리의 다른 글

글

(2009. 7. 26) 맨유 vs 중국 항저우 8:2 [아시아투어 중]

설정

사이드 메뉴

CATEGORY

TAG

RECENT POSTS

RECENT COMMENT

ARCHIVE

NOTICE

CALENDAR

COUNTER

티스토리툴바

ai-times

글

[강좌] SPSS 사용하여 데이터의 다중공선성 진단하기

설정

'스터디 자료' 카테고리의 다른 글

글

SPSS를 이용한 요인분석 결과의 해석

설정

'스터디 자료' 카테고리의 다른 글

글

(2009. 7. 26) 맨유 vs 중국 항저우 8:2 [아시아투어 중]

설정

사이드 메뉴

CATEGORY

TAG

RECENT POSTS

RECENT COMMENT

ARCHIVE

NOTICE

MY LINK

CALENDAR

COUNTER

티스토리툴바