한국방송통신대학에서 제공하는 SPSS 동영상 강좌입니다.
SPSS를 처음 시작하시는 분들이 학습하는데 도움이 많이 되는 좋은 동영상 강좌입니다. 

방송통신대 정보통계학과 김성수 교수님의 강의입니다.


[제 1 강]  SPSS의 이해 (통계학이란? SPSS 프로그램 소개 등)



[제 2 강] SPSS 분석 (ASCII 데이터 입력, 그래프 만들기 등)



[제 3 강] 데이터 파일의 관리(분석) (다양한 데이터 파일 작성 및 읽어오기 / 결측값 정의)



[제 5 강] 데이터분석 (데이터의 변환, 새로운 변수의 생성)

 

[강의6] 데이터의 관리 (빈도변수 생성, 데이터의 선택, 데이터 정렬, 특성에 따른 파일작성)



[제 7 강] 기술통계와 그래프 (기술통계 분석, 빈도분석)

 

[제 8 강] 기술통계와 그래프 (줄기 잎그림, 상자 그림 등의 그래프 작성)



[제 9 강] 범주형 자료 분석 (2차원 분할표 작성 및 분석, 독립성 검정, 연관성 검정 등)



[제 10 강] 로그 선형 모형

 

[제 11 강]

[제 12 강] 모집단의 평균 비교 (두 모집단의 모평균 차에 대한 분석, T검정)



[제 13 강] 산점도, 단순상관계수 (두 변수 간의 선형적인 관계 측정)



[제 14 강] 상관분석 II (편상관분석 등)



[제 15 강]



[제 16 강]



[제 17 강]



[제 18 강]



[제 19 강] 다중응답



[제 20 강] 통계표 작성 (표 및 그림으로 데이터 표현)




by 에이아이 2009. 8. 18. 18:41

본 글에서는 SPSS를 사용하여 요인분석을 수행한 결과를 해석하는 방법에 대해서 설명한다.

만약 여러분이 SPSS 에서 해석하는 방법이 아니라,
SPSS 에서 요인 분석을 하는 방법, 절차를 알고 싶다면 여기 를 클릭하면 해당 글을 볼 수 있다. 
또는 요인분석이 무엇인지? 요인분석의 개념 및 이론이 궁금하다면 여기 를 클릭하면 해당 글을 볼 수 있다. 

분석 데이터의 설명

아래의 데이터를 SPSS 에 입력하여 요인분석을 수행하였다. 수행하는 방법(단계)은 이전 글 에서 설명하였으니 필요한 경우 참고하기 바란다.

우선 데이터를 다시 한번 살펴보자.
이해를 쉽게하기 위하여 간단한 예제 데이터를 사용하였다. 학생들의 성적데이터로써 [수학, 과학, 영어, 독어, 체육] 5과목의 시험 성적으로 구성되어 있다. 수학과 과학이 상관이 있으며, 영어와 독어가 관계가 있는 형태이다. 수리능력, 언어능력, 체력 의 3가지 요인으로 구성되었다는 것을 쉽게 생각할 수 있다.

   수학 과학  영어  독어  체육 
 학생1  90 100   30   40   80 
 학생2  80  90  80  90  40
 학생3  30  40  100  90  90
 학생4  40  45  30  40  60
 학생5  50  55  85  95  100

분석 결과의 예상

위 데이터에 대해서 요인분석을 수행하면 몇 개의 요인, 즉 잠재변수가 얻어질까?
이미 위에서 설명하였듯이 2개의 요인, 이름을 붙이자면 <수리계산능력>, <외국어능력> 이라는 2개의 요인이 도출될 것으로 예상된다. 체육 점수는 이 2개의 요인에 포함되지 않음으로 별도로 하나의 요인이 될 것이다. 그래서 정확히 말하면 데이터의 요인은 3개이다. 새롭게 만들어진 요인은 2개이다.


분석결과 화면

아래와 같은 분석 결과 화면을 볼 수 있다. 결과를 해석하는 것이 중요하다. 결과의 해석 또한 많은 설명이 필요하므로 다른 글을 통해서 설명해야 하겠다. 결과 파일을 아래에 첨부하였다.

주어진 데이터를 가지고 아래의 결과를 얻는 과정을 알고 싶다면 여기(SPSS 요인분석 절차) 를 클릭하자.




분석결과의 해석

전 단계에서 설명한 대로 세팅하고 실행하면 아래와 같은 분석들이 표시된다.
여기에서 가장 중요하게 보아야 할 것은

(1) 기술통계량

각 변수에 대한 평균, 표준편차의 기본 통계 정보를 표시한다.
요인분석과 밀접한 관계가 있는 분석은 분석에 앞서 이 정도의 간단한 통계는 살펴보는 것이 필요하겠다.



(2) 상관행렬

변수들간의 상관계수 값을 행렬로 표시한다. 대략 살펴보면, 수학과 과학이 0.996 으로 높은 상관성을 가지며, 영어와 독어가 0.967 로 높은 상관성을 가지는 것을 파악할 수 있다. 체육은 다른 과목들과 상관관계가 별로 없다. (우리가 이러한 의미로 데이터를 만들었기 때문에 이러한 결과는 당연하다.)

모든 변수들 간의 상관행렬을 구하고 싶다면 (SPSS 상관행렬 계산하는 별도의 메뉴는 없음으로)
이같이 요인분석의 옵션에서 상관행렬 을 체크하여 얻을 수 있다.  




(3) 공통성

공통성 표는 초기 값과 추출 값 두가지로 구성되어 있다.
초기는 항상 1이므로 별 의미는 없고, 추출 값만 보면된다. 추출 값은 0에서 1의 값을 갖는다.

추출 값의 의미는 무엇일까?
각 변수들이 나머지 다른 변수들에 얼마나 많이 영향을 받는가 (종속되어 있는가?) 를 측정한다.
각 변수에 대하여 너머지 변수들로 회귀분석을 수행했을 때 결정계수(R^2) 를 계산한 값이다. 따라서, 이 값이 1에 가까울 수록 다중공선성이 존재하고, 0에 가까울 수록 다중공선성의 정도가 없는 것으로 이해하면 된다.
즉, 각 변수의 다중공선성 수치 VIF 과 연관이 된다. (이미 알고있겠지만 다중공선성은 상관계수와 관계가 깊다. 물론 다중공선성과 상관계수는 차이가 있음으로 별도의 표로 계산한 것이다.) 

수학, 과학, 영어, 독어는 높은 값을 갖는 것을 볼 때 다중공선성이 크게 존재함을 알 수 있고,
체육의 경우는 0.356 이므로 다중공선성이 별로 없다고 판단할 수 있다.




(4) 설명된 총분산

표가 좀 복잡해서 무엇을 의미하는 지 파악이 힘들 수 있다.
잠재변수(요인)을 파악하기 위하여 주성분 분석을 사용했음이 표의 하단에 표시되어 있다.
주성분 분석을 사용하면 최대로 원래의 변수만큼의 주성분 즉, 요인을 찾을 수 있다. 이 데이터에서는 원래 변수가 5개 이므로 최대 주성분도 5개이다. (표의 왼편에 보면 성분이 1부터 5까지 되어있다.)

첫번째 칼럼(초기 고유값 중 전체)를 보자. 2.804, 1.414, ... 이 부분이다. 이 표에서 가장 중요한 부분이다.
모든 성분의 고유값의 합은 변수의 수와 같다. 즉, 여기서는 5가된다. 평균적으로 고유값은 1이다.
일반적으로 고유값이 1보다 크면 의미있는 요인으로 선택하게 된다.
(물론 이 기준은 분석가에 의도에 따라 변경될 수 있다. SPSS 옵션 창에서 변경 가능하다.)
따라서 여기서는 성분1, 성분2가 선택된다. 이 고유값은 해당 요인(잠재변수)의 중요성(설명력)의 정도를 의미한다. 즉, 각 성분(요인)의 주성분을 모든 고유값의 합(여기서는 5)으로 나누면 해당 변수의 전체 데이터에 대한 설명력 % 가 계산된다. 

즉, 1번째 성분(요인)은 2.804 / 5.0 = 0.451 (=45.1%) 로써 45%의 설명력을 가지고 
2번째 성분(요인)은 1.414 / 5.0 = 0.392 (=39.2%) 로써 39%의 설명력을 가진다. 

이 두 개의 새로운 성분만 사용해도 
전체 데이터의 84.367% 를 설명(예측)할 수 있음을 말해준다. 
계산식을 풀어쓰면 (2.804 + 1.414) / 5.0 = 0.84367 (=84.367%) 와 같다. 표의 맨 오른쪽에 누적 설명력(적재값)이 표시되고 있다. (적재값 이란 용어가 어색할 수 있는데 데이터에 대한 설명력[예측력]을 의미한다.) 
성분1과 성분2만 선택되었기 때문에 우측에는 두 개에 대해서만 값이 입력되어 있는 것이다.   




(5) 스크리 도표

스크리 도표를 사용하여 적절한 요인변수의 개수를 찾을 수 있다. 
실제 분석에서는 표를 보고 산정하는 것이 아니고, 고유값의 크기를 기준으로 산정하지만, 
스크리 도표는 사람이 직관적으로 적정한 요인수를 찾는데 도움을 준다. 

아래 그림에서보면 처음 2개의 요인 값의 고유값(Y축)이 1 이상의 값을 갖기 때문에 
2개를 선택하게 되는 것으로 판단할 수 있다. 기울기가 꺽이는 부분을 보고 선택하는 것이 아니고 Y축 값의 크기가 1 이상인가로 판단하는 것이다.  




(5) 성분행렬

이 부분이 중요하다.
몇 개의 인자들이 추출되었는지 알 수 있다. 그리고 이 인자들이 원변수들에 어느정도 영향을 받고 있는지 가중치를 보여준다. 이 부분을 잘 해석하는 것이 가장 중요한 관건이다.

요인적재량 계수가 나타난다.
3개의 인자를 끄집어 내고, 각 인자들이 원래의 변수들에 어느정도의 영향을 받고 있는지를 나타내는 수치(가중치)이다. * 이부분이 가장 중요한 부분이다. 이 수치가 의미가 있다.




(6) 회전된 성분행렬

(5)에서의 성분행렬 은 명확하게 구분하여 어렵다. 해석하기가 어렵다.
(5)를 이해하기 좋게 정렬하여 보여준다.



(7) 성분변환 행렬
고등학교 수학에서 배웠던 좌표 회전을 사용한 것이다. (고등학교 때 언제 배웠었지?? 기억이 전혀...)
베리맥스라는 방법을 썻다.



[8] 회전 공간의 성분 도표
3차원 좌표공간 상에 원래의 변수들을 점으로 표시한다.
<영어, 독어>가 가까운 위치에 존재하고, <수학, 과학>이 가까운 위치에 존재하는 것을 통해
영어, 독어가 유사한 의미를 가지며 하나의 요인(예를 들어, 언어적 능력)으로 묶일 수 있고,
수학, 과학이 유사한 의미를 가지며 하나의 요인(예를 들어, 수리계산 능력)으로 묶일 수 있음을 파악할 수 있다. 체육은 다른 과목들과의 연관성이 떨어지는 것도 파악할 수 있다.



[8] 성분점수 계수 행렬 

설명  



[8] 성분점수 공분산행렬

설명




추가내용

[고급분석 23장] 인자분석
 
인자분석 = 요인분석

목적1) 잠재변인을 찾는다. - 관측된 변수로부터 숨겨진 요인을 찾는다.
설문했을 때 이 설문이 몇 가지 특성을 측정하고 있는가? 검사한다.

설문지에 대한 정보가 없을 때
이 수 많은 항목들이 몇 개의 내용을 측정하고 있는가?
이에 포함되지 못하는 속성들을 제거하기 위해 사용된다.











by 에이아이 2009. 7. 27. 11:58
| 1 |