본 강좌에서는 SPSS를 사용하여 두 변수 간의 상관관계를 계산하는 방법을 설명합니다.

아래에 첨부한 [체력검사] 데이터 자료를 사용해서 실습을 해보겠습니다.


위 파일을 다운로드 한 후 더블클릭하면 아래와 같이 자료가 표시됩니다. 

사용자 삽입 이미지

분석하려면 메뉴에서 [분석] - [상관분석] - [이변량 상관계수] 를 클릭하여 실행합니다.

사용자 삽입 이미지

아래와 같이 옵션을 설정한 후 분석을 실행합니다.
보통 상관관계 분석시 피어슨 상관계수를 사용하며 피어슨 상관계수가 기본설정되어 있습니다.
다른 방법을 원한다면 체크하면 됩니다. (Kendall의 타우-b 방법, Spearman 방법, 단 이때 Spearman 을 올바로 사용하려면 데이터를 이에 적합하게 변경해주어야 함을 주의하세요. )

사용자 삽입 이미지

잠깐 기다리면 아래와 같이 분석 결과를 얻을 수 있습니다.

사용자 삽입 이미지

이렇게 해서 간단하게 SPSS를 이용한 2변수 간의 상관관계 분석 방법을 설명하였습니다.

알고보면 너무 간단하네요^^.

참고자료

1. 에듀팜의 AMOS 강좌의 5강 [ 경로분석 SEM과 통계방법들1 ] 동영상 자료


신고
by 에이아이 2009.11.30 00:05
음성인식 문제에 최적화된 신경망(ANN) 공개 프로그램입니다.

아래의 주소에 방문하면 연구내용을 볼 수 있고 프로그램도 다운로드 할 수 있습니다.

http://nico.nikkostrom.com/


사용자 삽입 이미지

다운로드 홈페이지
http://sourceforge.net/projects/nico/

여기서 바로 다운로드 하기


그리고 아래는 연구실 홈페이지 입니다. 음성인식 분야를 주로 연구하는 연구실입니다.
http://www.speech.kth.se/software/

사용자 삽입 이미지



신고
by 에이아이 2009.11.16 11:35

본 글에서는 Cronbach's Alpha 에 대해 정리하고자 한다.

 참고자료1: http://www.test-market.kr/397 (신뢰도분석 Cronbach's Alpha)
 참고자료2: http://en.wikipedia.org/wiki/Cronbach's_alpha
 참고자료3: http://blog.daum.net/jhlee03/262 신뢰도, 내적일관성의 통계적 의미 설명

Cronbach's  α(Alpha) 는 [크론바하 알파] 라고 읽는다.
(또는 [크론바흐 알파] 라고도 함, 또는 간단하게 [알파(값)] 라고도 한다.)
크론바하 라는 통계학자가 설문의 신뢰도를 평가하기 위하여 1951년에 제안한 평가값이다. 

<사용목적>

- 설문지의 신뢰도를 평가하기 위하여 사용한다.
- 설문항목에 대하여 신뢰성을 저해하는 항목(문항)을 찾아내고 제거하기 위하여 사용한다.

<신뢰도를 평가한다는 의미는 무엇인가?>

보통 설문지를 통해 몇 개의 개념들을 평가한다. 각 개념들을 측정하기 위해서 몇 개의 질문(문항)을 준비하는 것이 일반적이다. 이때, 이 여러 문항들이 얼마나 일관성이 있는가? 하나의 개념을 측정하고 있는가? 의 정도를 의미한다. 그래서 [내적 합치도] 라고도 부른다. (Cronbach's Alpha = 내적 합치도 계수)  

<여러가지 이름들>
Cronbach's Alpha 는 여러가지 이름들로 불리고 있다. 이름이 많이 이해할 때 혼동할 수 있어 아래에 이름들을 정리해보았다. 다 같은 의미로 이해하면 된다.
- 신뢰성 지수(계수)
- 내적 합치도 지수(계수)
- 동질성 지수(계수)
- 내적 일관성 신뢰도(지수) (Internal consistency realiability)
- 알파 값

<신뢰도 평가 기준>

Cronbach's  α 값은 0에서 1사이의 값을 가지며 1에 가까울 수록 신뢰도가 높다고 해석된다.
신뢰도가 높다 낮다의 판정 기준값으로 0.6 을 사용하는 경우가 많으며 0.7을 사용하기도 한다. (참고)

<예제를 통한 설명>

예를들어, 회사지원들의 스트레스 요인을 분석하기 위한 설문에서
아래의 몇 항목들이 서로 같은 내용(부서 내의 몰입도)을 평가하도록 했다고 하자.
이들이 실제로 같은 개념을 평가하고 있는가? 일관성(신뢰도)가 있는가?
(이 예제는 위의 참고자료1을 참고한 것임.)

항목04.  부서내의 소외감을 느끼는가?
항목08.  책임감 결여되었는가?
항목09.  불안정한 가정분위기?
항목10.  본인의 리더쉽이 부족하다고 느끼는가?  

위 항목들을 대상으로 Cronbach's Alpha 값을 계산하여 0.67의 값을 얻었다고하자.
그러면 0.6을 판정기준으로 했으때 위 4개의 항목들은 같은 개념(조직의 몰입도)를 평가하는데 신뢰성이 있다고 판단될 수 있다.

<요인분석과 Cronbach's Alpha>

설문항목들의 신뢰도를 평가하기 위해서 <요인분석>을 함께 사용하는 경우가 많다.
주어진 데이터에 대해서 <요인분석>을 수행한다. 요인분석의 결과로 몇 개의 변수들간의 서로 같은 개념으로 묶이는 것을 발견할 수 있다.

이들 묶음에 대하여 Cronbach's alpha 값(알파값)을 계산할 수 있는데, 이 값이 기준값(0.6 or 0.7)보다 크면 해당되는 몇 개의 항목들이 신뢰도가 높다고 판단할 수 있다.

이때, 어떤 변수를 제거,삽입하면 알파값이 변동이 발생하게 된다.
어떤 변수를 제거했을 때 알파값이 상승된다면 그 변수(항목)은 제외하는 것이 오히려 설문의 신뢰성을 높이는데 좋다. 반대로, 어떤 변수를 제거했을 때 알파값이 큰 변동이 없거나 낮아진다면 그 변수는 신뢰성을 위해 필요한 변수라고 평가할 수 있다.

<SPSS를 사용한 Cronbach's Alpha 값 측정>

SPSS 에서는 Cronbach's Alpha 값을 측정하도록 지원하고 있다.
사용 방법은 준비 중입니다...

영문판 : [analyze] - [scale] - [reliability analysis]
한글판 : [분석] - [척도화 분석] - [신뢰도 분석]

신뢰도를 평가할 항목들을 선택한 후 (오른쪽으로 옮긴 후)
[확인] 버튼을 눌러 신뢰도 분석을 할 수 있다.







신고
by 에이아이 2009.11.09 12:31

출처 : Seri.org

내용 : 166 페이지에 달하는 방대하고 자세한 내용과 예제.

1. 시작하기.
2. 표현하는 방법
3.질문에 답변하는 방법
4. 마무리하는 방법.



추가로 발표자료 만들때 참고할 만한 자료


신고
by 에이아이 2009.10.16 20:14

F-검정에 대해서 공부해보자.
몇 결정트리 알고리즘에서 t-검정, F검정을 사용하기 때문에
해당 결정트리 알고리즘을 잘 이해하기 위해서는 이러한 통계 검정 방법들을 잘 이해해두어야 한다.

F-검정은 언제 사용할까?
F-검정은 두 모집단의 분산의 차이가 있는가를 검정할 때 사용한다.
(두 집단의 평균의 차이가 존재하는가가 아니라 분산의 차이가 있는가를 검정한다.)

F-검정의 특징
F-검정값은 항상 1보다 같거나 크다. (두 표본집단의 분산 값을 나눈 것이므로, 큰 것이 분모, 작은 것이 분자)
F값이 클수록 두 집단간의 분산의 차이가 존재하는 것을 의미한다.

예1. (제4판. 현대통계학. p.349-350)
예를들어, 어느 중학교에서 1학년 학생들의 성적의 차이(분산)이 2학년이 되면 더 커질 것이라고 예상된다. 실제로 그런가 검정해보자. 1학년에서 7명을 뽑고, 2학년에서 9명을 뽑아서 각각의 성적의 분산을 조사해 봤더니, 1학년의 분산은 9.0 이었고, 2학년의 분산은 19.8 이었다. 두 모집단의 분산은 같다고 볼 수 있을까? 알파=0.05 에서 검정해보자.
F(8,6) = 4.15 이다. (자유도는 개체 크기에서 1씨 뺀 값으며 2개가 사용된다. F분포표에서 찾아보자.)
F = 19.8 / 9 = 2.2 이다. 2.2 < 4.15 이므로 F=2.2는 기각역 안에 있으며, 귀무가설을 기각할 수 없다.
즉, 2학년학생의 성적 차이가 1학년 학생의 성적차이보다 크다고 할 수 없다.  

F-분포표

F검정에 필요한 F분포표를 첨부하였다.
F검정표는 두 개의 자유도 값을 사용한다. (행, 열에 두 표본의 자유도가 사용된다.)



참고자료
[1] 제4판 현대통계학, 박정식/윤영선. p.335- (15장)

신고
by 에이아이 2009.10.14 18:45

정리 중인 자료입니다.

참고자료

[제4판] 현대통계학 (박정식, 윤영선) 13장. (p.293-)
에듀팜 [SPSS기초] 17장-27장


t-검정은 언제 사용하는가?


모집단의 평균을 알고 있고,
표본의 평균과 분산을 알고 있을 때
표본의 평균이 표본의 평균과 같은가 다른 가를 검정하는 것.

예를 들어보자.

예제1.
일본 초등학생들의 IQ 평균이 105라고 하자. 한국의 100명의 초등학생들을 표본으로 IQ를 검사해보니 평균이 110이 나왔다. 그러면 한국의 초등학생들이 일본 초등학생보다 IQ가 높다고 결론 내릴 수 있는가? (이 결론을 내리기 위해서는 사실 100명의 표본 초등학생에 대한 분산 정보가 필요하다.)

예제2.
2000년대 한국 고3학생들의 키가 165cm 였다고 하자. 최근(2009년) 고3학생 200명을 표본으로 키를 측정해보니 평균이 170cm 가 나왔다. 그러면 학생들의 키가 이전보다 증가되었다고 결론을 내릴 수 있는가?


t-검정 검정 방법

간단하게 t-검정을 하는 방법을 설명한다.
표본에 대하여 t-검정 통계량 값을 계산한다. (-4에서 4정도 사이의 값을 얻게 된다.)
그 값이 t-분포의 그래프의 양 끝 쪽에 속할 수록 모집단과 평균이 다르다는 것을 보여준다.
지정한 유의확률(%)을 가지고 유의값을 선정하여 검정할 수 있다.


좀 더 자세하게 t-검정을 분류해 볼 수 있다. 

*  1표본 t-검정 (또는 일표본 t-검정)
*  독립 2표본 t-검정
*  대응 2표본 t-검정
 
위의 예제1, 예제2는 모두 1표본 t-검정에 속하는 예이다.


독립 2표본 t-검정이란?

위에서 t-검정은 모집단의 분포를 모르고, 표본 집단에서의 분포(평균, 분산)을 아는 상황인 것을 기억하자. 
독립 2표본 t-검정이란 2개의 표본을 추출한 후 이 두개 집단의 분포(평균, 분산) 정보를 이용하여 두 표본의 모집단에 차이가 있는지를 검정하는 것이다. 

예를 들어, 한국 고3학생 100명의 키를 측정하고, 일본 고3학생 100명의 키를 측정한 후 이 표본 데이터를 기초로하여, 한국, 일본 고3학생의 키에 차이가 있는가에 대한 결론을 얻고 싶을 때 독립 2표본 t-검정을 수행한다.  


대응 2표본 t-검정

한 개체에게서 2회의 반응값을 얻은 경우 그 차이가 존재하는 가를 검정한다. 즉, 한 개체에 대하여
이름에서 [대응]은 짝(Pair)를 의미한다.
다시 말하면, 두번의 반복측정에서 얻어진 결과가 차이가 있는 지를 비교한다.
두 모집단의 원자료를 각각 요약하는 것이 아니라 대신 차이값의 자료를 얻고자 한다.

예를들어, 새로 개발된 간수치안정제가 효과가 있는지를 검정한다고 해보자. 10명의 환자에 대하여 개발된 약을 먹기 전과 후의 간 수치를 측정한다. 이 실험 값을 토대로 하여 간의 수치를 개선하는 효과가 있는 지를 검정한다. (이 실험에서 한 사람에 대하여 2개의 값이 쌍으로의 성격을 갖는다.)

비슷한 예로, 감기약을 먹기 전과 후의 몸의 열의 변화가 생기는지를 검정한다고 하자. 10명의 환자에 대하여 먹기 전과 먹은 후의 값(쌍, 대응)들을 얻는다.

다른 예로, A사건이 발생하기 이전과 이후의 특정 당(한나라당)에 대한 지지율의 변화가 발생했는 지를 검정한다고 해보자. 100명의 사람을 대상으로 하여 A사건 이전의 한나라당에 대한 지지율과 A사건 발생 후의 한나라당에 대한 지지율을 측정한다.

다른 예로, 어떤 교육단체에서 독서를 통한 심리안정 치료 방법을 개발했다고 하자. 100명의 정서장애자들에게 대하여 교육을 받기 전과 받은 후의 정서장애 정도를 측정한다.  

-----------------------------

그럼, t-검정과 Z-검정의 차이를 살펴보자.

Z검정은 모집단의 평균과 분산을 모두 알고 있을 때, 어떤 레코드 또는 표본 집단이 모집단에 속하는가를 검정하는 것이다. 즉, t-검정은 모집단의 평균을 알지만 분산은 모른다는 점에서 차이가 있다.

모집단의 분산을 모르기 때문에 레코드들이 Z-분포를 한다고 말할 수 없다.
따라서 그러한 경우 t-분포를 따른다고 할 수 있다. (t-분포는 정규분포와 유사한 모양을 갖지만, 더 넓게 펼쳐진다는 차이가 있으며, 그 정도는 표본집단의 분산과 레코드의 개수를 가지고 결정된다.)

Z-분포와 t-분포의 차이를 살펴보자.
Z-분포는 모집단의 평균과 분산을 알고 있을 때의 정규분포를 의미한다.
반면, t-분포는 표본집단의 평균과 분산, 그리고 자료(레코드) 수를 알고 있을 때의 분포를 의미한다.

Z-분포 ----> 정규분포를 따른다.
t-분포 ----> 자유도가 (n-1)인 t-분포를 따른다.


사용자 삽입 이미지



신고
by 에이아이 2009.10.11 21:26

참고1 : http://hoksi.com/Standard_Normal_Distribution_Table.htm
참고2 : http://www.statsoft.com/textbook/sttable.html#z

정규분포에 대한 개념 설명 : http://tong.nate.com/jinkwan5/49693374
표준정규분포에 대한 설명 : http://blog.naver.com/at3650?Redirect=Log&logNo=40066177242
6 Sigma : http://blog.naver.com/noijws?Redirect=Log&logNo=130035107783

엑셀로 만든 표준정규분포표

사용자 삽입 이미지

위의 표는 중앙을 기준으로 했을 때의 너비를 가지고 작성한 표입니다.

반면 아래와 같이 좌측 끝을 기준으로 했을 때의 너비를 가지고 작성한 표의 내용입니다.

사용자 삽입 이미지


신고
by 에이아이 2009.10.11 18:51

출처(번역) : http://blog.naver.com/omega71/50007604090
출처(원문) : http://people.cs.ubc.ca/~murphyk/Bayes/bayes.html

아래 내용은 A Brief Introduction to Graphical Models and Bayesian Networks 에서 번역하고, Gurugail.com의 GGOP(Virtual Dog) 프로젝트에 맞추어 수정, 요약한 것입니다.

Bayesian Network는

"확률 이론과 그래픽 이론의 결합으로 이루어진 그래픽 모델(Graphical Models)"

이라고 짧게 표현될 수 있다. 그래픽 모델의 기본적 아이디어는 복잡한 시스템을 간단한 모듈로서의 구성을 그래프적으로 표현이 가능하다는 특징이 있다. 그럼으로써 그 모듈이 어떻게 서로 연관성을 가지는지를 확률적 이론에 기반하여 표현이 가능하며, 하나의 모듈은 노드(Node)로써 표현이 가능하며, 모듈간의 관계는 호(Arc)로 표현된다. 그래픽 모델은 방향성(Directed or Undirected)이나 노드의 순환성(Cyclic or nonCyclic)에 따라서 HMM(Hidden Markow Models), FA(Factor Analysis), Kalman Filters 등 여러 가지가 있으며, 그 중 하나가 Baysian Network이다.


I. BN의 그래픽 표기법(Representation)

그래픽 모델에서, 노드는 랜덤 변수(Random Variables)를 나타내며, 호는 노드들간의 관계성을 가리킨다. 중요한 사실은 그래픽적 표현만으로 Fully Joint Probabilty Distribution의 표현이 가능하다라는 것이다. 이는 다시 말해, BN으로 표현이 되면, 랜덤 변수의 모든 조합으로 구성된 확률 분포도를 알 수 있다라는 말이다.

BN는 그래픽 모델 중에서 방향성이 있으며, 비순환의 그래픽 모델을 말한다. 줄여서 DAG, (Directed ACyclic Graph)라고 한다. 아래 간단한 예제 BN을 살펴보자. BN의 설명에서 종종 등장하는 예제이다. 잔디(WetGrass)가 젖을 경우는 스프린클러(Sprinkler)가 동작하거나 비가 오거나의 경우를 BN으로 표현한 것이다. 아래 예에서 "날씨가 흐릴 때 비가 올 확률", 즉 P(R=T| C=T) = 0.8이다.

 

어떤 상황을 BN으로 구성하기 위해서는 위와 같은 경우처럼,

1. 시스템을 표현할 수 있는 노드 구성
2. 노드와의 연결성 (Arc 구성)
3. 확률 테이블(CPT) 구성

하면 모든 것이 끝난다. 단, 중요한 사실은 노드간의 조건부 독립(Conditional Indendence)의 특성을 부여하면서 구성해야 된다는 사실이다. 조건부 독립을 확인하기 위한 D-seperation 알고리즘?도 있고, 복잡도 하지만 간단히, 제 생각으로는 적어도 Virtual Dog에서 느낌상으로 조건부 독립적으로 노드를 구성하면 OK이다. 위의 예에서는 스프린쿨러(S)가 동작할 경우와 비가 올 경우는 흐린날(C)이라는 조건에서 서로 조건부 독립이다.

위와 같은 BN이구성되면, "잔디가 젖었을 때(W), 스프린쿨러(S)가 동작하였을 확률"을 아래 식처럼 직접 계산할 수 있다. CPT에 직접적으로 표현이 되지 않았지만, 추론이라는 Method에 의해 표현(계산, 추측, 추론)될 수 있는 것이다.


다른 모든 경우도 수식으로 계산이 가능한 것이다. 다만 직접 계산을 할 경우 기하급수적으로 계산량이 증가하기 때문에, Approximation 방법을 이용하기도 한다고 한다. 계산 방법은 이 문서에서는 생략하고, 다만 그냥 개념만 이해하고 갔으면 한다. 하나 더 추가할 개념은 여기서 W가 Evidence가 되고 S가 Query가 되는 셈이며( 잔디가 젖었다는 사실을 알고, 그에 상응하는 S의 확률을 쿼리), 이런 식의 계산을 Bottom-up reasoning 이라고 한다.

II. 추론(Inference)

BN에서 추론이란 무엇일까, 어떤 의미를 추론이라고 할까? 위에서 잠깐 언급한 Evidence와 Query를 먼저 이해해야 한다. BN에서 추론이란 "알고 있는 확률변수를 이용해서 원하는(알고자 하는) 확률값을 구하는 과정"이라 할 수 있다. 위의 과정이 바로 추론과정이다. 위 그림의 BN에서는 Casuality(원인 -> 결과)에 따른 확률값은 표현이 되어 있고(CPT), 위 수식과 같이 "잔디가 젖었을 때(W), 스프린쿨러(S)가 동작하였을 확률"은 CPT를 이용해 바로 구할 수는 없다. 그럼으로 계산이나 Approximation 방법 등을 이용한 추론을 해야 한다. 물론 어떻게 보면 확률 계산에 불과하지만, 그러한 계산이 노드에 따라서 기하 급수적으로 증가하기 때문에 여러 가지 추론 알고리즘이 있다. (Variable Elimination, Dynamic Programming, Approximation Algorithms, etc)


1. Variable Elimination

추론을 하는 방법 중의 하나이다. 기본 생각은 추론을 원하고자 하는 식을 CPT의 Factored Representation으로 표현하는 것이다. 그것은 관계 없는 변수에 대한 경우의 합계 표현으로 가능하다. 설명이 잘 이해가 되지 않을 것이다. ^^; 고등학교 때 배운 확률을 잘 생각해보자. Joint Probability에서 랜던 변수 X, Y가 있고, Y는 Boolean Variable이라고 가정하면

P(X=i) = P(X=i, Y=false) + P(X=i, Y=true) 인 것이 생각이 나는지... 아무튼 이와 같은 원리와 그리고 Bayes 이론을 사용해서 확률값을 구하는 방법론이 Variable Elimination이다.


WetGrass(P(W=true))인 확률을 구하기 위해서 위와 같은 단계를 거치면, 결국 CPT에 있는 확률값들을 이용해서 구할 수 있는 것이다. 왜 이 방법이 "변수 제거(Variable Elimination)"인지는 확률값을 구하기 위해서는 Innermost가 우선적으로 구해지고, 그에 따라 Summation 되는 변수(c,s,r) 등이 차례로 구해지는 과정에서 생긴 이름으로 생각된다.

III. 학습(Learning)

BN에서 학습이란, 주어진 학습 데이타를 이용하여, 그래프의 Topology를 구성하는 것과 CPT(Conditional Probability Table)을 구성하는 것을 말하며, 그래프의 Topology를 구성하는 것이 CPT를 구성하는 것보다 어려운 작업이다. 데이터 혹은 그래프에 따라 조건별 학습 방법은 아래와 같다.

Structure
Observability
Method
Known Full Maximum Likelihood Estimation
Known Partial EM (or gradient ascent)
Unknown Full Search through model space
Unknown Partial EM + search through model space

1. Structure가 Known이며, 학습 데이터도 Full Observability할 경우의 예
(Maximum Likelihood Estimation)

이와 같은 경우도 그래픽의 구조나 CPT를 구하기 위한 모든 학습 데이터가 주어지기 때문에 단순 Counting으로 추측할 수 있다. 가령 위 그림에서 W 노드의 CPT를 구한다고 가정하면, 다음과 같이 Maximum Likelihood Estimation 방법을 이용한다.

식을 보면 단순히 Counting만으로 W 노드의 CPT를 구하는 것을 볼 수 있다.(N는 경우의 수)

신고
by 에이아이 2009.10.10 12:04

범주형 변수 간의 연관성을 판단하기 위해서 카이제곱 검정을 사용한다.
(카이스퀘어 검정에 대한 참고자료 : 어떤 분의 블로그글 보기)

카이제곱 검정 후 연관성을 판단할 때 카이제곱 검정표를 사용하는데 아래에 추가하였다.
(대부분의 통계책 뒤에 부록으로 붙어있는데 자주 찾게 되어 그림으로 올려 두게 되었다. )

보통 책에서는 좌측부터 (알파)값을 시작하여 0부터 1로 향하는데, 아래 그림은 우측부터 (알파)값을 시작하였으니 혼동이 없기 바란다. 좌측을 기준으로 0.95 이지만 우측을 기준으로 하면 0.05 이다.

예를 들어, 자유도가 1 이고 신뢰도가 0.05 (우측0.95) 일 경우 기준값은 표에서 3.841 로 찾을 수 있다.

그런데, 만약 자유도가 39 이고  신뢰도가 0.05 (우측 0.95) 일 경우 기준값을 알고 싶다면...
표에서는 찾을 수 없다. (다른 책을 부록을 찾아봐도 마찬가지이다.)

그럴 때는 엑셀의 함수를 사용해서 구할 수 있다.
=chiinv(0.05, 1) 이라고 입력하면, 기준값 3.841 의 값이 나온다.
유의수준(신뢰도)이 0.05, 즉 5%이고 (좌측기준으로는 0.95 즉, 95% 이고) 자유도가 1일 때의 값이다.

거꾸로, 기준값을 알고 자유도를 알때, 해당하는 유의수준을 알고 싶다면 아래의 함수를 사용한다.  
=chidist(3.84, 1) 이라고 입력하면, 유의수준 0.05 (우측기준)의 값을 얻는다.

참고 엑셀 파일


참고자료 : http://www.statsoft.com/textbook/sttable.html#chi

사용자 삽입 이미지

신고
by 에이아이 2009.10.09 19:30

두 개의 범주형 변수 간의 관계(연관성)를 파악하는 방법을 설명한다.

몇 가지 활용 예
두 범주형 변수간의 연관성을 파악하는 것은 의미가 있다. 아래에 몇 가지 의미있는 예를 설명하였다.
[1] 성별에 따라 학력에 차이가 존재하는가?
[2] 흡연유무에 따라 얼굴 주름에 차이가 존재하는가?

분석 방법의 종류
두 범주형의 관계를 파악하는 분석 방법으로 아래의 2가지 방법을 사용할 수 있다.  
[1] 교차분석표 분석 ( <--- 기술통계 방법 )
[2] 카이제곱 분석 ( <---  추론통계 방법 )

이 글에서는 [1] 교차표 분석에 대해서 공부해보고자 한다.
SPSS에서 [분석] - [기술통계] - [교차표] 메뉴를 통해 이 기능을 지원하고 있다. 

예제 데이터

먼저 분석에 사용할 예제 데이터를 살펴보자.
위의 그림을 변수들에 대한 정의를 표시하며, 아래 그림은 데이터의 값들을 보여주고 있다.

데이터 파일도 첨부하였다.


사용자 삽입 이미지

사용자 삽입 이미지


분석 방법

[분석] - [기술 통계] - [교차표] 메뉴를 사용하여 분석을 수행한다.

사용자 삽입 이미지

옵션의 설정

Row(행), Column(열) 에 분석하고자 하는 두 개의 변수명을 각각 입력한다. (범주형만 가능함)


사용자 삽입 이미지


사용자 삽입 이미지


결과 분석

결과는 상단에는 텍스트 중심의 표 분석이 나타나고,
하단에 차트 그림이 나타난다.

먼저 텍스트 중심의 표 분석을 살펴보자.
맨 상단의 표를 통해, 전체 25개의 레코드 중에서 1개의 레코드에 결측치가 존재하여, 나머지 24개를 사용하여 분석을 수행하였음을 표시하고 있다.

두번째 표를 살펴보면, 남성의 경우 중졸/고졸/대졸의 비율 분포가 20%/40%/40% 이고
여성의 경우 중졸/고절/대절의 분포 비율이 28.6%/42.9%/28.6% 임을 볼 수 있다.
이를 통해 성별에 따라 학력에 차이가 존재함을 확인할 수 있다.

사용자 삽입 이미지
아래의 차트 그림을 통해서
성별로 교육정도에 차이가 나타남을 시각적으로 확인할 수 있다.

높이를 보기보다는 (레코드의 개수는 중요하지 않기 때문에)
차트의 형태의 차이를 보는 것이 의미가 있다.
사용자 삽입 이미지
신고
by 에이아이 2009.10.05 17:37
| 1 2 3 4 ··· 6 |

티스토리 툴바