통계학이란?

통계학은 일상 생활에서 또 다양한 연구분야에서 꼭 필요한 매우 중요한 학문이다.

통계학은 간단히 얘기하면 데이터를 수집하고 이 데이터를 분석하여 미래를 예측할 수 있도록 하는 학문이다. 통계학은 꼭 통계학을 전공으로 하지 않더라도 다양한 분야에서 필요로 하는 분야이므로 대부분의 대학의 학과에서 필수과목으로 개설하고 있다. 

공학분야를 연구한다면 다양한 분석방법의 기초가 되기 때문에 중요하다. 인문학,사회학 등을 공부하는 경우에도 주장하고자 하는 내용을 증명하기 위하여, 논문을 쓰기 위하여 통계학을 이해와 활용은 꼭 필요하다.  

자세한 방법을 설명하기에 앞서 먼저 분석 방법을 크게 나누어본다면 기술통계와 추론통계로 구분될 수 있다.  

 * 기술통계 - 수집된 데이터를 요약하고 기술하는 것이다.  
 * 추론통계 - 데이터의 기술에서 한걸음 더 나아가, 현상에 대한 추론을 도출한다.

통계학에서 지원하는 분석 방법들은 매우 다양하다. 아래에 주된 분석방법들을 설명한다. 각 내용에 대해서 알고싶다면 항목의 오른쪽의 링크를 클릭하면 자세한 설명을 볼 수 있다. 

[1] 표본조사 (상세보기)
[2] 데이터 및 변수 (새롬정보)
[3] 기초 통계 분석 (새롬정보)
[4] 카이 검증 (새롬정보)
[5] 독립성 검증 (상세보기)
[6] 차이 검증 (새롬정보)
[7] 분산분석 (ANOVA) (새롬정보)
[8] 공분산분석 (ANCOVA) (새롬정보
[9] 다변량분산분석 (MANOVA) (새롬정보)
[10] 상관관계 분석 (새롬정보)
[11] 회귀분석 (상세보기) (새롬정보)
[12] 요인분석 (상세보기) (새롬정보)
[13] 군집분석 (상세보기)
[14] 생존분석 (상세보기)
[15] 판별분석 (상세보기)
[16] 다차원척도법 (상세보기)

별도로 연구한 통계 분석

통계 및 데이터마이닝 공부를 하면서 정리한 내용들을 아래에 정리한다. 

간단하게 정리한 통계 개념들 (바로가기)

[1] 다중공선성 (Multicollinearity)     
     - 다중공선성의 개념 설명 (상세보기)
     - SPSS를 이용한 다중공선성의 진단 (상세보기)

[2] 고유값과 고유벡터
      - 고유값과 고유벡터의 개념 설명 (상세보기)   
      - 고유값, 고유벡터을 계산하는 방법 (상세보기)

[3] 요인분석 (Factor Analysis)
     - 요인분석의 개념 설명 (상세보기)
     - 설문분석에서의 요인분석 수행 예제 (상세보기)
     - SPSS 에서의 요인분석 수행 단계 설명 (상세보기)
     - SPSS 에서의 요인분석 수행 결과 설명 (상세보기)

[4] 상관분석 (Correlation Analysis)

[5] 회귀분석 (Regression Analysis)
      - 회귀분석의 개념 설명 (상세보기)

[6] 카이제곱 검정 (Chisquare test)
     - 카이제곱 검정표 사용 방법 (상세보기)

[7] 정규분포 (Normal Distribution) 
    - (표준)정규 분포의 개념 설명 (상세보기)
    - 표준정규분포표 참고 (상세보기)

[8] t-검정 
    - 두 집단의 평균 값의 차이가 있는지를 판단한다. (상세보기)
    - 예를들어, 두 집단의 사람들이 있는데 이들의 키의 차이가 있는가를 판단할 때 사용한다.

[9] F-검정
    - 두 모집단의 분산의 차이를 판단하기 위한 검정 방법이다. (상세보기)
    - t-검정이 두 집단의 평균의 차이를 검정하는 것에 반해, F-검정은 분산의 차이를 검정한다.
    - 두 표본집단의 분산 값과 레코드수 만ㅇ

[10] 유의수준(확률), P-value의 의미 
      - 통계 검정을 수행하면 유의수준의 결과값을 얻게 된다. 이 값의 의미는? (상세보기)

[11] 교차표 분석 (상세보기)

[12] 신뢰도 평가척도 : Cronbach's α(Alpha)
      - [크론바하 알파] (상세보기)

[13] 모수통계학과 비모수통계학 (Parametric vs Nonparametric) 
      - 상세보기 : http://ai-times.tistory.com/472

통계 분석 프로그램

통계 분석을 위한 많은 프로그램들이 존재합니다. 대부분의 유명한 프로그램들은 유료 프로그램이고, 무료로 얻을 수 있는 프로그램들도 있습니다.

프로그램 리스트

 [1] SPSS Statistics 
 [2] SAS 프로그램  
 [3] R 프로그램
 [4] AMOS 프로그램

SPSS Statistics 프로그램

가장 시장 점유율이 높고, 인기있는 통계 프로그램입니다.  유료 프로그램이므로 구입하기에는 좀 부담되는 프로그램입니다. 그래도 데이터 분석을 전문적으로 한다면 구입해야하겠지요. 대학생이라면 학교에서 실습수업을 위해 구입하여 실습실에 설치한 곳이 많으니 실습실에서 사용하면 될 것 같습니다.  

집에서 사용해보기를 원한다면 평가판을 구해서 연습해볼 수도 있겠습니다. SPSS 세미나에 참석하면 평가판 CD을 받을 수 있습니다. (아마 일주일 기간으로 한정된 평가판일겁니다.)

SAS 프로그램

SPSS 다음으로 많이 사용되는 프로그램입니다. 유명한 통계회사이고 프로그램이므로 SAS 라는 이름을 아마도 많이 들어보셨을 거라 생각됩니다.  유료 프로그램이라서 개인적으로 구입하기에는 좀 부담스러운 프로그램입니다.

R 프로그램 (무료)

R프로그램은 연구용으로 개발되고 있는 통계 프로그램으로 무료로 제공되고 있습니다.
통계 프로그램 R을 다운로드 할 수 있는 홈페이지 정보는 아래와 같습니다.  
홈페이지 : http://www.r-project.org/
다운로드 : [한국서버] http://bibs.snu.ac.kr/R/bin/windows/base/old/

AMOS(구조방정식 프로그램)

구조방정식을 위한 대표적인 프로그램인 AMOS 7.0 을 다운로드 하는 방법을 알려드립니다.

아래의 사이트에 방문하여 학생용(평가용)으로 프로그램을 무료로 다운로드할 수 있으며, 동영상 강좌되고 있으니 AMOS를 공부하는 분들에게 도움이 될 것 같습니다.

AMOS  student version 사이트  

* 프로그램 및 매뉴얼 다운로드 사이트 : http://www.amosdevelopment.com/download/index.htm
* 사용방법 동영상 강좌 사이트 : http://www.amosdevelopment.com/video/index.htm 



통계학 관련 카페, 블로그 및 사이트들

새롭정보통계
통계 컨설팅 회사인데 통계분석기법 들에 대해서 자세하게 설명하고 있음.
http://serom.com.ne.kr/

http://cafe.daum.net/statstory
통계관련 좋은 자료들을 많이 제공하고 있음.

http://www.statedu.com
통계 컨설팅 사이트

http://www.mediver.com/bbs/view.php?id=stat&no=105
통계관련 강좌 (회귀분석)

활용통계 마니아 <네이버 블로그>
통계학, 마이닝 등 연구하시는 어떤 분의 블로그
http://blog.naver.com/dev000

통계 관련 <네이버 블로그>
네이버 들어와서 상단의 [블로그] 메뉴 누르면 좌측에 분석방법 분류됨.
SPSS, Stata 등의 프로그램을 활용하여 여러 분석 방법들을 자세히 설명함.
http://blog.naver.com/entopic

Statisticslady <네이버 블로그>
http://blog.naver.com/brown924
http://blog.naver.com/miokid?Redirect=Log&logNo=2191779 기초 통계 지식
http://blog.naver.com/miokid?Redirect=Log&logNo=2191779 다중공선성 탐색

세상의 모든 데이터와 숨겨진 분석방법을 위하여 <야후 블로그>
http://kr.blog.yahoo.com/skk1991

통계학을 연구하시고 강의하시는 분 <네이버 블로그>
강의 교안 등이 잘 나와 있음.
http://blog.naver.com/dusal0814

사회복지전공하시는 분 블로그 통계학 정리
http://blog.naver.com/seahawk00?Redirect=Log&logNo=130015880594


'통계분석' 카테고리의 다른 글

통계 기법 정리  (0) 2009.07.15
by 에이아이 2009.07.15 10:45


이런 교회 되게 하소서  - 소리엘

아래 블로그 글을 클릭하시면 노래를 들을 수 있습니다.

http://blog.daum.net/dbdheldk/6863736

nwc 악보 파일입니다.


by 에이아이 2009.07.14 18:35

다중공선성 이란?

데이터분석 시 영향을 주는 다중공선성에 대하여 정리해보았습니다. 다중공선성은 데이터의 입력변수들 간에 상관성이 존재하는 특성으로 회귀분석 등 통계분석에서 부정적인 영향을 미치는 것으로 알려져있습니다.

데이터마이닝의 결정트리 등의 분석에서도 아직까지 충분한 연구가 이루어지지는 않았지만 영향을 주는 것으로 평가됩니다. 아래의 글에 다중공선성의 정의, 문제점(영향), 해결방법 등에 대해서 정리해보았습니다.
http://blog.daum.net/data_mining/90


다중공선성을 측정하는 방법

입력 데이터에 다중공선성이 얼마나 강하게 존재하는가를 파악하는 것이 필요합니다. 
다중공선성을 진단하는 수식으로는 VIF, Tolerance, CN (Condition Number) 등이 있습니다.
아래에 각 방법에 대한 자세한 설명을 추가하였습니다. 상세보기를 클릭하세요.

[상세보기] VIF 측정 방법  (Variation Inflation Factor, 분산 팽창 인자)
[상세보기] Tolerance 측정 방법 (공차한계) (참고글 : 공차한계, 더빈왓슨 SPSS 수행)
[상세보기] CN 측정 방법  (Condition Number)
[상세보기] Eigen Value 측정법


SPSS 를 통한 다중공선성 (VIF, Tolerance, CN) 측정 방법

SPSS 프로그램을 사용하여 주어진 데이터에 대한 측정을 할 수 있습니다.
자세한 방법을 단계별로 설명하였으니 여기 를 클릭하여 참고하기 바랍니다.


다중공선성을 해결하는 방법

다중공선성으로 인해 발생하는 문제를 해결하는 방법은 크게 3가지 접근방식으로 구분될 수 있다.

(1) 데이터의 전처리
(2) 알고리즘의 보완
(3) 결과모델의 해석 방법의 개선

(1) 데이터의 전처리 - 변수들 간의 상관성(다중공선성)을 측정하여 상관성이 존재하는 변수 중 일부를 선택(다른 변수들은 제거)하는 방법을 사용한다. 또는 새로운 변수를 생성하는 방법도 있다. 요인분석(Factor Analysis)를 사용하여 새로운 변수를 생성할 수 있다.

(2) 알고리즘 자체를 보완하는 방법이다. OLS 회귀분석을 대표적인 예로 들 수 있다.

(3) 다중공선성의 문제를 해결하기 위해 특별한 조치를 취하지 않는다. 다만, 다중공선성을 고려하여 데이터를 해석한다면 해석에의 오류를 방지할 수 있다. 즉, 결정트리를 생성 후 그냥 해석하는 것이 아니라 입력 변수들의 상관성을 조사한 후 고려하여 트리를 보고 결론을 내린다.


다중공선성을 해결에 대한 여러 연구들

[1] Facing Multicollinearity in Data Mining - 본 논문에서는 데이터마이닝의 알고리즘들이 입력 데이터의 다중공선성에 어떻게 영향을 받는지 연구하였다.  

[2] Input Data for Decision Tree - 본 연구에서는 다중공선성 등의 입력 데이터의 특성이 결정트리 분석에 어떠한 영향을 미치는 지를 연구하였다.

참고할 만한 좋은 자료들

PCA 를 통한 다중공선성 해결  
http://blog.naver.com/count9560?Redirect=Log&logNo=90010540218 

다중공선성 VIF 구하는 방법 설명 (예제 사용하여 SAS로 분석한 내용 설명)
http://blog.naver.com/brown924/100031453734

데이터분석 관련 블로그 중 <다중공선성> 설명
http://kr.blog.yahoo.com/skk1991/754126

CN (Condition Number) 를 측정하는 방법 설명 (SAS를 사용하여) 
http://blog.naver.com/dusal0814?Redirect=Log&logNo=110030801794

아래 블로그 글에서는 VIF에 대해서 자세히 설명하고 있습니다. 
http://blog.naver.com/weblogic1?Redirect=Log&logNo=30033926666 

다중공선성의 측정방법 및 평가기준 정리
http://blog.naver.com/miokid?Redirect=Log&logNo=2191779


다중공선성을 설명하기 위해 작성한 PPT 파일 

아래 파일은 개인정리용으로 암호를 설정하여 두었습니다. 암호가 필요하다면 별도로 문의하세요.

 2009년 1월 25일 (정리용)  
(상관관계를 구하는 방법부터 다중공선성까지 자세히 정리함, 더빈왓슨 구하는 방법도 설명함)
 2009년 1월 29일 (보고용)  
(정리용 파일에서 내용을 축소하였음)



 

 


by 에이아이 2009.07.13 22:06

주성분분석 및 요인분석을 공부하는 중에
고유값과 고유벡터 개념이 필요하여 정리해보았습니다.

고유값(Eigen value) 과 고유벡터(Eigen Vector) 가 무엇인지?
그리고 주어진 행렬에 대하여 답을 구하는 절차를 정리하였습니다.  

http://blog.daum.net/data_mining/93

* 다음 블로그에서 티스토리로 이사중입니다.



by 에이아이 2009.07.13 21:50

[DVD] You are Special 의 주제 음악입니다.



DVD 케이스에 적혀있는 내용으로 이 애니메이션을 소개합니다.  

A Story about Selft-Worth ( Max Lucado 맥스 루케이도)
맥스루케이도의 유명 수상작, 어린이 베스트 셀러 책을
3-D 애니메이션으로 제작한 이 작품은 아무것도 잘 할 게 없는
펀치넬로가 다른 사람들의 평가나 시선과는 상관없이, 자신이
왜 세상에 단 하나뿐인 특별한 존재인지를 발견해가는
아름다운 과정을 그리고 있습니다.


작은 나무사람들은 서로에게 금빛별표나 회색점표를 붙이며 하루를 보냅니다.
재능있고 멋진 사람에게는 반짝반짝 빛나는 금빛별표를, 실수가 많고 볼품없는
사람에게는 초라한 회색점표를 붙여줍니다. 아무것도 잘 하는게 없는 주인공
펀치넬로는 태어나서 한 번도 금빛별표를 받아본적이 없고 온 몸에 회색점표만이
가득합니다. 그러던 어느 날, 루시아라는 친구를 통해 자신을 만든 엘리 아저씨를
만나게 되면서, 자신이 이 세상에 하나밖에 없는 특별하고
소중한 존재라는 것을 깨닫게 됩니다.
"나는 나라는 이유만으로 아주 특별한 사람이야!"


미국 네트즌들의 찬사!
세상에 어린이들이 꼭 봐야할 애니메이션이 있다면, 바로 이 이야기이다.
놀랍다-눈시울이 붉어지는 아름다운 결말
작은 이야기에 담긴 깊은 메시지
어린이 뿐만 아니라 어른에게도 감동을 주는 훌륭한 작품이다.

공개된 영상이 있어서 주소를 연결합니다. ( 애니메이션 보기 )

by 에이아이 2009.07.13 20:43
by 에이아이 2009.07.13 20:33
티스토리 블로그를 개설하였습니다.

초대장을 보내주신 분께 감사하네요.

관리 방법이 익숙하지 않아 아직은 좀 사용이 불편하지만 ...

곧 익숙해 질거라 생각됩니다.

아직은 잘 모르겠지만 다른 블로그보다 기능이 좋은 것 같습니다.

'' 카테고리의 다른 글

영양이 죽은체 하다가 탈출하는 동영상  (0) 2009.08.29
티스토리 블로그 개설^^  (0) 2009.07.12
by 에이아이 2009.07.12 12:51