참고1 : http://hoksi.com/Standard_Normal_Distribution_Table.htm
참고2 : http://www.statsoft.com/textbook/sttable.html#z

정규분포에 대한 개념 설명 : http://tong.nate.com/jinkwan5/49693374
표준정규분포에 대한 설명 : http://blog.naver.com/at3650?Redirect=Log&logNo=40066177242
6 Sigma : http://blog.naver.com/noijws?Redirect=Log&logNo=130035107783

엑셀로 만든 표준정규분포표

사용자 삽입 이미지

위의 표는 중앙을 기준으로 했을 때의 너비를 가지고 작성한 표입니다.

반면 아래와 같이 좌측 끝을 기준으로 했을 때의 너비를 가지고 작성한 표의 내용입니다.

사용자 삽입 이미지


by 에이아이 2009. 10. 11. 18:51

출처(번역) : http://blog.naver.com/omega71/50007604090
출처(원문) : http://people.cs.ubc.ca/~murphyk/Bayes/bayes.html

아래 내용은 A Brief Introduction to Graphical Models and Bayesian Networks 에서 번역하고, Gurugail.com의 GGOP(Virtual Dog) 프로젝트에 맞추어 수정, 요약한 것입니다.

Bayesian Network는

"확률 이론과 그래픽 이론의 결합으로 이루어진 그래픽 모델(Graphical Models)"

이라고 짧게 표현될 수 있다. 그래픽 모델의 기본적 아이디어는 복잡한 시스템을 간단한 모듈로서의 구성을 그래프적으로 표현이 가능하다는 특징이 있다. 그럼으로써 그 모듈이 어떻게 서로 연관성을 가지는지를 확률적 이론에 기반하여 표현이 가능하며, 하나의 모듈은 노드(Node)로써 표현이 가능하며, 모듈간의 관계는 호(Arc)로 표현된다. 그래픽 모델은 방향성(Directed or Undirected)이나 노드의 순환성(Cyclic or nonCyclic)에 따라서 HMM(Hidden Markow Models), FA(Factor Analysis), Kalman Filters 등 여러 가지가 있으며, 그 중 하나가 Baysian Network이다.


I. BN의 그래픽 표기법(Representation)

그래픽 모델에서, 노드는 랜덤 변수(Random Variables)를 나타내며, 호는 노드들간의 관계성을 가리킨다. 중요한 사실은 그래픽적 표현만으로 Fully Joint Probabilty Distribution의 표현이 가능하다라는 것이다. 이는 다시 말해, BN으로 표현이 되면, 랜덤 변수의 모든 조합으로 구성된 확률 분포도를 알 수 있다라는 말이다.

BN는 그래픽 모델 중에서 방향성이 있으며, 비순환의 그래픽 모델을 말한다. 줄여서 DAG, (Directed ACyclic Graph)라고 한다. 아래 간단한 예제 BN을 살펴보자. BN의 설명에서 종종 등장하는 예제이다. 잔디(WetGrass)가 젖을 경우는 스프린클러(Sprinkler)가 동작하거나 비가 오거나의 경우를 BN으로 표현한 것이다. 아래 예에서 "날씨가 흐릴 때 비가 올 확률", 즉 P(R=T| C=T) = 0.8이다.

 

어떤 상황을 BN으로 구성하기 위해서는 위와 같은 경우처럼,

1. 시스템을 표현할 수 있는 노드 구성
2. 노드와의 연결성 (Arc 구성)
3. 확률 테이블(CPT) 구성

하면 모든 것이 끝난다. 단, 중요한 사실은 노드간의 조건부 독립(Conditional Indendence)의 특성을 부여하면서 구성해야 된다는 사실이다. 조건부 독립을 확인하기 위한 D-seperation 알고리즘?도 있고, 복잡도 하지만 간단히, 제 생각으로는 적어도 Virtual Dog에서 느낌상으로 조건부 독립적으로 노드를 구성하면 OK이다. 위의 예에서는 스프린쿨러(S)가 동작할 경우와 비가 올 경우는 흐린날(C)이라는 조건에서 서로 조건부 독립이다.

위와 같은 BN이구성되면, "잔디가 젖었을 때(W), 스프린쿨러(S)가 동작하였을 확률"을 아래 식처럼 직접 계산할 수 있다. CPT에 직접적으로 표현이 되지 않았지만, 추론이라는 Method에 의해 표현(계산, 추측, 추론)될 수 있는 것이다.


다른 모든 경우도 수식으로 계산이 가능한 것이다. 다만 직접 계산을 할 경우 기하급수적으로 계산량이 증가하기 때문에, Approximation 방법을 이용하기도 한다고 한다. 계산 방법은 이 문서에서는 생략하고, 다만 그냥 개념만 이해하고 갔으면 한다. 하나 더 추가할 개념은 여기서 W가 Evidence가 되고 S가 Query가 되는 셈이며( 잔디가 젖었다는 사실을 알고, 그에 상응하는 S의 확률을 쿼리), 이런 식의 계산을 Bottom-up reasoning 이라고 한다.

II. 추론(Inference)

BN에서 추론이란 무엇일까, 어떤 의미를 추론이라고 할까? 위에서 잠깐 언급한 Evidence와 Query를 먼저 이해해야 한다. BN에서 추론이란 "알고 있는 확률변수를 이용해서 원하는(알고자 하는) 확률값을 구하는 과정"이라 할 수 있다. 위의 과정이 바로 추론과정이다. 위 그림의 BN에서는 Casuality(원인 -> 결과)에 따른 확률값은 표현이 되어 있고(CPT), 위 수식과 같이 "잔디가 젖었을 때(W), 스프린쿨러(S)가 동작하였을 확률"은 CPT를 이용해 바로 구할 수는 없다. 그럼으로 계산이나 Approximation 방법 등을 이용한 추론을 해야 한다. 물론 어떻게 보면 확률 계산에 불과하지만, 그러한 계산이 노드에 따라서 기하 급수적으로 증가하기 때문에 여러 가지 추론 알고리즘이 있다. (Variable Elimination, Dynamic Programming, Approximation Algorithms, etc)


1. Variable Elimination

추론을 하는 방법 중의 하나이다. 기본 생각은 추론을 원하고자 하는 식을 CPT의 Factored Representation으로 표현하는 것이다. 그것은 관계 없는 변수에 대한 경우의 합계 표현으로 가능하다. 설명이 잘 이해가 되지 않을 것이다. ^^; 고등학교 때 배운 확률을 잘 생각해보자. Joint Probability에서 랜던 변수 X, Y가 있고, Y는 Boolean Variable이라고 가정하면

P(X=i) = P(X=i, Y=false) + P(X=i, Y=true) 인 것이 생각이 나는지... 아무튼 이와 같은 원리와 그리고 Bayes 이론을 사용해서 확률값을 구하는 방법론이 Variable Elimination이다.


WetGrass(P(W=true))인 확률을 구하기 위해서 위와 같은 단계를 거치면, 결국 CPT에 있는 확률값들을 이용해서 구할 수 있는 것이다. 왜 이 방법이 "변수 제거(Variable Elimination)"인지는 확률값을 구하기 위해서는 Innermost가 우선적으로 구해지고, 그에 따라 Summation 되는 변수(c,s,r) 등이 차례로 구해지는 과정에서 생긴 이름으로 생각된다.

III. 학습(Learning)

BN에서 학습이란, 주어진 학습 데이타를 이용하여, 그래프의 Topology를 구성하는 것과 CPT(Conditional Probability Table)을 구성하는 것을 말하며, 그래프의 Topology를 구성하는 것이 CPT를 구성하는 것보다 어려운 작업이다. 데이터 혹은 그래프에 따라 조건별 학습 방법은 아래와 같다.

Structure
Observability
Method
Known Full Maximum Likelihood Estimation
Known Partial EM (or gradient ascent)
Unknown Full Search through model space
Unknown Partial EM + search through model space

1. Structure가 Known이며, 학습 데이터도 Full Observability할 경우의 예
(Maximum Likelihood Estimation)

이와 같은 경우도 그래픽의 구조나 CPT를 구하기 위한 모든 학습 데이터가 주어지기 때문에 단순 Counting으로 추측할 수 있다. 가령 위 그림에서 W 노드의 CPT를 구한다고 가정하면, 다음과 같이 Maximum Likelihood Estimation 방법을 이용한다.

식을 보면 단순히 Counting만으로 W 노드의 CPT를 구하는 것을 볼 수 있다.(N는 경우의 수)

by 에이아이 2009. 10. 10. 12:04

축적돼 있는 데이터로부터 일정 패턴을 찾아 미래를 예측한다면 어떤 효과가 있을까?’

이런 생각에서 출발한 것이 데이터마이닝이다.

다시 말해 데이터마이닝이란 대량의 데이터에 함축적으로 들어있는 지식이나 패턴을 찾아내는 기술이라고 정의할 수 있다. 데이터마이닝기술은 백화점에서 물건을 진열할 때 고객의 움직임(동선)을 줄이는 데 활용하는 것은 물론 고객의 구매패턴을 예측해 소비자가 살 물건의 쿠폰을 발행함으로써 판매 유인책으로도 사용될 수 있다. 기업마케팅이나 생명공학·스포츠산업·인터넷 등 실로 방대한 분야에 적용가능한 것이 바로 데이터마이닝인 셈이다.

그러나 데이터마이닝은 방대한 성격에 비해 역사는 이에 미치지 못한다. 그야말로 일천하다. 통계학·산업공학·전자공학·경영정보학이 데이터마이닝의 기반을 이룬다고 하지만 외국에서도 데이터마이닝에 대한 본격적인 연구가 시작된 것은 불과 10년을 넘지 않는다.

국내도 상황은 마찬가지다. 지난 97년 데이터마이닝 연구회 발족을 국내 데이터마이닝의 시초라고 한다면 채 5년이 되지 않는 셈이다.
홍익대 지원철 교수(46)가 97년 정보통신부 국책과제인 ‘데이터웨어하우스 기반의 데이터마이닝 소프트웨어 개발’이라는 과제를 수행하면서 관련 교수진이 결성한 데이터마이닝 연구회는 출발은 늦었지만 국내 학계 발전의 단초역할을 했다는 점에서 높이 살만하다. 당시 데이터마이닝 연구회는 20회에 걸쳐 정기 월례 세미나 및 워크숍을 개최, 국내 데이터마이닝 연구에 대한 관심을 불러일으키는데 지대한 공헌을 했다는 분석에서다.

이 데이터마이닝 연구회는 한국데이터마이닝학회로 이어지면서 현재까지 국내 데이터마이닝 연구·발전의 중추역할을 하고 있다.

한국데이터마이닝학회 회장으로 활동중인 전종우 서울대 교수(54)는 국내 데이터마이닝학계의 선구자로 통한다. 서울대 출신으로 플로리다주립대에서 통계학 박사학위를 취득, 현재 서울대 통계학과 교수로 재직중인 전 교수는 특히 ‘통계학 관점에서의 데이터마이닝’을 시도하며 국내 데이터마이닝학계를 이끌어오는데 산파역할을 한 인물로 평가받고 있다.

전 교수와 함께 국내 데이터마이닝학계에서 빼놓을 수 없는 인물이 김병천 KAIST 경영정책학과 교수(50)다. 김 교수 역시 아이오와 주립대학에서 통계학 박사 학위를 취득한 이후 통계학의 다양한 이론을 데이터마이닝에 접목하는데 노력하고 있다. 지금은 한국데이터마이닝학회 부회장으로 활동중이다.

연세대 이일병 교수(49)와 중앙대 이용구 교수(48)도 국내 데이터마이닝학계의 빼놓을 수 없는 인물로 꼽힌다. 지난 76년 연세대 전자공학과를 졸업하고 일리노이주립대학과 메사추세츠대학에서 각각 컴퓨터공학 석박사 학위를 취득한 이일병 교수의 주 연구분야는 웹 마이닝과 바이오메트릭스. 국내 학술지에 게재된 논문만 20편이 넘으며 해외 게재 논문 및 학회 발표 논문도 30편에 이른다. 저술활동도 활발해 미래산업리포트21, 인공지능 이론 및 실제, PC+, 컴퓨터과학개론, 마음·계산 그리고 언어 등 다수의 서적을 남겼다. 그는 이외에도 한국데이터마이닝학회 부회장으로 활동중이며 한국언어정보학회, 한국정보과학회, 한국 퍼지 및 지능시스템학회 이사로도 활약하고 있다.

이일병 교수는 앞으로 통계적 데이터분석방법 개발, 지능적 데이터분석방법 개발, 통계적 일반성 추출방법 개발, 혼합형 통합모형 개발, 3차원적인 데이터 및 마이닝 결과 분석도구 개발 등 다양한 분야에서 왕성한 연구의욕을 불태울 계획이다.

고려대 경제학과를 거쳐 미국 미네소타주립대학에서 통계학 박사를 취득, 현재 중앙대 응용통계학과 교수로 재직중인 이용구 교수는 ‘데이터솔루션 이사’라는 또다른 명함을 갖고 있다. 평소 ‘데이터마이닝이란 관측한 대용량의 데이터로부터 유용한 정보를 추출해 실제 의사결정에 활용될 수 있는 방법을 연구하는 것’이라며 ‘학자들의 책상에서 나오는 결과가 아니라 실제로 기업이 적용해 이익을 창출할 수 있는 실질적인 모형을 구하는 것이 중요하다’고 강조하던 이 교수의 지론에서 산업계에도 몸을 담은 것이다.

향후 주력할 연구분야 역시 이 교수의 지론과 맥을 같이한다. 주로 데이터에서 정보를 구하는 방법인 다변량분석·신경망모형·나무구조모형 등에 대한 이론적 연구에 몰입해 왔으나 앞으로는 기업 의사결정에 활용가능한 실용적인 데이터마이닝 모형개발에 전력할 계획이다.

마케팅조사분석론·마케팅조사통계분석 등을 저술한 이용구 교수는 ISI 2001 세계대회 조직위원회 위원, IASE(통계교육상담위원회) 2001 콘퍼런스 준비위원회 위원장을 맡고 있는 등 대외활동에서도 활약세가 두드러진다.

서울대 경영학과 출신인 지원철 교수는 대림산업에 근무하면서 KAIST에서 산업공학 석사 학위를 취득, 83년부터 줄곧 홍익대 정보·컴퓨터공학부 교수로 재직중이다.

지 교수는 97년 한국과학재단 중점과제연구회 데이터마이닝연구회장과 제1회 데이터마이닝 워크숍 조직위원장을 역임한 데 이어 이제까지 한국경영과학회 데이터마이닝 연구회장, 한국데이터마이닝학회 부회장을 담당하는 등 왕성한 대외활동을 보여주고 있다.

그의 주요 관심사는 데이터마이닝의 산업계 접목이다. 국내 금융분야에 데이터마이닝을 활용하는 연구 및 프로젝트를 수행중인 지 교수는 특히 기업과 개인의 신용평가 및 부도예측문제, 신용카드의 부정사용방지시스템 개발, 각종 스코어링시스템의 개발 및 인공지능을 활용한 시계열 예측문제 등에 높은 관심을 보이고 있다. 97년 정보통신부 과제를 수행하면서 ‘iBITs’라는 데이터마이닝 소프트웨어를 국내 처음으로 개발, 99년 프로그램 등록을 마친 데 이어 95년부터 2년간 포항제철의 ‘신경망을 이용한 품질설계시스템’을 개발한 바 있는 지 교수는 앞으로도 연관규칙 관련 연구결과를 시계열 분석에 적용하는 등 다양한 분야 연구를 시도할 예정이다.

국민대 정보관리학부 이춘열 교수(46)도 데이터마이닝학계를 움직이는 대표적인 학자다.

서울대 산업공학과를 졸업하고 서울대 경영학 석사, 미시간대 경영정보학 박사 학위를 보유한 이 교수는 한동안 국방정보체계연구원 연구원으로, 한국통신 소프트웨어연구소 선임연구원으로 활동하는 등 화려한 이력의 소유자이기도 하다.

이 교수는 데이터 정제 및 변환시 고려돼야 할 사항, 이를 위한 메타정보의 효과적인 관리환경에 대해 집중 연구할 계획이다. 특히 데이터 정제 여부가 마이닝 결과에 미치는 영향에 높은 비중을 두고 있다.

성신여대 컴퓨터정보학부 박종수 교수(45)는 연관규칙 및 순차패턴 탐사, 클러스터링 분야에서 전문가로 통한다.

‘두 개의 선택 알고리듬의 설계 및 분석과 결합 연산에의 응용’이라는 주제로 KAIST에서 박사 학위를 취득한 박 교수는 최근에는 웹로그 파일에서 사용자들의 행동 특성을 알아내는 순차패턴, 클러스터링에 관한 알고리듬을 분석·연구하는데 심혈을 기울이고 있다. 아울러 알고리듬을 모듈별로 개발해 향후에는 통합시스템으로 구성한다는 계획도 갖고 있다.

대외활동도 활발히 해 한국경영과학회 데이터마이닝 연구회 발족에 참여했으며 한국정보과학회 데이터베이스연구회 1998·2000 춘계 튜토리얼을 개최하기도 했다.

서울대 산업공학과 조성준 교수(42)도 기업의 비즈니스 프로세스와 데이터마이닝 접목을 강조하는 학자로 손꼽힌다. 일례로 SK(주) 데이터마이닝 교육을 담당했는가 하면, CRM에서의 데이터마이닝 응용기법, 데이터마이닝 기반의 트레이딩시스템 개발에 앞장서고 있다. 조 교수가 앞으로도 연구를 집중하고 싶은 분야는 데이터마이닝 기반의 선물 트레이딩 시스템 개발로 압축될 전망이다.

서울대 산업공학과 출신인 조 교수는 워싱턴대와 메릴랜드대에서 각각 컴퓨터과학 석박사 학위를 취득했다. 해외 학술저널에 24편, 학술대회에 58편의 논문을 발표하며 왕성한 연구열을 보이고 있는 조 교수는 특히 신경회로망을 이용한 데이터마이닝, 앙상블 학습 알고리듬 및 이상탐지, CRM과 금융트레이딩시스템이 주 관심영역이다. 신경회로망과 관련해서는 지난해 11월 미국 특허를 받기도 했다.

젊은 신예교수들도 눈에 띈다.

한국외국어대학교 최대우 교수(39)는 데이터마이닝 커뮤니티 사이트인 ‘데마귀( http://www.freechal.com/delpa)’를 운영하는 것으로 유명하다. 그만큼 현실세계에서 데이터마이닝 확산에 기여하고 있는 것.

최 교수는 서울대 계산통계학과와 미국 루거스대 박사 출신으로 확률부등식과 잠재특성모형을 전공했다. 지금은 분류학과 마이크로어레이 데이터 분석(DNA 칩 분석)에 관심을 갖고 연구중이다. 7, 8월 두 달간 포항공대에서 ‘데이터마이닝을 근간으로 한 DNA 칩’을 연구하며 한여름 더위를 잊고 있다.

한국분류학회 총무에 이어 한국데이터마이닝학회 학술이사, 한국통계학회 응용통계연구 편집위원으로 활동중인 최 교수는 BC카드·SK텔레콤·제일은행·데이콤·동원증권 등 국내 유수기업의 데이터마이닝 컨설팅 전문가로도 맹활약하고 있다.

KAIST 전산학과 심규석 교수(39)도 국내 데이터마이닝학계 발전의 일등공신으로 꼽히는 인물이다. 지난 85년 과학기술처 주관 컴퓨터 경진대회에서 상공부 장관상과 문교부 장관상을 수상한 심 교수는 박사과정 유학도 국비로 다녀온 수재로 통한다.

특히 심 교수는 전세계적으로 데이터마이닝의 파이어니어로 꼽힐 정도로 대단한 경력을 갖고 있다. 메릴랜드대학에서 ‘관계형 데이터베이스에서 쿼리 최적화 기술’로 박사 학위를 받은 심 교수는 데이터마이닝의 산실인 IBM 알마든 리서치랩에서 ‘Quest 프로젝트’라는 세계 최초의 데이터마이닝 프로젝트에 참여했다. 또 현재 IBM에서 판매하고 있는 ‘인텔리전트 마이너’라는 데이터마이닝 SW의 코어엔진을 개발했으며 벨연구소의 ‘세렌딥 데이터마이닝 프로젝트’에도 초기 멤버로 참여한 바 있다.

심 교수는 전세계적으로도 실력을 인정받아 현재 데이터마이닝 분야에서 세계적으로 권위있는 국제 학술그룹인 ACM SIGKDD 회원이며 국제 학술지인 VLDB 저널의 편집자로도 활동하고 있다.

지난 겨울에 이어 올 여름 미국 마이크로소프트 연구소에서 차세대 XML 소프트웨어를 개발하고 있는 심 교수는 앞으로 대용량 데이터에서 마이닝을 적용하는 방법과 웹 마이닝, 확장성표기언어(XML)와 마이닝 접목에 힘을 실을 계획이다.

이밖에 이화여대 용환승 교수, 서울대 이영조 교수 등도 국내 데이터마이닝학 발전에 버팀목이 되고 있다.

이들 교수진의 노력 덕택에 국내 데이터마이닝 기술도 나날이 발전하고 있지만 풀어야 할 숙제가 많은 것 또한 사실이다. 데이터마이닝이 단순히 실험실 연구 수준이었다면 이제는 일상생활속으로 들어가야 한다. 데이터마이닝분야에서 개발된 복잡한 알고리듬이 단지 연구로서만이 아니라 실생활에 유용한 기술로 거듭나야 한다는 얘기다.

이를 위해 산업계에서는 실 데이터를 제공하고 학계에서는 여기에 바탕을 둔 효율적인 알고리듬을 개발하는 형태의 활발한 산학 교류가 절실하다. 이것만이 한국의 실정에 적합한 데이터마이닝 도구를 개발하고 세계적인 경쟁력을 확보할 수 있는 첩경이기 때문이다.

아울러 100년이 된 통계학과 이제 막 태생한 데이터마이닝이 조화를 이루는 것도 학계가 풀어야 할 숙제다.

<정은아기자 eajung@etnews.co.kr>

by 에이아이 2009. 10. 9. 19:41

범주형 변수 간의 연관성을 판단하기 위해서 카이제곱 검정을 사용한다.
(카이스퀘어 검정에 대한 참고자료 : 어떤 분의 블로그글 보기)

카이제곱 검정 후 연관성을 판단할 때 카이제곱 검정표를 사용하는데 아래에 추가하였다.
(대부분의 통계책 뒤에 부록으로 붙어있는데 자주 찾게 되어 그림으로 올려 두게 되었다. )

보통 책에서는 좌측부터 (알파)값을 시작하여 0부터 1로 향하는데, 아래 그림은 우측부터 (알파)값을 시작하였으니 혼동이 없기 바란다. 좌측을 기준으로 0.95 이지만 우측을 기준으로 하면 0.05 이다.

예를 들어, 자유도가 1 이고 신뢰도가 0.05 (우측0.95) 일 경우 기준값은 표에서 3.841 로 찾을 수 있다.

그런데, 만약 자유도가 39 이고  신뢰도가 0.05 (우측 0.95) 일 경우 기준값을 알고 싶다면...
표에서는 찾을 수 없다. (다른 책을 부록을 찾아봐도 마찬가지이다.)

그럴 때는 엑셀의 함수를 사용해서 구할 수 있다.
=chiinv(0.05, 1) 이라고 입력하면, 기준값 3.841 의 값이 나온다.
유의수준(신뢰도)이 0.05, 즉 5%이고 (좌측기준으로는 0.95 즉, 95% 이고) 자유도가 1일 때의 값이다.

거꾸로, 기준값을 알고 자유도를 알때, 해당하는 유의수준을 알고 싶다면 아래의 함수를 사용한다.  
=chidist(3.84, 1) 이라고 입력하면, 유의수준 0.05 (우측기준)의 값을 얻는다.

참고 엑셀 파일


참고자료 : http://www.statsoft.com/textbook/sttable.html#chi

사용자 삽입 이미지

by 에이아이 2009. 10. 9. 19:30
by 에이아이 2009. 10. 5. 17:50

두 개의 범주형 변수 간의 관계(연관성)를 파악하는 방법을 설명한다.

몇 가지 활용 예
두 범주형 변수간의 연관성을 파악하는 것은 의미가 있다. 아래에 몇 가지 의미있는 예를 설명하였다.
[1] 성별에 따라 학력에 차이가 존재하는가?
[2] 흡연유무에 따라 얼굴 주름에 차이가 존재하는가?

분석 방법의 종류
두 범주형의 관계를 파악하는 분석 방법으로 아래의 2가지 방법을 사용할 수 있다.  
[1] 교차분석표 분석 ( <--- 기술통계 방법 )
[2] 카이제곱 분석 ( <---  추론통계 방법 )

이 글에서는 [1] 교차표 분석에 대해서 공부해보고자 한다.
SPSS에서 [분석] - [기술통계] - [교차표] 메뉴를 통해 이 기능을 지원하고 있다. 

예제 데이터

먼저 분석에 사용할 예제 데이터를 살펴보자.
위의 그림을 변수들에 대한 정의를 표시하며, 아래 그림은 데이터의 값들을 보여주고 있다.

데이터 파일도 첨부하였다.


사용자 삽입 이미지

사용자 삽입 이미지


분석 방법

[분석] - [기술 통계] - [교차표] 메뉴를 사용하여 분석을 수행한다.

사용자 삽입 이미지

옵션의 설정

Row(행), Column(열) 에 분석하고자 하는 두 개의 변수명을 각각 입력한다. (범주형만 가능함)


사용자 삽입 이미지


사용자 삽입 이미지


결과 분석

결과는 상단에는 텍스트 중심의 표 분석이 나타나고,
하단에 차트 그림이 나타난다.

먼저 텍스트 중심의 표 분석을 살펴보자.
맨 상단의 표를 통해, 전체 25개의 레코드 중에서 1개의 레코드에 결측치가 존재하여, 나머지 24개를 사용하여 분석을 수행하였음을 표시하고 있다.

두번째 표를 살펴보면, 남성의 경우 중졸/고졸/대졸의 비율 분포가 20%/40%/40% 이고
여성의 경우 중졸/고절/대절의 분포 비율이 28.6%/42.9%/28.6% 임을 볼 수 있다.
이를 통해 성별에 따라 학력에 차이가 존재함을 확인할 수 있다.

사용자 삽입 이미지
아래의 차트 그림을 통해서
성별로 교육정도에 차이가 나타남을 시각적으로 확인할 수 있다.

높이를 보기보다는 (레코드의 개수는 중요하지 않기 때문에)
차트의 형태의 차이를 보는 것이 의미가 있다.
사용자 삽입 이미지
by 에이아이 2009. 10. 5. 17:37
관련기사 : [EPL] 이청용 ‘데뷔골’ 작렬

이청용선수가 프리미어리그 버밍엄시티와의 경기에서 데뷔 골을 터트렸습니다.

이청용(21. 볼턴 원더러스)은 26일 밤 11시(이하 한국시간) 잉글랜드 버밍엄의 세인트 앤드류스 스타디움에서 열린 2009~2010 잉글랜드 프리미어리그(EPL) 7라운드 버밍엄 시티와의 경기에 후반 9분 교체 투입되어 후반 41분에 자신의 시즌 1호골을 터뜨렸다.

by 에이아이 2009. 9. 27. 01:24

협력적 추천과 내용기반 추천을 결합하는 방식으로

많이 인용되는 FAB 추천 시스템에 대한 논문입니다.



by 에이아이 2009. 9. 24. 14:56
영국 볼턴의 리복 스타디움에서 열린 2009/2010 칼링컵 32강전 '볼턴 원더러스-웨스트 햄 유나이티드' 경기에서 이청용 선수가 요한 엘만데르의 세번째 골을 어시스트 하며 3:1 승리에 기여하였다.
볼턴은 이 경기에서 웨스트 햄에 3-1로 역전승하며 16강에 진출했다.

관련기사 : “공이 향하는 곳에 이청용 있었다”… 볼턴 감독 극찬

by 에이아이 2009. 9. 23. 11:22

여러가지 기타 코드표를 정리해봤습니다.

기타 코드가 엄청 많아서 외우는데 부담이 될 수 있습니다.
출처 사이트에서는 기본코드 C, D, E, F, G, A, B, Cm, Dm, Em, Fm, Gm, Am, Bm, C7, D7 ,E7 ,F7 ,G7 ,A7 ,B7 (총 21개)의 코드를 중심으로 먼저 연습할 것을 제안하고 있습니다.
 
먼저 기본 코드를 익숙하게 연습해두면 나머지 코드들도 응용할 수 있다고 합니다.
그리고 아래의 정식코드를 배운 후에는 필요하다면, 변칙코드, 약식코드를 배울 수도 있습니다.

자주 사용하는 기본적인 코드 그림입니다. (그림 출처: http://cafe.naver.com/ccabrothers/786 )




아래에 전체 코드표를 추가합니다. 아래 그림의 출처는 통기타 이야기 사이트입니다.

아래의 통기타 이야기 사이트에서 제공하는 기타 코드표입니다.
기타를 처음 배울 때 참고할 만한 좋은 사이트로 추천합니다.

출처 : http://www.tongguitar.co.kr/ 
내용 : Home > 통기타배우기 > 기타코드표 >

아래 코드 그림을 클릭하시면 좀 더 크게 보실 수 있습니다.

사용자 삽입 이미지


사용자 삽입 이미지

하나 더 추가합니다.

아래 블로그 글에 방문하시면 기타 코드 잡는 법을 사진으로 설명 하고 있습니다.

코드표 보고도 잘 모르시겠으면 참고하세요.

http://blog.naver.com/bluemin470/60088138525


by 에이아이 2009. 9. 22. 17:27
| 1 2 3 4 5 6 7 8 ··· 31 |