오피스 2007(워드, 엑셀, 파워포인트, 엑세스, 아웃룩) 메뉴 변환 방법 (예전 방식의 메뉴로)

오피스 2007 버전을 사용하는 경우 메뉴의 구성이 이전 버전과는 너무 많이 변경되어서
오히려 사용하기가 불편한 점이 있습니다.
그래서 2007버전보다는 2003 버전을 사용하는 경우도 많이 있습니다.

오피스 2007을 사용하는 경우에도
Classic Menu for Office 2007 이라는 프로그램을 설치하면
오피스 2007 버전의 메뉴를 오피스 2003의 형태로 변환할 수 있습니다.

파일 다운로드


위에 첨부된 파일을 다운로드 한 후 설치하면, 바탕화면에 메뉴 변환 프로그램 아이콘이 추가됩니다.
아이콘을 클릭하여 메뉴 변환 프로그램을 실행한 후 아래와 같이 셋팅합니다.



위와 같이 셋팅한 후 Office 2007 프로그램을 실행해보면 아래와 같이 메뉴가 생성된 것을 볼 수 있습니다.

변경 후 OFFICE 2007 화면 그림



출처 : http://www.addintools.com/
참고1: http://osnews.kr/314


by 에이아이 2009. 10. 28. 21:54

1. 신경망(Neural Network)의 소개

신경망 알고리즘은 인간의 두뇌를 모델로 한 분석 방법이다. 인간의 두뇌는 약 10^11개의 뉴런이 매우 큰 개수의 시냅스에 서로 간에 연결되어 있다. 각 뉴런(neuron)들은 시냅스(연결선)에 의하여 서로 정보를 교환한다. 특정 뉴런에 신호가 입력되면 그 뉴런은 시냅스에 의해 연결된 다른 노드로 신호를 전달하고 이러한 과정이 계속되어 뇌는 새로운 것을 학습하게 된다는 이론에 기초하고 있다.

뉴런의 구조는 아래의 그림을 참고하기 바란다. 신경망 알고리즘을 이해하기 위해서 뇌의 구조를 깊이있게 이해해야 할 필요는 없음으로 크게 부담갖을 필요는 없다.


2. 신경망의 구조

신경망은 인간의 뇌의 구조를 모델로하여 아래와 같은 구조를 통해 학습(Learning)을 수행한다.


3. 신경망 알고리즘의 역사

신경망의 역사에 대해서 아래의 표를 참고하기 바란다.
아래의 표는 [Neural Connection을 이용한 데이터마이닝 신경망분석]의 p.6 에서 발췌하였다.
 
신경망 알고리즘을 최신 기술로 알고 있는 사람들도 있지만 사실은 그렇지 않다. 1950년대 부터 신경망 알고리즘의 기초적인 아이디어가 제안되었고 지금까지 발전되는 가운데 여러 분야에서 사용되고 있다. 한동안 인공지능 및 신경망의 한계가 제시되어 침체기를 걷기도 하였으나 오히려 최근에 들어 다양한 분야에서 많이 활용되고 있다. 

 연도

 연구자

연구 내용

 1958년

 프랑크 로센블라크
 (Frank Rosenblastt)

최초의 인식 모형 발명
(후에 신경망의 기초가 됨)  

 1967년

 민스키 & 페페트
 (Minsky & Papert)

인식 모형 구조의 문제 해결의 한계 발표
(저서 'Perceptron'를 통해)

 1982-1984년

 홉필드 & 코호넨
 (Hopfield & Kohonen)

인식 모형의 구조 문제 해결을 하면서 오류-역전파망을 이용한 다층인식모형의 탄생


4. 신경망 관련 동영상

[1] The Next Generation of Neural Networks [동영상보기]
[2] Neural Network Lesson 1 : Single-Layer Perceptrons [동영상보기]
[3] Neural Network Lesson 2 : Probabilistic Neural Networks [동영상보기]
[4] C++ Console Lesson 13: Perceptron Training [동영상보기]

참고자료 (교재)  

[1] Neural Connection을 이용한 데이터마이닝 신경망분석, 고려정보산업, 조용준/허준/최인규 공저, 1999년


[논문] 신경망 분석을 이해하는 데 도움이 되는 참고 논문

[1] 인공신경망분석의 이해와 활용, 2008년, 유제민, 한국심리학회 [논문정보]
(KISS 논문 검색사이트를 통해 검색함. 검색어: 신경망)
내용 : 신경망 알고리즘에 대한 대략적인 소개가 설명되어 있습니다. 자세한 수식 등을 설명되지 않으며, 신경망에 대한 간단한 소개자료입니다. 2페이지로 간단하게 소개와 특징, 장점등이 기술되어 있습니다.



[논문] 신경망을 활용한 논문

[1] 생명보험사의 개인연금 보험예측을 사례를 통해서 본 의사결정나무 분석의 설명변수 축소에 관한 비교 연구, 이용구(중앙대학교 수학통계학부), 허준(SPSS Korea), 2009년 데이터정보과학회 논문지 게제. [논문정보]
(KISS 논문 검색사이트를 통해 검색함. 검색어 신경망)
내용 : 신경망 알고리즘을 사용하여 변수를 축소한 후 결정트리를 통한 의사결정을 하는 것이 효과적이라는 내용이다. 데이터(변수) 축소를 위해서 신경망을 활용하였다.



<참고자료>

[1] 신경망을 사용하여 동물을 분류하는 프로젝트
http://blog.naver.com/shine10ee?Redirect=Log&logNo=10047902225&vid=0

[2] 신경망 소스 코드 제공 사이트
http://lcn.epfl.ch/tutorial/english/

[3] 충북대 오창석 교수님의 <뉴로컴퓨터 개론> 책(9장. 신경망)에 대한 강의자료입니다.
http://blog.paran.com/fuzzyrisk/26175430#
 1) 뉴로 컴퓨터란?
 2) 생물학적 신경망
 3) 인공신경망 모델
 4) 신경망의 유형
 5) 활성화 함수
 6) 패턴 분류
 7) 퍼셉트론
 8) 연상메모리
  9) BP(오류역전파)알고리즘
 10) 뉴로 컴퓨터 응용

[4] SAS에서의 신경망 활용 예제


[5] 신경망의 응용

by 에이아이 2009. 10. 26. 14:46

* 내외간의 호칭
  (1) 남편에 대한 호칭
    ① 신혼 초 : 여봐요, 여보, ○○씨
    ② 자녀가 있을 때 : 여보, ○○ 아버지
  (2) 아내에 대한 호칭
    ① 신혼 초 : 여보요, 여보, ○○씨
    ② 자녀가 있을 때 : 여보, ○○ 엄마
    ③ 장노년 : 여보, 임자, ○○ 할머니

 * 시부모에 대한 호칭
   
① 시아버지에 대한 호칭 : 아버님
   ② 시어머니에 대한 호칭 : 어머님

* 며느리에 대한 호칭
  
① 신혼 초 : 아가, 새아가
   ② 자녀가 있을 때 : 어미야, ○○ 어미야

* 처부모에 대한 호칭.
   ① 장인에 대한 호칭 : 장인 어른, 아버님
   ② 장모에 대한 호칭 : 장모님, 어머님

* 사위에 대한 호칭.
   ○서방, 여보게, ○○이

* 내외의 동기(同氣)와 그 배우자(配偶者)에 대한 호칭.
    (1) 남편의 동기와 그 배우자에 대한 호칭
       ① 남편의 형 : 아주버님
       ② 남편의 아우 : 도련님
       ③ 남편의 누나 : 형님
       ④ 남편의 누이동생 : 아가씨, 아기씨
       ⑤ 남편의 형의 아내 : 형님
       ⑥ 남편의 아우의 아내 : 동서
       ⑦ 남편의 누나의 남편 : 서방님
       ⑧ 남편의 누이동생의 남편 : 아주버님, 서방님
    (2) 아내의 동기와 그 배우자에 대한 호칭
       ① 아내의 오빠 : 처남, 형님
       ② 아내의 남동생 : 처남, ○○(이름)
       ③ 아내의 언니 : 처형
       ④ 아내의 여동생 : 처제
       ⑤ 아내의 오빠의 부인 : 아주버니
       ⑥ 아내의 남동생의 부인 : 처남댁
       ⑦ 아내의 언니의 남편 : 형님, 동서
       ⑧ 아내의 여동생의 남편 : 동서, ○ 서방

* 동기와 그 배우자의 호칭.
    (1) 남자의 경우
       ① 형 : 형, 형님
       ② 형의 아내 : 아주머님, 형수님
       ③ 남동생 : ○○(이름), 아우, 동생
       ④ 남동생의 아내 : 제수씨, 계수씨
       ⑤ 누나 : 누나, 누님
       ⑥ 누나의 남편 : 매부, 매형
       ⑦ 여동생 : ○○(이름), 동생, ○○ 어머님(엄마)
       ⑧ 여동생의 남편, 매부, ○ 서방
   (2) 여자의 경우
       ① 오빠 : 오빠, 오라버니(님)
       ② 오빠의 아내 : (새) 언니
       ③ 남동생 : ○○(이름), 동생, ○○ 어머니(엄마)
       ④ 남동생의 아내 : 올케, ○○ 어머니(엄마)
       ⑤ 언니 : 언니
       ⑥ 언니의 남편 : 형부
       ⑦ 여동생 : ○○(아루), 동생, ○○어머니(엄마)
       ⑧ 여동생의 남편 : ○ 서방, ○○ 아버지(아빠)

* 숙질(叔姪)간의 호칭.
   (1) 아버지의 형 : 큰아버지
   (2) 아버지의 형의 아내 : 큰어머니
   (3) 아버지의 남동생 : 미혼(未婚) - 삼촌, 아저씨
                                 기혼(旣婚) - 작은아버지
   (4) 아버지의 동생의 아내 : 작은어머니
   (5) 아버지의 누이 : 고모, 아주머니
   (6) 아버지의 누이의 남편 : 고모부
   (7) 어머니의 남자 형제 : 외삼촌, 아저씨
   (8) 어머니의 남자 형제의 아내 : 외숙모, 아주머니
   (9) 어머니의 자매 : 이모, 아주머니
   (10) 어머니의 자매의 남편 : 이모부, 아저씨
   (11) 남형제의 아들 : 미성년(未成年) - ○○(이름)
                               성년(成年) - 조카, ○○ 아범, ○○ 아비
   (12) 남형제의 아들의 배우자 : (새) 아가, ○○ 어멈, ○○ 어미
   (13) 남형제의 딸 : 미성년 - ○○(이름)
                            성년 - 조카, ○○ 아범, ○○ 아비
   (14) 여형제의 자녀 : 남형제가 - 생질(甥姪), 생질녀
                               여형제가 - 이지(姨姪), 이질녀
                               미성년 - ○○(이름)
                               성년 - 조카, ○○ 아비, ○○ 어미

* 사촌끼리.
   (1) 아버지 남형제의 자녀 : 형님, 누님, 동새
   (2) 아버지 여형제의 자녀 : 고종, 고종사촌, 내종, 내종사촌, 형님, 누님, 동생
   (3) 어머니 여형제의 자녀 : 이종, 이종사촌, 형님, 누님, 동생

* 사돈간의 호칭.
   (1) 사돈끼리(며느리, 사위의 부모, 삼촌)
     ① 바깥사돈끼리 : 사돈
     ② 안사돈끼리 : 사부인(査夫人), 사돈
     ③ 바깥사돈 --> 안사돈 : 사부인
     ④ 안사돈 --> 바깥사돈 : 사돈어른
   (2) 위 항렬에게 : 사장어른
   (3) 아래 항렬에게 또는 아래 항렬끼리
      ① 남자에게 : 사돈, 사돈도령, 사돈총각
      ② 여자에게 : 사돈, 사돈아가씨, 사돈처녀

* 직장 내 호칭.
   (1) 동료끼리(직함이 있건 없건)
        000(00) 씨, 선생님, 0 선생님, 000 선생(님) , 0 선배, (00) 언니, 0(000) 여사
   (2) 상사
      ① 직함이 있을 때 : 부장님, 0(000) 부장님, (총무) 부장님
      ② 직함이 없을 때 : 선생님, 0(000) 선생님, 0(000) 선배님, 0(000) 여사 (00) 언니
   (3) 아래 직원
     ① 직함이 있을 때 : 0 과장,(총무) 과장, 000 씨, 0 형, 0 선생님, 00 선생
     ② 직함이 없을 때 : 00 씨, 0 형, 0 선생(님), 0(00) 여사, 0 군, 0 양

* 친구의 아내 : 아주머니, 0(00)씨, 00 어머니, 부인, 0 여사

* 친구의 남편 : (0) 00 씨, 00 아버지, (0) 과장님, (0) 선생님

* 남편의 친구 : (0) 00 씨, 00 아버지, (0) 과장님, (0, 000) 선생님

* 아내의 친구 : (0) 00 씨, 00 어미니, 아주머니, 0 선생(님), 0 과장님, 0 여사(님)

* 아버지의 친구.
   (1) 어린이말 : (지역 이름) 아저씨, 00 아버지
   (2) 어른말 : (지역 이름) 아저씨, 어르신, 선생님, (0) 과장님

* 어머니의 친구.
  (1) 어린이말 : (지역 이름) 아주머니, 00 어머니(엄마)
   (2) 어른말 : (지역 이름) 아주머니, 00 어머니

* 친구의 아버지.
   (1) 어린이말 : 00 아버지, (지역 이름) 아저씨
   (2) 어른말 : 00 아버님, 어르신, 00 할아버지

* 친구의 어머니.
   (1) 어린이말 : 00 어머니(엄마), (지역 이름) 아주머니
   (2) 어른말 : 00 어머님, 아주머님, 00 할머니

* 남선생님의 아내 : 사모님

* 여선생님의 남편 : 사부님, (0, 000) 선생님, 과장님

* 직장 상사의 가족.
   (1) 부인 : 사모님, 아주머니(님)
   (2) 남편 : (0, 000) 선생(님), (0, 000) 과장(님)
   (3) 자녀 : 00 (이름), 000 씨, (0) 과장(님)

'유용한 자료 모음' 카테고리의 다른 글

유용한 자료 모음  (0) 2009.12.10
by 에이아이 2009. 10. 25. 14:45

출처 : Seri.org

내용 : 166 페이지에 달하는 방대하고 자세한 내용과 예제.

1. 시작하기.
2. 표현하는 방법
3.질문에 답변하는 방법
4. 마무리하는 방법.



추가로 발표자료 만들때 참고할 만한 자료


by 에이아이 2009. 10. 16. 20:14

F-검정에 대해서 공부해보자.
몇 결정트리 알고리즘에서 t-검정, F검정을 사용하기 때문에
해당 결정트리 알고리즘을 잘 이해하기 위해서는 이러한 통계 검정 방법들을 잘 이해해두어야 한다.

F-검정은 언제 사용할까?
F-검정은 두 모집단의 분산의 차이가 있는가를 검정할 때 사용한다.
(두 집단의 평균의 차이가 존재하는가가 아니라 분산의 차이가 있는가를 검정한다.)

F-검정의 특징
F-검정값은 항상 1보다 같거나 크다. (두 표본집단의 분산 값을 나눈 것이므로, 큰 것이 분모, 작은 것이 분자)
F값이 클수록 두 집단간의 분산의 차이가 존재하는 것을 의미한다.

예1. (제4판. 현대통계학. p.349-350)
예를들어, 어느 중학교에서 1학년 학생들의 성적의 차이(분산)이 2학년이 되면 더 커질 것이라고 예상된다. 실제로 그런가 검정해보자. 1학년에서 7명을 뽑고, 2학년에서 9명을 뽑아서 각각의 성적의 분산을 조사해 봤더니, 1학년의 분산은 9.0 이었고, 2학년의 분산은 19.8 이었다. 두 모집단의 분산은 같다고 볼 수 있을까? 알파=0.05 에서 검정해보자.
F(8,6) = 4.15 이다. (자유도는 개체 크기에서 1씨 뺀 값으며 2개가 사용된다. F분포표에서 찾아보자.)
F = 19.8 / 9 = 2.2 이다. 2.2 < 4.15 이므로 F=2.2는 기각역 안에 있으며, 귀무가설을 기각할 수 없다.
즉, 2학년학생의 성적 차이가 1학년 학생의 성적차이보다 크다고 할 수 없다.  

F-분포표

F검정에 필요한 F분포표를 첨부하였다.
F검정표는 두 개의 자유도 값을 사용한다. (행, 열에 두 표본의 자유도가 사용된다.)



참고자료
[1] 제4판 현대통계학, 박정식/윤영선. p.335- (15장)

by 에이아이 2009. 10. 14. 18:45

정리 중인 자료입니다.

참고자료

[제4판] 현대통계학 (박정식, 윤영선) 13장. (p.293-)
에듀팜 [SPSS기초] 17장-27장


t-검정은 언제 사용하는가?


모집단의 평균을 알고 있고,
표본의 평균과 분산을 알고 있을 때
표본의 평균이 표본의 평균과 같은가 다른 가를 검정하는 것.

예를 들어보자.

예제1.
일본 초등학생들의 IQ 평균이 105라고 하자. 한국의 100명의 초등학생들을 표본으로 IQ를 검사해보니 평균이 110이 나왔다. 그러면 한국의 초등학생들이 일본 초등학생보다 IQ가 높다고 결론 내릴 수 있는가? (이 결론을 내리기 위해서는 사실 100명의 표본 초등학생에 대한 분산 정보가 필요하다.)

예제2.
2000년대 한국 고3학생들의 키가 165cm 였다고 하자. 최근(2009년) 고3학생 200명을 표본으로 키를 측정해보니 평균이 170cm 가 나왔다. 그러면 학생들의 키가 이전보다 증가되었다고 결론을 내릴 수 있는가?


t-검정 검정 방법

간단하게 t-검정을 하는 방법을 설명한다.
표본에 대하여 t-검정 통계량 값을 계산한다. (-4에서 4정도 사이의 값을 얻게 된다.)
그 값이 t-분포의 그래프의 양 끝 쪽에 속할 수록 모집단과 평균이 다르다는 것을 보여준다.
지정한 유의확률(%)을 가지고 유의값을 선정하여 검정할 수 있다.


좀 더 자세하게 t-검정을 분류해 볼 수 있다. 

*  1표본 t-검정 (또는 일표본 t-검정)
*  독립 2표본 t-검정
*  대응 2표본 t-검정
 
위의 예제1, 예제2는 모두 1표본 t-검정에 속하는 예이다.


독립 2표본 t-검정이란?

위에서 t-검정은 모집단의 분포를 모르고, 표본 집단에서의 분포(평균, 분산)을 아는 상황인 것을 기억하자. 
독립 2표본 t-검정이란 2개의 표본을 추출한 후 이 두개 집단의 분포(평균, 분산) 정보를 이용하여 두 표본의 모집단에 차이가 있는지를 검정하는 것이다. 

예를 들어, 한국 고3학생 100명의 키를 측정하고, 일본 고3학생 100명의 키를 측정한 후 이 표본 데이터를 기초로하여, 한국, 일본 고3학생의 키에 차이가 있는가에 대한 결론을 얻고 싶을 때 독립 2표본 t-검정을 수행한다.  


대응 2표본 t-검정

한 개체에게서 2회의 반응값을 얻은 경우 그 차이가 존재하는 가를 검정한다. 즉, 한 개체에 대하여
이름에서 [대응]은 짝(Pair)를 의미한다.
다시 말하면, 두번의 반복측정에서 얻어진 결과가 차이가 있는 지를 비교한다.
두 모집단의 원자료를 각각 요약하는 것이 아니라 대신 차이값의 자료를 얻고자 한다.

예를들어, 새로 개발된 간수치안정제가 효과가 있는지를 검정한다고 해보자. 10명의 환자에 대하여 개발된 약을 먹기 전과 후의 간 수치를 측정한다. 이 실험 값을 토대로 하여 간의 수치를 개선하는 효과가 있는 지를 검정한다. (이 실험에서 한 사람에 대하여 2개의 값이 쌍으로의 성격을 갖는다.)

비슷한 예로, 감기약을 먹기 전과 후의 몸의 열의 변화가 생기는지를 검정한다고 하자. 10명의 환자에 대하여 먹기 전과 먹은 후의 값(쌍, 대응)들을 얻는다.

다른 예로, A사건이 발생하기 이전과 이후의 특정 당(한나라당)에 대한 지지율의 변화가 발생했는 지를 검정한다고 해보자. 100명의 사람을 대상으로 하여 A사건 이전의 한나라당에 대한 지지율과 A사건 발생 후의 한나라당에 대한 지지율을 측정한다.

다른 예로, 어떤 교육단체에서 독서를 통한 심리안정 치료 방법을 개발했다고 하자. 100명의 정서장애자들에게 대하여 교육을 받기 전과 받은 후의 정서장애 정도를 측정한다.  

-----------------------------

그럼, t-검정과 Z-검정의 차이를 살펴보자.

Z검정은 모집단의 평균과 분산을 모두 알고 있을 때, 어떤 레코드 또는 표본 집단이 모집단에 속하는가를 검정하는 것이다. 즉, t-검정은 모집단의 평균을 알지만 분산은 모른다는 점에서 차이가 있다.

모집단의 분산을 모르기 때문에 레코드들이 Z-분포를 한다고 말할 수 없다.
따라서 그러한 경우 t-분포를 따른다고 할 수 있다. (t-분포는 정규분포와 유사한 모양을 갖지만, 더 넓게 펼쳐진다는 차이가 있으며, 그 정도는 표본집단의 분산과 레코드의 개수를 가지고 결정된다.)

Z-분포와 t-분포의 차이를 살펴보자.
Z-분포는 모집단의 평균과 분산을 알고 있을 때의 정규분포를 의미한다.
반면, t-분포는 표본집단의 평균과 분산, 그리고 자료(레코드) 수를 알고 있을 때의 분포를 의미한다.

Z-분포 ----> 정규분포를 따른다.
t-분포 ----> 자유도가 (n-1)인 t-분포를 따른다.


사용자 삽입 이미지



by 에이아이 2009. 10. 11. 21:26

참고1 : http://hoksi.com/Standard_Normal_Distribution_Table.htm
참고2 : http://www.statsoft.com/textbook/sttable.html#z

정규분포에 대한 개념 설명 : http://tong.nate.com/jinkwan5/49693374
표준정규분포에 대한 설명 : http://blog.naver.com/at3650?Redirect=Log&logNo=40066177242
6 Sigma : http://blog.naver.com/noijws?Redirect=Log&logNo=130035107783

엑셀로 만든 표준정규분포표

사용자 삽입 이미지

위의 표는 중앙을 기준으로 했을 때의 너비를 가지고 작성한 표입니다.

반면 아래와 같이 좌측 끝을 기준으로 했을 때의 너비를 가지고 작성한 표의 내용입니다.

사용자 삽입 이미지


by 에이아이 2009. 10. 11. 18:51

출처(번역) : http://blog.naver.com/omega71/50007604090
출처(원문) : http://people.cs.ubc.ca/~murphyk/Bayes/bayes.html

아래 내용은 A Brief Introduction to Graphical Models and Bayesian Networks 에서 번역하고, Gurugail.com의 GGOP(Virtual Dog) 프로젝트에 맞추어 수정, 요약한 것입니다.

Bayesian Network는

"확률 이론과 그래픽 이론의 결합으로 이루어진 그래픽 모델(Graphical Models)"

이라고 짧게 표현될 수 있다. 그래픽 모델의 기본적 아이디어는 복잡한 시스템을 간단한 모듈로서의 구성을 그래프적으로 표현이 가능하다는 특징이 있다. 그럼으로써 그 모듈이 어떻게 서로 연관성을 가지는지를 확률적 이론에 기반하여 표현이 가능하며, 하나의 모듈은 노드(Node)로써 표현이 가능하며, 모듈간의 관계는 호(Arc)로 표현된다. 그래픽 모델은 방향성(Directed or Undirected)이나 노드의 순환성(Cyclic or nonCyclic)에 따라서 HMM(Hidden Markow Models), FA(Factor Analysis), Kalman Filters 등 여러 가지가 있으며, 그 중 하나가 Baysian Network이다.


I. BN의 그래픽 표기법(Representation)

그래픽 모델에서, 노드는 랜덤 변수(Random Variables)를 나타내며, 호는 노드들간의 관계성을 가리킨다. 중요한 사실은 그래픽적 표현만으로 Fully Joint Probabilty Distribution의 표현이 가능하다라는 것이다. 이는 다시 말해, BN으로 표현이 되면, 랜덤 변수의 모든 조합으로 구성된 확률 분포도를 알 수 있다라는 말이다.

BN는 그래픽 모델 중에서 방향성이 있으며, 비순환의 그래픽 모델을 말한다. 줄여서 DAG, (Directed ACyclic Graph)라고 한다. 아래 간단한 예제 BN을 살펴보자. BN의 설명에서 종종 등장하는 예제이다. 잔디(WetGrass)가 젖을 경우는 스프린클러(Sprinkler)가 동작하거나 비가 오거나의 경우를 BN으로 표현한 것이다. 아래 예에서 "날씨가 흐릴 때 비가 올 확률", 즉 P(R=T| C=T) = 0.8이다.

 

어떤 상황을 BN으로 구성하기 위해서는 위와 같은 경우처럼,

1. 시스템을 표현할 수 있는 노드 구성
2. 노드와의 연결성 (Arc 구성)
3. 확률 테이블(CPT) 구성

하면 모든 것이 끝난다. 단, 중요한 사실은 노드간의 조건부 독립(Conditional Indendence)의 특성을 부여하면서 구성해야 된다는 사실이다. 조건부 독립을 확인하기 위한 D-seperation 알고리즘?도 있고, 복잡도 하지만 간단히, 제 생각으로는 적어도 Virtual Dog에서 느낌상으로 조건부 독립적으로 노드를 구성하면 OK이다. 위의 예에서는 스프린쿨러(S)가 동작할 경우와 비가 올 경우는 흐린날(C)이라는 조건에서 서로 조건부 독립이다.

위와 같은 BN이구성되면, "잔디가 젖었을 때(W), 스프린쿨러(S)가 동작하였을 확률"을 아래 식처럼 직접 계산할 수 있다. CPT에 직접적으로 표현이 되지 않았지만, 추론이라는 Method에 의해 표현(계산, 추측, 추론)될 수 있는 것이다.


다른 모든 경우도 수식으로 계산이 가능한 것이다. 다만 직접 계산을 할 경우 기하급수적으로 계산량이 증가하기 때문에, Approximation 방법을 이용하기도 한다고 한다. 계산 방법은 이 문서에서는 생략하고, 다만 그냥 개념만 이해하고 갔으면 한다. 하나 더 추가할 개념은 여기서 W가 Evidence가 되고 S가 Query가 되는 셈이며( 잔디가 젖었다는 사실을 알고, 그에 상응하는 S의 확률을 쿼리), 이런 식의 계산을 Bottom-up reasoning 이라고 한다.

II. 추론(Inference)

BN에서 추론이란 무엇일까, 어떤 의미를 추론이라고 할까? 위에서 잠깐 언급한 Evidence와 Query를 먼저 이해해야 한다. BN에서 추론이란 "알고 있는 확률변수를 이용해서 원하는(알고자 하는) 확률값을 구하는 과정"이라 할 수 있다. 위의 과정이 바로 추론과정이다. 위 그림의 BN에서는 Casuality(원인 -> 결과)에 따른 확률값은 표현이 되어 있고(CPT), 위 수식과 같이 "잔디가 젖었을 때(W), 스프린쿨러(S)가 동작하였을 확률"은 CPT를 이용해 바로 구할 수는 없다. 그럼으로 계산이나 Approximation 방법 등을 이용한 추론을 해야 한다. 물론 어떻게 보면 확률 계산에 불과하지만, 그러한 계산이 노드에 따라서 기하 급수적으로 증가하기 때문에 여러 가지 추론 알고리즘이 있다. (Variable Elimination, Dynamic Programming, Approximation Algorithms, etc)


1. Variable Elimination

추론을 하는 방법 중의 하나이다. 기본 생각은 추론을 원하고자 하는 식을 CPT의 Factored Representation으로 표현하는 것이다. 그것은 관계 없는 변수에 대한 경우의 합계 표현으로 가능하다. 설명이 잘 이해가 되지 않을 것이다. ^^; 고등학교 때 배운 확률을 잘 생각해보자. Joint Probability에서 랜던 변수 X, Y가 있고, Y는 Boolean Variable이라고 가정하면

P(X=i) = P(X=i, Y=false) + P(X=i, Y=true) 인 것이 생각이 나는지... 아무튼 이와 같은 원리와 그리고 Bayes 이론을 사용해서 확률값을 구하는 방법론이 Variable Elimination이다.


WetGrass(P(W=true))인 확률을 구하기 위해서 위와 같은 단계를 거치면, 결국 CPT에 있는 확률값들을 이용해서 구할 수 있는 것이다. 왜 이 방법이 "변수 제거(Variable Elimination)"인지는 확률값을 구하기 위해서는 Innermost가 우선적으로 구해지고, 그에 따라 Summation 되는 변수(c,s,r) 등이 차례로 구해지는 과정에서 생긴 이름으로 생각된다.

III. 학습(Learning)

BN에서 학습이란, 주어진 학습 데이타를 이용하여, 그래프의 Topology를 구성하는 것과 CPT(Conditional Probability Table)을 구성하는 것을 말하며, 그래프의 Topology를 구성하는 것이 CPT를 구성하는 것보다 어려운 작업이다. 데이터 혹은 그래프에 따라 조건별 학습 방법은 아래와 같다.

Structure
Observability
Method
Known Full Maximum Likelihood Estimation
Known Partial EM (or gradient ascent)
Unknown Full Search through model space
Unknown Partial EM + search through model space

1. Structure가 Known이며, 학습 데이터도 Full Observability할 경우의 예
(Maximum Likelihood Estimation)

이와 같은 경우도 그래픽의 구조나 CPT를 구하기 위한 모든 학습 데이터가 주어지기 때문에 단순 Counting으로 추측할 수 있다. 가령 위 그림에서 W 노드의 CPT를 구한다고 가정하면, 다음과 같이 Maximum Likelihood Estimation 방법을 이용한다.

식을 보면 단순히 Counting만으로 W 노드의 CPT를 구하는 것을 볼 수 있다.(N는 경우의 수)

by 에이아이 2009. 10. 10. 12:04

축적돼 있는 데이터로부터 일정 패턴을 찾아 미래를 예측한다면 어떤 효과가 있을까?’

이런 생각에서 출발한 것이 데이터마이닝이다.

다시 말해 데이터마이닝이란 대량의 데이터에 함축적으로 들어있는 지식이나 패턴을 찾아내는 기술이라고 정의할 수 있다. 데이터마이닝기술은 백화점에서 물건을 진열할 때 고객의 움직임(동선)을 줄이는 데 활용하는 것은 물론 고객의 구매패턴을 예측해 소비자가 살 물건의 쿠폰을 발행함으로써 판매 유인책으로도 사용될 수 있다. 기업마케팅이나 생명공학·스포츠산업·인터넷 등 실로 방대한 분야에 적용가능한 것이 바로 데이터마이닝인 셈이다.

그러나 데이터마이닝은 방대한 성격에 비해 역사는 이에 미치지 못한다. 그야말로 일천하다. 통계학·산업공학·전자공학·경영정보학이 데이터마이닝의 기반을 이룬다고 하지만 외국에서도 데이터마이닝에 대한 본격적인 연구가 시작된 것은 불과 10년을 넘지 않는다.

국내도 상황은 마찬가지다. 지난 97년 데이터마이닝 연구회 발족을 국내 데이터마이닝의 시초라고 한다면 채 5년이 되지 않는 셈이다.
홍익대 지원철 교수(46)가 97년 정보통신부 국책과제인 ‘데이터웨어하우스 기반의 데이터마이닝 소프트웨어 개발’이라는 과제를 수행하면서 관련 교수진이 결성한 데이터마이닝 연구회는 출발은 늦었지만 국내 학계 발전의 단초역할을 했다는 점에서 높이 살만하다. 당시 데이터마이닝 연구회는 20회에 걸쳐 정기 월례 세미나 및 워크숍을 개최, 국내 데이터마이닝 연구에 대한 관심을 불러일으키는데 지대한 공헌을 했다는 분석에서다.

이 데이터마이닝 연구회는 한국데이터마이닝학회로 이어지면서 현재까지 국내 데이터마이닝 연구·발전의 중추역할을 하고 있다.

한국데이터마이닝학회 회장으로 활동중인 전종우 서울대 교수(54)는 국내 데이터마이닝학계의 선구자로 통한다. 서울대 출신으로 플로리다주립대에서 통계학 박사학위를 취득, 현재 서울대 통계학과 교수로 재직중인 전 교수는 특히 ‘통계학 관점에서의 데이터마이닝’을 시도하며 국내 데이터마이닝학계를 이끌어오는데 산파역할을 한 인물로 평가받고 있다.

전 교수와 함께 국내 데이터마이닝학계에서 빼놓을 수 없는 인물이 김병천 KAIST 경영정책학과 교수(50)다. 김 교수 역시 아이오와 주립대학에서 통계학 박사 학위를 취득한 이후 통계학의 다양한 이론을 데이터마이닝에 접목하는데 노력하고 있다. 지금은 한국데이터마이닝학회 부회장으로 활동중이다.

연세대 이일병 교수(49)와 중앙대 이용구 교수(48)도 국내 데이터마이닝학계의 빼놓을 수 없는 인물로 꼽힌다. 지난 76년 연세대 전자공학과를 졸업하고 일리노이주립대학과 메사추세츠대학에서 각각 컴퓨터공학 석박사 학위를 취득한 이일병 교수의 주 연구분야는 웹 마이닝과 바이오메트릭스. 국내 학술지에 게재된 논문만 20편이 넘으며 해외 게재 논문 및 학회 발표 논문도 30편에 이른다. 저술활동도 활발해 미래산업리포트21, 인공지능 이론 및 실제, PC+, 컴퓨터과학개론, 마음·계산 그리고 언어 등 다수의 서적을 남겼다. 그는 이외에도 한국데이터마이닝학회 부회장으로 활동중이며 한국언어정보학회, 한국정보과학회, 한국 퍼지 및 지능시스템학회 이사로도 활약하고 있다.

이일병 교수는 앞으로 통계적 데이터분석방법 개발, 지능적 데이터분석방법 개발, 통계적 일반성 추출방법 개발, 혼합형 통합모형 개발, 3차원적인 데이터 및 마이닝 결과 분석도구 개발 등 다양한 분야에서 왕성한 연구의욕을 불태울 계획이다.

고려대 경제학과를 거쳐 미국 미네소타주립대학에서 통계학 박사를 취득, 현재 중앙대 응용통계학과 교수로 재직중인 이용구 교수는 ‘데이터솔루션 이사’라는 또다른 명함을 갖고 있다. 평소 ‘데이터마이닝이란 관측한 대용량의 데이터로부터 유용한 정보를 추출해 실제 의사결정에 활용될 수 있는 방법을 연구하는 것’이라며 ‘학자들의 책상에서 나오는 결과가 아니라 실제로 기업이 적용해 이익을 창출할 수 있는 실질적인 모형을 구하는 것이 중요하다’고 강조하던 이 교수의 지론에서 산업계에도 몸을 담은 것이다.

향후 주력할 연구분야 역시 이 교수의 지론과 맥을 같이한다. 주로 데이터에서 정보를 구하는 방법인 다변량분석·신경망모형·나무구조모형 등에 대한 이론적 연구에 몰입해 왔으나 앞으로는 기업 의사결정에 활용가능한 실용적인 데이터마이닝 모형개발에 전력할 계획이다.

마케팅조사분석론·마케팅조사통계분석 등을 저술한 이용구 교수는 ISI 2001 세계대회 조직위원회 위원, IASE(통계교육상담위원회) 2001 콘퍼런스 준비위원회 위원장을 맡고 있는 등 대외활동에서도 활약세가 두드러진다.

서울대 경영학과 출신인 지원철 교수는 대림산업에 근무하면서 KAIST에서 산업공학 석사 학위를 취득, 83년부터 줄곧 홍익대 정보·컴퓨터공학부 교수로 재직중이다.

지 교수는 97년 한국과학재단 중점과제연구회 데이터마이닝연구회장과 제1회 데이터마이닝 워크숍 조직위원장을 역임한 데 이어 이제까지 한국경영과학회 데이터마이닝 연구회장, 한국데이터마이닝학회 부회장을 담당하는 등 왕성한 대외활동을 보여주고 있다.

그의 주요 관심사는 데이터마이닝의 산업계 접목이다. 국내 금융분야에 데이터마이닝을 활용하는 연구 및 프로젝트를 수행중인 지 교수는 특히 기업과 개인의 신용평가 및 부도예측문제, 신용카드의 부정사용방지시스템 개발, 각종 스코어링시스템의 개발 및 인공지능을 활용한 시계열 예측문제 등에 높은 관심을 보이고 있다. 97년 정보통신부 과제를 수행하면서 ‘iBITs’라는 데이터마이닝 소프트웨어를 국내 처음으로 개발, 99년 프로그램 등록을 마친 데 이어 95년부터 2년간 포항제철의 ‘신경망을 이용한 품질설계시스템’을 개발한 바 있는 지 교수는 앞으로도 연관규칙 관련 연구결과를 시계열 분석에 적용하는 등 다양한 분야 연구를 시도할 예정이다.

국민대 정보관리학부 이춘열 교수(46)도 데이터마이닝학계를 움직이는 대표적인 학자다.

서울대 산업공학과를 졸업하고 서울대 경영학 석사, 미시간대 경영정보학 박사 학위를 보유한 이 교수는 한동안 국방정보체계연구원 연구원으로, 한국통신 소프트웨어연구소 선임연구원으로 활동하는 등 화려한 이력의 소유자이기도 하다.

이 교수는 데이터 정제 및 변환시 고려돼야 할 사항, 이를 위한 메타정보의 효과적인 관리환경에 대해 집중 연구할 계획이다. 특히 데이터 정제 여부가 마이닝 결과에 미치는 영향에 높은 비중을 두고 있다.

성신여대 컴퓨터정보학부 박종수 교수(45)는 연관규칙 및 순차패턴 탐사, 클러스터링 분야에서 전문가로 통한다.

‘두 개의 선택 알고리듬의 설계 및 분석과 결합 연산에의 응용’이라는 주제로 KAIST에서 박사 학위를 취득한 박 교수는 최근에는 웹로그 파일에서 사용자들의 행동 특성을 알아내는 순차패턴, 클러스터링에 관한 알고리듬을 분석·연구하는데 심혈을 기울이고 있다. 아울러 알고리듬을 모듈별로 개발해 향후에는 통합시스템으로 구성한다는 계획도 갖고 있다.

대외활동도 활발히 해 한국경영과학회 데이터마이닝 연구회 발족에 참여했으며 한국정보과학회 데이터베이스연구회 1998·2000 춘계 튜토리얼을 개최하기도 했다.

서울대 산업공학과 조성준 교수(42)도 기업의 비즈니스 프로세스와 데이터마이닝 접목을 강조하는 학자로 손꼽힌다. 일례로 SK(주) 데이터마이닝 교육을 담당했는가 하면, CRM에서의 데이터마이닝 응용기법, 데이터마이닝 기반의 트레이딩시스템 개발에 앞장서고 있다. 조 교수가 앞으로도 연구를 집중하고 싶은 분야는 데이터마이닝 기반의 선물 트레이딩 시스템 개발로 압축될 전망이다.

서울대 산업공학과 출신인 조 교수는 워싱턴대와 메릴랜드대에서 각각 컴퓨터과학 석박사 학위를 취득했다. 해외 학술저널에 24편, 학술대회에 58편의 논문을 발표하며 왕성한 연구열을 보이고 있는 조 교수는 특히 신경회로망을 이용한 데이터마이닝, 앙상블 학습 알고리듬 및 이상탐지, CRM과 금융트레이딩시스템이 주 관심영역이다. 신경회로망과 관련해서는 지난해 11월 미국 특허를 받기도 했다.

젊은 신예교수들도 눈에 띈다.

한국외국어대학교 최대우 교수(39)는 데이터마이닝 커뮤니티 사이트인 ‘데마귀( http://www.freechal.com/delpa)’를 운영하는 것으로 유명하다. 그만큼 현실세계에서 데이터마이닝 확산에 기여하고 있는 것.

최 교수는 서울대 계산통계학과와 미국 루거스대 박사 출신으로 확률부등식과 잠재특성모형을 전공했다. 지금은 분류학과 마이크로어레이 데이터 분석(DNA 칩 분석)에 관심을 갖고 연구중이다. 7, 8월 두 달간 포항공대에서 ‘데이터마이닝을 근간으로 한 DNA 칩’을 연구하며 한여름 더위를 잊고 있다.

한국분류학회 총무에 이어 한국데이터마이닝학회 학술이사, 한국통계학회 응용통계연구 편집위원으로 활동중인 최 교수는 BC카드·SK텔레콤·제일은행·데이콤·동원증권 등 국내 유수기업의 데이터마이닝 컨설팅 전문가로도 맹활약하고 있다.

KAIST 전산학과 심규석 교수(39)도 국내 데이터마이닝학계 발전의 일등공신으로 꼽히는 인물이다. 지난 85년 과학기술처 주관 컴퓨터 경진대회에서 상공부 장관상과 문교부 장관상을 수상한 심 교수는 박사과정 유학도 국비로 다녀온 수재로 통한다.

특히 심 교수는 전세계적으로 데이터마이닝의 파이어니어로 꼽힐 정도로 대단한 경력을 갖고 있다. 메릴랜드대학에서 ‘관계형 데이터베이스에서 쿼리 최적화 기술’로 박사 학위를 받은 심 교수는 데이터마이닝의 산실인 IBM 알마든 리서치랩에서 ‘Quest 프로젝트’라는 세계 최초의 데이터마이닝 프로젝트에 참여했다. 또 현재 IBM에서 판매하고 있는 ‘인텔리전트 마이너’라는 데이터마이닝 SW의 코어엔진을 개발했으며 벨연구소의 ‘세렌딥 데이터마이닝 프로젝트’에도 초기 멤버로 참여한 바 있다.

심 교수는 전세계적으로도 실력을 인정받아 현재 데이터마이닝 분야에서 세계적으로 권위있는 국제 학술그룹인 ACM SIGKDD 회원이며 국제 학술지인 VLDB 저널의 편집자로도 활동하고 있다.

지난 겨울에 이어 올 여름 미국 마이크로소프트 연구소에서 차세대 XML 소프트웨어를 개발하고 있는 심 교수는 앞으로 대용량 데이터에서 마이닝을 적용하는 방법과 웹 마이닝, 확장성표기언어(XML)와 마이닝 접목에 힘을 실을 계획이다.

이밖에 이화여대 용환승 교수, 서울대 이영조 교수 등도 국내 데이터마이닝학 발전에 버팀목이 되고 있다.

이들 교수진의 노력 덕택에 국내 데이터마이닝 기술도 나날이 발전하고 있지만 풀어야 할 숙제가 많은 것 또한 사실이다. 데이터마이닝이 단순히 실험실 연구 수준이었다면 이제는 일상생활속으로 들어가야 한다. 데이터마이닝분야에서 개발된 복잡한 알고리듬이 단지 연구로서만이 아니라 실생활에 유용한 기술로 거듭나야 한다는 얘기다.

이를 위해 산업계에서는 실 데이터를 제공하고 학계에서는 여기에 바탕을 둔 효율적인 알고리듬을 개발하는 형태의 활발한 산학 교류가 절실하다. 이것만이 한국의 실정에 적합한 데이터마이닝 도구를 개발하고 세계적인 경쟁력을 확보할 수 있는 첩경이기 때문이다.

아울러 100년이 된 통계학과 이제 막 태생한 데이터마이닝이 조화를 이루는 것도 학계가 풀어야 할 숙제다.

<정은아기자 eajung@etnews.co.kr>

by 에이아이 2009. 10. 9. 19:41

범주형 변수 간의 연관성을 판단하기 위해서 카이제곱 검정을 사용한다.
(카이스퀘어 검정에 대한 참고자료 : 어떤 분의 블로그글 보기)

카이제곱 검정 후 연관성을 판단할 때 카이제곱 검정표를 사용하는데 아래에 추가하였다.
(대부분의 통계책 뒤에 부록으로 붙어있는데 자주 찾게 되어 그림으로 올려 두게 되었다. )

보통 책에서는 좌측부터 (알파)값을 시작하여 0부터 1로 향하는데, 아래 그림은 우측부터 (알파)값을 시작하였으니 혼동이 없기 바란다. 좌측을 기준으로 0.95 이지만 우측을 기준으로 하면 0.05 이다.

예를 들어, 자유도가 1 이고 신뢰도가 0.05 (우측0.95) 일 경우 기준값은 표에서 3.841 로 찾을 수 있다.

그런데, 만약 자유도가 39 이고  신뢰도가 0.05 (우측 0.95) 일 경우 기준값을 알고 싶다면...
표에서는 찾을 수 없다. (다른 책을 부록을 찾아봐도 마찬가지이다.)

그럴 때는 엑셀의 함수를 사용해서 구할 수 있다.
=chiinv(0.05, 1) 이라고 입력하면, 기준값 3.841 의 값이 나온다.
유의수준(신뢰도)이 0.05, 즉 5%이고 (좌측기준으로는 0.95 즉, 95% 이고) 자유도가 1일 때의 값이다.

거꾸로, 기준값을 알고 자유도를 알때, 해당하는 유의수준을 알고 싶다면 아래의 함수를 사용한다.  
=chidist(3.84, 1) 이라고 입력하면, 유의수준 0.05 (우측기준)의 값을 얻는다.

참고 엑셀 파일


참고자료 : http://www.statsoft.com/textbook/sttable.html#chi

사용자 삽입 이미지

by 에이아이 2009. 10. 9. 19:30
| 1 2 |