우리나라와 다른 나라와의 국가대표 축구경기의 편파적인 축구중계 내용입니다. 

고의적인 시간끌기를 하고 있을 때
― 상대편이 이기며 시간을 끌면: 시간끌기를 하죠? 저런 선수는 당장 퇴장시켜야 합니다! 스포츠 정신이 결여되어 있어요. 
- 우리나라가 이기며 시간을 끌면: 좋아요! 체력을 아낄 필요가 있어요. 시간을 벌어주고 있어요.아주 노련미가 돋보이는 선수예요. 

시차적응을 못하고 플레이를 제대로 못할 때  
―상대국: 시차 때문에 초반에 실력이 안 나온다하더라도 후반엔 나올 텐데….저 선수들 시차 극복은 선수의 기본이란 걸 알려주고 싶군요. 
―우리나라: 안타까워요.아주 안타까워요.역시 시차 때문에 선수들 컨디션이 나빠진 것 같아요. 

핸들링 
―상대국이 범했을 때: 손을 썼어요!축구는 발로 하는 경기라는 걸 모르는 것 같지 않습니까? 
―우리나라: 손에 맞았어요.아주 절묘한 찬스였는데 공이 손에 맞았어요.공이~. 

반칙 
―상대국이: 저런 야만적인 행위를.페어플레이 정신에 어긋난 행위는 안되죠. 
―우리나라: 오! 아주 중요한 순간에 잘 잘랐어요. 상대방 분위기를 잘 꺾었어요. 

심판의 오판 
― 상대국에게: 심판도 사람이죠?실수할 때가 있습니다. 
― 우리나라: 심판이 눈이 멀었어요! 심판에게 경고를 줄 수 있다면 퇴장감이죠. 

크로스바 맞고 나온 볼 
― 상대국이: 하하!행운의 여신이 우리 쪽으로 기우네요. 
―우리나라: 운동장 사정이 안 좋아요.미끄러워 발을 조금 헛디뎠던 거죠.그러나 위협적이었어요.골키퍼 간담이 써늘할겁니다.하하하.
by 에이아이 2009. 8. 3. 21:19

과학논문 바르게 이해하는 법

Scientific Jargon" by Dyrk Schingman, Oregon State University After several years of studying and hard work, I have finally learned scientific jargon. The following list of phrases and their definitions will help you to understand that mysterious language of science and medicine.

수년간에 걸친 노력 끝에 나는 드디어 과학계의 전문용어들을 익혔다. 다음의 인용문과 그 실제의 뜻에 대한 해설은 과학/의학분야에서 사용하는 신비한 언어들에 대한 이해에 도움을 줄 것이다.

"IT HAS LONG BEEN KNOWN"... I didn-t look up the original reference.
"오래전부터 알려져 왔던 대로..." - 원전을 찾아보지 않았다.

"A DEFINITE TREND IS EVIDENT"...These data are practically eaningless.
"뚜렷한 경향이 드러나듯이..." - 이 데이터는 아무 의미없다.

"WHILE IT HAS NOT BEEN POSSIBLE TO PROVIDE DEFINITE ANSWERS TO THE QUESTIONS"... An unsuccessful experiment, but I still hope to get it published.
"이런 의문점들에 대한 명확한 해답을 구한다는 것에 어려움이 따르지만..." - 실험은 실패했지만 그래도 논문으로 내야겠다.

"THREE OF THE SAMPLES WERE CHOOSEN FOR DETAILED STUDY"...The other results didn-t make any sense.
"샘플 중에서 세 개를 선택하여 분석하였습니다..." - 나머지 샘플은 해석불가능했다.

"TYPICAL RESULTS ARE SHOWN"... This is the prettiest graph.
"대표적인 결과값들을 표시하였습니다..." - 이 그래프가 제일 이쁘죠.

"THESE RESULTS WILL BE IN A SUBSEQUENT REPORT"... I might get around to this sometime, if pushed/funded.
"그것에 대한 결과는 차후의 논문에서 다루어질 것이며..." - 연구비 제대로 받으면 언젠가 쓸 생각입니다.

"THE MOST RELIABLE RESULTS ARE OBTAINED BY JONES"... He was my graduate student; his grade depended on this.
"가장 신뢰할만한 결과는 Jones의 실험에서 얻어진 것으로..." - 그는 내 밑에 있는 대학원생이었고, 학점을 받으려면 그 실험을 할 수밖에 없었다.

"IN MY EXPERINCE"... once
"제 경험에 따르면..." - 한번.

"IN CASE AFTER CASE"... Twice
"여러 사례를 보면..." - 두 번.

"IN A SERIES OF CASES"... Thrice
"일련의 사례들을 보면..." - 세 번.

"IT IS BELIEVED THAT"... I think.
"...라고 추정되어지며..." - 내 생각에는.

"IT IS GENERALLY BELIEVED THAT"... A couple of other guys think so too.
"일반적으로 받아들여지듯이..." - 나 말고도 몇 명 더 그렇게 생각한다.

"CORRECT WITHIN AN ORDER OF MAGNITUDE"... Wrong.
"오차를 허용하는 범위 내에서 참이며..." - 틀렸다.

"ACCORDING TO STATISTICAL ANALYSIS"... Rumor has it.
"통계학적 분석에 따르면..." - 소문에 따르면,

"A STATISTICALLY ORIENTED PROJETION OF THE SIGNIFICANCE OF THESE FINDINGS"... A wild guess. "이 실험결과를 통계학적 관점에 따라 해석해 보면..." - 적당히 때려맞춰 보면.

"A CAREFUL ANALYSIS OF OBTAINABLE DATA"... Three pages of notes were obliterated when I knocked over a glass of beer.
"데이터 중에서 입수 가능한 것들을 조심스럽게 분석해 보면..." - 맥주를 엎지르는 바람에 데이터를 적은 노트 3장을 날려먹었다.

IT IS CLEAR THAT MUCH ADDITIONAL WORK WILL BE REQUIRED BEFORE A COMPLETE UNDERSTANDING OF THIS PHENOMENON OCCURS"... I don-t understand it.
"이 현상에 대한 완벽한 이해가 이루어직 위해서는 후속적인 연구 작업이 이루어져야 할 것이라고 생각되는 바이며..." - 이해할 수 없었다.

"AFTER ADDITIONAL STUDY BY MY COLLEAGUES"... They don-t understand it either.
"동료 학자들에 의한 추가적 연구가 이루어진 다음에..." - 그들도 역시 이해하지 못했다.

"THANKS ARE DUE TO JOE BLOTZ FOR ASSISTANCE WITH THE EXPERIMENT AND TO ANDREA SCHAEFFER FOR VALUABLE DISCUSSIONS"... Mr. Blotz did the work and Ms. Shaeffer explained to me what it meant.
"실험에 도움을 준 Joe Blotz와 의미있는 토론에 동참해 준 Andrea Schaeffer에게 감사드립니다..." - 실험은 Blotz군이 다 했고, 그 실험이 도대체 뭐하는건지 Schaeffer 양이 모두 설명해 주었다.

"A HIGHLY SIGNIFICANT AREA FOR EXPLORATORY STUDY"... A totally useless topic selected by my committee.
"
탐구할만한 가치를 갖는 매우 의미있는 분야라고 생각되며..." - 학회에서 정해 준, 아무짝에도 쓸모없는 연구주제.

IT IS HOPED THAT THIS STUDY WILL STIMULATE FURTHER INVESTIGATION IN THIS FIELD"... I quit.
"저의 논문이 이 분야에 있어서의 추가적 연구들에 자극이 되기를 바랍니다..." - 저는 그만둘래요.

by 에이아이 2009. 8. 3. 21:18
세계 3대 거짓말 

- 이거 밑지고 파는거에요 
- 늙으면 빨리 죽어야해 
- 나 시집 안 갈꺼야 

친구들이 자주하는 3대 거짓말 

 - 금방 도착할꺼야 조금만 기다려, 다왔어
 - 너한테만 말해주는거야 
 - 금방 갚아줄게.... 


정치가의 3대 거짓말 
 
 - 친애하는 국민 여러분..... 
 - 저는 국민의 편에 서 있습니다 
 - 국민의 요구에 따라..... 

교장선생님의 3대 거짓말 
 - 마지막으로......... 
 - 선생님들과 학부모님들의 뜻을 모아서.... 
 - 존경하는 이사장님. 

직장인의 3대 거짓말
-차가 막혀서..
-이번달에는 보너스 없대
-아, 피곤해

수능 출제위원 거짓말
- 이번 수능시험은 정상적인 고등학교 과정을 이수한 학생이라면 
   누구나 쉽게 풀 수 있는 문제를 출제했습니다.

옷가게 주인
-어머! 언니한테 딱이야~

회사원
-예, 다 되갑니다.

남대문 리어카 아저씨
-이거 밑지고 파는 거에여

간호사
-이 주사는 하나도 안 아파요

연예인
-우린 그냥 친구 사이일 뿐이에요

엄마
- 대학 가면 살 빠지니까 지금은 부지런히 먹어

선생님
- 이건 꼭 시험에 나온다

비행기 조종사
-승객 여러분 아주 사소한 문제가 발생했습니다

약장수
-이 약 한 번 잡숴 봐! 팔다리어깨허리간장위장소장대장이 다아 쉬원해져어!

미스코리아
-그럼요, 내적인 미가 더 중요하다고 생각합니다.

중국집 주인
-아이구, 음식 갖고 금방 출발했습니다.

사장
- 우리 회사는 바로 사원 여러분의 것입니다.

노동자
-내일 당장 그만두겠어!
by 에이아이 2009. 8. 3. 21:11

사오정과 손오공이 함께 면접을 보러갔다.

손오공이 먼저 면접을 보러 들어갔는데 ...

면접관: 좋아하는 축구선수가 누구요?
손오공: 옛날에는 차범근인였는데 지금은 박지성입니다
면접관:산업혁명은 언제 일어났소?
손오공:18세기 말입니다.
면접관:외계인이 있을까요?
손오공:과학적으로 증명되진 않았지만 아마 그럴겁니다

손오공은 사오정에게 면접에 나온 문제와 답을 알려주었다.
그러나 면접관이 바뀌고 말았다.

면접관: 당신에 이름은 뭐요?
사오정: 옛날에는 차범근이였는데 지금은 박지성입니다.
면접관은 당황했다.

면접관:언제 태어났오?
사오정:18세기 말입니다. 면접관은 열이 났다 그래서
면접관: 당신 바보요?
사오정: 과학적으로 증명되진 않았지만 아마 그럴겁니다.

by 에이아이 2009. 8. 3. 21:07
사용자 삽입 이미지
by 에이아이 2009. 8. 3. 21:04

▣ 이병 사오정 ▣  

사오정은 입대를 하여 중대 행정반에 근무하게 되었다.

띠디디디.... 행정반 전화가 울렸다. "필승! 3중대 행정반 이병 사오정임다."

"여기 위병소인데 잠시후에 짬차(음식물 쓰레기 수거차량)들어간다."

"예! 알겠슴다! 덜컥!"

중대장 :뭐라나?

사오정 : 예, 장갑차가 들어온답니다.

이에 중대장은 전원을 연병장에 집합시키고 비상 대기하고 있었다.

그러나 한참을 기다려도 장갑차는 오지 않고 짬차가 털털거리며 들어왔다.

화가 난 중대장은 중대원 전원에게 완전군장 뺑뺑이를 시켰다.

그러나 사오정은 이등병이라 행정반에 있고 고참들만 돌았다.  

몇시간이 지나 중대장은 사오정에게 지시했다.

중대장:이제 반성문 쓰고 들어오라고 해!

사오정:예! 알겠슴다!

헐레벌떡 연병장으로 뛰어간 사오정 왈. "이제 방독면 쓰고 돌람니다!!

by 에이아이 2009. 8. 3. 21:02

의사결정트리란?

의사결정트리는 데이터마이닝 분석의 대표적인 분석 방법이다.  인공지능, 기계학습, 통계분석에서도 역시 결정트리 알고리즘은 활용이 많이 되고 있다. '의사 결정 트리'는 간단하게 '결정 트리(Decision Tree)'라고 불리기도 한다. 또는 '결정 나무'라고 불리기도 한다. 

주어진 데이터를 분류(Classification)하는 목적으로 사용된다. 예측(Prediction)하는데는 사용할 수 없다. 즉, 목표 변수가 범주형인 경우 사용되며 목표변수가 수치형인 경우에는 결정트리 알고리즘에 적용할 수 없다. 목표 변수가 수치형인 데이터에 적용하고자 한다면 목표변수를 수치형 변수에서 범주형 변수로 이산화한 후 적용하면 된다.

의사결정트리 알고리즘 종류

결정트리 분석을 수행하는 다양한 알고리즘들이 있다. 대표적인 알고리즘들을 아래에 제시하였다. 해당 알고리즘의 동작원리를 자세히 알고싶다면 [상세보기]를 클릭하여 참고하기 바란다. 데이터마이닝에서 가장 많이 언급되고 사용되는 알고리즘은 C4.5 또는 C5.0 이다. ID3 알고리즘을 보완하여 C4.5가 개발되었고, C4.5를 보완하여 C5.0이 개발된 것이므로 ID3 -> C4.5 -> C5.0 의 순서대로 학습해야 한다.

여러 결정트리 알고리즘이 어떤 차이점이 있는지 먼저 살펴보고 싶다면 참고1참고2 를 클릭해보자.
[상세보기]를 클릭하면 각 알고리즘에 대한 자세한 설명 페이지로 이동한다.

ID3 알고리즘 [상세보기
C4.5 알고리즘 [상세보기]
C5.0 알고리즘 [상세보기]
CART 알고리즘 [상세보기]
CHAID 알고리즘 [상세보기]

위 알고리즘들 중에서 ID3, C4.5, C5.0 알고리즘들은 인공지능, 기계학습 분야에서 개발되어 발전되어 온 왔다.
반면, CART 및 CHAID 알고리즘은 통계학에 분야에서 개발된 알고리즘들이다.

두 분류는 그러한 이유로 비슷하면서도 약간 다른 접근 방식을 갖는다. 인공지능 계열의 알고리즘들은 엔트로피, 정보이득 개념을 사용하여 분리기준을 결정하고, 통계학에 기초한 CART 및 CHAID 알고리즘들은 카이스퀘어, T검정, F검정 등의 통계분석법을 사용한다.

결정트리 알고리즘들은 기본적인 생성 방식은 유사하며 가지를 분리하는 방식(분리에 사용될 변수 및 기준을 선택하는 방식)에서의 약간의 차이를 갖는다. 분리 방식의 차이점을 아래의 표로 설명하였다.

 알고리즘  평가지수(선택방법)  비고
 ID3  Entropy  다지분리(범주)
 C4.5  Information Gain  다지분리(범주) 및 이진분리(수치)
 C5.0  Information Gain  C4.5와 거의 유사 (차이점)
 CHAID  카이제곱(범주), F검정(수치)  통계적 접근 방식
 CART  Gini Index(범주), 분산의 차이(수치)  통계적 접근 방식, 항상 2진 분리


좀 더 깊이있는 의사결정트리 이해를 위한 내용 정리

[1] C4.5 Tutorial [상세보기]
[2] [펌-분석] C4.5 와 C5.0 의 차이점 비교 [상세보기]
[3] C4.5 / CART / CHAID 알고리즘들의 비교 [상세보기]
[4] [펌-번역] Building Classification Models: ID3 and C4.5 [상세보기]
[5] 결정트리를 그래픽으로 보여주는 교육용 툴 [상세보기]


의사결정트리 분석의 장점

결정트리를 통한 데이터 분석의 결과는 나무(Tree) 구조로 표현되기 때문에 분석가가 결과를 쉽게 이해하고 설명할 수 있는 장점이 있다.

분류율에 대한 정확도만 따지자면 신경망(Neural Network) 또는 로지스틱 회귀분석 등의 분류 방법들 보다 낮게 평가되기도 하지만 결과를 쉽게 이해하고 설명할 수 있으며 의사결정을 하는데 직접적으로 사용할 수 있는 장점이 있기 때문에 데이터마이닝 적용시 매우 많이 사용되고 있다.


의사결정트리 분석의 한계

일반적인 결정트리 알고리즘은 갖는 한계, 단점을 아래에 나열하였다. 

[1] 데이터의 특성이 특정 변수에 수직/수평적으로 구분되지 못할 때 분류율이 떨어지고, 트리가 복잡해지는 문제가 발생한다. 신경망 등의 알고리즘이 여러 변수를 동시에 고려하지만 결정트리는 한 개의 변수만을 선택하기 때문에 발생하는 당연한 문제이다.

[2] 결정트리는 Hill Climbing 방식 및 Greedy 방식을 사용하고 있다. 일반적인 Greedy 방식의 알고리즘이 그렇듯이 이 방식은 최적의 해를 보장하지는 못한다. 

[3] 약간의 차이에 따라 (레코드의 개수의 약간의 차이) 트리의 모양이 많이 달라질 수 있다. 두 변수가 비슷한 수준의 정보력을 갖는다고 했을 때, 약간의 차이에 의해 다른 변수가 선택되면 이 후의 트리 구성이 크게 달라질 수 있다.  

관련도서에서의 의사결정트리 설명

[도서] CRM을 위한 데이터마이닝, 대청, p.151-152 (상세보기)


결정트리 분석을 수행하기 위한 프로그램

결정트리를 분석을 수행을 지원하는 다양한 프로그램들을 아래에 소개하였다. 첫번째로 제시된 Weka(웨카) 프로그램은 자바로 구현된 오프소스 프로그램이며, 웨사이트를 통해 공개되어 있다. See5.0 프로그램은 결정트리 분석만을 위해 특화된 프로그램이다. 유료 프로그램이지만 학습용으로 무료로 다운로드 하여 사용할 수 있다. 

SPSS의 클레멘타인(Clemetine) 과 SAS 의 Enterise Miner 프로그램들은 실무에서 가장 많이 사용되는 데이터마이닝 분석툴이다. 두 프로그램 모두 용량의 크며 비싼 유료 프로그램이므로 구입하지 않는다면 설치하여 사용하기가 쉽지 않다. 회사에서 개최하는 세마나에 참여하면 평가용 CD를 받을 수 있다.

[1] Weka 프로그램 [상세보기]
[2] See5. 0 [상세보기] 참고글
[3] SPSS Statistics 또는 Clementine [상세보기]
[4] SAS Enterprise Miner [상세보기]
[5] 결정트리를 시각적으로 보여주는 툴 [상세보기]


의사결정트리를 생성하는 과정 설명 (동영상 포함)

[1] Weahter 데이터를 사용한 의사결정트리 생성 동영상 설명 [상세보기]
Weka(웨카) 및 Clementine(클레멘타인) 을 사용하여 설명함
 

웨카(Weka)를 사용한 결정트리(분류) 분석

바로 위에서 설명한 바와 같이 결정트리를 사용하기 위한 많은 프로그램들이 존재한다.
무료이면서 간편하게 사용해볼 수 있는 웨카 프로그램을 사용하여 결정트리 분석을 수행하는 방법을 설명하고자 한다. 이를 위해서 웨카 프로그램을 인터넷에서 다운로드 하고, 설치한 후, 실행하여 기본적으로 제공되는 데이터를 가지고 결정트리 알고리즘을 수행해보도록 하자.

웨카 프로그램을 설명하는 것은 간단하지 않아서 아래에 별도의 글로 적어서 연결하였다.
[상세보기]를 클릭하면 자세한 설명을 볼 수 있다. (이전에 사용하던 블로그로 연결됨)

웨카 다운로드 및 설치 [상세보기]
웨카 실행 방법 (에러 해결) [상세보기]
웨카를 사용한 결정트리 분류 수행방법  [상세보기]


결정트리 알고리즘 개발에 도움이 되는 자료들 (소스코드 제공)

[1] C4.5 Tutorial 이 사이트에서는 C4.5 프로그램에 대한 설명 및 구현된 C 소스를 제공한다.
[2] WEKA 프로젝트는 자바로 된 소스를 제공한다.


관련논문 : 의사결정트리 알고리즘을 활용한 사례

[1] Data Mining 을 이용한 음주 및 음주문제의 위험요인과 취약성요인에 관한 탐색 
김인석(In Seok Kim),현명호(Myoung Ho Hyun),유제민(Jae Min You)
한국심리학회 | 한국심리학회지 건강 | [2001년]
KISS 논문 사이트를 통하여 검색함, [상세보기]




도움이 될만한 참고자료들

[1] 데이터마이닝 프로그램의 메뉴얼 중 <의사결정트리> 부분입니다. 웹에서 검색되어 구함.

[2] SAS를 이용하여 의사결정트리를 설명한 자료. 웹에서 검색됨.

[3] 결정트리에 대한 소개 [CRM을 위한 데이터마이닝 중] http://blog.daum.net/data_mining/21

[4] http://katalog.egloos.com/3191268  [ 여러알고리즘들을 알기쉽게 비교하며 설명함 ]

[5] Machine Learing, p.52

 Decision tree learning is one of the most widely used and practical methods for inductive inferecne. It is a method for approximating discrete-valued functions that is robust to noisy data and capable of learning disjunctive expression!s. this chapter describes a family of decision tree learning algorithms that includes widely used algorithms such as ID3, ASSISTANT and C4.5. These decision tree learning mehtods search a completely expressive hypothesis space and thus avoid the difficulties of restricted hypothesis spaces. Their inductive bias is a presence for small trees over large trees.


 


 

by 에이아이 2009. 8. 2. 14:31
Bongo Tutorial
 

뚬바오 봉고 연주
 

봉고로 찬송 연주
by 에이아이 2009. 8. 2. 14:15

제목 : R을 이용한 데이터마이닝 [데이터마이닝 알고리즘 설명]
          SVM, MARS 등 알고리즘 포함하며 대부분의 알고리즘들을 설명하고 있음.

출처 : http://datamining.dongguk.ac.kr/lectures/Fall2008/dm/dm_notes_v0.5.pdf

파일 :


설명 :
여러가지 데이터마이닝 기법들을 설명하고 있습니다.
데이터마이닝의 소개 및 여러가지 분석 기법들에 대해서 수식 및 알고리즘들을 자세하게 설명한 자료입니다.


내용의 구성  
  • 데이터마이닝의 기본
    데이터마이닝이란?
    데이터마이닝의 주요 모델링 기법 / 적용사례 / 솔루션들 / 지도학습과 비지도학습 / 모형의 평가
  • 선형회귀모형
    단순선형회귀 / 다중선형회귀 / 다항회귀모형 / 변수선택 / R예제: swiss 데이터
  • 로지스틱 회귀분석
    로지스틱회귀 / 예제 / 로지스틱 모형을 이용한 분류 / 모형의 특징 / R예제 : sonar 데이터
  • 의사결정나무 (결정트리)
    결정나무 소개 / 형성과정 / 여러가지 알고리즘 / 결정나무의 특징 / R예제
  • 신경망
    신경망 소개 / 다층 신경망(MLP) / 고려사항 / 신경망 모형의 특징 / R 예제
  • 연관성분석
    연관성 소개 / 연관성 규칙 / 측도 / 절차 / 고려사항 / 연관성 분석의 특징 / R예제
  • 군집분석
    군집분석 소개 / 거리 / 계층적 군집분석 / 고려사항 / 응용: 부정탐지 / R예제 / SK텔레콤 기지국
  • 기타 지도학습방법
    K-근방 분류 / 서포트 벡터 기계 / 앙상블 기법 / 신용평점표 / RFM 모형 / R예제  

by 에이아이 2009. 8. 2. 03:35

데이터마이닝을 연구하시는 분의 블로그입니다.
좋은 자료들을 포함하고 있어 링크합니다.

블로그 주소 : http://freesearch.pe.kr/

EM알고리즘 구현 : http://freesearch.pe.kr/1262

by 에이아이 2009. 8. 2. 03:21