출처: http://news.nate.com/view/20030402n02404

참고: 본문의 내용 중 아래 단락에서 데이터 분석 시 고려해야 할 특성(문제)들을 언급하고 있다.

이론에 맞는 모형을 설정하고 분석에 필요한 데이터를 수집하여 계량분석적으로 주식시장에 접근할 때 전제되어야 할 것은 그 방법이 체계적, 실증적, 객관적, 계량적이어야 함은 물론 연구의 결과로 얻은 법칙이나 이론이 일반성, 추상성, 보편성을 지녀야 한다는 것이다. 또한 원시자료(raw data)가 내포하고 있는 자유도(degrees of freedom), 다중공선성(multicollinearity), 이질적 편의(heterogeneity bias), 계열상관(serial correlation), 구조변화(structural change)등과 같은 문제들을 적절하게 조정하는 것 역시 이에 못지않게 근본적으로 중요하다.


by 에이아이 2009. 8. 26. 13:57
참조: http://blog.naver.com/ibuyworld/110048919032

정리 : 데이터의 다중공선성 및 상호작용(매개효과?)에 대해서 설명하고 있다.

내용 :

기업의 시가총액에 재무전략이 미치는 영향을 알아보기 위해 Data set을 모은다라고 가정하자,
Response Variable = Market Capitalization
Predictor Variabl = Debt, Debt-Equity Ratio, ROE, ROA, Aseet

위의 6가지의 독립변수로 시가총액과의 관계를 infer할 때 각 Time series가 아닌 이상 each X는 상호 독립성을 유지해야 하는게 regression의 assumption이기 때문에 서로 영향을 주고 있음이 정확히 나타난다.

Debt-Equity는 Debt이 증가하면서 같이 증가하고, DE ratio의 E가 하락하면서 ROE를 높인다.  또한 ROA와 Asset은 밀접한 관계를 가지고 있다.  Regression Analysis는 주어진 모델에서 다른 X-변수가 (all other variables are hold constant) 변화없이 정지된 상태에서 Debt만의 효과를 coefficient(Value)와 Standard Error(95% CI or whatever)로 확인하는데 의미가 있는데 X간에 독립적이지 못 하면 서로 영향을 미쳐 주어진 Outcome은 misled하게 된다.  필요없이 많은 자료, 특히 필요없는 새로운 항목은 잘못된 의사결정을 유도하고 자료를 모으는 비용을 발생시킨다.

다른 하나의 X가 움직이는 동안 또 다른 하나가 고정되지 못하기 때문에 해당 X의 coefficient를 해석해 내지 못할 위험이 있고 하나를 제거하면 하나 이상을 제거하는 효과가 있어 Y의 평균값의 분산이 매우 커지게 된다.

이를 다중공선성 (or Multicollinearity, 오히려 영어가 다 쉬운듯 하다.)  이라고 한다.  서로간의 이런한 영향력을 가지고 있다면 하나를 제거해 줘야 하는데 통계페키지에서 VIF 값을 가지고 사용한다.

참고로 다중공선성과 Interaction effect는 완전히 다른 개념이다.  다중공선성은 Numerical Variables간의 독립성여부를 확인하는 것이지만 interaction effect는 연구에서 중요하게 관심을 가지는 X간의 상호관계를 확인하는 것이다.  즉, numerical variable에 categorical variable이 적용되면 Y의 평균이 어떻게 달라지냐의 연구에 중요한 부분이다.  X를 90 넣고 제초제를 applied하지 않을 때의 꽃의 생산율이 90인데 X를 90넣고 제초제를 뿌리니깐 꽃의 생산율이 120 이다.  제초제 자체가 꽃 생산에 영향을 미치기도 하지만 X와 제초제의 혼합효과 또한 꽃의 생산율에 영향을 미치기도 한다.  이를 interaction effect라고 하는데 이게 통계적으로 유의한지에 대해서는 Extra-sum of square F test로 확인하기 바란다.

참고로 아래에 interaction effect 관련 그래프를 하나 붙여본다.  P가 있고 없음의 차이가 N이 없을 때의 Y값의 차이와 N이 있을 때의 Y값의 차이가 다른 것을 확인할 수 있다. 이는 N과P의 interaction effect가 있다는 것이다.  이 그래프에서 N과 P의 combination이 없었다면 Y값은 작아져서 점선과 직선이 수평을 이루었을 것이다.  대표적으로 두선이 교차하면 interaction이 있다고 본다.

사용자 삽입 이미지

이 상호효과는 기업전략의 핵심역량이론과 상당히 닮아있다.  2000년대 초반은 미국시장에서 토요타, 혼다가 GM, Ford를 압도하기 시작한 시점이었다.  그래서 토요타에 대한 연구가 미국에서 많았는데 토요타의 생산방식을 미국에 적용해도 그 효과가 나타나지 않는다는 이유가 바로 핵심역량의 이유였다.  기술이 이전되고 모방을 해도 원적용자의 효과를 따라갈 수가 없는데 이는 생산시설, 기업문화, 조직, 공급망등 모든 요소가 상호작용해서 이미 main effect(주효과: X만의 효과)만을 가지고 기업의 시장점유율을 높일 수도 없었고 interaction effect가 통계적으로도 큰 의미있는 것으로 보여주고 있다.  Interaction effect는 원적용자또한 정확한 투입비율을 알 수가 없다는 것이다.  200년된 양조장에서 나오는 술맛을 그대로 재현하기 위해 그 주인이 새로운 양조장을 만들어 동일한 제조비율로 만든다고 해도 동일한 맛은 나오지 않는다.  200년된 양조장의 manual에 없는 무언가의 상호작용으로 고객을 이끈다.  새롭게 확장되는 사업망은 기존 핵심역량을 가지고 있는 양조장의 brand에 악영향을 미칠 가능성이 높다.

기업전략에서또한 기업가치를 높이는데 투입하는 요소가 서로 다중공선성(중복된 투자효과)이 없는지 확인하고 interaction effect를 최대한 높여가는 노하우에 대한 지식경영이 중요한 시점이다.

by 에이아이 2009. 8. 26. 11:39


방송통신대학에서 진행된 데이터마이닝 강좌 동영상입니다.
한국외국어 대학교 최대우 교수님께서 강의하신 내용입니다.
데이터마이닝에 대해 이해하는 데 도움이 많이 되는 자료입니다.

[1] 데이터마이닝 강좌
한국외국어대학교 최대우 교수님
데이터마이닝 관련 연구분야 / 여러가지 분석 기법들 
동영상 보기 : http://blog.daum.net/nhm13/8750639

[2] 데이터마이닝 강좌
국내 데이터마이닝의 역사 / 활용사례 / 구현 단계
동영상보기 : http://blog.daum.net/nhm13/8750655

[3] 데이터마이닝 강좌
CRM / 고객이탈방지에의 활용 사례 / CSS / 생명정보학에서의 활용
동영상 보기 : http://blog.daum.net/nhm13/8750663

[4] 데이터마이닝의 개요 및 활용 정리(5강)
데이터마이닝 개요 정리 / 활용 정리 / S-Plus 사용법
동영상 보기 : http://blog.daum.net/nhm13/8750669

by 에이아이 2009. 8. 26. 00:03

Goole TechTalk 에서 제공하는 데이터마이닝 동영상 강좌입니다.

스탠포드 대학의 David Mease 교수의 강의입니다.
데이터마이닝의 분석 기법들을 자세하게 설명하고 있습니다. 제목에서 보여주듯이 데이터마이닝의 통계적인 기초를 자세히 설명합니다.

The main topics are exploring and visualizing data, association analysis, classification, and clustering. The textbook is Introduction to Data Mining ...

전체 13강으로 되어있습니다.

강의명 : Statistical Aspects of Data Mining (Stats 202) Day
강좌 홈페이지 : http://sites.google.com/site/stats202/
강의 동영상들 : http://video.google.com/videosearch?q=mease+stats+202

[1강] Statistical Aspects of Data Mining (Stats 202) Day 1


[2강] Statistical Aspects of Data Mining (Stats 202) Day 2
[3강] Statistical Aspects of Data Mining (Stats 202) Day 3
[4강] Statistical Aspects of Data Mining (Stats 202) Day 4
[5강] Statistical Aspects of Data Mining (Stats 202) Day 5
[6강] Statistical Aspects of Data Mining (Stats 202) Day 6

위의 [2강] - [6강] 동영상을 보고 싶으면 아래의 더보기 를 클릭하세요.


[7강] Statistical Aspects of Data Mining (Stats 202) Day 7

[8강] Statistical Aspects of Data Mining (Stats 202) Day 8

[9강] Statistical Aspects of Data Mining (Stats 202) Day 9

[10강] Statistical Aspects of Data Mining (Stats 202) Day 10

[11강] Statistical Aspects of Data Mining (Stats 202) Day 11

[12강] Statistical Aspects of Data Mining (Stats 202) Day 12

[13강] Statistical Aspects of Data Mining (Stats 202) Day 13

by 에이아이 2009. 8. 25. 21:08

http://www.tongguitar.co.kr/ 에서 제공하는 무료 동영상 강좌입니다.
강좌위치 : Home > 통기타배우기 > 켄지의 1분레슨

초보자를 위해 친절하고 쉽게 설명해주고 있습니다. 
각 강좌는 1분 정도의 짧은 시간에 핵심적으로 꼭 필요한 기술들을 설명해줍니다.

[1강] 기타코드 쉽게 잡는법 - 켄지의 1분레슨(통기타배우기)

 

[2강] 스트로크 하는법 - 켄지의 1분레슨(통기타배우기)
기본적인 통기타를 스트로크 하는 방법을 설명합니다.
업, 다운 스트로크 방법, 피크를 잡는 방법, 피크를 사용하는 방법도 자세하게 설명합니다.
아래의 더보기 를 클릭하면 동영상을 볼 수 있습니다.

[3강] 통기타로 계이름 치기 - 켄지의 1분레슨(통기타배우기)
통기타로 계이름(도레미파솔라시도) 치는 방법을 설명합니다. 기타의 음계를 배웁니다. 코드를 사용하여 연주하는 것이 일반적이지만 음 하나 하나를 치는 법도 처음부터 연습해야 합니다.
아래의 더보기 를 클릭하면 동영상을 볼 수 있습니다.

[4강] 통기타코드 쉽게잡는 왼손연습 - 켄지의 1분레슨 (통기타배우기)
통기타 왼손 연습입니다. 통기타 연주할 때 왼손의 코드 변환을 연습하는 방법을 설명합니다.
초보의 경우 코드 변환이 쉽지 않은데 연습하는 좋은 방법인것 같습니다.
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=5&page=2

[5강] 4, 8, 16비트 스트로크에 대해 - 켄지의 1분레슨(통기타배우기)
4비트, 8비트, 16비트를 연주하는 방법을 설명합니다.
4비트(약간 느린 곡), 8비트 (경쾌한 곡, 보통 많이 쓰임), 16비트 (더 빠르고 경쾌한 곡)
아래의 더보기 를 클릭하면 동영상을 볼 수 있습니다.
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=6&page=2

[6강] 코드와 코드 바꾸기 - 켄지의 1분레슨(통기타배우기)
특정 코드를 잡고 연주하다가 다른 코드로 바꾸는 방법을 설명합니다.
적절한 박자에 그리고 빠르게 코드를 변환하는 방법 등 자세히 설명합니다.
코드를 적절히 변환하지 못하면 잡소리(지저분한 소리)가 납니다.
아래의 더보기 를 클릭하면 동영상을 볼 수 있습니다.
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=7&page=2

[7강] 4비트로 곡연주하기 - 켄지의 1분레슨(통기타배우기)
4비트로 곡을 연주하는 방법을 설명합니다.
아래의 더보기 를 클릭하면 동영상을 볼 수 있습니다.
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=8&page=2

[8강] 8비트로 곡연주하기 - 켄지의 1분레슨(통기타배우기)
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=9&page=2

[9강] 8비트로 왼손 뮤트주법 - 켄지의 1분레슨(통기타배우기)
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=10&page=2

[10강] 8비트로 오른손 컷팅하기 - 켄지의 1분레슨(통기타배우기)
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=11&page=2

[11강] 고고리듬과 셔플리듬 - 켄지의 1분레슨(통기타배우기)
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=13&page=2

[12강] 16비트 연주 - 켄지의 1분레슨(통기타배우기)
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=15&page=2

[13강] 16비트의 다양한주법 - 켄지의 1분레슨(통기타배우기)
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=16&page=2

[14강] 오픈코드와 개방현 - 켄지의 1분레슨(통기타배우기)
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=17&page=2

[15강] 약식코드와 좋은소리나는 코드 - 켄지의 1분레슨(통기타배우기)
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=18&page=2

[16강] 코드의 근음과 코드진행 - 켄지의 1분레슨(통기타배우기)
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=19&page=1

[17강] 하이코드란 : 초초보 통기타 레슨 : 기타치는법, 통기타 연주
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=30&page=1

[18강] 통기타코드 기본21개 외우기 : 초초보 통기타 레슨 : 기타치는법, 통기타 연주
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=31&page=1

[19강] 스트로크 부분에 따른 기타 소리 변화
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=34&page=1

[20강] 통기타 튜닝하기
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=43&page=1

[21강] 피치 파이프로 통기타 튜닝하기
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=48&page=1

[22강] 넥 조정하기~
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=51&page=1

[23강] 아르페지오 주법_1
아르페이지 주법으로 연주하는 방법을 설명합니다. 아르페이지의 기본을 설명합니다.
아래의 더보기 를 클릭하면 동영상을 볼 수 있습니다.
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=52&page=1

[24강] 아르페지오 주법_2
아르페이지 주법 2번째 강의입니다. 익혀두어야 할 여러가지 아르페지오 기법들을 설명합니다.
아래의 더보기 를 클릭하면 동영상을 보실 수 있습니다.
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=56&page=1

[25강] 아르페지오 주법_3 : 예제
아르페이지오 3번째 강의입니다.
아래의 더보기 를 클릭하면 동영상을 볼 수 있습니다.
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=57&page=1

[26강] 아르페지오 주법_4 연주 & 노하우
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=58&page=1

[27강] 손톱으로 스트로크하기
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=69&page=1

[28강] 퍼커시브 주법 노하우
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=120&page=1

[29강] 튜닝기 제대로 알아보자.
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=121&page=1

[30강] 기타줄을 갈아보자.
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=124&page=1

[31강] 통기타 보관법 by 성음악기
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=154&page=1

[32강] 메트로놈을 이용해서 연습해보자!
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=537&page=1

[33강] 카포 사용법을 알아보자!
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=552&page=1

[34강] 16비트 다른 주법 연습해보기~
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=599&page=1

[35강] 메트로놈으로 스트럼 연습하기~!
http://www.tongguitar.co.kr/bbs/board.php?bo_table=tong_lecture2&wr_id=634&page=1
by 에이아이 2009. 8. 24. 21:43

연구에 참고한 논문들 리스트를 정리합니다.

[09.08.24] Instability of decision tree classification algorithms (보기 : http://ai-times.tistory.com/329)

결정트리와 다중공선성에 대한 주제로 검색한 논문이다. DODD 를 통한 해외 박사논문이며 University of Illinois at Urbana-Champaign 에서 2001년 수여된 논문이다.

(주제) 다중공선성에 견고한 결정트리, 데이터마이닝 분석

[1] Facing Multicollinearity in Data Mining (보기: http://ai-times.tistory.com/148)
이 논문에서는 다중공선성의 특성이 데이터마이닝 분석 기법들에 미치는 영향에 대해서 조사하였다. MLP 등의 비모수적 알고리즘들은 다중공선성에 견고한 반면, CART 등의 결정트리 알고리즘은 그렇지 못함을 제시하고 있다.

[2] Input Data for Decision Tree (보기 : http://ai-times.tistory.com/149)

결정트리 알고리즘에 입력 데이터의 특성이 미치는 영향을 연구하였다. (1) 비선형성 (2) 다중공선성 (3) 공분산성 (4) 이상치 의 4가지 상태를 실험을 통해 연구하였다. 특히 다중공선성은 결정트리 알고리즘에 부정적 영향을 주는 것, 그리고 변수 제거가 해결책이 되지 않음을 설명한다. 

[3] Extacting Decisioin Tree from Trained Neural Network (보기: http://ai-times.tistory.com/150 )
신경망 모델을 통해서 결정트리를 생성하는 방법을 제안합니다. 결정트리의 장점(설명력, 규칙도출)과 신경망의 장점(데이터 특성에 견고함 즉 유연함, 높은 정확도)을 결합하기 위한 방법입니다.

[4] 지지벡터머신을 이용한 결정트리 (보기: http://ai-times.tistory.com/151)
백터머신을 사용하여 결정트리를 생성하는 방법입니다. 이 논문 역시 다중공선성 등 데이터의 특성에 약한 ID3 계열의 결정트리 알고리즘을 보완하기 위한 논문입니다.  

[5] 다중공선성 상태의 주성분회귀와 능형회귀 (보기: http://ai-times.tistory.com/152
다중공선성이 회귀분석에 미치는 영향과 이를 해결하기 위한 능형회귀를 설명한다. 

[6] 상호작용효과를 포함한 다중회귀분석에서 주효과의 검증에 대한 연구 (1994년 서울대 경영학과 이유재)
(보기: http://ai-times.tistory.com/154)

[7] 능형회귀에서의 로버스트한 K의 선택 방법 (보기: http://ai-times.tistory.com/153)


< 결정트리 비교 및 활용에 관한 논문들 >

[1] 결정트리 비교 연구 (CHAID와 CART 비교) (보기 : http://ai-times.tistory.com/155)

1999년 논문으로 통계학 기반의 대표적인 결정트리 알고리즘인 CHAID와 CART에 대해서 비교한 논문입니다. 데이터를 가지고 분석한 결과를 비교합니다.  

[2] 대졸자의 취업에 대한 CHAID 분석 (보기 : http://ai-times.tistory.com/156)







 

by 에이아이 2009. 8. 24. 18:47
논문 정보

원문 파일
   
저자 Li, Ruey-Hsia
학위 Ph.D.
학위수여대학 University of Illinois at Urbana-Champaign.
수여년도 2001
페이지수 86 p.
지도교수/심사위원 Adviser: Geneva G. Belford.
언어 영어
주제어 Computer Science
초록
  Fundamental theorems are derived for the instability problem of decision tree classification algorithms. The instability problem of decision tree classification algorithms is that small changes in input training samples may cause dramatically large changes in the output tree classifiers. The past research emphasized the instability of the prediction but not the tree structure change, which is more important to provide consistent, stable, and insightful information to facilitate the process of decision making.
  We present theorems to prove the relationship between a data change and the resulting tree structure change (i.e., split change). The relative sensitivity between two splits is defined based on the theorems as the smallest change that may cause the superior split to become inferior. A split is defined to be almost as good as another split if the relative sensitivity of the two splits is small. The Instability Theorem provides the cause of the instability problem. Algorithms are presented to lessen the instability problem.
  Empirical results illustrate that the trees constructed by the proposed algorithm are more stable, noise-tolerant, informative, expressive, and concise. The proposed sensitivity measure can be used as a metric to evaluate the stability of splitting predicates. The tree sensitivity is an indicator of the confidence level in rules and the effective lifetime of rules.

사용자 삽입 이미지
by 에이아이 2009. 8. 24. 18:42
EPL 맨유와 위건의 경기 하이라이트 동영상 입니다.

루니2골, 베르바1골, 오웬1골(EPL데뷔골), 나니1골(프리킥)

관련기사 : 화력폭발 맨유, 위건에 5-0 압승... 박지성 조원희 결장
http://sports.media.daum.net/nms/worldsoccer/news/general/view.do?cate=23772&type=&newsid=1501811&cp=sportalkr


<경기 하이라이트>
 

<골 장면만 모음>

by 에이아이 2009. 8. 23. 10:42


기계학습 이란?

기계 학습은 로봇이나 프로그램이 과거의 경험이나 축적된 데이터를 통하여 새로운 지식을 학습하는 기술을 의미합니다.

기계학습 관련 동영상

스탠포드 대학교에서 공개한 Machine Learning 클래스의 동영상 강좌입니다.

[1] Lecture 1 | Machine Learning (Stanford) [동영상보기]
[2] Lecture 2 | Machine Learning (Stanford) [동영상보기]
[3] Lecture 3 | Machine Learning (Stanford) [동영상보기]
[4] Lecture 4 | Machine Learning (Stanford) [동영상보기]
[5] Lecture 4 | Machine Learning (Stanford) [동영상보기]
[6] Lecture 4 | Machine Learning (Stanford) [동영상보기]


기계학습 강의자료

기계학습에 대한 강의자료를 첨부하니 참고하세요.

[1] 동국대학교 GAME LAB 홈페이지의 강의자료
출처 : http://game.dongguk.ac.kr/class/2006-1/ai/chap9_ai.ppt#264,9,슬라이드 9


by 에이아이 2009. 8. 22. 23:01
딸이 엄마에게 말했다.

"엄마, 요즘은 말 뒤에 삼을 붙여서 말하는게 유행이삼.
엄마도 이제부터 말 끝에 삼을 붙여서 말하삼."

"그래, 알겠어."

"아! 엄마, 뒤에 삼 붙여서 말하삼."
.
.
.
.
.
.
.
.

"응삼"

'Hobby : 유머' 카테고리의 다른 글

[유머] 초등학생의 답안지  (0) 2009.08.27
[유머] 콜센터 문의전화  (0) 2009.08.27
능청스런 개 주인  (0) 2009.08.22
[유머] 간단한 퀴즈  (0) 2009.08.17
[유머] 초등학생의 시험지  (0) 2009.08.17
by 에이아이 2009. 8. 22. 21:04