데이터마이닝 이란?

데이터마이닝은 간단하게는 "대용량의 데이터로부터 그 안에 숨겨져있는 의미있는 지식을 찾아내는 과정"이라고 설명할 수 있습니다. 위키백과에서는 아래와 같이 좀 더 자세한 설명(정의)하고 있으니 참고하세요. 

데이터 마이닝(Data Mining)은  대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙(rule)이나 패턴(Pattern)을 찾아 내는 것이다. 다른 말로는 KDD(데이터베이스 속의 지식 발견(Knowledge-discovery in databases)라고도 일컫는다. 이를 위해서, 데이터 마이닝은 통계석에서 패턴인식에 이르는 다양한 계량 기법을 사용한다.

다양한 데이터마이닝 정의를 살펴보고 싶다면 여기 를 클릭하세요.
데이터마이닝에 대한 동영상 강좌를 보고 싶다면 여기 를 클릭하세요.


데이터마이닝 분석 방법 정리

데이터마이닝의 분석의 종류는 분류, 군집, 연관규칙 등으로 소개할 수 있습니다.
그 외에도 개인화 추천 등의 분석도 추가될 수 있습니다.

분류분석 : 목표 필드의 값을 찾는 모델을 생성한다. 과거의 데이터를 입력으로 하여 분류 모델을 생성하고 새로운 데이터에 대하여 분류값을 예측한다. 

군집분석 : 데이터를 여러가지 속성(변수)들을 고려하여 성질이 비슷한 몇 개의 집합으로 구분하는 분석 기법이다. 분류 분석과는 달리 목표 변수를 설정하지 않는다. (따라서, 분류는 supervised learning[교사학습]이라고 하고, 군집분석은 unsupervised learning[비교사학습]이라고도 한다.)

연관규칙 : 장바구니 분석이라고도 한다. 인터넷 쇼핑몰 및 오프라인 매장 등에서 고객이 한번에 구입하는 상품들을 분석하여 함께 판매되는 패턴이 강한 연관된 상품들을 찾는다. 예를 들어, [A.데이터마이닝 개론] 이라는 도서를 구입한 사람들은 [B.최신 마케팅 기술]이라는 교재를 함께 구입한다. 라는 패턴을 분석할 수 있고 이를 바탕으로 A도서를 구입한 고객에서 B도서의 구입을 추천할 수 있다. 

연속패턴 : 연관규칙과 유사하다. 연관규칙에 시간 정보를 추가하여 순차적인 구입 패턴을 분석하는 방법이다. 예를 들어, 노트북을 구입한 사람들은 1달 정도 후에 노트북 받침대를 구입한다 라는 패턴을 찾을 수 있다. 이 규칙을 바탕으로 노트북을 구입한 고객들에게 노트북 받침대를 추천할 수 있다.


데이터마이닝 동영상 강좌

[1] Goole TechTalk에서 제공하는 데이터마이닝 강좌 (강좌명 : Stat202) [강좌보기]
스탠포드 대학교 David Mease 교수의 데이터마이닝 강좌입니다. 총 13개의 강좌로 구성되어 있습니다.

[2] 방송통신대학의 데이터마이닝 강좌입니다. [강좌보기]
데이터마이닝의 개론을 쉽게 이해할 수 있도록 강의합니다.

데이터마이닝 알고리즘 정리

데이터마이닝 분석에서 사용되는 주된 알고리즘들을 설명합니다.
상세보기를 클릭하면 각 알고리즘에 대한 자세한 설명을 볼 수 있습니다.

SVM (Support Vector Mahine) 상세보기
EM (Expectation Maximization) 상세보기
K-Means (K-평균) 상세보기 
CF (Collaborative Filtering) 상세보기   


분석방법에 대한 설명 자료들 

http://ai-times.tistory.com/270
연관규칙탐사 소개 (포항공대 전치혁 교수님)

http://ai-times.tistory.com/286
나이브베이지안 분류의 개념에 대한 설명


데이터마이닝 관련 자료들

월마트의 데이터마이닝 활용 [관련자료보기]

데이터마이닝 소개 기사 (2001년 5월) [관련자료보기]

MS-SQL 에서의 BI 기능 설명 동영상 [관련자료보기]

분류와 분석의 차이점 [관련자료보기]


데이터마이닝 분석 툴(프로그램)

데이터마이닝을 위한 다양한 상용 프로그램 및 연구용 프로그램들이 있습니다.
아래에 프로그램들을 나열해보았습니다.

[1] SPSS Clementine (상세보기)
[2] SAS E-Miner (Enterpise Miner) (상세보기)
[3] WEKA (상세보기)
[4] See5.0 (상세보기)

그럼, 가장 많이 사용되는 데이터마이닝 툴은 무엇일까? 2004년 통계자료 (상세보기)


데이터마이닝 실습 동영상

[1] Weather 데이터를 사용한 의사결정트리 분류 분석 (WEKA, Clementine) [관련자료보기]


데이터마이닝 추천 도서(교재)

[1] 데이터마이닝 (사이텍미디어 / 신택수,홍태호 공역 / 2009년 3월 / 24,000원)  
Data Mining for Business Intelligence (원서)를 번역한 도서이다. 2009년에 출간되었다.

[2] 데이터마이닝 개념 및 기법 (자유아카데미 / 박우창,승현우,용환승,최기헌 공역 / 2004년 4월 / 30,000원)
원서를 읽는 것도 괜찮다. 

[3] CRM을 위한 데이터마이닝 (대청미디어 / 알렉스 버슨 저 / 2000년 10월 / 25,000원)
자세한 수식 및 알고리즘 보다는 CRM에 응용하는 측면에서 각 분석기법들을 쉽게 설명하고 있다.

[4] 데이터마이닝 (대청미디어 / 1999년 10월)
두껍지 않은 책으로 부담없이 읽을 수 있다. 데이터마이닝의 도입서로서 읽으면 좋다.
요즘은 품절되어 구입할 수 없어 아쉽다.

[5] 비즈니스 인텔리전스를 위한 데이터마이닝 (신택수, 홍태호 공역 / 사이텍미디어)
관련 PPT 자료 바로가기


데이터마이닝 관련 연구실 (대학원)

[1] http://dmlab.snu.ac.kr/
     서울대학교 산업공학과 데이터마이닝 연구실 (조성준 교수님)

[2] http://kdd.snu.ac.kr/index.html
      서울대학교 데이터 마이닝 및 데이터베이스 연구실 (심규석 교수님)

[3] http://cs.sungshin.ac.kr/~jpark/
     성신여자대학교 컴퓨터학과 데이터마이닝 연구실 (박종수 교수님)



데이터마이닝 관련 사이트 및 블로그 글들

[1] http://freesearch.pe.kr/   
     데이터마이닝 관련 자료들 정리, EM알고리즘 구현 : http://freesearch.pe.kr/1262

[2] http://datamining.dongguk.ac.kr/lectures/Fall2008/dm/dm_notes_v0.5.pdf
     [참고] 여러가지 데이터마이닝 기법 분석 정리문서 자료설명

[3] http://adeuxist.egloos.com/
     인공지능, 데이터마이닝 관련 블로그

[4] http://adeuxist.egloos.com/971440
     연관규칙 Apriori 알고리즘


데이터마이닝 소개(발표) 자료(PPT 등)

2006년 11월에 학부 강의(인공지능)에서 대략적으로 소개하기 위해 만들었던 자료입니다.


2007년 데이터마이닝 소개 한글 자료 (비공개)



인터넷에서 검색한 자료입니다.


 

데이터마이닝 관련 기사

[1] 1990년대 후반 전자신문의 기사 [데이터마이닝 기술 소개]
by 에이아이 2011. 10. 26. 16:42
| 1 |