결정트리에 대한 소개 자료입니다. 아래의 도서에서 몇 단락을 발췌하였으니 참고바랍니다. 좀 더 자세한 학습을 원하는 경우는 아래의 도서를 준비하여 공부하시기 바랍니다.

[도서] CRM을 위한 데이터마이닝, 대청, 알렉스 버슨 외 지음 / 홍성완 외 옮김 / p.151-152

차세대 기법

이 장에서는 지난 20여년 간 학계나 연구소 등을 통해 개발되어 현재 널리 사용되고 있는 데이터마이닝 기법 중에서 정보기술 관련 서적이나 매체에서 자주 회자되는 대표적인 기법들 몇 가지를 소개하려고 한다. 이들 기법들은 주로 대용량의 데이터베이스로부터 과거에 인지하지 못했던 가치있는 정보를 추출하거나 새로운 자료/정보에 대한 예측 모델을 만드는데 사용되곤 한다. 또한 새로운 기법들을 지속적으로 개발하여 기존의 기법들을 대체하거나 보완하고 있는데, 예를 들어 의사결정나무 기법 중에서도 CHAID 와 같이 오래 전부터 사용되어 오던 기법보다는 CART 와 같은 새로운 기법을 선호하는 추세이다.

의사결정나무

의사결정나무란?

용어에서 의미하는 바와 같이 의사결정나무는 나무의 구조에 기반한 예측 모델로 나무의 가지는 데이터를 분류하기 위한 질문이며, 잎은 분류 결과에 따라 분리된 데이터 세트라고 할 수 있다. 그림 7-1은 한 이동통신 회사가 계약이 만료된 후 재계약을 하지 않은 고객(이탈고객)의 특성을 파악하기 위하여 만든 의사결정나무 모델의 일부인데, 여기에서 우리는 다음과 같은 특징을 발견할 수 있다.

  • 의사결정나무의 가지는 단 하나의 레코드도 빠짐없이 모두 분할한다. (부모마디에 속해 있는 레코드의 수는 두 개의 자식마디에 속한 레코드의 수의 합과 같다.)
  • 전체 이탈고객 및 잔류 고객의 수는 동일하며 나무의 상단 또는 하단으로 이동함에 따라 마디별 이탈고객및 잔류 고객의 수를 파악할 수 있다.
  • 신경망이나 전통적인 통계기법에 비해 모델의 구조를 이해하기 쉽다. 
     
  • 이탈 가능성이 높은 집단을 파악한 후, 그들을 상대로 마케팅 활동을 전개하는 것이 목적이라면 이 모델을 사용하는 것이 바람직하다.

  • 고객군별 특성(예, 수년간 우리의 고객이었으며 현재 최신형 단말기를 가지고 있으면 최우량 고객이다.)을 만들어 낼 수도 있다.  

 

 

 

by 에이아이 2009. 8. 12. 00:35