데이터마이닝 및 기계학습에서 오픈소스 및 공개 프로그램으로 유명한 웨카(Weka) 프로그램에 대해서 설명합니다. 아래의 3개의 주제로 글을 작성하여 <해당글>을 작성한 후 링크하였습니다.
(1)에서는 웨카 프로그램을 누가 만들었으며 어떻게 사용될 수 있는지 설명하고, (2)에서는 웨카 프로그램을 다운로드 받고 설치하고 실행하는 방법을 설명합니다. (3)에서는 웨카 프로그램을 사용하여 기본적으로 설치되는 IRIS 데이터를 가지고 의사결정트리 분류 분석을 수행하는 방법을 설명하였습니다.
⊙ 뉴질랜드 와이카토 대학교의 컴퓨터 과학과에서 개발한 기계 학습 라이브러리인 웨카(WEKA, http://www.cs.waikato.ac.nz/ml/weka/)가 미국 컴퓨터 학회의 데이터 마이닝 분과인 SIGKDD(http://www.acm.org/sigs/sigkdd/)에서 수여하는 상을 수상했다. 웨카는 자바 언어로 구축된 무료 라이브러리로, 그동안 국제적으로 널리 사용되어 왔다.
⊙ 이제 처음 도입된 지 약 10여 년이 넘은 데이터 마이닝 분야에서 이 상은 가장 권위있는 상이다. 이는 데이터 마이닝 분야에서 훌륭한 실적을 낸 학자나 연구팀에게 수여하는 상으로, 특히 와이카토 대학교의 컴퓨터 과학과는 지난 해 디지털 도서관 연구와 관련해 국제적인 학술상을 수여 받은 데 이어 2년 연속으로 영광을 안게 됐다.
⊙ 웨카는 '지식 분석을 위한 와이카토 환경(Waikato Environment for Knowledge Analysis: WEKA)'의 약자로, 국제적으로 이 분야 교과서로 많이 쓰이고 있는 '데이터 마이닝: 실용적인 기계 학습 도구와 기술(http://www.cs.waikato.ac.nz/~ml/weka/book.html)'이라는 책과 더불어 무료 소프트웨어로 개발된 것이다.
⊙ 웨카 개발을 총지휘한 사람은 이 대학교의 이안 위튼(Ian Witten, http://www.cs.waikato.ac.nz/~ihw/) 교수다. 문서 위주의 데이터 마이닝 기법과 디지털 도서관 관련 기술이 전공인 위튼은, 대학 또는 대학원의 교과 학습이나 그 외 연구 목적에서 누구나 쉽게 사용할 수 있는 범용 기계 학습 라이브러리로 웨카를 개발한 것이다. 웨카는 오픈소스 소프트웨어이기 때문에 누구나 원하는 코드를 덧붙이거나 수정하여 사용할 수 있다는 점도 큰 장점이다.
⊙ 웨카에는 일반적으로 데이터 마이닝 분야에서 필요로 하는 기본적인 알고리즘들이 대부분 구현되어 있다. 예를 들면 문서를 자동으로 분류하는데 사용되는 베이지언 네트워크나, 문서의 자동 군집화에 사용되는 'k-means' 알고리즘, 예측 규칙 도출을 위한 ID4 알고리즘, 어소시에이션 규칙(association rules) 추출 알고리즘 등 교과서에 나오는 기계 학습 알고리즘들이다. 사용자들은 간단한 인터페이스를 통해 이런 알고리즘들을 불러 사용할 수 있으며, 그 결과를 그래프로 쉽게 표현해 파악할 수 있다.
⊙ 2000년 4월부터 웨카의 내려받기 횟수는 20만 회를 상회하는데, 최근에는 한달에 1만회의 내려받기를 보이며 매우 높은 인기를 끌고 있다. SIGKDD의 시상은 다음 달에 시카고에서 열리는 연례 학술회의(http://www.acm.org/sigs/sigkdd/kdd2005/)에서 이루어질 예정이다.
댓글