축적돼 있는 데이터로부터 일정 패턴을 찾아 미래를 예측한다면 어떤 효과가 있을까?’

이런 생각에서 출발한 것이 데이터마이닝이다.

다시 말해 데이터마이닝이란 대량의 데이터에 함축적으로 들어있는 지식이나 패턴을 찾아내는 기술이라고 정의할 수 있다. 데이터마이닝기술은 백화점에서 물건을 진열할 때 고객의 움직임(동선)을 줄이는 데 활용하는 것은 물론 고객의 구매패턴을 예측해 소비자가 살 물건의 쿠폰을 발행함으로써 판매 유인책으로도 사용될 수 있다. 기업마케팅이나 생명공학·스포츠산업·인터넷 등 실로 방대한 분야에 적용가능한 것이 바로 데이터마이닝인 셈이다.

그러나 데이터마이닝은 방대한 성격에 비해 역사는 이에 미치지 못한다. 그야말로 일천하다. 통계학·산업공학·전자공학·경영정보학이 데이터마이닝의 기반을 이룬다고 하지만 외국에서도 데이터마이닝에 대한 본격적인 연구가 시작된 것은 불과 10년을 넘지 않는다.

국내도 상황은 마찬가지다. 지난 97년 데이터마이닝 연구회 발족을 국내 데이터마이닝의 시초라고 한다면 채 5년이 되지 않는 셈이다.
홍익대 지원철 교수(46)가 97년 정보통신부 국책과제인 ‘데이터웨어하우스 기반의 데이터마이닝 소프트웨어 개발’이라는 과제를 수행하면서 관련 교수진이 결성한 데이터마이닝 연구회는 출발은 늦었지만 국내 학계 발전의 단초역할을 했다는 점에서 높이 살만하다. 당시 데이터마이닝 연구회는 20회에 걸쳐 정기 월례 세미나 및 워크숍을 개최, 국내 데이터마이닝 연구에 대한 관심을 불러일으키는데 지대한 공헌을 했다는 분석에서다.

이 데이터마이닝 연구회는 한국데이터마이닝학회로 이어지면서 현재까지 국내 데이터마이닝 연구·발전의 중추역할을 하고 있다.

한국데이터마이닝학회 회장으로 활동중인 전종우 서울대 교수(54)는 국내 데이터마이닝학계의 선구자로 통한다. 서울대 출신으로 플로리다주립대에서 통계학 박사학위를 취득, 현재 서울대 통계학과 교수로 재직중인 전 교수는 특히 ‘통계학 관점에서의 데이터마이닝’을 시도하며 국내 데이터마이닝학계를 이끌어오는데 산파역할을 한 인물로 평가받고 있다.

전 교수와 함께 국내 데이터마이닝학계에서 빼놓을 수 없는 인물이 김병천 KAIST 경영정책학과 교수(50)다. 김 교수 역시 아이오와 주립대학에서 통계학 박사 학위를 취득한 이후 통계학의 다양한 이론을 데이터마이닝에 접목하는데 노력하고 있다. 지금은 한국데이터마이닝학회 부회장으로 활동중이다.

연세대 이일병 교수(49)와 중앙대 이용구 교수(48)도 국내 데이터마이닝학계의 빼놓을 수 없는 인물로 꼽힌다. 지난 76년 연세대 전자공학과를 졸업하고 일리노이주립대학과 메사추세츠대학에서 각각 컴퓨터공학 석박사 학위를 취득한 이일병 교수의 주 연구분야는 웹 마이닝과 바이오메트릭스. 국내 학술지에 게재된 논문만 20편이 넘으며 해외 게재 논문 및 학회 발표 논문도 30편에 이른다. 저술활동도 활발해 미래산업리포트21, 인공지능 이론 및 실제, PC+, 컴퓨터과학개론, 마음·계산 그리고 언어 등 다수의 서적을 남겼다. 그는 이외에도 한국데이터마이닝학회 부회장으로 활동중이며 한국언어정보학회, 한국정보과학회, 한국 퍼지 및 지능시스템학회 이사로도 활약하고 있다.

이일병 교수는 앞으로 통계적 데이터분석방법 개발, 지능적 데이터분석방법 개발, 통계적 일반성 추출방법 개발, 혼합형 통합모형 개발, 3차원적인 데이터 및 마이닝 결과 분석도구 개발 등 다양한 분야에서 왕성한 연구의욕을 불태울 계획이다.

고려대 경제학과를 거쳐 미국 미네소타주립대학에서 통계학 박사를 취득, 현재 중앙대 응용통계학과 교수로 재직중인 이용구 교수는 ‘데이터솔루션 이사’라는 또다른 명함을 갖고 있다. 평소 ‘데이터마이닝이란 관측한 대용량의 데이터로부터 유용한 정보를 추출해 실제 의사결정에 활용될 수 있는 방법을 연구하는 것’이라며 ‘학자들의 책상에서 나오는 결과가 아니라 실제로 기업이 적용해 이익을 창출할 수 있는 실질적인 모형을 구하는 것이 중요하다’고 강조하던 이 교수의 지론에서 산업계에도 몸을 담은 것이다.

향후 주력할 연구분야 역시 이 교수의 지론과 맥을 같이한다. 주로 데이터에서 정보를 구하는 방법인 다변량분석·신경망모형·나무구조모형 등에 대한 이론적 연구에 몰입해 왔으나 앞으로는 기업 의사결정에 활용가능한 실용적인 데이터마이닝 모형개발에 전력할 계획이다.

마케팅조사분석론·마케팅조사통계분석 등을 저술한 이용구 교수는 ISI 2001 세계대회 조직위원회 위원, IASE(통계교육상담위원회) 2001 콘퍼런스 준비위원회 위원장을 맡고 있는 등 대외활동에서도 활약세가 두드러진다.

서울대 경영학과 출신인 지원철 교수는 대림산업에 근무하면서 KAIST에서 산업공학 석사 학위를 취득, 83년부터 줄곧 홍익대 정보·컴퓨터공학부 교수로 재직중이다.

지 교수는 97년 한국과학재단 중점과제연구회 데이터마이닝연구회장과 제1회 데이터마이닝 워크숍 조직위원장을 역임한 데 이어 이제까지 한국경영과학회 데이터마이닝 연구회장, 한국데이터마이닝학회 부회장을 담당하는 등 왕성한 대외활동을 보여주고 있다.

그의 주요 관심사는 데이터마이닝의 산업계 접목이다. 국내 금융분야에 데이터마이닝을 활용하는 연구 및 프로젝트를 수행중인 지 교수는 특히 기업과 개인의 신용평가 및 부도예측문제, 신용카드의 부정사용방지시스템 개발, 각종 스코어링시스템의 개발 및 인공지능을 활용한 시계열 예측문제 등에 높은 관심을 보이고 있다. 97년 정보통신부 과제를 수행하면서 ‘iBITs’라는 데이터마이닝 소프트웨어를 국내 처음으로 개발, 99년 프로그램 등록을 마친 데 이어 95년부터 2년간 포항제철의 ‘신경망을 이용한 품질설계시스템’을 개발한 바 있는 지 교수는 앞으로도 연관규칙 관련 연구결과를 시계열 분석에 적용하는 등 다양한 분야 연구를 시도할 예정이다.

국민대 정보관리학부 이춘열 교수(46)도 데이터마이닝학계를 움직이는 대표적인 학자다.

서울대 산업공학과를 졸업하고 서울대 경영학 석사, 미시간대 경영정보학 박사 학위를 보유한 이 교수는 한동안 국방정보체계연구원 연구원으로, 한국통신 소프트웨어연구소 선임연구원으로 활동하는 등 화려한 이력의 소유자이기도 하다.

이 교수는 데이터 정제 및 변환시 고려돼야 할 사항, 이를 위한 메타정보의 효과적인 관리환경에 대해 집중 연구할 계획이다. 특히 데이터 정제 여부가 마이닝 결과에 미치는 영향에 높은 비중을 두고 있다.

성신여대 컴퓨터정보학부 박종수 교수(45)는 연관규칙 및 순차패턴 탐사, 클러스터링 분야에서 전문가로 통한다.

‘두 개의 선택 알고리듬의 설계 및 분석과 결합 연산에의 응용’이라는 주제로 KAIST에서 박사 학위를 취득한 박 교수는 최근에는 웹로그 파일에서 사용자들의 행동 특성을 알아내는 순차패턴, 클러스터링에 관한 알고리듬을 분석·연구하는데 심혈을 기울이고 있다. 아울러 알고리듬을 모듈별로 개발해 향후에는 통합시스템으로 구성한다는 계획도 갖고 있다.

대외활동도 활발히 해 한국경영과학회 데이터마이닝 연구회 발족에 참여했으며 한국정보과학회 데이터베이스연구회 1998·2000 춘계 튜토리얼을 개최하기도 했다.

서울대 산업공학과 조성준 교수(42)도 기업의 비즈니스 프로세스와 데이터마이닝 접목을 강조하는 학자로 손꼽힌다. 일례로 SK(주) 데이터마이닝 교육을 담당했는가 하면, CRM에서의 데이터마이닝 응용기법, 데이터마이닝 기반의 트레이딩시스템 개발에 앞장서고 있다. 조 교수가 앞으로도 연구를 집중하고 싶은 분야는 데이터마이닝 기반의 선물 트레이딩 시스템 개발로 압축될 전망이다.

서울대 산업공학과 출신인 조 교수는 워싱턴대와 메릴랜드대에서 각각 컴퓨터과학 석박사 학위를 취득했다. 해외 학술저널에 24편, 학술대회에 58편의 논문을 발표하며 왕성한 연구열을 보이고 있는 조 교수는 특히 신경회로망을 이용한 데이터마이닝, 앙상블 학습 알고리듬 및 이상탐지, CRM과 금융트레이딩시스템이 주 관심영역이다. 신경회로망과 관련해서는 지난해 11월 미국 특허를 받기도 했다.

젊은 신예교수들도 눈에 띈다.

한국외국어대학교 최대우 교수(39)는 데이터마이닝 커뮤니티 사이트인 ‘데마귀( http://www.freechal.com/delpa)’를 운영하는 것으로 유명하다. 그만큼 현실세계에서 데이터마이닝 확산에 기여하고 있는 것.

최 교수는 서울대 계산통계학과와 미국 루거스대 박사 출신으로 확률부등식과 잠재특성모형을 전공했다. 지금은 분류학과 마이크로어레이 데이터 분석(DNA 칩 분석)에 관심을 갖고 연구중이다. 7, 8월 두 달간 포항공대에서 ‘데이터마이닝을 근간으로 한 DNA 칩’을 연구하며 한여름 더위를 잊고 있다.

한국분류학회 총무에 이어 한국데이터마이닝학회 학술이사, 한국통계학회 응용통계연구 편집위원으로 활동중인 최 교수는 BC카드·SK텔레콤·제일은행·데이콤·동원증권 등 국내 유수기업의 데이터마이닝 컨설팅 전문가로도 맹활약하고 있다.

KAIST 전산학과 심규석 교수(39)도 국내 데이터마이닝학계 발전의 일등공신으로 꼽히는 인물이다. 지난 85년 과학기술처 주관 컴퓨터 경진대회에서 상공부 장관상과 문교부 장관상을 수상한 심 교수는 박사과정 유학도 국비로 다녀온 수재로 통한다.

특히 심 교수는 전세계적으로 데이터마이닝의 파이어니어로 꼽힐 정도로 대단한 경력을 갖고 있다. 메릴랜드대학에서 ‘관계형 데이터베이스에서 쿼리 최적화 기술’로 박사 학위를 받은 심 교수는 데이터마이닝의 산실인 IBM 알마든 리서치랩에서 ‘Quest 프로젝트’라는 세계 최초의 데이터마이닝 프로젝트에 참여했다. 또 현재 IBM에서 판매하고 있는 ‘인텔리전트 마이너’라는 데이터마이닝 SW의 코어엔진을 개발했으며 벨연구소의 ‘세렌딥 데이터마이닝 프로젝트’에도 초기 멤버로 참여한 바 있다.

심 교수는 전세계적으로도 실력을 인정받아 현재 데이터마이닝 분야에서 세계적으로 권위있는 국제 학술그룹인 ACM SIGKDD 회원이며 국제 학술지인 VLDB 저널의 편집자로도 활동하고 있다.

지난 겨울에 이어 올 여름 미국 마이크로소프트 연구소에서 차세대 XML 소프트웨어를 개발하고 있는 심 교수는 앞으로 대용량 데이터에서 마이닝을 적용하는 방법과 웹 마이닝, 확장성표기언어(XML)와 마이닝 접목에 힘을 실을 계획이다.

이밖에 이화여대 용환승 교수, 서울대 이영조 교수 등도 국내 데이터마이닝학 발전에 버팀목이 되고 있다.

이들 교수진의 노력 덕택에 국내 데이터마이닝 기술도 나날이 발전하고 있지만 풀어야 할 숙제가 많은 것 또한 사실이다. 데이터마이닝이 단순히 실험실 연구 수준이었다면 이제는 일상생활속으로 들어가야 한다. 데이터마이닝분야에서 개발된 복잡한 알고리듬이 단지 연구로서만이 아니라 실생활에 유용한 기술로 거듭나야 한다는 얘기다.

이를 위해 산업계에서는 실 데이터를 제공하고 학계에서는 여기에 바탕을 둔 효율적인 알고리듬을 개발하는 형태의 활발한 산학 교류가 절실하다. 이것만이 한국의 실정에 적합한 데이터마이닝 도구를 개발하고 세계적인 경쟁력을 확보할 수 있는 첩경이기 때문이다.

아울러 100년이 된 통계학과 이제 막 태생한 데이터마이닝이 조화를 이루는 것도 학계가 풀어야 할 숙제다.

<정은아기자 eajung@etnews.co.kr>

신고
by 에이아이 2009.10.09 19:41

티스토리 툴바