데이터 마이닝

Data Mining

"데이터 과학자는 21세기 들어 가장 섹시한 직업을 가진 사람들이다."

- 하버드 비즈니스 리뷰, 2012

1 개요

데이터베이스 속에서 의미있으면서 유용하고 가치있는 정보를 찾아내는 인간행동이다. 학문적으로 엄밀하게는 이 인간행동 중에서도 부분적인 과정만을 일컫지만 일상생활에서는 모든 과정을 일컫는다. 이런 과정을 지식발굴과정 (KDD)라고 부른다.

2 Operation

Classification
Clustering 군집 분석 : 인간에 의해서 해답이 제공되지 않고 알고리즘 자체에 의해 그룹이 만들어지는 기법.
Association 연관 규칙 : 어떤 항목이 어떤 항목과 연관되는가?
Visualization 데이터 시각화 : 인간이 알아볼 수 있는 형태로 표시
Prediction
Summarization

3 주된 기술

Neural Network 신경망
Genetic Algorithm 유전 알고리즘
Decision Tree 의사결정나무 : 가장 인기있는 데이터 마이닝 툴로서 여러가지 옵션과 그들 옵션을 선택할 때의 결과를 체계적으로 제시하는 방법론이다.
Case Based Reasoning
Discriminant Analysis
Regression
Association
K-Means

4 학부 교과목으로서

고려대 산업공학과에서는 교재로 "Shmueli, G., Patel, N.R., Bruce, P. C. (2010). Data Mining for Business Intelligence: Concepts, Techniques, and Applications in Microsoft Office Excel with XLMiner, Wiley"을 사용하고 있다. 동국대학교 통계학과에서는 교재로 "R을 이용한 데이터 마이닝, 박창이, 김진석'을 사용하고 있다.

이 과목을 수강하려면 통계학개론, 회귀분석에 대한 지식이 요구된다. 또 사용하는 툴에 대한 지식이 요구된다. (R언어, SAS 등)

kNN, 의사결정나무, 신경망, 군집분석 등에 대해서는 기계학습 항목도 참조.

  • 소개
  • 데이터 전처리
  • EDA (Exploratory Data Analysis) : 데이터에 대한 기본적인 영감을 얻는데 필요한 방법론.
  • 감독학습
    • K-Nearest Neighbor 알고리즘
    • 의사결정나무
    • 신경망, 회귀분석, 로지스틱회귀, 앙상블모형, 변수선택 및 모형선택, ...
  • 비감독학습
    • 군집 분석, 연관 규칙, ...
  • 모델 평가 기법 : 다양한 데이터 마이닝 모델을 평가하는 방법론