データマイニングとは、ルールを見つけるもの。
データマイニングの定義
データマイニングは多様な方法で実施される。「例えば回帰分析やクラスター分析を駆使した多変量解析の一種がデータマイニングである」という人もいれば、「データウェアハウスにおけるシステムコンポーネントの1つ」と言う人もいる。
使用者の立場によりデータマイニングの定義は変わるため、上記のように多くの解釈が存在する。
共通認識としては「意味のあるパターン、ルールを発見するために膨大なデータを自動もしくは半自動で分析し探索すること」と考えられている。
データマイニングする上で重要なことは、データの整理、整備したデータの探索手段、手に入れたデータを活用する組織力である。
「データ」「ツール」「人」を総合的に考えることがデータマイニングである。
「経験者」から「データ」の時代。
データマイニングツールとは情報を提供するといったレベルではなく、意思決定のルールとなる「仮説そのもの」の生成を行うツールである。
担当者が集計結果を主観的に解釈することに対して、データマイニングツールはデータ全てから客観的に法則を導き出す。
データマイニングでは、インプットするデータの質が重要になる。問題の特定はデータが語る事実から自動的に導かれるから。
データウェアハウス
データマイニングの出現はデータウェアハウスの構築と関係がある。
70年代より企業はコンピュータによりデータ収集を行う環境を整えてきた。しかし、データをどのように保存するべきか考える企業は多くなかった。つまり、保存データは人のカンによって洗濯され、長期保存されることはなかった。
90年代になり大容量のデータを保存できるようになると、効率よく保存できる倉庫、つまりデータウェアハウスの構築が注目された。
データウェアハウスの登場により蓄積される大容量データからビジネスに役立つ情報を見つけるデータマイニングの概念が生まれた。
データマイニングと統計解析
データマイニングと統計解析は別物である。
統計解析が「仮説の証明」を目的としているのに対してデータマイニングは「問題の特定」を目的としている。
統計解析は「仮説ありき」で、データマイニングは「データありき」である。
データマイニングの手法
データマイニングの手法は50種類以上存在する。代表的なものは決定木、回帰分析、テキストマイニングなど。統計解析から発生したものや、データマイニング独自の分析手法が存在する。
詳しくは以下の書籍にて。
データマイニングがマーケティングを変える!―経験とカンを科学する最新手法 (PHPビジネス選書)
- 作者: SASインスティチュートジャパン
- 出版社/メーカー: PHP研究所
- 発売日: 2001/04
- メディア: 単行本
- この商品を含むブログを見る