データマイニングとは、ルールを見つけるもの。

データマイニングの定義

データマイニングは多様な方法で実施される。「例えば回帰分析やクラスター分析を駆使した多変量解析の一種がデータマイニングである」という人もいれば、「データウェアハウスにおけるシステムコンポーネントの1つ」と言う人もいる。

使用者の立場によりデータマイニングの定義は変わるため、上記のように多くの解釈が存在する。

共通認識としては「意味のあるパターン、ルールを発見するために膨大なデータを自動もしくは半自動で分析し探索すること」と考えられている。

データマイニングする上で重要なことは、データの整理、整備したデータの探索手段、手に入れたデータを活用する組織力である。

「データ」「ツール」「人」を総合的に考えることがデータマイニングである。

「経験者」から「データ」の時代。

データマイニングツールとは情報を提供するといったレベルではなく、意思決定のルールとなる「仮説そのもの」の生成を行うツールである。

担当者が集計結果を主観的に解釈することに対して、データマイニングツールはデータ全てから客観的に法則を導き出す。

データマイニングでは、インプットするデータの質が重要になる。問題の特定はデータが語る事実から自動的に導かれるから。

データウェアハウス

データマイニングの出現はデータウェアハウスの構築と関係がある。

70年代より企業はコンピュータによりデータ収集を行う環境を整えてきた。しかし、データをどのように保存するべきか考える企業は多くなかった。つまり、保存データは人のカンによって洗濯され、長期保存されることはなかった。

90年代になり大容量のデータを保存できるようになると、効率よく保存できる倉庫、つまりデータウェアハウスの構築が注目された。

データウェアハウスの登場により蓄積される大容量データからビジネスに役立つ情報を見つけるデータマイニングの概念が生まれた。

データマイニングと統計解析

データマイニングと統計解析は別物である。

統計解析が「仮説の証明」を目的としているのに対してデータマイニングは「問題の特定」を目的としている。

統計解析は「仮説ありき」で、データマイニングは「データありき」である。

データマイニングの手法

データマイニングの手法は50種類以上存在する。代表的なものは決定木、回帰分析、テキストマイニングなど。統計解析から発生したものや、データマイニング独自の分析手法が存在する。

詳しくは以下の書籍にて。