なぜ今ビックデータなどのデータ解析が求められるか。

データ活用の流れ

2000年前後はデータウェアハウスとデータマイニングが盛んに行われた。2005年前後はBI(BusinessIntelligence)が流行り、その後BA(BusinessAnalytics)が流行り、2015年くらいからビックデータが流行となった。

ビックデータとは

ビックデータとは、事業に役立つ知見を導出するためのデータである。ビックデータビジネスとは、ビックデータを用いて社会、経済の問題解決や業務の付加価値向上を行う事業である。

ビックデータの特徴として、多量性、多種性、リアルタイム性がある。

データ分析の目的

データ分析の目的は、データの特徴を把握すること、異常値を見つけること、パターン分類をすること、将来を予測することなどである。

多くのビジネスでは、分析結果からアクションを起こす際に、なぜそうするのか、そうした結果はどうなるのかといった根拠を示さねばならない。人が理解できる理由を提示するのがデータ分析である。

データサイエンス

データサイエンスとは、データを適切な方法で収集、加工、解析し、今まで気づかなかった新しい事実を浮かび上がらせるための科学である。

データ分析

データ分析ではデータ、情報、知見が必要。

データを集め、精製し、手元にあるデータを適切に活用し、分析結果を正しく評価する必要がある。データ抽出→データ分析→ビジュアル化の流れ。

分析のアプローチ

分析には仮説検証型と仮説発見型が存在する。仮説検証型は勘や経験から得られた仮説をデータで検証する。仮説発見型はデータから仮説を導き出す。

分析する前に仮説を立てて検証して行くことで、効率的に結論を導くことが可能。

仮説の設定

仮説の設定のポイントは、もれなく、ダブりなく(MECE)現状の制約にとらわれずに柔軟に考える(やった人がいない、データがないなど。)複数の仮説を考える。最初から完璧を目指さない、など。

統計の考え方

全ての現象は確率分布をする。全ての現象は母集団を観察する代わりに標本を観察して、母集団の特性を推測して分析する。

データの傾向把握の基礎

平均値は少数の異常値により大きな影響を受ける。外れ値を含んだデータでは平均と中央値の値が大きく異なるため注意。

 

確率・統計解析の基礎

確率・統計解析の基礎