なぜ今ビックデータなどのデータ解析が求められるか。

データ活用の流れ

2000年前後はデータウェアハウスとデータマイニングが盛んに行われた。2005年前後はBI(BusinessIntelligence)が流行り、その後BA(BusinessAnalytics)が流行り、2015年くらいからビックデータが流行となった。

ビックデータとは

ビックデータとは、事業に役立つ知見を導出するためのデータである。ビックデータビジネスとは、ビックデータを用いて社会、経済の問題解決や業務の付加価値向上を行う事業である。

ビックデータの特徴として、多量性、多種性、リアルタイム性がある。

データ分析の目的

データ分析の目的は、データの特徴を把握すること、異常値を見つけること、パターン分類をすること、将来を予測することなどである。

多くのビジネスでは、分析結果からアクションを起こす際に、なぜそうするのか、そうした結果はどうなるのかといった根拠を示さねばならない。人が理解できる理由を提示するのがデータ分析である。

データサイエンス

データサイエンスとは、データを適切な方法で収集、加工、解析し、今まで気づかなかった新しい事実を浮かび上がらせるための科学である。

データ分析

データ分析ではデータ、情報、知見が必要。

データを集め、精製し、手元にあるデータを適切に活用し、分析結果を正しく評価する必要がある。データ抽出→データ分析→ビジュアル化の流れ。

分析のアプローチ

分析には仮説検証型と仮説発見型が存在する。仮説検証型は勘や経験から得られた仮説をデータで検証する。仮説発見型はデータから仮説を導き出す。

分析する前に仮説を立てて検証して行くことで、効率的に結論を導くことが可能。

仮説の設定

仮説の設定のポイントは、もれなく、ダブりなく(MECE)現状の制約にとらわれずに柔軟に考える(やった人がいない、データがないなど。)複数の仮説を考える。最初から完璧を目指さない、など。

統計の考え方

全ての現象は確率分布をする。全ての現象は母集団を観察する代わりに標本を観察して、母集団の特性を推測して分析する。

データの傾向把握の基礎

平均値は少数の異常値により大きな影響を受ける。外れ値を含んだデータでは平均と中央値の値が大きく異なるため注意。

 

確率・統計解析の基礎

確率・統計解析の基礎

 

 

母集団と標本の説明。

分析対象の特性は、データが揃ってさえいれば平均や標準偏差を知ることができる。しかし、実際にはデータを全て揃えることは難しい。(日本人全員の身長など。)

多くの場合は分析対象の全データのうちごく一部に過ぎない。

ごく一部のデータを活用して、本来なら全データを獲得した上で初めて知りうる分析対象を知り得るのが推測統計である。

推測統計を行う上で第一歩目の手順は母集団を規定すること。

母集団から抽出された一部のデータ(分析者が入手できたもの)のことを標本という。

母集団特性値を標本特性値から推測するために、正規分布を導入する。

正規分布

正規分布によって確率密度関数を使って、確率変数の値を求めることができる。

正規分布の中で平均が0、標準偏差が1の正規分布は特別に標準正規分布と呼ばれる。

標準化

正規分布は様々な平均や標準偏差を持つものだから、分析対象が正規分布に従うとしてもそれが標準正規分布であるとは限らない。

全ての正規分布は簡単な操作で標準正規分布に換算できる。

分布全体の中心を0に移動し、さらに全体を均等に縮小したり、拡大したりする操作を標準化と呼ぶ。

3種類の平均

母集団と標本を考える場合、平均には母平均、標本平均、標本平均の平均がある。

 

標本分散というと、通常は不偏分散を指す。

自由度

普遍分散は標本の偏差平方和をデータ数−1で割った値であるが、この分母は自由度と呼ばれる。

不偏標準偏差を使用するとき、標本平均を標準化した値は正規分布ではなく、それに類似したt分布と呼ばれる確率分布に従う。

統計解析の基礎、平均と分散。

統計学で最も基礎的な指標は平均と分散(標準偏差)である

平均の役割

平均はよく知られている概念であるが、意味を確認する。

5教科のテストを学校で行うとして、クラスに50人の生徒がいるとすると、誰が最も良い成績なのか知るのが難しくなってくる。そこでまずは合計点を計算する。

個人の合計点を計算することで、総合力を容易に計算できる。

 

ただ、合計点の限界もある。1部科目を受験していない人がいる場合は比較が意味をなさない。そこで、合計点を受験科目数で割り1科目あたりの得点とすれば、総合力の指標として有効であると考える。

つまり平均点は、合計点と同じく相対的な総合力を図る指標である。

平均の定義としては、データの総和をデータ数で割った値ということになる。

平均の特性

・線型性の保持

全ての元データに対して一律の定数を加えたりかけたりした時、新しいデータの平均値もまた元の平均値に同じ定数を加えたりかけたりした値になる。

・平均からの偏差の総和はゼロ

・平均からの偏差平方和は他のいかなる一定値からの偏差平方和より小さい値になる。

幾何平均

データを全て掛け合わせて同次乗根をとった値をを幾何平均という。

分散及び標準偏差

分散や標準偏差は散らばりの程度をはかる指標。

各数値のばらつき具合が大きいほど、分散も標準偏差も大きくなる。

分散は元のデータとその差を2乗しているため、元の単位でなくなる。

元の単位にするために平方根をとったものが標準偏差である。

チェビシェフの不等式を使えば、どの範囲にどれくらいの割合のデータが含まれるかの概略を知ることができる。

アリと像を比較するなど、前提条件が違う場合は、標準偏差で比較すると意味のある判定はできない。

相対化する方法として、標準偏差の値を平均値で割り、それに100をかけて標準化する変動係数と呼ばれる指標が使われる。

なぜ、多くの顧客は離れてしまうのか。データを分析し原因を探る。

現代マーケティングは新規顧客の獲得よりも既存顧客の維持にシフトしている。市場の成熟化により、一生涯の顧客を獲得しなくてはと企業の意識が変化したから。

新規顧客を100名獲得しても、1ヶ月後に100名は慣れてしまっては企業のメリットは少ない。そのため、顧客の離反を食い止めることが企業にとって重要な課題となる。

チャーン防止が生死の分かれ目。

移動体通信の市場は爆発的に拡大し、移動体通信事業各社はどのように新規顧客を集めるかに注力していた。しかし現代は顧客をどのように維持するかに焦点が移っている。

顧客獲得に多くの費用を投入しても、顧客が解約してしまっては収益に悪い影響を与えるから。

顧客が他社サービスに乗り換えることを通信業界ではチャーン(Churn)とよぶ。このチャーンをどの程度防げるかが勝負となっている。

顧客を狙い撃つ

通話明細データを分析する。通話データにはいつ、どこに、どのくらいの時間及び金額の通話をしたのかという情報が記録される。

データマイニングを実施するにあたり、データ精度が足かせとなる企業が多い中、通信業界が蓄積しているデータはデータマイニングを適用しやすい状況にある。

踏み込んだ分析法として、長期間にわたる顧客の通話動向調査が挙げられる。

ライフスタイルが変わった顧客は何もしなければ解約して行くかもしれない。

守るべき顧客を定義する。

自社にとって、どんな顧客が優良顧客であるかを定義する必要がある。企業によって定義は異なるが、共通の要因として契約期間と利用金額が挙げられる。実際には、企業独自の重み付けをしたり、統計手法を用いた標準化を行う必要がある。

解約予想確率

どの程度解約する可能性があるかを算出することも有効。

データを作成するためには予測モデルを構築する必要がある。ロジスティック回帰や決定木を分析することで、顧客Aは80パーセントの確率で解約するといった指標を作ることができる。

優良顧客であれば思い切った投資をすることができ、顧客価値が低い顧客に対してはコストの低いキャンペーンぞ展開するなどの意思決定が可能となる。

キャンペーンには本当に効果があったのか。

誰にどのようなキャンペーンを行い、反応はどうだったかということを正確に記録し、フィードバックすることが重要である。

 

 

詳しくは以下の書籍。

 

データをどのように集めるか。定性的データと定量的データ。

定量的データはどれだけ購入したかなど、測りやすい指標。定量的データは製品などのイメージといった測りにくい指標。

量的データへの変換

定性的データは定量的データと同じ分析の土俵に上げるため量的データへ変換する必要がある。

そのため、クラスター分析によってアンケートデータを似た者同士で集めたり、因子分析で質問項目の共通項を見つけ出す。もしくは主成分分析で質問項目を統合化させる。

顧客それぞれが持つ3つのイメージの良し悪しを数値として解読可能なデータにする。

顧客ロイヤリティの具現化

会社イメージが良く、購入総額も高いグループは顧客ロイヤリティの高い優良顧客グループである。ロイヤリティの維持と購入金額の増加を目指して、クロスセル、アップセルを提供すれば良い。

会社イメージは良いが購入総額が低い層には定量的データで購入製品を確認し、クロスセルやアップセルのアクションを提供すれば良い。

会社イメージと価格イメージの組み合わせが類似している新規顧客と既存顧客を見つけ出す。同じイメージを持つグループ同士であるため、既存顧客が購入する製品を新規顧客が購入する可能性は高い。

アンケートの段階から対象に新規顧客を含めることで無駄のないプロモーションを行える。

いかに顧客の心の変化に対応できるか。

定性的データと定量的データを駆使したデータマイニングは多くの考慮点を生み出す。企業が「顧客ロイヤリティ」を獲得し維持していく最大の武器は、「変化の激しい消費者の心をいかに掴むか」であり、企業はどこよりも早く学習し変化を遂げる能力が求められている。

詳しくは以下の書籍にて。 

 

電話で顧客の心を惹きつける手法。

テレマーケティング

テレマーケティングとは、電話を使って顧客に商品を売る方法。

テレマーケティングは直接訪問に比べて安いコストで、大人数に対して最適な対応を即時に行えるメリットがある。

電話を用いて効果を上げるためには、データ分析に基づくアプローチが不可欠。

インバウンドとアウトバウンド

テレマーケティングは大きく2種類に分類される。

注文や苦情など、顧客からかかってくる電話はインバウンド。こちらから顧客に対してかける電話はアウトバウンドという。インバウンドの効率は回線が話し中になる確率で測られることが多い。顧客を待たせないことがポイント。

対して、アウトバウンドの効率をはかる指標がCPR(call per response)や通話完了率。DMでいうとヒット率のこと。

CPRを向上させるには無駄なコールを減らし今まで反応しなかった人を反応させる。

効果的に商品を売るには

効果的な発信をするためには目標設定が重要。有効な反応の定義を明確にしないとCRPを算出できない。

相手に応じて対応を変えることがアウトバウンドで重要。しかし、相手一人一人の会話内容を考えるのは効率が悪い。データマイニングによって最適なスクリプトを組み立てる。

ターゲットと商品の決定

新規か、既存かで対象となる商品は異なる。既存顧客は社内のデータハウスに過去の購買履歴が存在する。新規顧客は性別など基本情報しか利用できない。

外部から顧客情報を入手する場合は既存と新規が混在している。

データウェアハウスにより名寄せを行うことで識別していく。

属性別のスクリプトの作り方

起承転結で属性ごとにパターンを変えていけば、4の4乗で256通りの提案が自動で作成できる。

反応情報を収集する

顧客に応じたスクリプトを作成したら適切な時間にアクションを起こす。ここで顧客からの反応を次回に活かすことが重要。その場で有効な反応が起きなくても、得られたデータは次の機会に活かせる。

効果の測定方法

結果はその日にデータマイニングを行い、翌日以降のスクリプトの組み立てに反映させる。その仕組み作りが重要となる。結果を素早く業務にフィードバックできるかが勝負の分かれ目となる。

 

 詳しくは以下の書籍にて。

 

ニーズと思考を反映させる。顧客を引き込むDMの作り方。

DMは固定費なのか

コストに見合った利益を生まないのなら、DM送付というビジネスそれ自体の見直しが必要となる。DMは相手を決めて確実に気持ちを伝えることが重要。

DMの費用が固定費と考えられていたのはDM送付が与えるインパクトの評価が難しかったから。

ところが、固定費と考えられていたDMはデータマイニングによって大きな変化を迎えた。DMは数打ちゃ当たるから、投資に見合った効果を生む営業手段に変わった。

数百万の顧客の中から意味のある数千人を絞り込むことがデータウェアハウスの構築とマイニングツールの導入によって可能になった。

見込み客を予測する

分析を行うためには予測モデルを構築し、顧客ごとのスコアリングを行う必要がある。データマイニングツールの進歩によりモデルの作成は半自動がで行えるようになった。

問題はモデルを理解して導かれた結果を業務に落とし込むこと。

これについてはたくさんの仮説・検証を繰り返して経験値を獲得する。

組織としてこうしたノウハウを蓄積する仕組みを構築することも重要な施策。

ロジスティック回帰で予測

顧客が反応するか、しないかという予測には顧客がDMに応答したか、しなかったかという過去の情報が必要。その情報は二値(Binary)で入力されていなければならない。したなら1、しなかったら0といったように。

応答の有無とその原因となる要因を因果関係で表すのがロジスティック回帰である。0になるか1になるかというデータさえ持って入ればロジスティック回帰分析が行える。

詳しくは以下の書籍にて。