マーケッターが学ぶべき統計学について
この数年で、ビッグデータが話題になり、Rが話題になり、マーケティング関係者でも『統計学は最強の学問である』シリーズを読んで統計学を勉強し始めた人も多いと思います。
ところが、読んでみると分かるように、”果たして一体これは自分の仕事に役に立つのか?エクセルのクロス集計で十分ではないのか?”と思い、止めてしまった人もいるかもしれません。
かくいう私も最近やっと、何なら日常業務に使える/使えないというのがやっと見えてきたなぁというレベルです。
全員が同じ轍を踏む必要はないので、拙いながら私なりに感じた
・統計学はどうして役に立つように思えないのか?
・(普通の)マーケッターにとって習得すべきことは何か?
について、まとめたいと思います。
統計学のベースは、2群の実験の確認ツール
統計学の入門書の構成は恐らく
・平均、分散などの基礎的な用語の説明
・母集団についての説明
・カイ二乗検定やt検定
・主成分分析等、今後の学習範囲の導入~
というものだと思います。
この’検定”と呼ばれるものは、「実験で条件を変えた2つの群に、違いが出たかどうか?」を確認することが目的です。「2つの群のどこに違いがあるのか?」を確認する為のものではありません。例えば、医薬品開発などでは、’どうも違いがあるっぽい”ではなくて、”違いがあるとするのが妥当だ”と言えることは重要です。そういう時に威力を発揮します。
一方で、市場を分析するマーケッターにとっては、仮説を設定して2つの群に違いがあったかどうか?を厳密に確認することは稀でしょう。せいぜい、広告のA/Bテストや、スプリットランの効果の確認のためです。しかし、検定の場合は、「どれくらい違いに事業的影響があるのか?」は数値化してくれません。
厳密な分析を求めないのであれば、クロス表やプロット図で違いを目視する方が、よほど仕事上役に立つでしょう。
データマイニングまで進めば役に立つものが出てくる
マーケッターにとって重要なのは、
・次の施策を打てるのか?
・事業規模はあるのか?
と言った所です。そういう意味で使える統計学が出てくるのは、実は入門書ではなくてその先のデータマイニングに関する本まで読み進める必要があります。
1)クラスター分析
知っている人も多いと思いますが、沢山のデータの中から、傾向の異なるものでグループ分けをしていくものです。アンケートやID・POSの購買データなどを分析する時に使えます。どうやらこの市場には、大きくわけて3タイプのユーザーがいるみたいだぞ!といったことがわかります。
ただし、クラスター分析の中でも、マーケッターにとって使えるのは、「k平均法」と呼ばれるものです。デンドログラムが出てくる階層的クラスター分析を紹介している本は多いと思いますが、これは、これくらいに分類できる、ということしかわかりません。分類した個別グループの特徴を知るには、「k平均法」が便利です。
2)ロジスティック回帰分析/多項ロジスティック回帰分析
調査などで既に2つの群や3つの群に分けてサンプルを集めた時に、「どこが決定的に違うポイントなのか?」を知るために必要です。
エクセルのクロス集計でも丹念に見ていけばわかりますが、全データを記憶しながら分析するのは辛いと思います。そういう時に役に立つものです。
3)バスケット分析(併売分析)
よく言われる「ビールとおむつ」というものです。
「どの商品とどの商品が一緒に購入されているのか?」ということがわかるものですが、翻って、「どの組合せが多いのか?」「それは全体の中でどれくらい存在するのか?」ということを知る手段でもあります。
エクセルのクロス集計結果だけでは、個別の商品の人気は確認できても、どの組合せが多いのか?まではわかりません。
※因みにこの「ビールとおむつ」 、都市伝説だったという説や、コンサルタントが分析して提案したけど当該スーパーマケットは実施はしなかったとか、噂を聞いたスーパーマケットがやってみたけど余り効果がなかったとか、色々言われていますが、本当はどうだったんでしょうね。
その他、使うことのあるもの
上記以外では、「主成分分析」「因子分析」「コレスポンデンス分析」も使うことがあると思います。
「主成分分析」は、原因となる候補の条件群をまとめられるものはまとめてしまうもの。「因子分析」は、原因となる候補の条件群から、更に隠れた要素を探すもの。
いずれにせよ、見つかった合成成分や個別の因子については、分析者が恣意的に判断を下さないといけないので、ある意味”えいやっ!”ではありますが、使う場面もあるでしょう。
「コレスポンデンス分析」は、クロス集計に対して、縦の要素と横の要素のうちどれとどれが近いのか?を分析してマッピングする時に使います。ただし、あくまで選んだその要素の中で比較的近いものをマッピングするだけなので、「どちらかと言えば、傾向が近い」レベルであることを忘れてはいけまん。プレゼンや報告書のハッタリでは便利ですが、自分が意思決定の材料にする時は注意が必要です。
凄いけれど、余り使えないもの~今話題のツールの殆どは、分類や予測の為のもの~
最近話題の「ディープラーニング」「機械学習」や、昔からある「線形回帰分析」は、分類をしたり予測することはできますが、「何故そういう分類になるのか?」「どういう基準で分類したのか?」といったことはわかりません。人間の頭と同じで、”あれは猫だ!犬ではない!”と分類することはできても、自分がどこをどうやって判断して「犬」と「猫」を分類したのかは、分からないのです。
勿論、分類するだけで充分な分野は沢山ありますし、その精度が高ければそれでいい分野もありますが、次の一手を考えなければならないマーケッターにとって、今、雨が降っていることがわかったり、もうすぐ雨が降ることだけがわかっていても、何故雨が降るのか?がわからないと、雨を降らすことはできません。
(天気の場合は原因がわかっても雨を降らすことは結局できませんが、殆どの探索的データ解析とはそういう試行錯誤なのです。)
これらが簡単にできるツールがR
殆どの分析はエクセルではできません。オプションを拡張してある程度できることも増えますが、結局全部はできないので、「R」を初めから使う方が結果的に早く使えるツールを手にすることになるでしょう。
オープンソースライセンスのソフトウェア(つまり無料で使える)であることに加え、RStudioというとても使い易い統合開発環境も用意されています。最初はコマンドラインで入力することに抵抗があるかもしれませんが、用語と結果の確認の注意点さえ分かれば、数学的な理解がなくても使うことができます。
■ 参考 ■
例えば、どう役に立つの?という具体的な所は、「銀座で働くデータサイエンティスト」さんのスライドシェアがとてもわかりやすいので、こちらを参照下さい。
■ 読書案内 ■
この順番で読んでいくのが良いのではないかと思う統計学とRの本です。
1) Rに慣れつつ統計全般がわかります。
- 作者: 山田剛史,杉澤武俊,村井潤一郎
- 出版社/メーカー: オーム社
- 発売日: 2008/01/25
- メディア: 単行本
- 購入: 64人 クリック: 782回
- この商品を含むブログ (68件) を見る
1-2)統計学についてすっ飛ばさずに勉強したいという方はこちら
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1991/07/09
- メディア: 単行本
- 購入: 158人 クリック: 3,604回
- この商品を含むブログ (82件) を見る
因みに、「自然科学の統計学 (基礎統計学)」という続きもあります
2)Rを使ってデータマイニングするための本
2-2)同上
3)ビジネスでどう使っていいのか悩ましい時に。先ほど紹介した方の本です。
番外編
ベイズ統計って何?がとてもわかりやすい
- 作者: 涌井良幸,涌井貞美
- 出版社/メーカー: 日本実業出版社
- 発売日: 2010/11/11
- メディア: 単行本(ソフトカバー)
- 購入: 16人 クリック: 32回
- この商品を含むブログ (9件) を見る
どうも「中心極限定理」というものが納得いかない時。例の人気シリーズの2冊めの方です。
統計学が最強の学問である[実践編]---データ分析のための思想と方法
- 作者: 西内啓
- 出版社/メーカー: ダイヤモンド社
- 発売日: 2014/10/24
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (4件) を見る
全く違う文脈でおすすめの本です。アンケートを取る時の注意点や可視化における注意点など。