広告/統計/アニメ/映画 等に関するブログ

広告/統計/アニメ/映画 等に関するブログ

機械学習屋と統計屋とデータサイエンティストの違いとは

統計学は最強の学問である」という本がブームになって既に何年も過ぎましたが、未だに「データサイエンティスト」界隈はポジショントークに溢れているようで、データサイエンスについて本を読もうとすると、データサイエンスブームに乗って我田引水しようとする2系統の間で彷徨わされてしまいます。

統計屋の場合

統計学出身の人が先ず進めるのは以下の本ではないでしょうか?

これはこれでとても勉強になる本なのですが、「早くデータサイエンスでビジネスに必要な判断をしてみたい!」というニーズを抱えている人にとっては随分と遠回りに感じます。

「同じことを100回試してみたら95回は”AとBに違いがある”と出るであろう。実際に違いがない可能性もあるし、違いがあるとは断言できないが可能性はとても高い」

学問的なことを言えばその通りかもしれませんが、ビジネスでは「意思決定」をしないといけないので、こんな歯切れの悪い言い方にこだわられても「じゃぁどうすりゃいいんだよ?」と怒られるだけでしょう。1

有意 - Wikipedia

機械学習屋の場合(あるいはAI人材)

一方でプログラミング系の人が勧めるのはこちらでしょう

これもこれで、機械学習(とくにディープラーニング)について知りたい人にとってとても分かり易い素晴らしい本ですが、これを読んだからといって何かの「意思決定」ができるようにはなりません。

「画像から猫か猫以外を分類できました!」

という報告を貰ったところで「で?新しい発見はないの?うちは新たに何に着目したら競合に勝てるの?」と怒られるだけでしょう。

勿論、自社サービスから離反しそうな人をディープラーニングで判断してクーポンを送りつける、といったことはできるでしょうが、ディープラーニングの最大の欠点は ブラックボックス になってしまうことで、自社サービスから離反しそうになった原因をつきとめることができないので、改善策は出てきません。

データを元に意思決定したい人は「データマイニング」から入った方が良いかもしれない

今の「データサイエンティストブーム」のターニングポイントは2つあって、1つは「ビッグデータブーム」で、もう一つは「ディープラーニングブーム」です。この2つのバズワードに乗っかるように「データサイエンス」という言葉が広まり始めました。

しかし「データを元に何かを発見し意思決定する」という行為自体は、データサイエンティストブームの前から存在していて、それは「データマイニング」と呼ばれていました。

どうしてもバズワードが生まれてしまうと乗っかる方が本も売れますし名前も売れますので、戦略的にバズワードに乗っかる人が出てしまいます。 [^1] その結果「データサイエンス」という言葉を見て本を手に取ったときに、「やたらp値にこだわる統計屋」と「何でもディープラーニングで済ませようとする機械学習屋」 の本にあたってしまい、求めていた情報と違うものに出会って期待外れを感じてしまうのです。

データマイニング」目的で「データサイエンス」を学びたい人に

データマイニング目的で学ぶべき統計学機械学習のポイントは、「起きている現象について分析し意思決定できるか?」という点です。その意味では、全ての統計学機械学習を学ぶ必要はなく、以下のようなラインナップがあれば充分です。

要因のうち何が重要かわかる

  • 線形回帰分析
  • 重回帰分析
  • ロジスティック回帰分析
  • 決定木

データの把握をしやくする

  • EDA(探索的データ分析)/或いは、記述統計
  • 因子分析
  • k平均法によるクラスター分析
  • コレスポンデンス分析

A/Bテストのパターンを決める

  • 実験計画法

どの程度の効果があるか?を探る

時系列の取り扱い

  • 状態空間モデル
  • 移動平均・自己回帰(ARIMA)

お勧めの本

上記のようなポイントを抑えて優先順位をつけて学びたい場合、以下のような本が良いでしょう。

ライトな本

先ず「線形回帰分析」ができるだけでもエクセルの棒グラフ地獄から抜け出せます。もちろん、どこかで次の一歩としてロジスティック回帰分析が必要になってきますが、最初はこれだけでも良いでしょう。

一通りしっかり知りたい人はこの本が今のところとてもバランスよくまとまっています。一つ一つの説明は少ないので、細かいことは別の本を読まないといけないかもしれませんが、自分にとって何が重要で何が重要でないか?の指南はこの本に頼れば良いと思います。とても良い本です。


  1. 定義が曖昧な「人工知能」などという言葉を学者は使うべきではないと思いますが、もはやその方が通りが良いので、機械学習の人も人工知能強化学習の人も人工知能と言ってしまいがち、というのも同じ現象です。