視聴率の誤差はどのぐらいか？ - 広告／統計／アニメ／映画　等に関するブログ

＜※肝心な定理の証明がもはや記憶に遠いので、割り引いて読んで下さい＞
◆視聴率の集計について◆
ビデオリサーチさんでは、関東に約1500万世帯居る中で、600世帯の視聴率を集計しています。
地デジ化したのだから全数調査も技術的にはできそうなものですが、恐らくコストが半端ないのでしょう。

サンプルを抽出しての計算となるため、どうしても誤差が発生します。

◆誤差の範囲◆
では、サンプル調査にしたことによる誤差はどの位でしょうか？

ビデオリサーチのサイトに説明があります。
http://www.videor.co.jp/rating/wh/07.htm

この表の見方は、

- - -

サンプル調査によって”視聴率10％とでた番組の
実際の視聴率については、
「10％-2.4％(=7.6%)」〜「10%+2.4(=12.4%)」の範囲に収まっていると、
95％の確率で信頼して良いよ！

- - -

という意味です。
この場合、視聴率4％分くらいの開きは、あるよ！ということになります。

因みに、統計学的に100％この範囲にあります！は、サンプル調査の場合できません。

※ビデオリサーチの算出式では、×2をしていますが、一般的には、×1.96です。
　所謂、95％検定の時に使われる数字です。

◆前提としている考え方◆
どうしてこのようなグラフや数字になるのか？
視聴率調査には、いくつか前提としている考え方があります

□「視聴率は、一種の分布＝広がり　だと考えている」
ビデオリサーチの表を見ると、視聴率5％より、視聴率50％の方が誤差が大きくなっています。
感覚的には、ピンと来ないかもしれませんが、”世論調査みたいなものだ”と考えて貰うと良いと思います。

ある法案に、賛成か反対かを問うて、
・半々であれば、世論が割れている＝様々な意見があってバラついている。
・5％しか賛成する人がいなければ、世論はハッキリしている＝意見にバラつきがない。
ということと同じ考え方です。
バラつきの多い世論（＝番組）とバラつきの少ない世論（＝番組）の世論調査をすれば、
バラつきの多い世論（＝番組）の方が、精度が低くなってしまうのは、イメージしやすいのではないでしょうか？

※視聴率をそういう分布だと考えて良いのかどうかは、
正直僕にはわかりません。

□「中心極限定理を使っている」□
統計学習っていれば、よく出てくる話なのですが、
ビデオリサーチの95％の信頼度で±2.4％ですと色を塗っているのは、

”サンプル数を多くすれば、全数調査の時の数字との誤差は、正規分布になるよ！”

という中心極限定理と呼ばれる定理が根拠になっています。
ビデオリサーチの釣鐘の形のグラフが、正規分布の分布図です。
”全数調査の値を中心に、サンプル調査の値は釣鐘型に広がっている筈”
ということになります。
×1.96という数字も正規分布の分布図で95％の範囲に収まる場合の値として一般的な数字です。
（＊ビデオリサーチの図では、×2と簡略化しています。）
根拠の無い数字ではありません。

また、証明は難しくて出来ませんが、この定理のポイントは、
あくまで、「全数調査の時とサンプルでの調査の時との誤差のバラつき方」の話であって、
「元々の全数調査の分布が正規分布しているかどうかとは、原則関係なく成立する」
という所です。

但し、殆どの場合に成り立つというだけであって、
元々の全数調査の分布の仕方によっては、中心極限定理が適用できない場合もありえます。

視聴率調査の場合は、恐らく正しいのでしょうけど、全数調査なんてしたこともないので、
本当にOKなのかは、ちょっと良くわかりません。

□そもそも4%程度の誤差はOKだと思っている□
中心極限定理が適用できるという前提でのもと
600世帯という数が、中心極限定理の条件である”十分に多いサンプル数”なのかどうか？
については、さっきのビデオリサーチのページの表の通りです。

4％位の幅が発生することを許容すれば、600世帯でもOKです。

※もっと厳密な調査をするには、何世帯なのか？については、
このサイトが非常に参考になりました。
http://www2.kumagaku.ac.jp/teacher/~sasayama/macroecon/mailmagasichoritu.html

◆結論◆
世帯視聴率というものは、4％程度の差があるため、
1回1回の値や1つ1つの番組の数字が3〜4％違っても何も意味は読み取れません。
但し、例えば、
・長期的な傾向としてずっと右肩上がりである。
・年間を通じてこの番組とは3％程度高い。
という長期的な傾向は、読み取れます。

◆参考◆
ビデオリサーチの式の中で、
「（世帯視聴率）×（100-世帯視聴率）」という計算がありますが、
これも視聴率を分布だと考えているからです。
コインの裏と表の確率を求めるように、
・番組を見る＝1
・番組を見ない＝0
と定義し、見た世帯、見なかった世帯の値を集計し平均を取った結果
例えば、その平均値が、0.1であれば、視聴率＝10％、という考え方です。
（この番組の期待値は、0.1だ、ということでもあります）
その場合、
分散＝(1/世帯数)×[見た世帯の数×{(1-視聴率)の2乗}＋見なかった世帯の数×{(0-視聴率)の2乗}]
　　＝(1/世帯数)×[見た世帯の数×{(1-視聴率)の2乗}＋(世帯数-見た世帯の数)×{(0-視聴率)の2乗}]
　　＝視聴率×{(1-視聴率)の2乗}＋(1-視聴率)×{(0-視聴率)の2乗}
　　＝視聴率×{(1-視聴率)×の2乗}＋(1-視聴率)×視聴率の2乗
　　＝視聴率×(1-視聴率)×(1-視聴率)＋(1-視聴率)×視聴率×視聴率
　　＝視聴率×(1-視聴率)×(1-視聴率)＋(1-視聴率)×視聴率×視聴率
　　＝視聴率×(1-視聴率)×{(1-視聴率)+視聴率}
　　＝視聴率×(1-視聴率)
となります。
このあと、分散を偏差にする為に平方根にし、
更に「大数の法則」の一つである”全数調査の偏差をサンプル数の平方根で割れば、サンプル調査の偏差になる”
という法則を使って計算をしたのが、ビデオリサーチのグラフ横の式の意味です。
サンプル数が多い程、ズレが小さくなって行きます。

※サンプル調査における分散具合と、全数調査における分散具合とは、サンプル数に比例し、
　偏差は、分散の平方根なので、サンプル数の平方根で割れば良い、
　と簡略化するとイメージしやすいかもしれません。

この大数の法則の証明も難しくてよく理解できていないので、
果たして視聴率の場合に、安易に適用して問題ないのかどうか、
正直よくわかりません。