katonobo’s blog

プログラミング中心の雑記ブログ

データは作れる。統計のうそに騙されないでねという話

最近、機械学習とかビッグデータを使った分析とかが流行してきて、統計学がすごく注目されていますね。

大学時代の専門が社会科学で統計分析もやっていたんですが、その時代と比べても今は大変便利になってるなと感じます。

一番でかいのはプログラミング言語Pythonの普及です。Pythonがデータ分析ツールとして恐ろしいくらい優れています。これで無料なんですからとんでもないです。

当時の私の時は個人で使う場合だと10万以上する高い分析ツールを使っていましたが、今はそういったツールはPythonでなんとでもなっちゃいそうです。

Pythonは去年に仮想通貨取引所のデータを使った分析に使った程度なのでそんなに詳しくないんですが、それでもこれから統計を勉強する人はPythonが助けてくれるだろうなと思います。

 

www.katonobo.com

www.katonobo.com

 

さて、今日のテーマは、別にそんなに統計に詳しくなる必要はないけど、統計的な詐欺をいくつか知っておくと悪い人に騙されなくなるよっていう話です。

 

統計をやるとわかるんですが、基本的にデータは悪意があればいくらでも欲しい結果を作り出せます。

そんなことをする奴は分析者の風上にも置けない野郎ですが、実際に操作することができますし、最近統計がより身近になったためか、すごく増えてきます。そのためこの記事を書こうと思いました。

 

少しばかり具体例を交えながら紹介します。

 

質問内容でのデータ操作

想像してください。あなたが化粧品のマーケターで、新しい化粧品「麗しリップ(仮名)」の使いごごちをアンケートを取るとします。その時、自分にとって都合のいい質問は①、②どちらでしょうか。

 

質問①:麗しリップの使いごごちはどうですか

1.良い

2.どちらかと言えば良い

3悪い

4.非常に悪い

 

 ***************************

 

質問②:麗しリップの使いごごちはどうですか

1.良い

2.どちらかと言えば良い

3どちらかと言えば悪い

4.悪い

 

さて、どうでしょうか?

良いアンケート結果を得たいなら①の方が得やすいでしょう。なぜなら、①は言葉の使い方に意識的に差を与えているからです。

 

日本人は特に顕著ですが、何かを断言することを避ける傾向があります。

①のアンケートは、一見すると4段階の質問ですが、「良い」側の評価にはあえて「どちらかと言えば」をつけて、「悪い」方にはつけていません。さらに一番悪い評価には「非常に」という言葉をつけることで選びにくくしています。

ですから、多くの人は無難な「どちらかと言えば良い」を選択します。最後にこのデータを満足しているかどうかのデータとして扱えば、ほとんどの人がリップに満足しているという分析結果が得られるわけです。

ここから、「アンケートの質問の仕方」は調べるようにしないといけないということがわかってもらえると思います。

また、①ような言葉がバラバラなアンケートは、分析の素人や、学生が卒論などで取るアンケートで実際に時々目にしますが、データとしては全く使い物になりません。

 

データの収集元はどこ?ツイッターなどが良い例

上記のようにアンケート方法でデータは操作できます。

そしてデータを操作するさらに強力な方法が「母集団をあえて偏らせる」です。母集団とは、質問した人たちの属性を表します。

例えば、ツイッターで何かアンケートを取るとしたら、母集団は一番大きく括ると「ツイッターの利用者」となります。

さて、具体例としてもツイッターを例に取ると大変わかりやすいと思います。

もし、あなたがアニメが大好きで、フォロー、フォロワーの多くのアニメ好きなら「アニメ「まどマギ」を知っていますか?」というアンケートをとったらほぼ100パーセントが「知っている」と答えるでしょう。

だから、アンケート結果から、「まどマギは日本人のほとんどが知っている!」と主張しようとします。だってアンケートでみんな知っていたから…!

けど、これはどう考えてもあり得ないですよね。老人は知らない人が多いでしょうし、ちょっと考えればすぐわかります。

これが、母集団を偏らせるという意味です。

今回の例はとてもすぐわかりますが、このような母集団の偏りを利用して、自分の欲しい結果を得る行為は実はかなり多くあるのです。

(ちなみに、正しい母集団のサンプルを得ることは実際に大変難しく、統計の永遠のテーマになっています。)

 

まとめ

このように、データの収集方法だけでもいくらでも悪いことはできます。さらに、分析自体でもごにょごにょできちゃうので、統計は本当に奥深いですね。

今回はごく一部の悪いテクニックの紹介でしたが、統計は触れたことない人には謎に万能感があるので、盲目的に信じてしまいますが実は曖昧だったりします。

最後に、興味を持たれた方には、古くからある名著を紹介しておくので、統計の詐欺的な勘所をつけたい人は参考にしてみてください。