• GIZMODO
  • DIGIDAY
  • gene
  • cafeglobe
  • MYLOHAS
  • Glitty
  • machi-ya
  • roomie
  • GIZMODO
  • DIGIDAY
  • gene
  • cafeglobe
  • MYLOHAS
  • Glitty
  • machi-ya
  • roomie

igarashiigarashi  - ,  10:30 PM

統計にダマされないための4つの原則

統計にダマされないための4つの原則

統計にダマされないための4つの原則


統計は、現代社会に欠かせないものとして定着しています。さまざまなニュース記事に登場し、暮らしのあらゆる面に影響をおよぼす政策の決定にも用いられます。ただ残念なのは、多くの人が、統計を根本的なレベルで大きく読み間違えやすいことです。

統計を意味あるものにするための4つの原則を紹介します。



1.「99%の精度」のテロリスト判別装置:基準率の錯誤


「基準率錯誤」と呼ばれる統計の読み間違いの例を挙げてみましょう。

ある会社では、従業員の25%が女性で、75%が男性だとします。表面的には、この会社は男性に偏った採用をしているように見えるかもしれません。なぜなら、(少なくとも米国では)男女の人口分布はほぼ同じだからです。ですが、この見方は応募者の内訳を考慮していません。もし女性の応募者が全体の10%しかいなければ、採用率は男性よりも女性のほうが高いことになります。

もうひとつのよく知られた例として、「架空のテロリスト判別装置」が挙げられます。この装置は、99%の精度でテロリストを「テロリストである」と判別できるものとします。そして、テロリストではない人を「テロリストではない」と判別できる精度も99%だとします。また、人口100万人のうちテロリストは100人いるとします。

さて、この装置によって、ある人物が「テロリストである」と判別されました。この判別は99%正しい、と思いますよね? でも実際には、この判別が正しい確率は1%そこそこです。なぜならこの装置は、本物のテロリストの99%(99人)を「テロリストである」と判別するだけでなく、テロリストでない人のうち1%(9999人)についても「テロリストである」と誤判断してしまうためです。


2.「昨日は夫0人、今日は1人、なら明日は...」:外挿法


130807extrapolating.jpg

pic via xkcd


既知のデータに基づいて未知の事柄を推定する「外挿法」は、経済動向や将来の予測によく使われる統計的手法のひとつ。「過去の一定期間にわたってこういうことが起きているのだから、今後もそうなるだろう」という考え方です。けれども、その考え方がいつも正しいとは限りません。過去の傾向を分析する時は、その傾向を生んだ要因がこの先変化する可能性を心に留める必要があります。

スマートフォンの市場シェア予測を例に考えてみましょう。Gartner社は2009年の時点で、2012年の世界のスマートフォン市場をこう予測していました。


オペレーティングシステムではSymbian OSが世界の市場の39%を占めてトップに立つ一方、Androidは14.5%に低迷する。Windows MobileはBlackberryを押さえ、iPhoneに肉薄する──。


言うまでもなく、実際にはこの予想はかすりもしませんでした。ではなぜ、Gartner社の予想は大はずれに終わったのでしょうか?

それは、外挿法では状況の変化を考慮しないためです。Microsoft社はWindows Mobileに見切りをつけ、Windows Phoneプラットフォームへと舵を切りました。そしてNokia社はSymbian OSの代わりにこのWindows Phoneを採用するようになりました。この一連の動きによって、Gartner社の予想のすべては、事実と食い違うどころか、実現不可能なものとなってしまったのです。物事は常に移ろいゆくもの。統計的な傾向に基づいた予測のほとんどすべてに「状況が変わらなければ」という但し書きが添えられているのは、そのためです。


3.でも、因果関係がある可能性は検討すべき:相関関係と因果関係の混同


相関関係は因果関係を含意しない」という原則は、統計の読み間違いに関する話題の際に、古くからたびたび引用されます。

相関関係と因果関係の混同は古くから見られ、ラテン語の決まり文句「cum hoc ergo propter hoc」(それとともに、そしてそれ故に)もあるほどです。ただし、見過ごされがちですが、これは裏を返せば「相関関係は因果関係の可能性を示唆する」ということでもあります。外挿法の項目でも引用したウェブコミック「xkcd」には、「相関関係は因果関係を含意しないけれども、因果関係のほうを指差しながら思わせぶりに眉を動かし、口の動きで『あれを見て』と伝える」と書かれています。

ここで考えてみたいのは、「インターネットの使い方と抑うつ症状との間には相関関係がある」とするミズーリ工科大学の研究成果です (著者の1人のサイトに全文(PDF)が上がっています)。「抑うつ症状に悩むインターネットユーザーは、そうでない人に比べて電子メールのチェック頻度が高く、多くの動画を見たり、ファイルの共有に没頭したりする傾向があると判明した」とするこの論文は、物議をかもしました。

多くの読者はこの論文を、インターネットの使用がうつ病につながると主張するものだと捉えました。これに対して、「相関関係は因果関係を含意しない」という原則を持ち出して、その見方は間違っていると主張することは可能です。ただし、それでは、因果関係がある可能性を見過ごしてしまうかもしれません。2つの物事の相関関係について直接的な説明ができない場合は、無条件に切り捨てるのではなく、さらなる調査研究を行うべきです。


4.「米国人の賃金は上昇している」のからくり:シンプソンのパラドックス


シンプソンのパラドックス」と聞くと何だか難しそうですが、要は計算上のトリックのようなものです。簡単に説明しましょう。

あるグループをいくつかのサブグループに分割して、それぞれのデータを調べた場合に、ある傾向が見られたとします。ところが、グループ全体について同じデータを調べると、まったく反対の傾向が見られることがあるのです。例えば米国では、インフレ調整後の賃金メジアン(中央値)は、2000年以降上昇を続けています。ところが、学歴ごとのサブグループに分けてみると、どのサブグループでも、賃金メジアンは下がっているのです。


130807simpson.jpg

pic via wikipedia


シンプソンのパラドックスとはつまり「データを全体で見た場合と、部分に分けて見た場合では、時として正反対の結論が導き出されることがある」ということです。実際の研究に基づく有名な例を紹介しましょう。腎結石の2つの治療法の効果に関する研究で、結石の大小でグループ分けをすると、どちらのサブグループでも治療法Aは治療法Bよりも高い治療成績をおさめています。ところが、2つのサブグループをまとめて全体を比較すると、治療法Bの成績が治療法Aを上回ったのです。

シンプソンのパラドックスに陥る可能性を考えると、統計データに基づく意思決定は難しくなります。腎結石の例の場合は、結石の大きさがわかっているのなら、対応するサブグループのデータを検討すれば良いので、その結果、治療法Aを選ぶべきだという結論になるでしょう。だからと言って、データをいつでもサブグループに分ければ良いというものでもありません。恣意的なグループ分けによって、都合の良い結論を導き出すこともできてしまいます。

シンプソンのパラドックス(と言うより、事実上すべての統計データ)に対して取るべき最善策は、データの文脈に立ち返って情報を用いることです。統計は数字を多用しますが、もともと現実世界の展開や状況を分析するために使われるものです。現実と切り離してしまえば、統計にはあまり価値はありません。

数字はバイアスなしに現実世界を描写する、と考えれば、それに頼ることで安心感は得られるでしょう。けれども、数字を現実の人々や状況と結びつける努力がなければ、その情報は無意味なものになりかねないのです。


Eric Ravenscraft(原文/訳:風見隆、江藤千夏/ガリレオ)
Photo by Thinkstock/Getty Images.

MORE FROM LIFEHACKER

powered by

Kotaku

© mediagene Inc.