雑記 in hibernation

頭の整理と備忘録

統計学と人類皆平等

某有名人の某感染症への感染が発覚して話題になりましたが、twitterでざっくり以下のような言説を見かけました。

あの超有名人でさえ感染している状況を鑑みれば、東京都の感染率は公表されているよりも高いのではないか(意訳)

直感的に「その理屈は正しくない」と思ったのですが、何がどう正しくないのか、ちゃんと言葉にできずにモヤっとしたので、この場で頭の整理として残しておくことにします。この記事の内容は恐ろしく基本的なことですが、恐ろしく基本的なことさえ自信を持って否定できなかったことへの戒めでもあります。

以下、つらつらと無駄に言葉を尽くしますが、一言で言ってしまえば「統計の元では個々のサンプルや集団の名前だとか有名無名だとかは関係ねー」ってだけです。当たり前ですね。

 

特定個人・特定の集団の取り扱い 

ちなみに、この記事を書いている今現在で公表されている数値でざっくりした計算をすると、東京都の陽性患者率は以下のようになります(※めちゃめちゃざっくり計算なので、この数値をこの記事以外で何かの参考にすることは絶対にやめてください)

  • 東京都人口:約1000万人
  • 陽性患者数:約300人
  • 東京都民の陽性患者率:0.003%

さて、冒頭の言説は次の2通りの角度で考えることができます。

 

陽性患者者の中に特定の個人が含まれる確率

一つは「陽性患者の中に有名人が含まれるほど感染者が増えているのではないか?」という見方です。これは、全都民から0.003%無作為抽出(厳密には無作為とは言えませんが)したサンプルに特定の個人が含まれることに意味が見いだせるか、とも解釈できます。

答えは「誰が陽性患者であろうと特別な意味はない」となるでしょう。超有名人が感染する確率は低いかもしれませんが、僕が感染する確率も、あなたが感染する確率も、素知らぬ誰かが感染する確率も同様に低いからです。有名人だからどうとかはありません。

 

特定の集団の中で陽性患者が発生する確率

もう一つは「超有名人界隈の中で陽性患者が発生するほど感染者が増えているのではないか?」という見方です。これは「特定の集団の中に、全都民から0.003%無作為抽出(厳密には無作為以下略)にしたサンプルが一人以上含まれることに意味が見いだせるか」とも解釈できます。

これに関しても、答えは「どの集団に陽性患者が含まれていようと特別な意味はない」となるでしょう。超有名人の集団から陽性患者が排出される確率は低いかもしれませんが、同規模の他集団から陽性患者が排出される確率も同様に低いからです。僕の会社のオフィスフロア(200人くらいの規模です)から一人の陽性患者が出たとして、この経験を以って「東京都の陽性患者率0.0025%」という数字を疑うでしょうか。僕であれば「たまたまうちのフロアから感染者が出たのだな」と考えます。

 

あとがき

頭の整理(と贖罪)は以上です。なんだか反省文を書いているような気持ちでした。

これで統計の前には人類皆平等、統計学はリベラルで進歩的な学問だということがよくわかりましたね。
ちなみにtwitterのリプライ欄でも元ツイートに感化されてしまっている人が結構いましたね。気持ちはすごくわかるし、心得がないとつい引っかかりそうになるところかなと思います。ところでこれって有名な認知バイアスだったりするんですかね。名前とかついてるのかな。

 

※そもそも芸能人って感染リスク高そうだよね〜という件については、記事の内容に対して本質的でないので考慮していません