雑記 in hibernation

頭の整理と備忘録

統計学

信頼区間のよくある誤解

よく混乱するので、備忘録です 例 ある学校で身長の調査を行い、生徒の平均身長を求めたいとします。調査の結果、サンプルから得られた生徒の平均身長は160cmで、95%信頼区間が158cmから162cmであったとします。

Google ColaboratoryでPyStanをいじくる

ベイズモデリングのお勉強で「StanとRでなんちゃらhogehoge」的な書籍のサンプルコードを実装しようとしているのですが、ここはRではなく使い慣れているPythonとGoogle Colabで動かしたい。と思ってググってみたところ、ローカルで動かそうと思うと意外と面…

「当選確実」の裏で暗躍しているのは不正ではなく推計統計だって話

2021年衆院選の結果が出ましたね。蓋を開けてみれば、野党共闘を議席につなげることができなかった立憲に対して自民は議席は減らしつつも安定した戦績を残し、2大政党の裏では維新の躍進があり、れいわは着実に議席数を伸ばし。少なくない変化が感じられた今…

知る人ぞ知る(?)WOE変換をフックアップ

統計・機械学習における変数変換の手法の一つに”WOE(Weight of Evidence)変換”という方法があります。金融工学の世界で好んで利用される手法らしいですが、他分野の方にはいまいち耳馴染みがないワードだと思います。ということで、「WOE変換なんて聞いたこ…

マーケティングにおけるデータ分析の超ざっくり沿革

最近読んだ書籍の冒頭でマーケティング分野のデータ分析の沿革について非常に簡素にまとまって紹介されていたので、若干の意訳を加えつつ備忘録的に内容をメモ書きしときます。 超ざっくりですが、データの拡充により分析目的が多角化していく流れと、その背…

Google スプレッドシートでもできるよ仮説検定

この記事書いてる際、「仮説検定したいけど私用PCにエクセル入ってないし、Pythonでなんかその手のパッケージ使うしかないかなぁ」なんて思ってたところ、Googleスプレッドシートの関数で検定が実装されていることを知ったのでちょっと使ってみました。ぱっ…

住所データから日本列島を点描してみる

つい先日リリースされたばかりのようですが、こんなオープンデータがあるのを知りました。 住所データ、つまり大字・通称・町丁目までの地名とその緯度・経度を紐付けたデータセットです。 geolonia.github.io で、この緯度・経度の位置情報を画像上の座標に…

第一種の過誤と第二種の過誤を図で理解する

仮説検定における第一種の過誤とか第二種の過誤がややこしかったのですが、図で考えてみたら理解が進みました。 備忘録として残しておきます。 主にこちらの記事からインスパイアされています。リンク先の方は、サンプルサイズが大きくなると分布のばらつき…

SASが無料で使えるんですって (SAS OnDemand for Academics)

統計ソフトとしてSASを使う機会がしばしばあるのですが、なかなかとっつきづらさを感じています。その要因として、プログラミング言語としての仕様の独特さや、非公式の情報の少なさ(と言っても公式の情報は充実しているのですが)などと並んで、「そもそも…

統計学と人類皆平等

某有名人の某感染症への感染が発覚して話題になりましたが、twitterでざっくり以下のような言説を見かけました。 あの超有名人でさえ感染している状況を鑑みれば、東京都の感染率は公表されているよりも高いのではないか(意訳) 直感的に「その理屈は正しく…

2値分類モデルの評価指標を一覧にまとめる

この記事では2値分類問題における評価指標を列挙し、一覧表にまとめます。また、適切な評価指標を用いることの必要性をケーススタディで確認します。なお本記事は個人的な備忘録として作成しています。 1. はじめに 1.1. 正答率だけでは不十分な2値分類モデ…