雑記 in hibernation

頭の整理と備忘録

2020-01-01から1年間の記事一覧

2020年 - 今年出会った3×3【映画編】

今年出会ったものの中で特に印象的だったコンテンツについて、書籍・音楽・映画の3つのトピックそれぞれで3冊・3枚・3本に絞ってまとめておきます。今年リリースではなく、あくまで「今年僕が出会ったもの」なので、基本的にリアルタイム性は皆無です。 最後…

2020年 - 今年出会った3×3【音楽編】

今年出会ったものの中で特に印象的だったコンテンツについて、書籍・音楽・映画の3つのトピックそれぞれで3冊・3枚・3本に絞ってまとめておきます。今年リリースではなく、あくまで「今年僕が出会ったもの」なので、基本的にリアルタイム性は皆無です。 今回…

2020年 - 今年出会った3×3【書籍編】

今年出会ったものの中で特に印象的だったコンテンツについて、書籍・音楽・映画の3つのトピックそれぞれで3冊・3枚・3本に絞ってまとめておきます。今年リリースではなく、あくまで「今年僕が出会ったもの」なので、基本的にリアルタイム性は皆無です。 今回…

optunaで脳筋ハイパラチューニング(ようやく最後のお話:精度比較編)

Pythonでのoptuna実装について、理論面にはノータッチの脳筋スタイルで連載をお送りしています。最終回です。 第1回では1変数の関数に対する最適解探索を、第2回では機械学習モデルのパラメータ最適化を実装しました。そして最終回となる第3回の今回は、デフ…

optunaで脳筋ハイパラチューニング(こっからが本番:機械学習モデルのチューニング編)

Pythonでのoptuna実装を理論面にはノータッチの脳筋スタイルでお試ししてみます。記事は3回に分けて投稿予定で、前回の第1回では、まず1変数の関数に対する最適解探索を実装してみました。第2回の今回は、機械学習モデルのパラメータ最適化を実装します。次…

optunaで脳筋ハイパラチューニング(小手調べ:関数の最適解探索編)

「話題の最適化フレームワークがあるらしいやんけ。使ったろ。」の精神でoptunaを使った機械学習モデルのハイパーパラメータのチューニングをお試ししてみます。Pythonでのoptuna実装のチュートリアル的な内容です。理論面にはノータッチの脳筋スタイルで行…

騙されたと思ってレゴムービーを観てくれ頼む

『LEGO ムービー』という映画があります。レゴブロックをテーマにした全編CGアニメーション映画です。監督・脚本はあの『スパイダーマン: スパイダーバース』のクリス・ミラー&フィル・ロード。 www.youtube.com で、この記事の趣旨なんですが、表題の通り…

lambda式って超便利

コーディングの文法でlambda式ってあるじゃないですか。あれ、何が有り難いのかイマイチよくわかってなかったんですけど、その恩恵がようやく理解できたのでPythonでのlambda式の使い方について備忘録にします。あんまり細かいtipsは記事化してもキリがない…

AWSで最短(?)Jupyter Notebook環境構築

AWSで分析環境を構築するにあたり、EC2内にJupyterNotebookの実行環境を構築してみました。手順についてはググるといろいろと情報が出てくるのですが、当方ド素人のため、とりあえず最小限・最短経路の手順を整理して備忘録としました。実使用の上ではセキュ…

住所データから日本列島を点描してみる

つい先日リリースされたばかりのようですが、こんなオープンデータがあるのを知りました。 住所データ、つまり大字・通称・町丁目までの地名とその緯度・経度を紐付けたデータセットです。 geolonia.github.io で、この緯度・経度の位置情報を画像上の座標に…

第一種の過誤と第二種の過誤を図で理解する

仮説検定における第一種の過誤とか第二種の過誤がややこしかったのですが、図で考えてみたら理解が進みました。 備忘録として残しておきます。 主にこちらの記事からインスパイアされています。リンク先の方は、サンプルサイズが大きくなると分布のばらつき…

技術とバイブスの84年

500字を超えるくらいの文章を書くときはある程度構成や論旨を考えてから手を動かすのですが、この文章は完全に見切りで書き始めています。とにかく今思っていることを書き連ねていきます。 さて、今週の中頃のこと、個人的に結構大きなニュースがありました…

ランダムフォレスト「マージン」の謎

僕が仕事でメインに扱っているのはSASだったりするのですが、SASは機械学習というよりは統計解析寄りのソフトです。そのため、分析屋もどきの身からすると、その出力もやや見慣れないものだったりします。 先日SASのプロシージャでランダムフォレストを弄っ…

Kerasで最短(?)LSTM実装

RNNのチュートリアルとして、LSTMによる時系列予測モデルをKerasにて実装しました。 多分これが必要最低限の実装だと思います。 備忘録として記録しておきます。 1. LSTMとは LSTMは再帰型ニューラルネットワークであるRNNのバリエーションの一つで、主に時…

SASが無料で使えるんですって (SAS OnDemand for Academics)

統計ソフトとしてSASを使う機会がしばしばあるのですが、なかなかとっつきづらさを感じています。その要因として、プログラミング言語としての仕様の独特さや、非公式の情報の少なさ(と言っても公式の情報は充実しているのですが)などと並んで、「そもそも…

ペペロンチーノ合成獣

COVID-19は世界中で猛威をふるい、世界経済は混沌へと向かっています。人々が不安に駆られる日々を過ごす中、こんな時だからこそ自分にも何かできることがあるのではないか。どうにか社会に貢献したい一心で思慮を巡らせた結果、ペペロンチーノを作る時のコ…

正則化をなるべく丁寧に理解する - 実践編 -

機械学習における正則化の原理と挙動を理解するため、手法の概要をまとめると共に、正則化を用いた最適化をシミュレートして挙動を確認します。 この記事では -実践編- と題して、簡単な損失関数を例に正則化を実装し、効果をシミュレートしてみます。具体的…

正則化をなるべく丁寧に理解する - 理屈編 -

機械学習における正則化の原理と挙動を理解するため、手法の概要をまとめると共に、実際に正則化を用いた最適化をシミュレートして挙動を確認します。 今回の記事では -理屈編- と題して、正則化の着想から具体的な手法(L1,L2正規化)の解説までをまとめます…

統計学と人類皆平等

某有名人の某感染症への感染が発覚して話題になりましたが、twitterでざっくり以下のような言説を見かけました。 あの超有名人でさえ感染している状況を鑑みれば、東京都の感染率は公表されているよりも高いのではないか(意訳) 直感的に「その理屈は正しく…

2値分類モデルの評価指標を一覧にまとめる

この記事では2値分類問題における評価指標を列挙し、一覧表にまとめます。また、適切な評価指標を用いることの必要性をケーススタディで確認します。なお本記事は個人的な備忘録として作成しています。 1. はじめに 1.1. 正答率だけでは不十分な2値分類モデ…