雑記 in hibernation

頭の整理と備忘録

「当選確実」の裏で暗躍しているのは不正ではなく推計統計だって話

2021年衆院選の結果が出ましたね。蓋を開けてみれば、野党共闘を議席につなげることができなかった立憲に対して自民は議席は減らしつつも安定した戦績を残し、2大政党の裏では維新の躍進があり、れいわは着実に議席数を伸ばし。少なくない変化が感じられた今…

Pysparkで(個人的に)忘れがちなtipsメモ

たまーにPysparkを使うことがあるのですが、たまーにすぎて使う頃には前回までの習熟度が完全にリセットされている、という非効率を繰り返している今日この頃。ということで、毎回ど忘れして無駄に遠回りしてしまいがちなtips(と言うほど大袈裟な情報ではな…

知る人ぞ知る(?)WOE変換をフックアップ

統計・機械学習における変数変換の手法の一つに”WOE(Weight of Evidence)変換”という方法があります。金融工学の世界で好んで利用される手法らしいですが、他分野の方にはいまいち耳馴染みがないワードだと思います。ということで、「WOE変換なんて聞いたこ…

『パラレルワールドのアイツ』のはなし

NHKスペシャルで特集されるひきこもりの中高年や、「幸せそうな女性」をターゲットにした通り魔や、SNSで芸能人にクソリプ飛ばして溜飲下げてる人らや、「不況で風俗のクオリティが上がって嬉しい」的な発言をしたお笑い芸人や。そういう人たちを見ていると…

ML-AskをGoogle Colaboratoryで試してみる

前回の記事で、asariを使ったテキスト感情分析を実装してみました。その際、結局使わなかったのですが、裏でML-Askもお試ししていました。 toeming.hatenablog.com せっかくなのでGoogle ColaboratoryでML-Askを導入するまでの流れを備忘録として残しておこ…

ビジネスメールから受けるダメージをテキスト感情分析で和らげる試み

労働が人間の精神に及ぼす悪影響については今更言及の余地はないでしょう。業務・責任に見合わない給与や長時間の拘束などなど、労働のネガティブな要素を挙げ始めるとキリがありませんが、僕個人としては、ビジネスコミュニケーション上で発生する精神的負…

Ubuntuの日本語入力設定メモ

AWSで立ち上げたインスタンスのUbuntu環境で日本語入力の設定ができなくて困った。今後のために解決方法をメモっておく。色々試す中で辿り着いたので、この手順がクリティカルでない可能性もある。 OSのverは18.04.5。 1. mozkの設定 SettingのRegion&Langua…

Pysparkで累積構成比を計算する

PySparkのDataframeでの累積構成比の計算に戸惑ったのですが、ググっても意外とすんなりいい感じの情報にありつけなかったので、備忘録として残しておきます。 Window関数がわかってりゃあなんてことないとのない内容だろうとは思いますが、お勉強も兼ねて。…

カンディンスキーのコンポジションと言語表現との類似性

ロシア出身の画家のワシリー・カンディンスキーは、抽象絵画の先駆者として有名です。その作品は直線や円が重なって散りばめられた幾何学的な雰囲気が印象的で、素人目に見てもThe・抽象絵画といった様相です。没後何年か経って日本ではパブリックドメインに…

pandasのto_pickle()でプロトコルを指定したい

Pythonにてpickle.dump()を使ってオブジェクトを一時保存したりすることがあると思います。保存時にはプロトコルが指定できるらしく、最新のプロトコルではより速い、より高い圧縮率でのRead/Writeを望むことができるようです。 inarizuuuushi.hatenablog.co…

ビニングにも色々あるらしい

機械学習でビニングって手法があるじゃないですか。あるんですよ。 最近SASの公式ドキュメントを眺めていて知ったのですが、どうも一口に "ビニング" といっても色々な分割方法があるみたいです。あまり馴染みのない情報だったので、ざっくりまとめてみまし…

マーケティングにおけるデータ分析の超ざっくり沿革

最近読んだ書籍の冒頭でマーケティング分野のデータ分析の沿革について非常に簡素にまとまって紹介されていたので、若干の意訳を加えつつ備忘録的に内容をメモ書きしときます。 超ざっくりですが、データの拡充により分析目的が多角化していく流れと、その背…

SparkにおけるRDDの遅延評価と永続化

Sparkを習熟する上でRDD(とDataframe)の永続化のメリットが理解しにくかったので、Sparkの特性である遅延評価と永続化について簡単にまとめておきます。 (正しく理解できているか自信ないので、内容に誤りがありましたらご指摘いただけると幸いです) な…

Google ColaboratoryでPySpark環境構築

個人的にライブラリやらなんやらを試してみる際にGoogle Colaboratoryを使うことが多いのですが、今回はSpark習熟のためにGoogle Colaboratoryのnotebook上でPysparkを実行できるように環境構築したので、備忘録としてその過程を記録しておきます。正直なと…

2値分類の不均一データ対策って実際効果あるんかい

機械学習の2値分類問題において、不均一(=陰性・陽性のデータ比率に偏りがある)データを学習させる際に学習用のセットの陰性・陽性のデータ比率をある程度揃えてあげることでモデル精度が向上することが知られています。このアイデアをもとにオーバーサン…

冠詞とプラトンとソシュールと(養老孟司『バカの壁』より)

養老孟司『バカの壁』についての紹介は、もう今更ですね。 妙に心に残っている一節があるのでまとめておきます。冠詞とイデア論の対応関係についてです。 バカの壁 (新潮新書)作者:養老孟司発売日: 2012/07/01メディア: Kindle版 英語の授業で定冠詞と不定冠…

Pandas dataframeでリストに含まれる要素であればTrueを返す

pythonのpandasにて、dataframe内のある要素が照合用のリストに含まれているかどうか確認したい時、listと同じように"in"で比較したいなあ(でもできないなあ)とか思ってたんですが、これ、.isin()できるんですね。って話を備忘録にします。 過去記事で「あ…

Google スプレッドシートでもできるよ仮説検定

この記事書いてる際、「仮説検定したいけど私用PCにエクセル入ってないし、Pythonでなんかその手のパッケージ使うしかないかなぁ」なんて思ってたところ、Googleスプレッドシートの関数で検定が実装されていることを知ったのでちょっと使ってみました。ぱっ…

2020年 - 今年出会った3×3【映画編】

今年出会ったものの中で特に印象的だったコンテンツについて、書籍・音楽・映画の3つのトピックそれぞれで3冊・3枚・3本に絞ってまとめておきます。今年リリースではなく、あくまで「今年僕が出会ったもの」なので、基本的にリアルタイム性は皆無です。 最後…

2020年 - 今年出会った3×3【音楽編】

今年出会ったものの中で特に印象的だったコンテンツについて、書籍・音楽・映画の3つのトピックそれぞれで3冊・3枚・3本に絞ってまとめておきます。今年リリースではなく、あくまで「今年僕が出会ったもの」なので、基本的にリアルタイム性は皆無です。 今回…

2020年 - 今年出会った3×3【書籍編】

今年出会ったものの中で特に印象的だったコンテンツについて、書籍・音楽・映画の3つのトピックそれぞれで3冊・3枚・3本に絞ってまとめておきます。今年リリースではなく、あくまで「今年僕が出会ったもの」なので、基本的にリアルタイム性は皆無です。 今回…

optunaで脳筋ハイパラチューニング(ようやく最後のお話:精度比較編)

Pythonでのoptuna実装について、理論面にはノータッチの脳筋スタイルで連載をお送りしています。最終回です。 第1回では1変数の関数に対する最適解探索を、第2回では機械学習モデルのパラメータ最適化を実装しました。そして最終回となる第3回の今回は、デフ…

optunaで脳筋ハイパラチューニング(こっからが本番:機械学習モデルのチューニング編)

Pythonでのoptuna実装を理論面にはノータッチの脳筋スタイルでお試ししてみます。記事は3回に分けて投稿予定で、前回の第1回では、まず1変数の関数に対する最適解探索を実装してみました。第2回の今回は、機械学習モデルのパラメータ最適化を実装します。次…

optunaで脳筋ハイパラチューニング(小手調べ:関数の最適解探索編)

「話題の最適化フレームワークがあるらしいやんけ。使ったろ。」の精神でoptunaを使った機械学習モデルのハイパーパラメータのチューニングをお試ししてみます。Pythonでのoptuna実装のチュートリアル的な内容です。理論面にはノータッチの脳筋スタイルで行…

騙されたと思ってレゴムービーを観てくれ頼む

『LEGO ムービー』という映画があります。レゴブロックをテーマにした全編CGアニメーション映画です。監督・脚本はあの『スパイダーマン: スパイダーバース』のクリス・ミラー&フィル・ロード。 www.youtube.com で、この記事の趣旨なんですが、表題の通り…

lambda式って超便利

コーディングの文法でlambda式ってあるじゃないですか。あれ、何が有り難いのかイマイチよくわかってなかったんですけど、その恩恵がようやく理解できたのでPythonでのlambda式の使い方について備忘録にします。あんまり細かいtipsは記事化してもキリがない…

AWSで最短(?)Jupyter Notebook環境構築

AWSで分析環境を構築するにあたり、EC2内にJupyterNotebookの実行環境を構築してみました。手順についてはググるといろいろと情報が出てくるのですが、当方ド素人のため、とりあえず最小限・最短経路の手順を整理して備忘録としました。実使用の上ではセキュ…

住所データから日本列島を点描してみる

つい先日リリースされたばかりのようですが、こんなオープンデータがあるのを知りました。 住所データ、つまり大字・通称・町丁目までの地名とその緯度・経度を紐付けたデータセットです。 geolonia.github.io で、この緯度・経度の位置情報を画像上の座標に…

第一種の過誤と第二種の過誤を図で理解する

仮説検定における第一種の過誤とか第二種の過誤がややこしかったのですが、図で考えてみたら理解が進みました。 備忘録として残しておきます。 主にこちらの記事からインスパイアされています。リンク先の方は、サンプルサイズが大きくなると分布のばらつき…

技術とバイブスの84年

500字を超えるくらいの文章を書くときはある程度構成や論旨を考えてから手を動かすのですが、この文章は完全に見切りで書き始めています。とにかく今思っていることを書き連ねていきます。 さて、今週の中頃のこと、個人的に結構大きなニュースがありました…