雑記 in hibernation

頭の整理と備忘録

2021-01-01から1年間の記事一覧

2021年 - 今年出会った3×3【書籍編】

今年出会ったものの中で特に印象的だったコンテンツについて、書籍・音楽・映画の3つのトピックそれぞれで3冊・3枚・3本に絞ってまとめておきます。今年リリースではなく、あくまで「今年僕が出会ったもの」なので、基本的にリアルタイム性は皆無です。 最後…

2021年 - 今年出会った3×3【音楽編】

今年出会ったものの中で特に印象的だったコンテンツについて、書籍・音楽・映画の3つのトピックそれぞれで3冊・3枚・3本に絞ってまとめておきます。今年リリースではなく、あくまで「今年僕が出会ったもの」なので、基本的にリアルタイム性は皆無です。 今回…

2021年 - 今年出会った3×3【映画編】

今年出会ったものの中で特に印象的だったコンテンツについて、書籍・音楽・映画の3つのトピックそれぞれで3冊・3枚・3本に絞ってまとめておきます。今年リリースではなく、あくまで「今年僕が出会ったもの」なので、基本的にリアルタイム性は皆無です。 まず…

多様性の尊重と表現規制の矛盾を自由主義の変遷から解く

近頃、表現の自由に関する議論(というほど論客同士のコミュニケーションが成立しているかはさておき、、、)が盛り上がっていますね。面倒なのであえてその具体には触れませんが、個人的なスタンスとしては表現を規制もしくは制限する動きに対しては基本的…

「当選確実」の裏で暗躍しているのは不正ではなく推計統計だって話

2021年衆院選の結果が出ましたね。蓋を開けてみれば、野党共闘を議席につなげることができなかった立憲に対して自民は議席は減らしつつも安定した戦績を残し、2大政党の裏では維新の躍進があり、れいわは着実に議席数を伸ばし。少なくない変化が感じられた今…

Pysparkで(個人的に)忘れがちなtipsメモ

たまーにPysparkを使うことがあるのですが、たまーにすぎて使う頃には前回までの習熟度が完全にリセットされている、という非効率を繰り返している今日この頃。ということで、毎回ど忘れして無駄に遠回りしてしまいがちなtips(と言うほど大袈裟な情報ではな…

知る人ぞ知る(?)WOE変換をフックアップ

統計・機械学習における変数変換の手法の一つに”WOE(Weight of Evidence)変換”という方法があります。金融工学の世界で好んで利用される手法らしいですが、他分野の方にはいまいち耳馴染みがないワードだと思います。ということで、「WOE変換なんて聞いたこ…

『パラレルワールドのアイツ』のはなし

NHKスペシャルで特集されるひきこもりの中高年や、「幸せそうな女性」をターゲットにした通り魔や、SNSで芸能人にクソリプ飛ばして溜飲下げてる人らや、「不況で風俗のクオリティが上がって嬉しい」的な発言をしたお笑い芸人や。そういう人たちを見ていると…

ML-AskをGoogle Colaboratoryで試してみる

前回の記事で、asariを使ったテキスト感情分析を実装してみました。その際、結局使わなかったのですが、裏でML-Askもお試ししていました。 toeming.hatenablog.com せっかくなのでGoogle ColaboratoryでML-Askを導入するまでの流れを備忘録として残しておこ…

ビジネスメールから受けるダメージをテキスト感情分析で和らげる試み

労働が人間の精神に及ぼす悪影響については今更言及の余地はないでしょう。業務・責任に見合わない給与や長時間の拘束などなど、労働のネガティブな要素を挙げ始めるとキリがありませんが、僕個人としては、ビジネスコミュニケーション上で発生する精神的負…

Ubuntuの日本語入力設定メモ

AWSで立ち上げたインスタンスのUbuntu環境で日本語入力の設定ができなくて困った。今後のために解決方法をメモっておく。色々試す中で辿り着いたので、この手順がクリティカルでない可能性もある。 OSのverは18.04.5。 1. mozkの設定 SettingのRegion&Langua…

Pysparkで累積構成比を計算する

PySparkのDataframeでの累積構成比の計算に戸惑ったのですが、ググっても意外とすんなりいい感じの情報にありつけなかったので、備忘録として残しておきます。 Window関数がわかってりゃあなんてことないとのない内容だろうとは思いますが、お勉強も兼ねて。…

カンディンスキーのコンポジションと言語表現との類似性

ロシア出身の画家のワシリー・カンディンスキーは、抽象絵画の先駆者として有名です。その作品は直線や円が重なって散りばめられた幾何学的な雰囲気が印象的で、素人目に見てもThe・抽象絵画といった様相です。没後何年か経って日本ではパブリックドメインに…

pandasのto_pickle()でプロトコルを指定したい

Pythonにてpickle.dump()を使ってオブジェクトを一時保存したりすることがあると思います。保存時にはプロトコルが指定できるらしく、最新のプロトコルではより速い、より高い圧縮率でのRead/Writeを望むことができるようです。 inarizuuuushi.hatenablog.co…

ビニングにも色々あるらしい

機械学習でビニングって手法があるじゃないですか。あるんですよ。 最近SASの公式ドキュメントを眺めていて知ったのですが、どうも一口に "ビニング" といっても色々な分割方法があるみたいです。あまり馴染みのない情報だったので、ざっくりまとめてみまし…

マーケティングにおけるデータ分析の超ざっくり沿革

最近読んだ書籍の冒頭でマーケティング分野のデータ分析の沿革について非常に簡素にまとまって紹介されていたので、若干の意訳を加えつつ備忘録的に内容をメモ書きしときます。 超ざっくりですが、データの拡充により分析目的が多角化していく流れと、その背…

SparkにおけるRDDの遅延評価と永続化

Sparkを習熟する上でRDD(とDataframe)の永続化のメリットが理解しにくかったので、Sparkの特性である遅延評価と永続化について簡単にまとめておきます。 (正しく理解できているか自信ないので、内容に誤りがありましたらご指摘いただけると幸いです) な…

Google ColaboratoryでPySpark環境構築

個人的にライブラリやらなんやらを試してみる際にGoogle Colaboratoryを使うことが多いのですが、今回はSpark習熟のためにGoogle Colaboratoryのnotebook上でPysparkを実行できるように環境構築したので、備忘録としてその過程を記録しておきます。正直なと…

2値分類の不均一データ対策って実際効果あるんかい

機械学習の2値分類問題において、不均一(=陰性・陽性のデータ比率に偏りがある)データを学習させる際に学習用のセットの陰性・陽性のデータ比率をある程度揃えてあげることでモデル精度が向上することが知られています。このアイデアをもとにオーバーサン…

冠詞とプラトンとソシュールと(養老孟司『バカの壁』より)

養老孟司『バカの壁』についての紹介は、もう今更ですね。 妙に心に残っている一節があるのでまとめておきます。冠詞とイデア論の対応関係についてです。 バカの壁 (新潮新書)作者:養老孟司発売日: 2012/07/01メディア: Kindle版 英語の授業で定冠詞と不定冠…

Pandas dataframeでリストに含まれる要素であればTrueを返す

pythonのpandasにて、dataframe内のある要素が照合用のリストに含まれているかどうか確認したい時、listと同じように"in"で比較したいなあ(でもできないなあ)とか思ってたんですが、これ、.isin()できるんですね。って話を備忘録にします。 過去記事で「あ…

Google スプレッドシートでもできるよ仮説検定

この記事書いてる際、「仮説検定したいけど私用PCにエクセル入ってないし、Pythonでなんかその手のパッケージ使うしかないかなぁ」なんて思ってたところ、Googleスプレッドシートの関数で検定が実装されていることを知ったのでちょっと使ってみました。ぱっ…