PySparkでfillna()

毎回忘れるPySparkでの欠損処理の書き方と注意点について、個人的な備忘録です。 1. 前提こちら相当の準備ができていることを前提にします Google ColaboratoryでPySpark環境構築(v3.2.1) - 雑記 in hibernation 2. PySparkの欠損補完こんな感じの適当な欠…

2022-07-16

【あるある】数値をちゃんとソートできないと思ったら文字型になってた

Spark Python 実践寄りの話

タイトル以上でも以下でもありません。個人的あるあるなんですが、たまにしか引っかからない分、毎回原因に気づくまでに時間がかかるんですよね、、、、どういうことかと言いますと、こんな感じのデータがありまして、、、、 id payment 0 aaa 10000 1 bbb…

2022-03-05

PySparkデータフレームをscikit-learnのモデルで推論してみる（pandas_udf）

Python Spark 実践寄りの話機械学習

scikit-learnで学習したモデルを使ってPySparkのデータフレームに対する推論を行う方法はいくつかあって、例えば単純な方法としてはデータフレームを.toPandas()でPandasのデータフレームに変換してからモデルに入力する手があります。しかし、この方法だとS…

2022-03-02

Google ColaboratoryでPySpark環境構築(v3.2.1)

Google Colaboratory Python Spark 実践寄りの話ツール

以前GoogleColabでのPySpark環境構築の方法をまとめたのですが、最近（v3.x.x以降？）はもっと楽にインストールできるっぽいです。ってことで、手順を更新します。前回の↓ toeming.hatenablog.com 早速ですが、以下notebook上での処理手順 1. Sparkモジュー…