雑記 in hibernation

頭の整理と備忘録

2022-03-01から1ヶ月間の記事一覧

PySparkデータフレームをscikit-learnのモデルで推論してみる(pandas_udf)

scikit-learnで学習したモデルを使ってPySparkのデータフレームに対する推論を行う方法はいくつかあって、例えば単純な方法としてはデータフレームを.toPandas()でPandasのデータフレームに変換してからモデルに入力する手があります。しかし、この方法だとS…

Google ColaboratoryでPySpark環境構築(v3.2.1)

以前GoogleColabでのPySpark環境構築の方法をまとめたのですが、最近(v3.x.x以降?)はもっと楽にインストールできるっぽいです。ってことで、手順を更新します。 前回の↓ toeming.hatenablog.com 早速ですが、以下notebook上での処理手順 1. Sparkモジュー…