Sparkを習熟する上でRDD(とDataframe)の永続化のメリットが理解しにくかったので、Sparkの特性である遅延評価と永続化について簡単にまとめておきます。
(正しく理解できているか自信ないので、内容に誤りがありましたらご指摘いただけると幸いです)
なお、以下の情報を参考としています。
アクションと変換
Sparkにおいて、RDDはざっくり以下のようなフローで扱われます。
ここで、【変換】とはフィルタリングやマッピングなど、RDDを加工したり抽出したりして新たなRDDを生成する動作を指します。一方、【アクション】とは要素のカウントや統計量の取得など、RDDのデータを入力として何かしらの出力値を得る動作を指します。
続きを読む