Spark Release 3.0.0 リリースノート (翻訳)
翻訳 : (株)クラスキャット セールスインフォメーション
作成日時 : 06/20/2020
* 本ページは、以下のドキュメントを翻訳したものです:
Spark Release 3.0.0
Apache Spark 3.0.0 は 3.x ラインの最初のリリースです。vote (投票) は 2020年6月10日に通りました。このリリースは git tag 3.0.0 に基づき、これは 6月10日までの総てのコミットを含みます。Apache Spark 3.0 は Spark 2.x からの多くの革新の上に構築され、新しいアイデアをもたらすとともに開発途上にある長期間プロジェクトを続けています。オープンソース・コミュニティからの非常に多くの貢献の手助けにより、このリリースは 440 を越える貢献者からの寄与の結果として 3400 チケット以上を解決しました。
今年は Spark のオープンソース・プロジェクトとしての 10 年記念です。2010 年のその初期リリースから、Spark は最も活発なオープンソース・プロジェクトの一つに成長しました。今日では、Spark はビッグデータ処理、データサイエンス、機械学習そしてデータ分析ワークロードのための事実上の (= de facto) 統一エンジンです。
Spark SQL はこのリリースの一番活動的なコンポーネントです。解決されたチケットの 46% は Spark SQL のためです。これらの拡張は、構造化ストリーミングと MLlib を含む総ての高位ライブラリ、そして SQL と DataFrame を含む高位 API に恩恵を与えます。様々な関連する最適化がこのリリースで追加されました。TPC-DS 30TB ベンチマークでは、Spark 3.0 は Spark 2.4 よりもおおよそ 2 倍高速です。
Python は今では Spark 上で最も広く利用される言語です。PySpark は PyPI, Python Package Index で毎月 500 万 ダウンロード以上あります。このリリースはその機能と使い勝手を改良しました、Python type ヒントを持つ pandas UDF API 再設計、新しい pandas UDF types そしてより多くの Pythonic エラー処理を含みます。
ここに Spark 3.0 の特徴ハイライトがあります : adaptive クエリ実行 ; 動的パーティンション・プルーニング ; ANSI SQL コンプライアンス ; pandas API の意義ある改良 ; 構造化ストリーミングのための新しい UI ; R ユーザ定義関数を呼び出すための 40x までのスピードアップ ; アクセラレータ-aware なスケジューラ ; そして SQL リファレンス・ドキュメント。
Apache Spark 3.0.0 をダウンロードするため、ダウンロード ページを訪ねてください。詳細な変更 については JIRA を調べてください。主要なもジュールによりグループ分けして、ここで高位な変更リストをキュレートしています。
(訳注 : 詳細については 原文 を参照してください。)
以上