現象 Apache Spark 2.x を使用すると、Spark ジョブがすべて完了しているにもかかわらず、プログラムがまだ実行されているという現象が発生することがあります。たとえば、Spark SQL を使用していくつかの SQL を実行すると、最終的に大量のファイルが生成されます。次に、この SQL のすべての Spark ジョブが実際に完了まで実行されているが、このクエリ ステートメントはまだ実行中であることがわかります。ログから、ドライバーノードがタスクによって生成されたファイルを 1 つずつ最終テーブルのディレクトリに移動していることがわかります。この現象は、ジョブが大量のファイルを生成する場合に発生しやすくなります。この記事では、この問題を解決する方法を紹介します。 なぜこのような現象が起こるのでしょうか? Spark 2.x は Hadoop 2.x を使用します。生成されたファイルを HDFS に保存すると、次のように、FileOutputCommitter を使用する saveAsHadoopFile が最終的に呼び出されます。 問題は、Hadoop 2.x の FileOutputCommitter 実装にあります。FileOutputCommitter には、commitTask と commitJob という注目すべき 2 つのメソッドがあります。 Hadoop 2.x の FileOutputCommitter 実装では、mapreduce.fileoutputcommitter.algorithm.version パラメータによって commitTask と commitJob の動作が制御されます。具体的なコードは次のとおりです (便宜上、無関係な記述は削除しました。完全なコードは FileOutputCommitter.java にあります)。 ご覧のとおり、commitTask メソッドには、条件判断 algorithmVersion == 1 があります。これは、mapreduce.fileoutputcommitter.algorithm.version パラメータの値で、デフォルトは 1 です。このパラメータが 1 の場合、Task が完了すると、Task によって一時的に生成されたデータは、タスクの対応するディレクトリに移動され、その後、commitJob が呼び出されたときに最終ジョブ出力ディレクトリに移動されます。Hadoop 2.x でのこのパラメータのデフォルト値は 1 です。このため、ジョブは完了しているように見えますが、プログラムはまだデータを移動しているため、ジョブ全体が完了していません。最終的に、commitJob 関数は Spark のドライバーによって実行されるため、実行が遅くなる理由があります。 また、 Hadoop 2.7.0 より前のバージョンでは、プログラムがこの値を 2 に制限しないため、mapreduce.fileoutputcommitter.algorithm.version パラメータを 1 以外の値に設定することでこれを実現できることに注意してください。ただし、Hadoop 2.7.0 以降では、mapreduce.fileoutputcommitter.algorithm.version パラメータの値は 1 または 2 にする必要があります。詳細については、MAPREDUCE-4815 を参照してください。 Sparkでこのパラメータを設定する方法 問題が見つかりました。プログラムで解決できます。いくつかの方法があります:
ただし、Hadoop バージョンが 3.x の場合、mapreduce.fileoutputcommitter.algorithm.version パラメータのデフォルト値はすでに 2 に設定されています。詳細については、MAPREDUCE-6336 および MAPREDUCE-6406 を参照してください。 このパラメータはパフォーマンスに多少の影響を与えるため、Spark 2.2.0 では、このパラメータは Spark 構成ドキュメント 要約する 以上、Apache Spark 2.0についてご紹介しました。お役に立てれば幸いです。 以下もご興味があるかもしれません:
|
<<: Mysql5.7 のグループ連結関数を使用するときにデータが切り捨てられる問題に対する完璧な解決策
手工芸デザインからグラフィックデザイン、そしてウェブデザインまで、デザインの原則は同じままですが、私...
まず、docker に openssh-server をインストールします。インストールが完了したら...
VMware Workstation 14 ProにCentOS 7.0をインストールする具体的な方...
1. 表タグはtable、trは行、tdはセル、cellspacingはセル間の距離、cellpad...
注意: スコープアニメーションは使用できません。 ! ! ! GIF経由 <テンプレート>...
目次1. Docker Composeとは何か、インストールして使用する方法2. DOCleverと...
序文デモでは古いバージョンのブラウザのグラデーションが実装されています[IE9-]。 IE9 より前...
前回の記事では、Dockerの基礎知識であるローカルディレクトリのマウント方法を紹介しました。今日は...
目次複数の種類のフィルタリングをサポート複数の範囲のクエリを避ける並べ替えを最適化するインデックスの...
QQtabBar の BEMまず、BEMとはどういう意味でしょうか? BEM は、ブロック、要素、修...
当銀行のMGRは年末に開始されます。公式文書を読んだり、毎日テストを受けたりしなければなりません。毎...
最近Ubuntu 20.04をインストールしましたが、Wi-Fiに接続できず、Wi-Fiアイコンも表...
vue2 プロジェクト開発の経験があれば、$refs に精通しているでしょう。 vue3 の急激なア...
問題の説明:たとえば、ファイル 11 の内容は次のとおりです。こんにちはファイル22の内容は次のとお...
記事は主にUbuntu 20.04の簡単なインストールプロセスを記録し、インストール後に国内ソースを...