Sparkの紹介とHadoopとの比較

1. Spark と Hadoop

1. Spark のコンピューティングモデルも MR に属しますが、Map と Reduce 操作に限定されません。また、さまざまなデータセット操作タイプを提供し、プログラミングモデルは Hadoop MR よりも柔軟です。
2. Spark はインメモリコンピューティングを提供し、中間結果をメモリ内に保存して反復操作をより効率的に行うことができます。
3. Spark の DAG ベースのタスクスケジューリング実行メカニズムは、Hadoop MR の反復実行メカニズムよりも優れています。

	スパーク	マップリデュース
データ保存構造	メモリを使用して、復元力のある分散データセット (RDD) を構築し、操作を実行してデータをキャッシュします。	ディスク HDFS ファイルシステムの分割
プログラミングパラダイム	DAG (変換+アクション)	マップ+リデュース
中間計算結果の保存	メモリに保持されるため、アクセス速度はディスクより数桁高速です。	ディスクに落ちると、IOとシリアル化およびデシリアル化のコストが高くなります。
タスクメンテナンス方法	スレッド	プロセス
時間	小さなデータセットの読み取りに1秒未満の遅延	タスクを開始するには数秒かかります

時間の範囲は数十分から数時間です

Haoop マップリデュース

時間の範囲は数十秒から数分です

Cloudera と Impala のリアルタイムパフォーマンスは Hive よりも優れています。

時間の範囲は数百ミリ秒から数秒です

嵐

Executor を使用した Spark の利点: (Hadoop の MR と比較して)

1. マルチスレッドを使用して特定のタスクを実行し、タスクの起動オーバーヘッドを削減します。
2. Executor には BlockManager ストレージモジュールがあり、メモリとディスクの両方をストレージデバイスとして使用して、IO オーバーヘッドを効果的に削減します。

アプリケーションを実行すると、ドライバーはクラスターマネージャーからリソースを要求し、エグゼキューターを起動します。

そして、アプリケーションコードとファイルをExecutorに送信し、Executor上でタスクを実行します。実行が完了すると、

実行結果はドライバーに返されるか、HDFS または他のデータベースに書き込まれます。

1. アプリケーションの基本的な動作環境を構築します。つまり、ドライバーはリソースを申請し、タスクを割り当て、それらを監視するための SparkContext を作成します。

2. リソースマネージャーは、エグゼキュータにリソースを割り当て、エグゼキュータプロセスを開始します。

3.1 SparkContext は、RDD の依存関係に基づいて DAG グラフを構築し、DAG グラフを DAGScheduler に送信して Stage に解析し、次に各 TaskSet を基礎となるスケジューラ TaskScheduler に送信して処理します。
3.2 Executor は SparkContext から Task を申請し、TaskScheduler は Task を Executor に送信して実行し、アプリケーションコードを提供します。

4. タスクは Executor 上で実行され、実行結果を TaskScheduler にフィードバックし、次に DAGScheduler にフィードバックします。実行が完了すると、データが書き込まれ、すべてのリソースが解放されます。