リアルタイムコンピューティングフレームワークFlinkクラスタの構築と動作メカニズムについての簡単な説明

1. Flinkの概要

1.1 基本的な紹介

主な機能には、バッチとストリームの統合、正確な状態管理、イベント時間のサポート、および正確に 1 回の状態一貫性の保証が含まれます。 Flink は、YARN、Mesos、Kubernetes などのさまざまなリソース管理フレームワークで実行できるだけでなく、ベアメタルクラスターでの独立したデプロイメントもサポートします。高可用性オプションを有効にすると、単一障害点がなくなります。

ここで説明する概念は 2 つあります。

境界: データ集約戦略または条件として理解できる、無制限および制限付きデータフロー。
ステータス: 実行順序に依存関係があるかどうか、つまり次の実行が前の実行の結果に依存するかどうか。

1.2 アプリケーションシナリオ

データ駆動型

イベント駆動型アプリケーションでは、リモートデータベースをクエリする必要がありません。ローカルデータアクセスにより、スループットの向上とレイテンシの低減が可能になります。不正防止のケースを例にとると、DataDriven は処理ルールモデルを DatastreamAPI に書き込み、ロジック全体を Flink エンジンに抽象化します。イベントまたはデータが流入すると、対応するルールモデルがトリガーされます。ルール内の条件がトリガーされると、DataDriven はそれをすばやく処理し、ビジネスアプリケーションに通知します。

データ分析

バッチ分析と比較して、ストリーミング分析では定期的なデータインポートとクエリプロセスが不要になるため、イベントからインジケーターを取得する際のレイテンシが低くなります。さらに、バッチクエリは定期的なインポートや入力境界によって生じる人工的なデータ境界に対処する必要がありますが、ストリーミングクエリではこの問題を考慮する必要がありません。Flink は継続的なストリーミング分析とバッチ分析の両方に優れたサポートを提供し、データをリアルタイムで処理および分析します。リアルタイムの大画面やリアルタイムレポートなどのシナリオで広く使用されています。

データパイプライン

定期的な ETL タスクと比較して、継続的なデータパイプラインは、データを宛先に移動するレイテンシを大幅に削減できます。たとえば、上流の StreamETL に基づいて、リアルタイムのデータクリーニングまたは拡張を実行し、下流にリアルタイムデータウェアハウスを構築して、データクエリの適時性を確保し、高効率のデータクエリリンクを形成できます。このシナリオは、メディアストリームの推奨や検索エンジンで非常に一般的です。

2. 環境の展開

2.1. インストールパッケージの管理

[root@hop01 opt]# tar -zxvf flink-1.7.0-bin-hadoop27-scala_2.11.tgz
[root@hop02 opt]# mv flink-1.7.0 flink1.7

2.2 クラスタ構成

管理ノード

[root@hop01 opt]# cd /opt/flink1.7/conf
[root@hop01 conf]# vim flink-conf.yaml
ジョブマネージャ.rpc.アドレス: hop01

分散ノード

[root@hop01 conf]# vim スレーブ
ホップ02
ホップ03

2 つの構成はすべてのクラスターノードに同期されます。

2.3. 開始と停止

クラスタを起動します
/opt/flink1.7/bin/stop-cluster.sh

起動ログ:

[root@hop01 conf]# /opt/flink1.7/bin/start-cluster.sh
クラスターを開始しています。
ホスト hop01 でスタンドアロンセッションデーモンを起動しています。
ホスト hop02 で taskexecutor デーモンを起動しています。
ホスト hop03 で taskexecutor デーモンを起動しています。

2.4 ウェブインターフェース

アクセス: http://hop01:8081/

3. 開発参入事例

3.1 データスクリプト

各ノードにデータスクリプトを配布します。

/var/flink/test/word.txt

3.2. 基本的な依存関係の紹介

以下は Java で記述された基本的なケースです。

<依存関係>
    <依存関係>
        <グループ ID>org.apache.flink</グループ ID>
        <artifactId>flink-java</artifactId>
        <バージョン>1.7.0</バージョン>
    </依存関係>
    <依存関係>
        <グループ ID>org.apache.flink</グループ ID>
        <artifactId>flink-ストリーミング-java_2.11</artifactId>
        <バージョン>1.7.0</バージョン>
    </依存関係>
</依存関係>

3.3. ファイルデータの読み取り

ここでは、ファイル内のデータを直接読み取り、プログラムフローを通じて各単語の出現回数を分析します。

パブリッククラス WordCount {
    パブリック静的void main(String[] args)は例外をスローします{
        // ファイルデータを読み取ります readFile();
    }

    パブリック静的void readFile()は例外をスローします{
        // 1. 実行環境を作成する ExecutionEnvironment environment = ExecutionEnvironment.getExecutionEnvironment();

        // 2. データファイルを読み取る String filePath = "/var/flink/test/word.txt";
        DataSet<String> inputFile = environment.readTextFile(filePath);

        // 3. グループ化して合計する DataSet<Tuple2<String, Integer>> wordDataSet = inputFile.flatMap(new WordFlatMapFunction(
        )).groupBy(0).sum(1);

        // 4. 処理結果を印刷する wordDataSet.print();
    }

    //データの読み取りと切り取り方法 static class WordFlatMapFunction implements FlatMapFunction<String, Tuple2<String, Integer>> {
        @オーバーライド
        パブリック void flatMap(String 入力、Collector<Tuple2<String, Integer>> コレクター){
            文字列[] wordArr = input.split(",");
            for (文字列 word : wordArr) {
                コレクター.collect(新しいTuple2<>(word, 1));
            }
        }
    }
}

3.4. ポートデータの読み取り

hop01 サービスにポートを作成し、ポートへのデータ送信をシミュレートします。

[root@hop01 ~]# nc -lk 5566
C++、Java

Flink プログラムを使用して、ポートのデータコンテンツを読み取って分析します。

パブリッククラス WordCount {
    パブリック静的void main(String[] args)は例外をスローします{
        // ポートデータを読み取る readPort();
    }

    パブリック静的void readPort（）は例外をスローします{
        // 1. 実行環境を作成する StreamExecutionEnvironment environment = StreamExecutionEnvironment.getExecutionEnvironment();

        // 2. ソケット データ ポートを読み取ります。DataStreamSource<String> inputStream = environment.socketTextStream("hop01", 5566);

        // 3. データの読み取りと切り取り方法 SingleOutputStreamOperator<Tuple2<String, Integer>> resultDataStream = inputStream.flatMap(
                新しい FlatMapFunction<String, Tuple2<String, Integer>>()
        {
            @オーバーライド
            パブリック void flatMap(String 入力、Collector<Tuple2<String, Integer>> コレクター) {
                文字列[] wordArr = input.split(",");
                for (文字列 word : wordArr) {
                    コレクター.collect(新しいTuple2<>(word, 1));
                }
            }
        }).keyBy(0).sum(1);

        // 4. 分析結果を印刷する resultDataStream.print();

        // 5. 環境の起動 environment.execute();
    }
}

IV. 動作メカニズム

4.1、Flinkクライアント

クライアントは、データストリームを準備して JobManager ノードに送信するために使用されます。その後、特定のニーズに応じて、クライアントは直接切断するか、接続状態を維持してタスク処理の結果を待つことができます。

4.2 ジョブマネージャー

Flink クラスターでは、JobManger ノードと少なくとも 1 つの TaskManager ノードが開始されます。JobManager は、クライアントから送信されたタスクを受信すると、タスクを調整して特定の TaskManager ノードに送信し、実行します。TaskManager ノードは、ハートビートと処理情報を JobManager に送信します。