JVM 上の高性能データ形式ライブラリパッケージである Apache Arrow の紹介とアーキテクチャ (Gkatziouras)

Apache Arrow は、BigQuery を含むさまざまなビッグデータツールで使用される一般的な形式で、フラットデータと階層型データの両方のストレージ形式です。これは、アプリケーションを高速化するためのメモリを大量に消費する方法です。

データ処理およびデータサイエンスの分野でよく使用されるライブラリ: Apache Arrow。 Arrow は、Apache Parquet、Apache Spark、pandas などのオープンソースプロジェクトや、多くの商用またはクローズドソースサービスで使用されています。以下の機能を提供します:

インメモリコンピューティング
標準化された列指向ストレージ形式
プロセスとノード間のデータ交換のためのIPCとRPCフレームワーク

Arrow が登場する前はどのように機能していたかを見てみましょう。

Spark が Parquet ファイルからデータを読み取るには、データを Parquet 形式で読み取って逆シリアル化する必要があることがわかります。これには、データをメモリにロードして完全なコピーを作成する必要があります。まず、データをメモリ内バッファに読み込み、次に Parquet の変換メソッドを使用してデータ (文字列や数値など) をプログラミング言語の表現に変換します。これは、Parquet が Python プログラミング言語とは異なる方法で数値を表現するために必要です。

これは、さまざまな理由からパフォーマンスにとって大きな問題となります。

データをコピーし、それに対して変換手順を実行しています。データはさまざまな形式であるため、計算を実行する前にすべてのデータを読み取って変換する必要があります。
ロードするデータはメモリに収まる必要があります。 RAM は 8GB しかないのに、データは 10GB ですか?あなたは本当に不運ですね！

それでは、Apache Arrow がこれをどのように改善するかを見てみましょう。

Arrow は、データをコピーして変換するのではなく、データを直接読み取って操作する方法を理解します。この目的のために、Arrow コミュニティは、シリアル化されたデータに対して直接機能する新しいファイル形式と操作を定義しました。このデータ形式は、メモリにロードしてデータを変換/逆シリアル化することなく、ディスクから直接読み取ることができます。もちろん、データの一部は引き続き RAM にロードされますが、データがメモリに収まる必要はありません。 Arrow はファイルメモリマッピング機能を使用して、必要な分だけ可能な限り多くのデータをメモリにロードします。

Apache Arrow は次の言語をサポートしています。

C++
C#
行く
ジャワ
JavaScript
さび
Python (C++ ライブラリ経由)
Ruby (C++ ライブラリ経由)
R (C++ ライブラリ経由)
MATLAB (C++ ライブラリ経由)。

矢印機能

Arrow は、何よりもまず、インメモリコンピューティング用の列データ構造を提供するライブラリです。任意のデータを解凍して Arrow 列データ構造にデコードし、デコードされたデータに対してインメモリ分析を実行できます。 Arrow 列形式には、ランダムアクセスが O(1) であり、各値セルがメモリ内で前のセルおよび次のセルに隣接しているため、反復処理が非常に効率的であるという優れた特性があります。

Apache Arrow は、メッセージングやプロセス間通信に使用できる Arrow 列配列のコレクション (「レコードバッチ」と呼ばれる) を配置するためのバイナリ「シリアル化」プロトコルを定義します。プロトコルはディスク上を含むどこにでも配置でき、後でメモリマップしたり、メモリに読み込んで別の場所に送信したりできます。

Arrow プロトコルは、逆シリアル化なしで Arrow データのブロックを「マップ」できるように設計されているため、ディスク上の Arrow プロトコルデータの分析を実行すると、メモリマッピングが使用され、実質的にコストはかかりません。このプロトコルは、Spark SQL と Python 間のデータのストリーミング、Spark SQL データのチャンクに対する pandas 関数の実行など、さまざまな目的で使用されます。これらは「pandas udfs」と呼ばれます。

Arrow はメモリ用に設計されています (ただし、ディスク上に配置してからメモリマップすることもできます)。これらは相互に互換性があり、アプリケーションで一緒に使用されるように設計されていますが、競合製品の Apache Parquet ファイルはディスクストレージ用に設計されています。

利点: Apache Arrow は、CPU や GPU などの最新のハードウェア上で効率的な分析操作が行えるように編成された、フラットおよび階層型データ用の言語に依存しない列型ストレージ形式を定義します。 Arrow メモリ形式は、シリアル化のオーバーヘッドなしで超高速データアクセスを実現するゼロコピー読み取りもサポートします。

Java 用 Apache Arrow

ライブラリをインポートします。

<依存関係>
    <グループ ID>org.apache.arrow</グループ ID>
    <artifactId>矢印メモリネットティ</artifactId>
    <バージョン>${arrow.version}</バージョン>
</依存関係>
<依存関係>
    <グループ ID>org.apache.arrow</グループ ID>
    <artifactId>矢印ベクトル</artifactId>
    <バージョン>${arrow.version}</バージョン>
</依存関係>

始める前に、Arrow の読み取り/書き込み操作ではバイトバッファーが使用されることを理解することが重要です。読み取りや書き込みなどの操作は、バイトの連続的な交換です。効率を向上させるために、Arrow には固定サイズまたは自動拡張機能を備えたバッファアロケータが付属しています。割り当て管理をサポートするライブラリは、arrow-memory-netty と arrow-memory-unsafe です。ここではnettyを使用します。

Arrow を使用してデータを保存するには、プログラムで定義できるスキーマが必要です。

パッケージ com.gkatzioura.arrow;

java.io.IOException をインポートします。

java.util.List をインポートします。

org.apache.arrow.vector.types.pojo.ArrowType をインポートします。

org.apache.arrow.vector.types.pojo.Field をインポートします。

org.apache.arrow.vector.types.pojo.FieldType をインポートします。

org.apache.arrow.vector.types.pojo.Schema をインポートします。

パブリッククラスSchemaFactory {

パブリック静的スキーマ DEFAULT_SCHEMA = createDefault();

パブリック静的スキーマcreateDefault() {

var strField = new Field("col1", FieldType.nullable(new ArrowType.Utf8()), null);

var intField = new Field("col2", FieldType.nullable(new ArrowType.Int(32, true)), null);

新しいスキーマ(List.of(strField, intField))を返します。

}

パブリック静的スキーマ schemaWithChildren() {

var amount = new Field("amount", FieldType.nullable(new ArrowType.Decimal(19,4,128)), null);

var currency = new Field("currency",FieldType.nullable(new ArrowType.Utf8()), null);

var itemField = new Field("item", FieldType.nullable(new ArrowType.Utf8()), List.of(amount,currency));

新しいスキーマ(List.of(itemField))を返します。

}

パブリック静的SchemafromJson(String jsonString) {

試す {

Schema.fromJSON(jsonString) を返します。

} キャッチ (IOException e) {

新しい ArrowExampleException(e) をスローします。

}

}

}

解析可能な JSON 表現もあります:

{
  「フィールド」: [ {
    "名前" : "col1",
    「null可能」: true、
    "タイプ" ： {
      "名前" : "utf8"
    },
    "子供たち" ： [ ]
  }, {
    "名前" : "col2",
    「null可能」: true、
    "タイプ" ： {
      "名前" : "int",
      「ビット幅」: 32,
      "isSigned" : 真
    },
    "子供たち" ： [ ]
  } ]
}

さらに、Avro と同様に、フィールドに複雑なスキーマや埋め込み値を設計できます。

パブリック静的スキーマ schemaWithChildren() {
    var amount = new Field("amount", FieldType.nullable(new ArrowType.Decimal(19,4,128)), null);
    var currency = new Field("currency",FieldType.nullable(new ArrowType.Utf8()), null);
    var itemField = new Field("item", FieldType.nullable(new ArrowType.Utf8()), List.of(amount,currency));
 
    新しいスキーマ(List.of(itemField))を返します。
}

上記のスキーマに基づいて、クラスの DTO を作成します。

パッケージ com.gkatzioura.arrow;
 
lombok.Builder をインポートします。
lombok.Data をインポートします。
 
@データ
@ビルダー
パブリッククラスDefaultArrowEntry {
 
    プライベート文字列 col1;
    プライベート整数col2;
 
}

私たちの目標は、これらの Java オブジェクトを Arrow バイトストリームに変換することです。

1. アロケータを使用してDirectByteBufferを作成する

これらのバッファはオフヒープです。使用されているメモリを解放する必要がありますが、ライブラリユーザーの場合は、アロケータで close() 操作を実行することによってこれが行われます。私たちの場合、クラスは Closeable インターフェイスを実装し、アロケータのクローズ操作を実行します。

ストリーミング API を使用すると、データは Arrow 形式を使用して送信された OutPutStream にストリーミングされます。

パッケージ com.gkatzioura.arrow;
 
java.io.Closeable をインポートします。
java.io.IOException をインポートします。
java.nio.channels.WritableByteChannel をインポートします。
java.util.List をインポートします。
 
org.apache.arrow.memory.RootAllocator をインポートします。
org.apache.arrow.vector.IntVector をインポートします。
org.apache.arrow.vector.VarCharVector をインポートします。
org.apache.arrow.vector.VectorSchemaRoot をインポートします。
org.apache.arrow.vector.dictionary.DictionaryProvider をインポートします。
org.apache.arrow.vector.ipc.ArrowStreamWriter をインポートします。
org.apache.arrow.vector.util.Text をインポートします。
 
static com.gkatzioura.arrow.SchemaFactory.DEFAULT_SCHEMA をインポートします。
 
パブリッククラスDefaultEntriesWriterはCloseableを実装します{
 
    プライベート最終 RootAllocator rootAllocator;
    private final VectorSchemaRoot vectorSchemaRoot; //ベクトルアロケータの作成:
 
    パブリックDefaultEntriesWriter() {
        rootAllocator = 新しい RootAllocator();
        ルートアロケータを作成します。
    }
 
    パブリック void write(List<DefaultArrowEntry> defaultArrowEntries、int batchSize、WritableByteChannel out) {
        バッチサイズ <= 0 の場合
            バッチサイズ = defaultArrowEntries.size();
        }
 
        DictionaryProvider.MapDictionaryProvider dictProvider = 新しい DictionaryProvider.MapDictionaryProvider();
        試してください(ArrowStreamWriterライター = 新しいArrowStreamWriter(vectorSchemaRoot, dictProvider, out)) {
            ライターを起動します。
 
            VarCharVector の childVector1 = (VarCharVector) vectorSchemaRoot.getVector(0);
            IntVector の childVector2 = (IntVector) vectorSchemaRoot.getVector(1);
            子ベクター1.リセット();
            子ベクター2.リセット();
 
            ブール値 exactBatches = defaultArrowEntries.size()%batchSize == 0;
            int バッチカウンタ = 0;
 
            for(int i=0; i < defaultArrowEntries.size(); i++) {
                childVector1.setSafe(batchCounter、新しい Text(defaultArrowEntries.get(i).getCol1()));
                childVector2.setSafe(batchCounter、defaultArrowEntries.get(i).getCol2());
 
                バッチカウンタ++;
 
                バッチカウンタ == バッチサイズの場合
                    バッチサイズをセットします。
                    ライター.writeBatch();
                    バッチカウンタ = 0;
                }
            }
 
            if(!exactBatches) {
                vectorSchemaRoot.setRowCount(バッチカウンタ);
                ライター.writeBatch();
            }
 
            ライター.end();
        } キャッチ (IOException e) {
            新しい ArrowExampleException(e) をスローします。
        }
    }
 
    @オーバーライド
    パブリック void close() は IOException をスローします {
        ベクトルスキーマルートを閉じます。
        ルートアロケータを閉じます。
    }
 
}

Arrow でのバッチ処理のサポートを示すために、関数に単純なバッチ処理アルゴリズムが実装されています。この例では、データをバッチで書き込むことを検討します。

上記のコードが何をするのかを詳しく見てみましょう。

ベクトルアロケータの作成:

パブリックDefaultEntriesToBytesConverter() {
    rootAllocator = 新しい RootAllocator();
    ルートアロケータを作成します。
}

ストリームに書き込むときに、Arrowストリームライターが実装され、起動されます。

ArrowStreamWriter ライター = 新しい ArrowStreamWriter(vectorSchemaRoot、dictProvider、Channels.newChannel(out));
ライターを起動します。

ベクトルにデータを入力してリセットしますが、事前に割り当てられたバッファはそのまま残します。

VarCharVector の childVector1 = (VarCharVector) vectorSchemaRoot.getVector(0);
IntVector の childVector2 = (IntVector) vectorSchemaRoot.getVector(1);
子ベクター1.リセット();
子ベクター2.リセット();

データを書き込むときは、setSafe 操作を使用します。さらに多くのバッファを割り当てる必要がある場合にこれを実行する必要があります。この例では、書き込みごとにこれが実行されますが、必要な操作とバッファサイズを考慮すると回避できます。

childVector1.setSafe(i, 新しい Text(defaultArrowEntries.get(i).getCol1()));
childVector2.setSafe(i, defaultArrowEntries.get(i).getCol2());

次に、バッチをストリームに書き込みます。

バッチサイズをセットします。
ライター.writeBatch();

最後になりましたが、著者は次のように締めくくっています。

@オーバーライド
パブリック void close() は IOException をスローします {
    ベクトルスキーマルートを閉じます。
    ルートアロケータを閉じます。
}

以上が、JVM (Gkatziouras) 上の高性能データフォーマットライブラリパッケージである Apache Arrow の紹介とアーキテクチャの詳細な内容です。Apache Arrow の入門に関する詳細については、123WORDPRESS.COM の他の関連記事にも注目してください。

以下もご興味があるかもしれません:

JVM 入門: クラスローディングとバイトコードテクノロジ (クラスローディングとクラスローダー)
JVM の概要: メモリ構造 (ヒープ、メソッド領域)
JVM 入門 - JVM の概要

<<: グリッド共通レイアウトの実装

>>: MySQLのSeconds_Behind_Masterの詳細な説明

JVM 上の高性能データ形式ライブラリパッケージである Apache Arrow の紹介とアーキテクチャ (Gkatziouras)

矢印機能

Java 用 Apache Arrow

js キャンバスは検証コードを実装し、検証コード機能を取得します

psdカット画像をdiv+css形式に変換する

CSS3で蓮の花が咲くアニメーション効果を実現

MySQL の NULL と空の文字列

ライフゲームの JavaScript 実装

uniapp プロジェクトの最適化方法と提案

CSS でコンテンツが長すぎる問題を解決する方法の詳細な説明

Reactにおけるフックの一般的な使用法

JavaScript Alert関数の実行順序の詳細な説明

Dockerでのpython3.8イメージのインストールについて

推薦する

Flexレイアウトを使用してdiv内のサブ要素を垂直方向に中央揃えする例

MySQL の乗算と除算の精度の不一致の問題 (除算後の小数点以下 4 桁)

CSS3 クリックボタン円形進行ティック効果実装コード

Dockerカスタムネットワーク実装

HTML フォームタグの使用方法を学ぶチュートリアル

JS の精度外数値問題の解決

Javascript実践におけるコマンドモードの詳しい説明

CSS スタイルの優先順位はどれくらい複雑ですか?

CSS3はシームレスなスクロールと手ぶれ防止を実現します

Linux で PHP を 5.6 にアップグレードする実用的な方法

Linux でアップロードされたファイルのスケジュールされたバックアップと増分バックアップを実装する方法

Javascriptで戦略パターンを実装する方法

HTML テーブルタグチュートリアル (36): テーブルヘッダーの背景色属性 BGCOLOR

Vue コンポーネント (Vuex を含む) 間の値の転送に関する簡単な説明

JavaScript の 50 以上のユーティリティ関数の概要