MySQL Shell import_tableデータインポートの実装

1. import_tableの紹介

前回の技術共有では、MySQL Load Dataを使用してテキストデータをMySQLにインポートする4つの一般的な方法を紹介しました。今回は、MySQL Shellツールセットのimport_table 、より効率的なデータインポートツールを引き続き紹介します。このツールのフルネームはParallel Table Import Utilityです。名前が示すように、同時データインポートをサポートしています。MySQL Shellバージョン8.0.23以降、このツールの機能はより充実しています。以下に、このツールのコア機能をリストします。

基本的にMySQL Data Loadのすべての機能をカバーしており、代替として使用できます。
同時インポートはデフォルトでサポートされています（カスタムチャンクサイズをサポート）
ワイルドカードマッチングをサポートし、複数のファイルを同時に 1 つのテーブルにインポートします (同じ構造のデータを 1 つのテーブルに集約するのに非常に適しています)
速度制限をサポート（高帯域幅を必要とするシナリオに最適）
圧縮ファイルの処理をサポート
MySQL 5.7以降へのインポートをサポート

2. データのロードとテーブル関数のインポートの例

このセクションでは、テーブルのインポートやデータのロードと同じ機能のコマンド例を示します。MySQL データのロードの包括的なシナリオを示すために、employees テーブルのサンプルデータを例として引き続き使用します。

カスタム順序でデータをインポートする
データ関数処理
カスタムデータ値

## サンプルデータは次のとおりです [root@10-186-61-162 tmp]# cat employees_01.csv
「10001」、「1953-09-02」、「ゲオルギ」、「ファチェッロ」、「M」、「1986-06-26」
"10003","1959-12-03","Parto","Bamford","M","1986-08-28"
「10002」、「1964-06-02」、「ベザレル」、「ジンメル」、「F」、「1985-11-21」
「10004」、「1954-05-01」、「クリスチャン」、「コブリック」、「M」、「1986-12-01」
「10005」、「1955-01-21」、「京一」、「マリニアック」、「M」、「1989-09-12」
"10006","1953-04-20","アンネケ","プロイジグ","F","1989-06-02"
"10007","1957-05-23","ツヴェタン","ジエリンスキー","F","1989-02-10"
「10008」、「1958-02-19」、「サニヤ」、「カルーフィ」、「M」、「1994-09-15」
「10009」、「1952-04-19」、「スマント」、「ピース」、「F」、「1985-02-18」
「10010」、「1963-06-01」、「ドゥアンケオ」、「ピヴェトー」、「F」、「1989-08-24」

## サンプル テーブル構造 10.186.61.162:3306 employees SQL > desc emp;
+-------------+---------------+------+-----+--------+-------+
| フィールド | タイプ | Null | キー | デフォルト | 追加 |
+-------------+---------------+------+-----+--------+-------+
| emp_no | int | NO | PRI | NULL | |
| 生年月日 | 日付 | NO | | NULL | |
| first_name | varchar(14) | NO | | NULL | |
| last_name | varchar(16) | NO | | NULL | |
| full_name | varchar(64) | YES | | NULL | | -- テーブルに新しく追加されたフィールドですが、エクスポートされたデータ ファイルには存在しません | gender | enum('M','F') | NO | | NULL | |
| hire_date | 日付 | NO | | NULL | |
| modify_date | datetime | YES | | NULL | | -- エクスポートされたデータ ファイルに存在しない新しいフィールドがテーブルに追加されます| delete_flag | varchar(1) | YES | | NULL | | -- エクスポートされたデータ ファイルに存在しない新しいフィールドがテーブルに追加されます+-------------+---------------+------+------+--------+--------+

2.1 Load Dataを使用したデータのインポート

パラメータの具体的な意味についてはここでは説明しません。構文ルールと意味を理解する必要がある場合は、シリーズの前の記事<MySQL Load Dataのさまざまな用途>を参照してください。

'/data/mysql/3306/tmp/employees_01.csv' ファイルにデータをロードします。
employees.emp テーブルに
文字セット utf8mb4
フィールドは ',' で終了します
'"' で囲まれている
'\n' で終了する行
(@C1、@C2、@C3、@C4、@C5、@C6)
emp_no=@C1 に設定し、
    生年月日=@C2,
    first_name=大文字(@C3)、
    last_name=小文字(@C4)、
    フルネーム=concat(名,' ',姓),
    性別=@C5,
    雇用日=@C6、
    修正日 = now(),
    delete_flag=if(hire_date<'1988-01-01','Y','N');

2.2 import_tableを使用したデータのインポート

util.import_table(
    [
        "/data/mysql/3306/tmp/employees_01.csv",
    ]、
    {
        「スキーマ」: 「従業員」、 
        "テーブル": "emp",
        「方言」: 「csv-unix」、
        "行をスキップ": 0,
        "showProgress": 真、
        "文字セット": "utf8mb4",
        "columns": [1,2,3,4,5,6], ## ファイル内の列と同じ数のシリアル番号を使用します "decodeColumns": {
            "emp_no"： "@1"、##はファイル「birth_date "："@2 "の最初の列に対応します。 name "：" concat（@3、 ''、@4） "、##ファイルの3列目と4番目の列を1つの列にマージして、テーブル「ジェンダー」："@5 "でフィールド値を生成します。 delete_flag "：" if（@6 <'1988-01-01'、 'y'、 'n'） "##ファイルの6番目の列に基づいて論理的な判断を下し、テーブルで対応するフィールド値を生成します}
    })

3. import_table固有の機能

3.1 複数ファイルのインポート（ファジーマッチング）

## インポートする前に、3 つの個別の従業員ファイルを生成し、エクスポートされた構造は一貫しています [root@10-186-61-162 tmp]# ls -lh
総使用量: 1.9G
-rw-r----- 1 mysql mysql 579 3月24日 19:07 employees_01.csv
-rw-r----- 1 mysql mysql 584 3月24日 18:48 employees_02.csv
-rw-r----- 1 mysql mysql 576 3月24日 18:48 employees_03.csv
-rw-r----- 1 mysql mysql 1.9G 3月26日 17:15 sbtest1.csv

## インポートコマンド。employees_* はあいまい一致に使用されます util.import_table(
    [
        "/data/mysql/3306/tmp/employees_*",
    ]、
    {
        「スキーマ」: 「従業員」、 
        "テーブル": "emp",
        「方言」: 「csv-unix」、
        "行をスキップ": 0,
        "showProgress": 真、
        "文字セット": "utf8mb4",
        "columns": [1,2,3,4,5,6], ## ファイル内の列と同じ数のシリアル番号を使用します "decodeColumns": {
            "emp_no"： "@1"、##はファイル「birth_date "："@2 "の最初の列に対応します。 name "：" concat（@3、 ''、@4） "、##ファイルの3列目と4番目の列を1つの列にマージして、テーブル「ジェンダー」："@5 "でフィールド値を生成します。 delete_flag "：" if（@6 <'1988-01-01'、 'y'、 'n'） "##ファイルの6番目の列に基づいて論理的な判断を下し、テーブルで対応するフィールド値を生成します}
    })
    
## インポートするファイルのパスが明確に指定されているインポートコマンド util.import_table(
    [
        "/data/mysql/3306/tmp/employees_01.csv",
        "/data/mysql/3306/tmp/employees_02.csv",
        "/data/mysql/3306/tmp/employees_03.csv"
    ]、
    {
        「スキーマ」: 「従業員」、 
        "テーブル": "emp",
        「方言」: 「csv-unix」、
        "行をスキップ": 0,
        "showProgress": 真、
        "文字セット": "utf8mb4",
        "columns": [1,2,3,4,5,6], ## ファイル内の列と同じ数のシリアル番号を使用します "decodeColumns": {
            "emp_no"： "@1"、##はファイル「birth_date "："@2 "の最初の列に対応します。 name "：" concat（@3、 ''、@4） "、##ファイルの3列目と4番目の列を1つの列にマージして、テーブル「ジェンダー」："@5 "でフィールド値を生成します。 delete_flag "：" if（@6 <'1988-01-01'、 'y'、 'n'） "##ファイルの6番目の列に基づいて論理的な判断を下し、テーブルで対応するフィールド値を生成します}
    })

3.2 同時インポート

同時インポートを実験する前に、同時実行をシミュレートするために 1,000 万の sbtest1 テーブル (約 2G のデータ) を作成します。import_table パラメータは同時実行構成としてthreadsを使用し、デフォルトは 8 同時実行です。

## テストに必要な sbtest1 データをエクスポートします [root@10-186-61-162 tmp]# ls -lh
総使用量: 1.9G
-rw-r----- 1 mysql mysql 579 3月24日 19:07 employees_01.csv
-rw-r----- 1 mysql mysql 584 3月24日 18:48 employees_02.csv
-rw-r----- 1 mysql mysql 576 3月24日 18:48 employees_03.csv
-rw-r----- 1 mysql mysql 1.9G 3月26日 17:15 sbtest1.csv

## スレッドを8つ同時に実行できるようにする util.import_table(
    [
        "/data/mysql/3306/tmp/sbtest1.csv",
    ]、
    {
        「スキーマ」: 「デモ」、 
        "テーブル": "sbtest1",
        「方言」: 「csv-unix」、
        "行をスキップ": 0,
        "showProgress": 真、
        "文字セット": "utf8mb4",
        "スレッド": "8"
    })

3.3 輸入率の規制

maxRateとthreadsを使用して、各同時スレッドのインポートデータを制御できます。たとえば、現在の構成に 4 つのスレッドがあり、各スレッドのレートが 2M/s の場合、最大値は 8M/s を超えません。

util.import_table(
    [
        "/data/mysql/3306/tmp/sbtest1.csv",
    ]、
    {
        「スキーマ」: 「デモ」、 
        "テーブル": "sbtest1",
        「方言」: 「csv-unix」、
        "行をスキップ": 0,
        "showProgress": 真、
        "文字セット": "utf8mb4",
        "スレッド": "4",
        "最大レート": "2M"
    })

3.4 カスタムチャンクサイズ

デフォルトのチャンクサイズは 50M です。チャンクサイズを調整してトランザクションサイズを縮小することができます。たとえば、チャンクサイズを 1M に調整すると、各スレッドによって毎回インポートされるデータの量もそれに応じて削減されます。

util.import_table(
    [
        "/data/mysql/3306/tmp/sbtest1.csv",
    ]、
    {
        「スキーマ」: 「デモ」、 
        "テーブル": "sbtest1",
        「方言」: 「csv-unix」、
        "行をスキップ": 0,
        "showProgress": 真、
        "文字セット": "utf8mb4",
        "スレッド": "4",
        "バイト/チャンク": "1M",
        "最大レート": "2M"
    })

4. Load Dataとimport_tableのパフォーマンス比較

同じライブラリテーブルを使用する
データに特別な処理は行われず、そのままインポートするだけです
デフォルトのパラメータを変更せず、必要なパラメータのみを指定します。

-- データロードステートメント load data infile '/data/mysql/3306/tmp/sbtest1.csv'
テーブルdemo.sbtest1に
文字セット utf8mb4
フィールドは ',' で終了します
'"' で囲まれている
'\n' で終了する行

-- import_table ステートメント util.import_table(
    [
        "/data/mysql/3306/tmp/sbtest1.csv",
    ]、
    {
        「スキーマ」: 「デモ」、 
        "テーブル": "sbtest1",
        「方言」: 「csv-unix」、
        "行をスキップ": 0,
        "showProgress": 真、
        "文字セット": "utf8mb4"
    })

ご覧のとおり、データのロードには約 5 分かかりますが、import_table ではデータのインポートが半分以下の時間で完了します。これは 2 倍以上の効率です (仮想マシン環境のディスク IO 容量が制限されている条件下で)。

5. 技術概要

import_tableにはLoad Dataのほぼすべての機能が含まれています
import_tableのインポートはデータのロードよりも効率的です
import_tableは、インポート速度、同時実行性、およびインポートされた各データのサイズを細かく制御できます。
import_tableのインポート進捗レポートはより詳細になり、トラブルシューティングや時間の見積もりに便利です。
- インポート速度
- 合計インポート時間
- 各バッチでインポートされたデータの量、警告の有無など。
- 最終要約レポートをインポートする

これで、MySQL import_table のデータインポートの実装に関するこの記事は終了です。MySQL import_table のデータインポートに関するより関連性の高いコンテンツについては、123WORDPRESS.COM の以前の記事を検索するか、以下の関連記事を引き続き参照してください。今後とも 123WORDPRESS.COM をよろしくお願いいたします。

以下もご興味があるかもしれません: