MySQL Shell import_tableデータインポートの実装

MySQL Shell import_tableデータインポートの実装

1. import_tableの紹介

前回の技術共有では、MySQL Load Dataを使用してテキストデータをMySQLにインポートする4つの一般的な方法を紹介しました。今回は、MySQL Shellツールセットのimport_table 、より効率的なデータインポートツールを引き続き紹介します。このツールのフルネームはParallel Table Import Utilityです。名前が示すように、同時データインポートをサポートしています。MySQL Shellバージョン8.0.23以降、このツールの機能はより充実しています。以下に、このツールのコア機能をリストします。

  • 基本的にMySQL Data Loadのすべての機能をカバーしており、代替として使用できます。
  • 同時インポートはデフォルトでサポートされています(カスタムチャンクサイズをサポート)
  • ワイルドカードマッチングをサポートし、複数のファイルを同時に 1 つのテーブルにインポートします (同じ構造のデータを 1 つのテーブルに集約するのに非常に適しています)
  • 速度制限をサポート(高帯域幅を必要とするシナリオに最適)
  • 圧縮ファイルの処理をサポート
  • MySQL 5.7以降へのインポートをサポート

2. データのロードとテーブル関数のインポートの例

このセクションでは、テーブルのインポートやデータのロードと同じ機能のコマンド例を示します。MySQL データのロードの包括的なシナリオを示すために、employees テーブルのサンプル データを例として引き続き使用します。

  • カスタム順序でデータをインポートする
  • データ関数処理
  • カスタムデータ値
## サンプルデータは次のとおりです [root@10-186-61-162 tmp]# cat employees_01.csv
「10001」、「1953-09-02」、「ゲオルギ」、「ファチェッロ」、「M」、「1986-06-26」
"10003","1959-12-03","Parto","Bamford","M","1986-08-28"
「10002」、「1964-06-02」、「ベザレル」、「ジンメル」、「F」、「1985-11-21」
「10004」、「1954-05-01」、「クリスチャン」、「コブリック」、「M」、「1986-12-01」
「10005」、「1955-01-21」、「京一」、「マリニアック」、「M」、「1989-09-12」
"10006","1953-04-20","アンネケ","プロイジグ","F","1989-06-02"
"10007","1957-05-23","ツヴェタン","ジエリンスキー","F","1989-02-10"
「10008」、「1958-02-19」、「サニヤ」、「カルーフィ」、「M」、「1994-09-15」
「10009」、「1952-04-19」、「スマント」、「ピース」、「F」、「1985-02-18」
「10010」、「1963-06-01」、「ドゥアンケオ」、「ピヴェトー」、「F」、「1989-08-24」

## サンプル テーブル構造 10.186.61.162:3306 employees SQL > desc emp;
+-------------+---------------+------+-----+--------+-------+
| フィールド | タイプ | Null | キー | デフォルト | 追加 |
+-------------+---------------+------+-----+--------+-------+
| emp_no | int | NO | PRI | NULL | |
| 生年月日 | 日付 | NO | | NULL | |
| first_name | varchar(14) | NO | | NULL | |
| last_name | varchar(16) | NO | | NULL | |
| full_name | varchar(64) | YES | | NULL | | -- テーブルに新しく追加されたフィールドですが、エクスポートされたデータ ファイルには存在しません | gender | enum('M','F') | NO | | NULL | |
| hire_date | 日付 | NO | | NULL | |
| modify_date | datetime | YES | | NULL | | -- エクスポートされたデータ ファイルに存在しない新しいフィールドがテーブルに追加されます| delete_flag | varchar(1) | YES | | NULL | | -- エクスポートされたデータ ファイルに存在しない新しいフィールドがテーブルに追加されます+-------------+---------------+------+------+--------+--------+

2.1 Load Dataを使用したデータのインポート

パラメータの具体的な意味についてはここでは説明しません。構文ルールと意味を理解する必要がある場合は、シリーズの前の記事<MySQL Load Dataのさまざまな用途>を参照してください。

'/data/mysql/3306/tmp/employees_01.csv' ファイルにデータをロードします。
employees.emp テーブルに
文字セット utf8mb4
フィールドは ',' で終了します
'"' で囲まれている
'\n' で終了する行
(@C1、@C2、@C3、@C4、@C5、@C6)
emp_no=@C1 に設定し、
    生年月日=@C2,
    first_name=大文字(@C3)、
    last_name=小文字(@C4)、
    フルネーム=concat(名,' ',姓),
    性別=@C5,
    雇用日=@C6、
    修正日 = now(),
    delete_flag=if(hire_date<'1988-01-01','Y','N'); 

2.2 import_tableを使用したデータのインポート

util.import_table(
    [
        "/data/mysql/3306/tmp/employees_01.csv",
    ]、
    {
        「スキーマ」: 「従業員」、 
        "テーブル": "emp",
        「方言」: 「csv-unix」、
        "行をスキップ": 0,
        "showProgress": 真、
        "文字セット": "utf8mb4",
        "columns": [1,2,3,4,5,6], ## ファイル内の列と同じ数のシリアル番号を使用します "decodeColumns": {
            "emp_no": "@1"、##はファイル「birth_date ":"@2 "の最初の列に対応します。 name ":" concat(@3、 ''、@4) "、##ファイルの3列目と4番目の列を1つの列にマージして、テーブル「ジェンダー」:"@5 "でフィールド値を生成します。 delete_flag ":" if(@6 <'1988-01-01'、 'y'、 'n') "##ファイルの6番目の列に基づいて論理的な判断を下し、テーブルで対応するフィールド値を生成します}
    }) 

3. import_table固有の機能

3.1 複数ファイルのインポート(ファジーマッチング)

## インポートする前に、3 つの個別の従業員ファイルを生成し、エクスポートされた構造は一貫しています [root@10-186-61-162 tmp]# ls -lh
総使用量: 1.9G
-rw-r----- 1 mysql mysql 579 3月24日 19:07 employees_01.csv
-rw-r----- 1 mysql mysql 584 3月24日 18:48 employees_02.csv
-rw-r----- 1 mysql mysql 576 3月24日 18:48 employees_03.csv
-rw-r----- 1 mysql mysql 1.9G 3月26日 17:15 sbtest1.csv

## インポートコマンド。employees_* はあいまい一致に使用されます util.import_table(
    [
        "/data/mysql/3306/tmp/employees_*",
    ]、
    {
        「スキーマ」: 「従業員」、 
        "テーブル": "emp",
        「方言」: 「csv-unix」、
        "行をスキップ": 0,
        "showProgress": 真、
        "文字セット": "utf8mb4",
        "columns": [1,2,3,4,5,6], ## ファイル内の列と同じ数のシリアル番号を使用します "decodeColumns": {
            "emp_no": "@1"、##はファイル「birth_date ":"@2 "の最初の列に対応します。 name ":" concat(@3、 ''、@4) "、##ファイルの3列目と4番目の列を1つの列にマージして、テーブル「ジェンダー」:"@5 "でフィールド値を生成します。 delete_flag ":" if(@6 <'1988-01-01'、 'y'、 'n') "##ファイルの6番目の列に基づいて論理的な判断を下し、テーブルで対応するフィールド値を生成します}
    })
    
## インポートするファイルのパスが明確に指定されているインポートコマンド util.import_table(
    [
        "/data/mysql/3306/tmp/employees_01.csv",
        "/data/mysql/3306/tmp/employees_02.csv",
        "/data/mysql/3306/tmp/employees_03.csv"
    ]、
    {
        「スキーマ」: 「従業員」、 
        "テーブル": "emp",
        「方言」: 「csv-unix」、
        "行をスキップ": 0,
        "showProgress": 真、
        "文字セット": "utf8mb4",
        "columns": [1,2,3,4,5,6], ## ファイル内の列と同じ数のシリアル番号を使用します "decodeColumns": {
            "emp_no": "@1"、##はファイル「birth_date ":"@2 "の最初の列に対応します。 name ":" concat(@3、 ''、@4) "、##ファイルの3列目と4番目の列を1つの列にマージして、テーブル「ジェンダー」:"@5 "でフィールド値を生成します。 delete_flag ":" if(@6 <'1988-01-01'、 'y'、 'n') "##ファイルの6番目の列に基づいて論理的な判断を下し、テーブルで対応するフィールド値を生成します}
    }) 

3.2 同時インポート

同時インポートを実験する前に、同時実行をシミュレートするために 1,000 万の sbtest1 テーブル (約 2G のデータ) を作成します。import_table パラメータは同時実行構成としてthreadsを使用し、デフォルトは 8 同時実行です。

## テストに必要な sbtest1 データをエクスポートします [root@10-186-61-162 tmp]# ls -lh
総使用量: 1.9G
-rw-r----- 1 mysql mysql 579 3月24日 19:07 employees_01.csv
-rw-r----- 1 mysql mysql 584 3月24日 18:48 employees_02.csv
-rw-r----- 1 mysql mysql 576 3月24日 18:48 employees_03.csv
-rw-r----- 1 mysql mysql 1.9G 3月26日 17:15 sbtest1.csv

## スレッドを8つ同時に実行できるようにする util.import_table(
    [
        "/data/mysql/3306/tmp/sbtest1.csv",
    ]、
    {
        「スキーマ」: 「デモ」、 
        "テーブル": "sbtest1",
        「方言」: 「csv-unix」、
        "行をスキップ": 0,
        "showProgress": 真、
        "文字セット": "utf8mb4",
        "スレッド": "8"
    }) 

3.3 輸入率の規制

maxRatethreadsを使用して、各同時スレッドのインポート データを制御できます。たとえば、現在の構成に 4 つのスレッドがあり、各スレッドのレートが 2M/s の場合、最大値は 8M/s を超えません。

util.import_table(
    [
        "/data/mysql/3306/tmp/sbtest1.csv",
    ]、
    {
        「スキーマ」: 「デモ」、 
        "テーブル": "sbtest1",
        「方言」: 「csv-unix」、
        "行をスキップ": 0,
        "showProgress": 真、
        "文字セット": "utf8mb4",
        "スレッド": "4",
        "最大レート": "2M"
    }) 

3.4 カスタムチャンクサイズ

デフォルトのチャンク サイズは 50M です。チャンク サイズを調整してトランザクション サイズを縮小することができます。たとえば、チャンク サイズを 1M に調整すると、各スレッドによって毎回インポートされるデータの量もそれに応じて削減されます。

util.import_table(
    [
        "/data/mysql/3306/tmp/sbtest1.csv",
    ]、
    {
        「スキーマ」: 「デモ」、 
        "テーブル": "sbtest1",
        「方言」: 「csv-unix」、
        "行をスキップ": 0,
        "showProgress": 真、
        "文字セット": "utf8mb4",
        "スレッド": "4",
        "バイト/チャンク": "1M",
        "最大レート": "2M"
    }) 

4. Load Dataとimport_tableのパフォーマンス比較

  • 同じライブラリテーブルを使用する
  • データに特別な処理は行われず、そのままインポートするだけです
  • デフォルトのパラメータを変更せず、必要なパラメータのみを指定します。
-- データロードステートメント load data infile '/data/mysql/3306/tmp/sbtest1.csv'
テーブルdemo.sbtest1に
文字セット utf8mb4
フィールドは ',' で終了します
'"' で囲まれている
'\n' で終了する行

-- import_table ステートメント util.import_table(
    [
        "/data/mysql/3306/tmp/sbtest1.csv",
    ]、
    {
        「スキーマ」: 「デモ」、 
        "テーブル": "sbtest1",
        「方言」: 「csv-unix」、
        "行をスキップ": 0,
        "showProgress": 真、
        "文字セット": "utf8mb4"
    }) 

ご覧のとおり、データのロードには約 5 分かかりますが、import_table ではデータのインポートが半分以下の時間で完了します。これは 2 倍以上の効率です (仮想マシン環境のディスク IO 容量が制限されている条件下で)。

5. 技術概要

  • import_tableにはLoad Dataのほぼすべての機能が含まれています
  • import_tableのインポートはデータのロードよりも効率的です
  • import_tableは、インポート速度、同時実行性、およびインポートされた各データのサイズを細かく制御できます。
  • import_tableのインポート進捗レポートはより詳細になり、トラブルシューティングや時間の見積もりに便利です。
    • インポート速度
    • 合計インポート時間
    • 各バッチでインポートされたデータの量、警告の有無など。
    • 最終要約レポートをインポートする

これで、MySQL import_table のデータインポートの実装に関するこの記事は終了です。MySQL import_table のデータインポートに関するより関連性の高いコンテンツについては、123WORDPRESS.COM の以前の記事を検索するか、以下の関連記事を引き続き参照してください。今後とも 123WORDPRESS.COM をよろしくお願いいたします。

以下もご興味があるかもしれません:
  • Mysql コマンドラインで SQL データをインポートする
  • MYSQL データベースのインポートおよびエクスポート コマンド
  • MySQL のインポートおよびエクスポート データにおける中国語文字化けの解決方法のまとめ
  • MySQLテキストファイルからデータをインポートおよびエクスポートする方法
  • CSV形式のデータファイルソリューションをMySQLにインポートする方法
  • Linux で SQL ファイルをインポートする方法 (コマンド ラインを使用して MySQL データベースを転送する)
  • MySQLでデータベースとデータテーブルをインポートおよびエクスポートする方法
  • MySQL のインポートとエクスポート データベース、関数、ストアド プロシージャの紹介
  • MYSQLビッグデータインポート

<<:  HTML で選択ドロップダウン ボックスのコンテンツが不完全に表示され、部分的にカバーされる問題の解決策

>>:  ウェブサイト上のWeiboコンポーネントの再設計の詳細な紹介(写真とテキスト)

推薦する

この記事では、CSSのようなJSモジュールをインポートする方法を説明します。

目次序文構築可能なスタイルシートとは何ですか? CSSモジュールスクリプトの使用インポートアサーショ...

jQuery はテーブルのページング効果を実装します

この記事では、テーブルのページング効果を実現するためのjQueryの具体的なコードを参考までに紹介し...

MySQL でテーブル データを削除した後もディスク領域がまだ占有されているのはなぜですか?

目次1.MySQLデータ構造2. テーブルファイルのサイズは変更されておらず、MySQLの設計に関連...

DHTML オブジェクト (さまざまな HTML オブジェクトの共通プロパティ)

!DOCTYPE HTML ドキュメントが準拠するドキュメント型定義 (DTD) を指定します。 ...

Vueプロジェクトでvuexを使用する方法

目次Vuex とは何ですか? Vuex 使用サイクル図私のストアディレクトリvuexの例の実装要約す...

Linux でのファイル コンテンツの重複排除と交差と差異の実装

1. データ重複排除日常業務では、Hive や Impala を使用してクエリとエクスポートを行う際...

Docker に Kong ゲートウェイをインストールする方法の例

1. Dockerネットワークを作成する docker ネットワーク作成 kong-net 2. デ...

ウェブサイトの速度を上げる6つの方法

1. .js ライブラリ ファイルのアドレスを Google CDN アドレスに置き換えます。 (G...

Centos7 システムに k8s クラスターを展開するための詳細な紹介

目次1 バージョンと計画1.1 バージョン情報: 1.2 クラスター計画2. 展開1. ファイアウォ...

2018 年にリリースされる Apache Spark 2.4 の新機能は何ですか?

この記事は、2018 年 9 月 19 日に Adob​​e Systems Inc で開催された ...

Zabbix 5.0 ディスク自動検出と読み取り/書き込み監視の問題を分析する

ディスクを自動的に検出する構成キーの値注: このキー値は Linux プラットフォームでのみサポート...

MySQLデータベースの操作とメンテナンスのデータ復旧方法

これまでの 3 つの記事では、論理バックアップと物理バックアップを含む、MySQL データベースの一...

ウェブ理論: 考えさせない読書ノート

第 1 章<br /> Web ページをユーザーにとって使いやすいものにするための最も重...

CentOS7仮想マシンで固定IPアドレスを設定する方法

私の開発環境は、VMWare 仮想マシンに CentOS をインストールし、ホスト ファイルにインタ...