MySQL で重複を削除するには、distinct または group by を使用する必要がありますか?

パフォーマンス比数量が少なく、種類も少ない少量、多品種カテゴリの数が多いインデックスなしやや優れている明確な方が優れているインデックスありやや異なるやや異なるやや異なるやや異なるやや異なる

重複排除のシナリオでは、インデックスが追加されていない場合は、distinct が使用される可能性が高くなりますが、インデックスが追加されている場合は、distinct と group by の両方を使用できます。

要約する

これは、MySQL の重複排除に distinctive を使用するか group by を使用するかについての記事です。記事はこれで終わりです。mysql deduplication distinctive group by の詳細については、123WORDPRESS.COM の以前の記事を検索するか、以下の関連記事を引き続き参照してください。今後とも 123WORDPRESS.COM をよろしくお願いいたします。

以下もご興味があるかもしれません:

MySQL 選択最適化ソリューションに関する簡単な説明
MySQL で結果を選択して更新を実行する例のチュートリアル
MySQLの読み書き分離により挿入後にデータが選択されなくなる問題を解決
MySQL SELECT文の実行方法
MySQL で distinct メソッドを使用する詳細な例
MySQL における distinct と group by の違い
MySQLのLIMIT文について詳しく説明します
union (all) と limit および exists キーワードの使用法を理解するための MySQL シリーズチュートリアル
MySQL のクエリパフォーマンスに対する制限の影響
MySQL での select、distinct、limit の使用

序文 group by と distinctive のパフォーマンス比較について: インターネット上の結論は次のとおりです。distinct はインデックスなしの少量データではパフォーマンスが良く、group by は大量データではパフォーマンスが良くなります。インデックス付きの group by の方がパフォーマンスが良いです。インデックスを調べるとき、グループ化の種類が少ないほど、distinct は高速になります。導き出された結論をオンラインで検証します。準備フェーズ中にクエリキャッシュを無効にする MySQL でクエリキャッシュが設定されているかどうかを確認します。テスト結果に影響を与えないようにするには、クエリキャッシュをオフにする必要があります。 '%query_cache%' のような変数を表示します。クエリキャッシュが有効かどうかを確認します。これは、 `query_cache_type`と`query_cache_size`によって決まります。方法 1: クエリキャッシュをオフにするには、my.ini を見つけて`query_cache_type` :\ProgramData\MySQL\MySQL Server 5.7\my.ini 構成ファイルを変更し、 `query_cache_type=0或2`変更する必要があります。方法 2: `query_cache_size`を 0 に設定し、次のステートメントを実行します。グローバル query_cache_size を 0 に設定します。方法 3: クエリキャッシュをオフにしたくない場合は、 `RESET QUERY CACHE`使用することもできます。現在のテスト環境では、query_cache_type=2 はオンデマンドのクエリキャッシュを意味します。デフォルトのクエリモードはキャッシュしません。キャッシュが必要な場合は、クエリステートメントに`sql_cache`追加する必要があります。データ準備テーブルt0には`少量種類少`が格納されます。存在する場合はテーブルを削除します t0; テーブルt0を作成( id bigint 主キー auto_increment、 varchar(255) は null ではない ) エンジン=InnoDB デフォルト文字セット=utf8mb4 照合=utf8mb4_bin; 1 2 3 4 5 プロシージャ insert_t0_simple_category_data_sp を削除します。区切り文字 // プロシージャ insert_t0_simple_category_data_sp(IN num int) を作成します。始める @i = 0 に設定します。 @i < num の間 t0(a) に値を挿入します(truncate(@i/1000, 0)); @i = @i + 1 と設定します。終了しながら; 終わり // insert_t0_simple_category_data_sp(100000) を呼び出します。テーブルt1には`少量種類多`格納されます。存在する場合はテーブル t1 を削除します。 t0 のようにテーブル t1 を作成します。 1 2 プロシージャ insert_t1_complex_category_data_sp を削除します。区切り文字 // プロシージャ insert_t1_complex_category_data_sp(IN num int) を作成します。始める @i = 0 に設定します。 @i < num の間 t1(a) に値を挿入します(truncate(@i/10, 0)); @i = @i + 1 と設定します。終了しながら; 終わり // insert_t1_complex_category_data_sp(10000) を呼び出します。 t2 テーブルには`大量種類多` 存在する場合はテーブルを削除します t2; t1 と同じようにテーブル t2 を作成します。 1 2 プロシージャ insert_t2_complex_category_data_sp を削除します。区切り文字 // プロシージャ insert_t2_complex_category_data_sp(IN num int) を作成します。始める @i = 0 に設定します。 @i < num の間 t1(a) に値を挿入します(truncate(@i/10, 0)); @i = @i + 1 と設定します。終了しながら; 終わり // insert_t2_complex_category_data_sp(5000000) を呼び出します。テストフェーズ少量のデータを検証するインデックスされていないプロファイリングを 1 に設定します。 t0 から別の a を選択する。プロフィールを表示します。 t0 から a を選択し、 a でグループ化します。プロフィールを表示します。テーブル t0 を変更し、インデックス `a_t0_index`(a) を追加します。これは、型数が少なくデータが少ない場合、インデックスなしでは、distinct と group by のパフォーマンスはほぼ同じであることを示しています。インデックスを追加テーブル t0 を変更し、インデックス `a_t0_index`(a) を追加します。上記のようなクエリを実行した後これは、タイプ数が少なくデータが少ない場合、インデックスを追加すると、distinct と group by のパフォーマンスがほぼ同じであることを示しています。少量で多くの種類のデータがインデックス化されていないことを確認する上記と同様のインデックスなしのクエリを実行した後このことから、少量のデータで種類が多く、インデックスがない場合、distinct のパフォーマンスは group by よりもわずかに高いものの、その差は大きくないことがわかります。インデックスを追加テーブル t1 を変更し、インデックス `a_t1_index`(a) を追加します。同様のインデックスなしのクエリを実行した後このことから、データ量が少なく型が多い場合、インデックスを追加すると、distinct と group by のパフォーマンスはほぼ同じであることがわかります。大量のデータを検証するインデックスされていない count(1)をt2から選択します。上記と同様のインデックスなしのクエリを実行した後これは、多くの種類のデータが大量にあり、インデックスがない場合、DISTINCT の方が GROUP BY よりもパフォーマンスが優れていることを示しています。インデックスを追加テーブル t2 を変更し、インデックス `a_t2_index`(a) を追加します。上記の同様のインデックスクエリを実行した後これは、多くの種類の大量のデータの場合、インデックスを追加すると、distinct と group by のパフォーマンスがほぼ同じであることを示しています。要約する

序文

group by と distinctive のパフォーマンス比較について: インターネット上の結論は次のとおりです。distinct はインデックスなしの少量データではパフォーマンスが良く、group by は大量データではパフォーマンスが良くなります。インデックス付きの group by の方がパフォーマンスが良いです。インデックスを調べるとき、グループ化の種類が少ないほど、distinct は高速になります。導き出された結論をオンラインで検証します。

準備フェーズ中にクエリキャッシュを無効にする

MySQL でクエリキャッシュが設定されているかどうかを確認します。テスト結果に影響を与えないようにするには、クエリキャッシュをオフにする必要があります。

'%query_cache%' のような変数を表示します。

ここに画像の説明を挿入

クエリキャッシュが有効かどうかを確認します。これは、 query_cache_typeとquery_cache_sizeによって決まります。

方法 1: クエリキャッシュをオフにするには、my.ini を見つけてquery_cache_type :\ProgramData\MySQL\MySQL Server 5.7\my.ini 構成ファイルを変更し、 query_cache_type=0或2変更する必要があります。
方法 2: query_cache_sizeを 0 に設定し、次のステートメントを実行します。

グローバル query_cache_size を 0 に設定します。

方法 3: クエリキャッシュをオフにしたくない場合は、 RESET QUERY CACHE使用することもできます。

現在のテスト環境では、query_cache_type=2 はオンデマンドのクエリキャッシュを意味します。デフォルトのクエリモードはキャッシュしません。キャッシュが必要な場合は、クエリステートメントにsql_cache追加する必要があります。

データ準備

テーブルt0には少量種類少が格納されます。

存在する場合はテーブルを削除します t0;
テーブルt0を作成(
id bigint 主キー auto_increment、
varchar(255) は null ではない
) エンジン=InnoDB デフォルト文字セット=utf8mb4 照合=utf8mb4_bin;
1
2
3
4
5
プロシージャ insert_t0_simple_category_data_sp を削除します。
区切り文字 //
プロシージャ insert_t0_simple_category_data_sp(IN num int) を作成します。
始める
@i = 0 に設定します。
@i < num の間
	t0(a) に値を挿入します(truncate(@i/1000, 0));
 @i = @i + 1 と設定します。
終了しながら;
終わり
//
insert_t0_simple_category_data_sp(100000) を呼び出します。

テーブルt1には少量種類多格納されます。

存在する場合はテーブル t1 を削除します。
t0 のようにテーブル t1 を作成します。
1
2
プロシージャ insert_t1_complex_category_data_sp を削除します。
区切り文字 //
プロシージャ insert_t1_complex_category_data_sp(IN num int) を作成します。
始める
@i = 0 に設定します。
@i < num の間
	t1(a) に値を挿入します(truncate(@i/10, 0));
 @i = @i + 1 と設定します。
終了しながら;
終わり
//
insert_t1_complex_category_data_sp(10000) を呼び出します。

t2 テーブルには大量種類多

存在する場合はテーブルを削除します t2;
t1 と同じようにテーブル t2 を作成します。
1
2
プロシージャ insert_t2_complex_category_data_sp を削除します。
区切り文字 //
プロシージャ insert_t2_complex_category_data_sp(IN num int) を作成します。
始める
@i = 0 に設定します。
@i < num の間
	t1(a) に値を挿入します(truncate(@i/10, 0));
 @i = @i + 1 と設定します。
終了しながら;
終わり
//
insert_t2_complex_category_data_sp(5000000) を呼び出します。

テストフェーズ

少量のデータを検証する

インデックスされていない

プロファイリングを 1 に設定します。
t0 から別の a を選択する。
プロフィールを表示します。
t0 から a を選択し、 a でグループ化します。
プロフィールを表示します。
テーブル t0 を変更し、インデックス `a_t0_index`(a) を追加します。

ここに画像の説明を挿入

これは、型数が少なくデータが少ない場合、インデックスなしでは、distinct と group by のパフォーマンスはほぼ同じであることを示しています。

インデックスを追加

テーブル t0 を変更し、インデックス `a_t0_index`(a) を追加します。

上記のようなクエリを実行した後

ここに画像の説明を挿入

これは、タイプ数が少なくデータが少ない場合、インデックスを追加すると、distinct と group by のパフォーマンスがほぼ同じであることを示しています。

少量で多くの種類のデータがインデックス化されていないことを確認する

上記と同様のインデックスなしのクエリを実行した後

ここに画像の説明を挿入

このことから、少量のデータで種類が多く、インデックスがない場合、distinct のパフォーマンスは group by よりもわずかに高いものの、その差は大きくないことがわかります。

インデックスを追加

テーブル t1 を変更し、インデックス `a_t1_index`(a) を追加します。

同様のインデックスなしのクエリを実行した後

ここに画像の説明を挿入

このことから、データ量が少なく型が多い場合、インデックスを追加すると、distinct と group by のパフォーマンスはほぼ同じであることがわかります。

大量のデータを検証する

インデックスされていない

count(1)をt2から選択します。

ここに画像の説明を挿入

上記と同様のインデックスなしのクエリを実行した後

ここに画像の説明を挿入

これは、多くの種類のデータが大量にあり、インデックスがない場合、DISTINCT の方が GROUP BY よりもパフォーマンスが優れていることを示しています。

インデックスを追加

テーブル t2 を変更し、インデックス `a_t2_index`(a) を追加します。

上記の同様のインデックスクエリを実行した後

ここに画像の説明を挿入

これは、多くの種類の大量のデータの場合、インデックスを追加すると、distinct と group by のパフォーマンスがほぼ同じであることを示しています。

要約する

<<: Tencent Cloud Serverをゼロから導入する方法

>>: Vue+echarts でプログレスバーのヒストグラムを実現

MySQL で重複を削除するには、distinct または group by を使用する必要がありますか?

Vueはタブ切り替えを実装します

Ubuntu 20.04 と NVIDIA ドライバーのインストールに関するチュートリアル

CSS3 で半透明の背景画像と不透明なコンテンツを実現する方法の例

WIN10 システムと Docker 内部コンテナ IP 間の通信方法

LinuxサーバーにVueプロジェクトをデプロイする

MySQL 8.0 が起動できない 3534 の解決策

MySQLで判定文を書く方法のまとめ

Linuxサーバーのファイアウォールを変更してポートへのリモートアクセスを許可する方法

スライド階段効果を実現するjQuery

CSS3で実装されたサムネイルホバー効果

推薦する

MySQLトリガーはPHPプロジェクトで情報のバックアップ、復元、クリアに使用されます。

XHTML 入門チュートリアル: テーブルタグの応用

MySQL で日付を保存するためのベストプラクティスガイド

MySQL 8.0.26 のインストールと簡易チュートリアル (インターネット上で最も完全)

cobbler ベースの Linux システムを自動的にインストールする

CSSを使用して3Dフォトウォール効果を作成する

MySQLトリガーの使用と注意すべき点

Element UI を使用してページにページングナビゲーションバーを追加する方法

MySql5.x を MySql8.x にアップグレードする方法と手順

Vueがsweetalert2プロンプトコンポーネントを統合する際の問題についてお話ししましょう

Google Recaptcha 認証を使用した Vue 実装例

ノードでシェルスクリプトを使用する方法

MySQLでデータベースデータ保存ディレクトリを変更する方法

HTML マーキー文字フラグメントのスクロール

CSSの省略記号とパディングを組み合わせた場合の問題の詳細な説明