SQL重複排除方法の概要

SQL重複排除方法の概要

SQL を使用してデータを抽出する場合、テーブル内で重複した値に遭遇することがよくあります。たとえば、UV (ユニーク ビジター数) を取得する場合は、重複を排除する必要があります。

MySQL では通常、 distinct句またはgroup by句が使用されますが、ウィンドウ関数をサポートする SQL ( Hive SQLOracleなど) では、 ROW_NUMBER ウィンドウ関数を使用して重複排除を行うこともできます。

たとえば、次のようなテーブルタスクがあります。

述べる:

  • task_id : タスク ID;
  • order_id : 注文ID;
  • start_time : 開始時刻

: 1つのタスクは複数の注文に対応します

タスクの合計数を見つける必要があります。task_id は一意ではないため、重複を削除する必要があります。

明確な

-- task_id のすべての一意の値を一覧表示します (重複排除後)

異なるtask_idを選択する
タスクから;

--タスクの合計数 select count(distinct task_id) task_num
タスクから;


distinctは通常、効率が低くなります。重複排除後の特定の値を表示するのには適しておらず、通常はcountと組み合わせてエントリの数を計算するために使用されます。
distinct使用する場合は、 selectの後に配置して、後続のすべてのフィールドの値を重複排除します。たとえば、 distinct後に 2 つのフィールドがある場合、2 つのレコード 1,1 と 1,2 は重複値ではありません。

グループ化

-- task_id の一意の値をすべて一覧表示します (重複排除後、null も値になります)
-- タスクIDを選択
-- タスクから
-- task_id でグループ化します。

--タスクの合計数 select count(task_id) task_num
(タスクIDを選択)
   タスクから
   タスクIDでグループ化) tmp;

行番号

row_number は次の構文を持つウィンドウ関数です。

row_number() over (partition by <用于分組的字段名> order by <用于組內排序的字段名>)
部分partition by省略可能です。

 -- ウィンドウ関数をサポートするSQLでは、select count(case when rn=1 then task_id else null end) task_numを使用します。
(タスクIDを選択)
    、row_number() オーバー (task_id によるパーティション、start_time による順序) rn
  タスクから) tmp;

さらに、テーブル テストを使用して、重複排除における distinctive と group by の使用について説明します。

 -- 下のセミコロンは行を区切るために使用されます。select distinctive user_id
Test から; -- 1; 2 を返します

異なる user_id、user_type を選択
Test から; -- 1, 1; 1, 2; 2, 1 を返します

ユーザーIDを選択
テストから
group by user_id; -- 1; 2 を返します

ユーザーID、ユーザータイプを選択
テストから
group by user_id, user_type; -- 1, 1; 1, 2; 2, 1 を返します

ユーザーID、ユーザータイプを選択
テストから
user_id でグループ化します。 
  -- Hive、Oracle などではエラーが報告されますが、MySQL ではこのように記述できます。
-- 1, 1 または 1, 2; 2, 1 (合計 2 行) を返します。 group by の後のフィールドのみが重複排除されます。つまり、最後に返されるレコード数は、前の SQL ステートメントのレコード数、つまり 2 レコードになります。group by の後に配置されず、select に配置されているフィールドの場合、1 つのレコードのみが返されます (通常は最初のレコードですが、パターンはありません)。

SQL 重複排除方法の概要についてはこれで終わりです。より関連性の高い SQL 重複排除方法については、123WORDPRESS.COM の過去の記事を検索するか、以下の関連記事を引き続き参照してください。今後とも 123WORDPRESS.COM をよろしくお願いいたします。

以下もご興味があるかもしれません:
  • SQL における 3 つの重複排除方法の概要
  • MySQL で distinct メソッドを使用する詳細な例
  • MySQLの重複排除操作を極限まで最適化する方法
  • 重複したMySQLテーブルをマージして削除する簡単な方法
  • MySQLの重複排除方法
  • MySQL における重複排除の 2 つの方法とサンプル コードの詳細な説明
  • SQL学習ノート5:重複を削除して新しく追加されたフィールドに値を割り当てる方法

<<:  最新のウェブフロントエンドフレームワーク10選を紹介(翻訳)

>>:  1 つの記事で Apache Avro データを解析する

推薦する

vue シンプルメモ帳開発の詳しい説明

この記事では、参考までにEasy Notepadを実装するためのVueの具体的なコードを紹介します。...

JDBC を MySQL 5.7 に接続する方法

1. まずMySQLとEclipseの環境を準備します。環境がセットアップされたら、Eclipseの...

mysql 3つのテーブルを接続してビューを作成する

3 つのテーブルが接続されています。テーブル A のフィールド a はテーブル B のフィールド b...

タグが新しいページを開くかどうかという問題。主要ウェブサイトの開設状況をまとめました

a タグが新しいページを開くかどうか: (1)百度百科事典:ヘッダーが異なる場合は新しいページが開き...

JS を使って 1 分で github+Jekyll ブログに訪問カウント機能を追加する実装

目次1分でgithub+Jekyllブログにトラフィック機能を追加する1. ジェクルとは何か1. J...

MySQL 8.0 Windows zip パッケージ版の詳細なインストール手順

MySQL 8.0 Windows zipのインストール手順は次のように紹介されています。準備する:...

JS 非同期スタック トレース: await が Promise よりも優れている理由

概要async/await と Promise の基本的な違いは、await fn() は現在の関数...

Ubuntu 18.04 で MySQL のインストール時にパスワードが要求されない場合の解決方法

Ubuntu 1804 への MySQL 5.7 のインストールについて詳しく紹介します。 MySQ...

JavaScript データ プロキシとイベントの詳細な分析

目次データブローカーとイベントObject.defineProperty メソッドのレビューデータブ...

Linux でのルーティングと仮想マシン ネットワークの設定に関する詳細なグラフィック説明

ルーティングとは何ですか?ルーティングとは、相互接続されたネットワークを介して送信元ステーションから...

MySQL は、現在のデータ テーブル内のすべての時間に対して指定された時間間隔を増加または減少させます (推奨)

DATE_ADD() 関数は、指定された時間間隔を日付に追加します。現在のテーブル内のすべてのデー...

TypeScript における列挙型の理解と応用シナリオ

目次1. 何ですか2. 使用数値列挙文字列列挙異種列挙自然3. 応用シナリオ要約する1. 何ですか列...

MySQL テーブルにおける非主キー列オーバーフロー監視の詳細な説明

今日もまた罠に落ちてしまいました。 私は以前MySQLの主キーオーバーフローに遭遇したことがあり、そ...

Dockerでコンテナを作成するときのディレクトリ権限

昨日プロジェクトを書いていた時に、MySQL の派生版である Percona を使う必要があったので...

MySQLソースコマンドの使い方の紹介

目次ネット上の質問から生まれた思考MySQL ソースコマンドネット上の質問から生まれた思考今日仕事中...