Linux でのファイル コンテンツの重複排除と交差と差異の実装

Linux でのファイル コンテンツの重複排除と交差と差異の実装

1. データ重複排除

日常業務では、Hive や Impala を使用してクエリとエクスポートを行う際にデータの重複が発生することがありますが、クエリを再実行したくない (クエリ時間が少し長く、エクスポートされたファイルの内容が大きい) ため、Linux コマンドを使用してファイルの内容から重複データを削除することを考えます。

次に例を示します。

aaa.txxには3つの重複データがあることがわかります。

重複したデータを削除して1つだけ残したい

aaa.txt | uniq > bbb.txt を並べ替える

aaa.txt ファイルから重複データを削除し、bbb.txt に出力します。

bbb.txtファイルには1つのデータのみが保存されていることがわかります。

2. データの交差、結合、差異

1) 交差 (user_2019 の内部結合 user_2020 と user_2019.user_no=user_2020.user_no の結合に相当)

sort user_2019.txt user_2020.txt | uniq -d

2) ユニオン(user_2019.user_no union user_2020.user_noに相当)

sort user_2019.txt user_2020.txt | uniq

3) 違い

user_2019.txt-user_2020.txt

user_2019.txt を user_2020.txt で並べ替え user_2020.txt | uniq -u

user_2020.txt - user_2019.txt:

user_2020.txt を user_2019.txt で並べ替え user_2019.txt | uniq -u

以上がこの記事の全内容です。皆様の勉強のお役に立てれば幸いです。また、123WORDPRESS.COM を応援していただければ幸いです。

以下もご興味があるかもしれません:
  • Linux で AIDE に基づいてファイルシステムの整合性を検出する方法
  • Linux システムで Vim を使用してリモート ファイルを読み書きするコマンドの詳細な説明
  • Linuxシステムにおける仮想デバイスファイルのさまざまな実用的な使用法の詳細な説明
  • Linux で実行可能ファイルを実行するときに「そのようなファイルまたはディレクトリはありません」というプロンプトが表示される場合の解決策
  • Linuxで大きなファイルを素早くコピーする方法
  • Linuxファイル削除後にスペースが解放されない問題の詳しい説明
  • Linux ファイル管理コマンド例の分析 [表示、閲覧、統計など]

<<:  MySQLのロングトランザクションに関する深い理解

>>:  jsを使ってシンプルなディスククロックを実現する

推薦する

CentOS での MySQL ワークベンチのインストールと設定のチュートリアル

この記事では、MySQL Workbenchのインストールと設定のチュートリアルを参考までに紹介しま...

nginx リバース プロキシの魔法のスラッシュについての簡単な説明

nginx リバース プロキシを設定する場合、location と proxy_pass のスラッシ...

HTMLでカメラを読み込む方法

効果図: 全体的な効果: ビデオ読み込み中: 写真:ステップ1: HTML要素を作成するまず、HTM...

MySQL 無料インストール版 (zip) のインストールと設定の詳細なチュートリアル

この記事では、MySQL無料インストール版(zip)のインストールと設定のチュートリアルを参考までに...

7つのMySQL JOINタイプのまとめ

始める前に、これから紹介する JOIN タイプを示すために 2 つのテーブルを作成します。テーブルを...

Navicat が MySQL にリモート接続するときに発生する 10060 不明エラーを解決する方法

はじめに:今日は、サーバー上のMySQLにリモート接続したいと思います。使用するソフトウェアはNav...

Dockerのローカルイメージ作成方法の分析

コンテナと呼ばれるものは、実際には親イメージに基づいて読み取りおよび書き込み可能なファイル階層を作成...

設定ファイルを変更した後、操作を再開します

余計なことは言わないで、コードだけ見てみましょう〜 # docker-compose をダウン # ...

MySQL データ型 DECIMAL の使用方法の詳細な説明

MySQL DECIMALデータ型は、データベースに正確な数値を保存するために使用されます。会計シス...

JS ベースの Ajax 同時リクエスト制御を実装する方法

目次序文Ajax シリアルおよびパラレルAjaxの同時リクエスト制御のための2つのソリューションPr...

Vue3における7種類のコンポーネント通信の詳細

目次1. Vue3コンポーネント通信方式2. Vue3通信の使い方2.1 小道具2.2 $エミット2...

MySQL のロックとトランザクションの簡単な分析

MySQL 自体はファイルシステムに基づいて開発されましたが、ロックの存在が異なります。データベース...

jsを使用してシンプルな虫眼鏡効果を実現します

この記事では、簡単な虫眼鏡効果を実現するためのjsの具体的なコードを参考までに共有します。具体的な内...

MySQL 5.7.17 winx64 無料インストールバージョン設定方法グラフィックチュートリアル

mysql5.7.17無料インストールバージョンのインストールに関する最近の経験1.ダウンロードして...

IE のテキストモード! DOCTYPE の役割の紹介

前の記事で説明したフォームの自動入力の問題を解決した後、新しい問題が発生しました。ページの一部のスタ...