Linux でのファイル コンテンツの重複排除と交差と差異の実装

Linux でのファイル コンテンツの重複排除と交差と差異の実装

1. データ重複排除

日常業務では、Hive や Impala を使用してクエリとエクスポートを行う際にデータの重複が発生することがありますが、クエリを再実行したくない (クエリ時間が少し長く、エクスポートされたファイルの内容が大きい) ため、Linux コマンドを使用してファイルの内容から重複データを削除することを考えます。

次に例を示します。

aaa.txxには3つの重複データがあることがわかります。

重複したデータを削除して1つだけ残したい

aaa.txt | uniq > bbb.txt を並べ替える

aaa.txt ファイルから重複データを削除し、bbb.txt に出力します。

bbb.txtファイルには1つのデータのみが保存されていることがわかります。

2. データの交差、結合、差異

1) 交差 (user_2019 の内部結合 user_2020 と user_2019.user_no=user_2020.user_no の結合に相当)

sort user_2019.txt user_2020.txt | uniq -d

2) ユニオン(user_2019.user_no union user_2020.user_noに相当)

sort user_2019.txt user_2020.txt | uniq

3) 違い

user_2019.txt-user_2020.txt

user_2019.txt を user_2020.txt で並べ替え user_2020.txt | uniq -u

user_2020.txt - user_2019.txt:

user_2020.txt を user_2019.txt で並べ替え user_2019.txt | uniq -u

以上がこの記事の全内容です。皆様の勉強のお役に立てれば幸いです。また、123WORDPRESS.COM を応援していただければ幸いです。

以下もご興味があるかもしれません:
  • Linux で AIDE に基づいてファイルシステムの整合性を検出する方法
  • Linux システムで Vim を使用してリモート ファイルを読み書きするコマンドの詳細な説明
  • Linuxシステムにおける仮想デバイスファイルのさまざまな実用的な使用法の詳細な説明
  • Linux で実行可能ファイルを実行するときに「そのようなファイルまたはディレクトリはありません」というプロンプトが表示される場合の解決策
  • Linuxで大きなファイルを素早くコピーする方法
  • Linuxファイル削除後にスペースが解放されない問題の詳しい説明
  • Linux ファイル管理コマンド例の分析 [表示、閲覧、統計など]

<<:  MySQLのロングトランザクションに関する深い理解

>>:  jsを使ってシンプルなディスククロックを実現する

推薦する

JavaScript シミュレーション計算機

この記事では、JavaScriptシミュレーション計算機の具体的なコードを参考までに紹介します。具体...

vue-tableは追加と削除を実装します

この記事では、vue-table の追加と削除の具体的なコードを参考までに紹介します。具体的な内容は...

Mac に Windows サービスを備えた仮想マシンをインストールする方法

1. 仮想マシンをダウンロードする公式ダウンロードウェブサイト: https://www.vmwar...

Linuxのlocateコマンドの使い方

01. コマンドの概要実際には、locate コマンドは find -name の別の書き方ですが、...

要素のフォームコンポーネントに関する注意事項

要素フォームとコード表示詳細はエレメントフォーム公式サイトをご覧ください構造と機能の分析紹介とソース...

nginx を使用して特定のインターフェース (URL) をブロックする方法

1. はじめに場合によっては、Web プラットフォームがオンラインになった後、サービス インターフェ...

Homebrewを使用してMacにMySQLをインストールするときにログインできない問題を解決する

お使いのコンピュータが Mac の場合、homebrew を使用して MySQL をインストールする...

VUEはトークンログイン認証を実装

この記事では、トークンログイン認証を実装するためのVUEの具体的なコードを例として紹介します。具体的...

ファイルをアップロードするときに enctype フィールドを使用する理由は何ですか?

FORM 要素の enctype 属性は、フォーム データがサーバーに送信されるときに使用されるエン...

Vue vee-validateプラグインの簡単な使い方

目次1. インストール2. インポート3. 検証ルールを定義します(エクスポート用に js ファイル...

IDEA が Docker を統合してリモート展開を実現するための手順

1. Dockerサーバーへのリモートアクセスを有効にするdocker が配置されているリモート サ...

jsは動的にテーブルを生成します(ノード操作)

この記事の例では、テーブルを動的に生成するjsの具体的なコードを参考までに共有しています。具体的な内...

CSS における重要なカスケード概念の詳細な説明

最近、プロジェクトの過程で問題に遭遇しました。メニューバーを常に上部に表示し、後続の要素をその下に表...

MySQL パスワードに特殊文字が含まれている場合とコマンドラインからログインする場合

サーバーでは、データベースにすばやくログインするために、通常は mysql -hhost -uuse...