Robots.txtの詳細な紹介

Robots.txtの詳細な紹介
robots.txt の基本的な紹介
Robots.txt はプレーンテキスト ファイルであり、Web サイト管理者は、ロボットによるアクセスを禁止する Web サイトの一部を宣言したり、検索エンジンが特定のコンテンツのみをインデックスするように指定したりできます。
検索ロボット (検索スパイダーと呼ばれることもあります) がサイトを訪問すると、まずサイトのルート ディレクトリに robots.txt があるかどうかを確認します。存在する場合、検索ロボットはファイルの内容に応じてアクセス範囲を決定します。ファイルが存在しない場合、検索ロボットはリンクに沿ってクロールします。
さらに、robots.txt はサイトのルート ディレクトリに配置する必要があり、ファイル名はすべて小文字にする必要があります。
robots.txt の記述構文<br />まず、robots.txt の例を見てみましょう: http://www.csswebs.org/robots.txt
上記の特定のアドレスにアクセスすると、robots.txt の具体的な内容が次のように表示されます。
# http://www.csswebs.org の Robots.txt ファイル
# すべてのロボットがドメインをスパイダーします
ユーザーエージェント: *
許可しない:
上記のテキストは、すべての検索ロボットが www.csswebs.org サイトのすべてのファイルにアクセスできることを意味します。
特定の構文分析: # の後のテキストは説明情報です。User-agent: の後には検索ロボットの名前が続きます。* が続く場合は、すべての検索ロボットを参照します。Disallow: の後には、アクセスが許可されていないファイル ディレクトリが続きます。
以下に、robots.txt の具体的な使用例をいくつか挙げます。
すべてのロボットにアクセスを許可する
ユーザーエージェント: *
許可しない:
または、空のファイル「/robots.txt」を作成することもできます
すべての検索エンジンがサイトのどの部分にアクセスできないようにブロックする
ユーザーエージェント: *
許可しない: /
すべての検索エンジンがサイトのいくつかのセクション(以下の例ではディレクトリ 01、02、03)にアクセスするのをブロックします。

ユーザーエージェント: *
禁止: /01/
禁止: /02/
許可しない: /03/
検索エンジンへのアクセスをブロックする(下の例ではBadBot)
ユーザーエージェント: BadBot
許可しない: /
特定の検索エンジン(以下の例ではクローラー)からのアクセスのみを許可する
ユーザーエージェント: クローラー
許可しない:
ユーザーエージェント: *
許可しない: /
さらに、これを拡張してロボット メタを導入​​する必要があると考えています。
Robots META タグは主に特定のページを対象としています。他の META タグ (使用言語、ページの説明、キーワードなど) と同様に、Robots META タグもページの <head> </head> に配置され、特に検索エンジン ROBOTS にページのコンテンツをクロールする方法を伝えるために使用されます。
Robots META タグの書き方:
Robots META タグでは大文字と小文字は区別されません。name="Robots" はすべての検索エンジンを意味し、特定の検索エンジンの場合は name="BaiduSpider" と記述できます。コンテンツ部分には、index、noindex、follow、nofollow の 4 つのコマンド オプションがあります。コマンドは「,」で区切られます。
INDEX ディレクティブは、検索ロボットにページをクロールするように指示します。
FOLLOW 命令は、検索ロボットがページ上のリンクに沿ってクロールを続行できることを示します。
Robots Meta タグのデフォルト値は INDEX と FOLLOW ですが、inktomi の場合、デフォルト値は INDEX、NOFOLLOW です。
したがって、組み合わせは次の 4 つになります。
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
<META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
このうち、<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”> は <META NAME=”ROBOTS” CONTENT=”ALL”> と記述できます。
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"> は <META NAME="ROBOTS" CONTENT="NONE"> と記述できます。
現時点では、検索エンジンロボットの大半は robots.txt のルールに従っているようです。Robots META タグについては、現時点ではサポートがあまりありませんが、徐々に増えてきています。たとえば、有名な検索エンジン GOOGLE はこれを全面的にサポートしており、GOOGLE は Web ページのスナップショットを保持するかどうかを制限できるコマンド「archive」も追加しました。例えば:
<META NAME=”googlebot” CONTENT=”index,follow,noarchive”>

<<:  MySQLインデックスを最適化する方法

>>:  モバイル署名機能を実装するJavaScript

推薦する

MySQL 8.0 バージョンで getTables がすべてのデータベース テーブルを返す問題の簡単な分析

序文この記事では、主にライブラリ内のすべてのテーブルを返すMysql8.0ドライバgetTables...

ES6 Promiseの使い方の詳細な説明

目次約束とは何ですか?拒否の使用法キャッチの使い方すべての使用法レースの使用約束とは何ですか? Pr...

VMware に Centos8 をインストールする詳細なチュートリアル

CentOS公式サイトアドレスhttps://www.centos.org/まず必要なファイルをダウ...

MySQL における主キーが 0 であることと主キーの自己選択制約の関係についての詳しい説明 (詳細)

序文この記事は主にMySQLの主キー0と主キー自己排除制約の関係を紹介し、皆さんの参考と学習のために...

mysql5.7.21 の異常起動を修正する方法

同僚から、停電のため MySQL インスタンスを起動できないという報告がありました。 innodb_...

Linux の総合システム監視ツール dstat の詳細な例

オールラウンドなシステム監視ツール dstat dstat は、vmstat、iostat、nets...

一般的なSQL削除ステートメントの原則の違いを理解するだけです

この記事では主に、SQL 削除ステートメント DROP、TRUNCATE、および DELETE の違...

tinyMCEの使い方と体験の詳細な説明

tinyMCE の使用方法の詳細な説明初期化TinyMCE を初期化するときは、ページの HEAD ...

Alibaba Cloud Server Tomcatにアクセスできません

目次1. はじめに2. 解決策2.1 ファイアウォールを設定してポートを開く2.3 ポートを確認し、...

Vue バインディング オブジェクト、配列データを動的にレンダリングできないケースの詳細な説明

プロジェクトシナリオ: Dark Horse Vueプロジェクト管理の実践、製品分類の取得、拡張バー...

Windows 10 での MySQL 8.0 のダウンロードとインストール構成のグラフィック チュートリアル

この記事では、MySQL 8.0のダウンロードとインストールについてご紹介します。具体的な内容は以下...

Vue で lodop 印刷コントロールを使用してブラウザ互換の印刷を実現する方法

序文このコントロールを直接印刷すると下部に透かしが入りますが、公式 Web サイトから購入することで...

React で複数の setStates が何回呼び出されるのでしょうか?

目次1. 2 つの setState を何回呼び出すのですか? 2. 2 つの setState の...

Vue 2.0 の基礎を詳しく解説

目次1. 特徴2. 例3. オプション4. 基本的な文法5. ライフサイクル6. ルーティング管理 ...

LinuxでHomebrewを使用する正しい方法

多くの人が Linux Homebrew を使用しています。これをより良く使用するための 3 つのヒ...