Website Tools: ロボットの制御

SEO

メタタグでロボットを制御 <head>～</head>

検索エンジンに登録したくない場合は、大体これ
<meta name="robots" content="noindex, nofollow">

デフォルト: メタタグを指定しない場合の解釈
<meta name="robots" content="index, follow" />
<meta name="robots" content="all" />

noindex: ページをインデックスに登録しないようにする
<meta name="robots" content="noindex" />

nofollow: ページのリンクを追跡しないようにする
<meta name="robots" content="nofollow" />

nosnippet: 検索結果にスニペットを表示しないようにする
<meta name="robots" content="nosnippet" />

noodp: ODP/DMOZ の代替説明を使用しないようにする
<meta name="robots" content="noodp" />
>> http://www.dmoz.org/

noarchive: ページのキャッシュリンクを表示しないようにする
<meta name="robots" content="noarchive" />

none: noindex, nofollow と同じ
<meta name="robots" content="none" />

Googleのみ
unavailable_after:[date]: 指定した期日以降にインデックスすることを拒否する
<meta name="googlebot" content="unavailable_after: 25-May-2013 12:30:00 JST" />
※「JST」は、日本標準時間

noimageindex: 画像の参照元ページとしてページを表示しないようにする
<meta name="googlebot" content="noimageindex" />

notranslate: ページの翻訳版を提供しないようにする
<meta name="googlebot" content="notranslate" />

Yahooのみ
noydir: Yahoo!カテゴリに記載されているデータがタイトルやサマリーに利用されるのを拒否する
<meta name="Slurp" content="noydir" />

※ 他に、NOIMAGEINDEX、NOSERVE、SERVE、ARCHIVE、NOIMAGECLICK など

robots.txt の書き方

robots.txt ファイルを作成し、ルートディレクトリにアップロードする。

■robots.txt の記述
・User-agent: クローラの指定
　　Google: Googlebot
　　Yahoo!: Slurp
　　Bing: msnbot
　　goo: ichiro
　　Baidu: Baiduspider
　　Naver: Yeti
　　など
・Disallow: アクセス拒否（ディレクトリやファイル名）
・Allow: アクセスを許可（通常必要なし）
・Crawl-delay: 連続してアクセスしてくる間隔（秒数）
・Sitemap: XMLサイトマップの指定・コメントアウトは、行頭に「#」
・ワイルドカードは、「*」と「$」が利用可能

＜サンプル＞
User-agent: *
Disallow: /cgi-bin/
Disallow: /data/
Disallow: /test/test.html
Disallow: /*.doc$
Sitemap: http://www.example.co.jp/sitmap.xml
# コメント
User-agent: Slurp
Crawl-delay: 60

X-Robots-Tag でロボットを制御

HTML 以外のファイル（PDF や WORD、EXCELファイルなど）のインデックスなどを制御する場合に使用
X-Robots-Tag で指定したコンテンツを robots.txt でブロックしてはいけない（ブロックすると、クローラが取得しようとしないので HTTP ヘッダーを送ることができないため）

Apache の場合、「.htaccess」に記述

<Files test.doc>
Header set X-Robots-Tag "noindex, nofollow, noarchive"
</Files>

<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex"
</Files>

Website Tools

SEO

メタ タグでロボットを制御 <head>～</head>

robots.txt の書き方

X-Robots-Tag でロボットを制御

メタタグでロボットを制御 <head>～</head>