SEO
メタ タグでロボットを制御 <head>〜</head>
検索エンジンに登録したくない場合は、大体これ <meta name="robots" content="noindex, nofollow"> デフォルト: メタタグを指定しない場合の解釈 <meta name="robots" content="index, follow" /> <meta name="robots" content="all" /> noindex: ページをインデックスに登録しないようにする <meta name="robots" content="noindex" /> nofollow: ページのリンクを追跡しないようにする <meta name="robots" content="nofollow" /> nosnippet: 検索結果にスニペットを表示しないようにする <meta name="robots" content="nosnippet" /> noodp: ODP/DMOZ の代替説明を使用しないようにする <meta name="robots" content="noodp" /> >> http://www.dmoz.org/ noarchive: ページのキャッシュ リンクを表示しないようにする <meta name="robots" content="noarchive" /> none: noindex, nofollow と同じ <meta name="robots" content="none" /> Googleのみ unavailable_after:[date]: 指定した期日以降にインデックスすることを拒否する <meta name="googlebot" content="unavailable_after: 25-May-2013 12:30:00 JST" /> ※「JST」は、日本標準時間 noimageindex: 画像の参照元ページとしてページを表示しないようにする <meta name="googlebot" content="noimageindex" /> notranslate: ページの翻訳版を提供しないようにする <meta name="googlebot" content="notranslate" /> Yahooのみ noydir: Yahoo!カテゴリに記載されているデータがタイトルやサマリーに利用されるのを拒否する <meta name="Slurp" content="noydir" /> ※ 他に、NOIMAGEINDEX、NOSERVE、SERVE、ARCHIVE、NOIMAGECLICK など |
robots.txt の書き方
robots.txt ファイルを作成し、ルートディレクトリにアップロードする。 |
■robots.txt の記述 ・User-agent: クローラの指定 Google: Googlebot Yahoo!: Slurp Bing: msnbot goo: ichiro Baidu: Baiduspider Naver: Yeti など ・Disallow: アクセス拒否(ディレクトリやファイル名) ・Allow: アクセスを許可(通常必要なし) ・Crawl-delay: 連続してアクセスしてくる間隔(秒数) ・Sitemap: XMLサイトマップの指定 ・コメントアウトは、行頭に「#」 ・ワイルドカードは、「*」と「$」が利用可能 |
<サンプル> User-agent: * Disallow: /cgi-bin/ Disallow: /data/ Disallow: /test/test.html Disallow: /*.doc$ Sitemap: http://www.example.co.jp/sitmap.xml # コメント User-agent: Slurp Crawl-delay: 60 |
X-Robots-Tag でロボットを制御
HTML 以外のファイル(PDF や WORD、EXCELファイルなど)のインデックスなどを制御する場合に使用 X-Robots-Tag で指定したコンテンツを robots.txt でブロックしてはいけない (ブロックすると、クローラが取得しようとしないので HTTP ヘッダーを送ることができないため) |
Apache の場合、「.htaccess」に記述 <Files test.doc> Header set X-Robots-Tag "noindex, nofollow, noarchive" </Files> <Files ~ "\.pdf$"> Header set X-Robots-Tag "noindex" </Files> |