検索エンジンにインデックスさせない方法

ここでは、「 検索エンジンにインデックスさせない方法」 に関する記事を紹介しています。
ホームページ(サイト)やブログを運営している方で、プライベートな記事だから・・・等の理由で、自分のウェブページを検索エンジンの検索結果に表示させたくないと言う方もいらっしゃるかと思います。

検索エンジンにインデックス(データベース)されないようにするには、いくつかの方法があります。

(1)、他のページからリンクを張らない
(2)、METAタグの noindexとnofollow を使う
(3)、robots.txtを使う
(4)、.htaccessを使う

この中で、いちばん推奨されているのは、(4)の .htaccess です。

(1)の「他のページからリンクを張らない」や、(2)の「METAタグの noindexとnofollow を使う」は、自分が管理していないサイトからリンクされたら意味がありません。

また、(3)の「robots.txtを使う」は、goo、Google、Lycos などのロボット型検索エンジンに対する命令を記述するためのファイルで、特定のページが、検索エンジンのデータベースに登録(インデックス)されないように指定できるファイルで、google、goo、Lycos などの検索エンジンに共通のフォーマットですが、中にはrobots.txt の指示に従わない検索エンジンもあるようです。

Googlebot(グーグルのクローラ)、Slurp(ヤフーのクローラ)、MSNbot(MSNのクローラ)からのアクセスを防ぐには、.htaccess を下記のように記述します。

SetEnvIf User-Agent "Googlebot" UA
SetEnvIf User-Agent "Slurp" UA
SetEnvIf User-Agent "MSNbot" UA
order allow,deny
allow from all
deny from env=UA

記述した、.htaccessファイルをアクセス拒否するディレクトリ(フォルダ)に保存します。
こうすることで、拒否指定したディレクトリとその中にある下部ディレクトリ(サブディレクトリ)へのアクセスをブロックすることができます。

関連タグ : 検索エンジン

この記事のトラックバックURL
この記事へのトラックバック