できるだけ検索ロボットから避けるために

ふと、知り合いから「できるだけ検索ロボットから避けるにはどうしたらいいの?」と聞かれ、困ってしまいました。そこで、ネットを調べてまとめてみました。

robots.txt

検索ロボット(クローラ)の拒否とアクセス禁止(2010/12/31現在、キャッシュのみ)に、robots.txtの記述サンプルがありましたので引用します。

“`User-agent: ia_archiver
Disallow: /
#USA Alexa : alexa.com/

User-agent: Baiduspider
Disallow: /
#China Baidu : www.baidu.com, www.baidu.jp

User-agent: BaiduImagespider
Disallow: /
#China Baidu : www.baidu.com, www.baidu.jp

User-agent: yodaobot
Disallow: /
#China Yodao: www.yodao.com

User-agent: Yeti
Disallow: /
#Korea Naver : www.naver.com 29/Mar/2007~

User-agent: NaverBot
Disallow: /
#Korea Naver : www.naver.com ~26/Mar/2007?
“`

.htaccessの記述

.htaccessサンプル」さんから引用しました。

“`AddOutputFilter INCLUDES .shtml .html .htm
#更新2007-8-25

#.htaccess閲覧防止
AddHandler cgi-script htaccess

# ユーザーエージェントで指定
# 検索避け支援wikiを参考にしています
SetEnvIfNoCase User-Agent “msnbot” shutout
SetEnvIfNoCase User-Agent “Googlebot” shutout
SetEnvIfNoCase User-Agent “Slurp” shutout
SetEnvIfNoCase User-Agent “Yahoo” shutout
SetEnvIfNoCase User-Agent “Y!J” shutout

SetEnvIf User-Agent “inktomi” shutout
SetEnvIf User-Agent “moget” shutout
SetEnvIf User-Agent “ichiro” shutout
SetEnvIf User-Agent “ia_archiver” shutout
SetEnvIfNoCase User-Agent “MarkAgent” shutout
SetEnvIfNoCase User-Agent “marsflag” shutout
SetEnvIfNoCase User-Agent “spider” shutout
SetEnvIfNoCase User-Agent “Baiduspider” shutout
SetEnvIfNoCase User-Agent “Crawler” shutout
SetEnvIfNoCase User-Agent “Yeti” shutout
SetEnvIf User-Agent “http” shutout

# Googleから立入禁止
SetEnvIf Referer “^http://www¥.google¥..*/search” shutout
SetEnvIf Referer “^http://images¥.google¥..*/images” shutout
# Yahooから立入禁止
SetEnvIf Referer “^http.*search¥.yahoo¥..*¥?” shutout
# MSNから立入禁止
SetEnvIf Referer “^http://search¥.msn¥..*/results¥.aspx¥?” shutout
SetEnvIf Referer “^http://search¥.live¥..*/results¥.aspx¥?” shutout
# 百度から立入禁止
SetEnvIf Referer “^http://baidu¥.” shutout
SetEnvIf Referer “^http.*¥.baidu¥.” shutout

order Allow,Deny
Allow from all
Deny from env=shutout

# Google
Deny from 66.249.64.0/19
# Yahoo
Deny from 72.30.0.0/16
Deny from 74.6.0.0/16
#NAVER
Deny from 220.88.0.0/13
Deny from 61.247.192.0/19
#百度
Deny from 202.108.0.0/16
Deny from 60.24.0.0/13
Deny from 122.152.128.0/23
Deny from 202.106.0.0/16
Deny from 221.216.0.0/13
Deny from 61.135.0.0/16
Deny from 203.192.149.0/24“`

この世に完璧なものなんてないと思いますが、この手の専門の方が調べて公開している情報ですので、何も処置しないより、随分効果のあるものだと思います。
必要なければ削除するだけですが、実行は自己責任にて。

タイトルとURLをコピーしました