robots是什么?robots是一个协议,而不是一个命令。robots是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。在robots中有三个指令,分别是User-agent、Allow、Disallow,User-agent指的是对搜索引擎的限制,Allow指允许搜索引擎的访问,Disallow指的是禁止搜索引擎的访问。如:
User-agent:googlebot
Allow:/
Disallow:/test/
表示允许谷歌蜘蛛访问除test文件夹以外的所有文件
在写robots的时候,要注意书写规范:如首字母的大写,英文冒号,冒号后面的空格等,这些我们都要遵守,以保证我们robots文件的有效性。
常用的搜索引擎类型有:
google蜘蛛:Googlebot
百度蜘蛛:Baiduspider
yahoo蜘蛛:Yahoo!slurp
alexa蜘蛛:ia_archiver
bing蜘蛛:MSNbot
Soso蜘蛛:Sosospider
有道蜘蛛:YoudaoBot
联系客服