Robots检测

  1. 通过本工具可以检测网站是否设置某些搜索引擎蜘蛛抓取,或者是指定搜索引擎蜘蛛抓取或禁止网站的部分或全部内容。

网址:

Robots
Robots是站点与spider沟通的重要渠道,站点通过robots文件声明本网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。
robots.txt文件存放位置
robots.txt文件应该放置在网站根目录下。例如,当spider访问网站http://www.kw360.net时,会检查是否存在http://www.kw360.net/robots.txt这个文件,如果存在,Spider会根据这个文件的内容,来确定它访问权限的范围。 robots.txt文件格式
User-agent: 该项的值表示搜索引擎robot的名字。* 表示所有。
Disallow: 该项的值表示不希望被访问的一组URL,值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。
Allow: 该项的值表示希望被访问的一组URL,与Disallow项相似。