当前位置:网站首页 > 网站优化资讯 > robots文件该如何应用呢?

robots文件该如何应用呢?

搜索引擎蜘蛛访问网站时,都会先查看网站根目录下有没有一个命名为robots.txt的纯文本文件,robots.txt文件用于引导搜索引擎禁止抓取网站某些内容或指定允许抓取某些内容。

有些战长不希望网站的一些页面被收录,如复制内容页面、付费内容、网站还在测试阶段、大量没有意义的页面等,就需要使用robots文件确保页面不被抓取。

那么robots文件该如何应用呢?

只有在需要禁止抓取某些页面时,应用robots文件才有意义。

假如robots文件不存在或者是空文件都意味着允许搜索引擎抓取所有内容。

建议就算允许抓取所有内容,也要建一个空的robots.txt文件放在根目录下。

robots文件有记录组成,记录之间以空行隔开,最简单的robots文件如下:


User-agent: *

Disallow: /


上面这个robots文件禁止所有搜索引擎抓取任何内容。

User-agent:指定下面的规则适用于哪个蜘蛛

通配符*代表所有搜索引擎。

只适用于百度蜘蛛则用:


User-agent: Baiduspider

Disallow:告诉蜘蛛不要抓取某些文件或目录。

例如下面的代码将阻止所有蜘蛛抓取/seo/和/sem/两个目录下的内容及文件/yy/index.html:


User-agent: *
Disallow: /seo/
Disallow: /sem/
Disallow: /yy/index.html
注意:Disallow:禁止的目录或文件必须分开写,每个写一行。
下面的指令允许所有搜索引擎抓取任何内容:


User-agent: *
Disallow:

下面的代码是禁止除了360之外的所有搜索引擎抓取任何内容:


User-agent: 360Spider
Disallow: 

User-agent: *
Disallow: /

Allow:告诉蜘蛛允许抓取某些内容。

Allow和Disallow配合使用,告诉蜘蛛某个目录下大部分不允许抓取,只允许抓取一部分。

例如下面的代码告诉蜘蛛不能抓取/news/目录下其他目录和文件,但只允许抓取其中/ab/目录下的内容:


User-agent: *
Disallow: /news/
Allow: /news/ab/


Sitemap位置:告诉蜘蛛XML网站地图在哪里,格式为:


Sitemap:http://www.seodian.com/sitemap.xml

国内主流的搜索引擎像百度,360和搜狗都会遵守robots文件指令,robots.txt禁止抓取的文件搜索引擎将不再访问。



版权声明:凡本网站原创作品,未经允许,不得转载,转载请注明“来源:搜我点上海网站优化公司”。

违反上述声明者将追究其法律责任。

阅读“robots文件该如何应用呢?”的人还阅读了 上一篇:为什么URL静态化?怎么样URL静态化? 下一篇:设计网站导航要解决什么问题?设计网站导航有哪些注意事项?
网站优化相关文章