您所在的位置:首页 > SEO知识 >robots协议的详细写法,掌控搜索引擎蜘蛛的爬行

robots协议的详细写法,掌控搜索引擎蜘蛛的爬行

慕斯头像
博主
2019-03-27 21:57:46 阅读 0

  对于搜索引擎蜘蛛来说,在访问网站时首先会去爬行检查robots协议,而什么是robots协议呢?通俗一点来讲robots协议指的就是网站的管理者与搜索引擎签订的一个协议,网站通过robots协议来告诉搜索引擎蜘蛛哪里可以抓取哪里不可以抓取,这一点和之前讲过的nofollow标签的知识有点类似,很多人可能会弄混,但只要知道它们的一点区别,那就是nofollow标签是屏蔽的链接,而robots协议是告诉蜘蛛整个网站的抓取,不过,如果没有这一协议的话,搜索引擎蜘蛛就默认的沿着链接抓取所有内容了。那么robots协议应该如何写呢?下面慕斯SEO就来分享一下robots的详细写法。

  在将写法之前,我们先来看看robots的基础语法

  1、User-agent:通常出现在第一行,是定义搜索引擎的

  举例:User-agent:*意思是定义所有搜索引擎,但如果是User-agent:Baiduspider,那么就是只定义百度蜘蛛。

robots语法介绍

  2、Disallow:通常出现在下一行,是用来禁止蜘蛛爬行的页面的,当然,有Disallow也会有Allow,Allow就是允许蜘蛛爬行的页面的。

  举例:Disallow:/意思是禁止所有搜索引擎访问

  Disallow:/admin意思是禁止蜘蛛爬取admin目录

  Disallow:/abc.html意思是禁止蜘蛛爬去abc.html页面

  Disallow:/help.html意思是禁止蜘蛛爬去help.html页面

  3、终止符“$”与通配符“*”

  “*”和“$”分别代表通配符和终止符,百度蜘蛛一般用这两个通配符来模糊匹配url,“*”是匹配0或多个以上的的任意字符,“$”是匹配行的结束符。

  robots的写法示例

  1、User-agent:*

  Disallow:/admin/

  Disallow:/a/

  Disallow:/b/这个表示的含义是禁止所有搜索引擎蜘蛛访问admin、a、b三个文件,在这里解释一下,为什么有的时候看见的禁止是文件名后面只有a/,而有的却是/a/呢?因为屏蔽某一目录以及其中的所有内容就会用到/a/这种双斜杠,而如果只是屏蔽某个具体的网页那么就用单斜杠。

  2、User-agent:*

  Allow:/admin/a/

  Disallow:/admin/这个表示的含义是禁止所有搜索引擎访问admin这个目录,但允许访问admin下的a目录,这个的好处就在于可以详细的告诉搜索引擎抓取具体的页面。

  3、User-agent:*

  Disallow:/a/*.htm$这个表示的含义是禁止抓取/a/目录下的所有以".htm”为后缀的URL(包含子目录)

robots写法分享

  4、User-agent:*

  Disallow:/?意思是禁止所有搜索引擎抓取所有带?为后缀的文件,而?也就是我们所指的动态URL页面。

  5、User-agent:*

  Disallow:*.jpg$

  Disallow:*.png$

  Disallow:*.gif$意思是屏蔽所有图片

  6、User-agent:*

  Disallow:/*.js$

  Disallow:/*.css$意思是屏蔽js和css文件

  以上就是robots的常见写法,但是在写的时候,我们还需要注意很多的细节,比如:

  1、robots.txt文件必须放在网站的根目录,不可以放在子目录。

  2、第一个英文字母要大写,冒号是英文状态下打出来的,冒号后面有一个空格,这几点一定不能写错。

  3、robots.txt文件名命名必须小写

  4、要注意Disallow与Allow的书写顺序,在禁止一个目录但想保留其中一个文件时我们应该把Allow写在Disallow前面一行,否则蜘蛛就无法访问到你想要保留的那个文件。

  5、一定要注意“/”书写是否正确,如果“/”后面多了一个空格,则屏蔽整个网站

  6、在结尾处,也就是最后一行,建议加上网站的sitemap地址,如

  Sitemap:https://www.musiseo.cn/sitemap.html

  Sitemap:https://www.musiseo.cn/sitemap.xml

  robots的形式

  robots除了可以用robots.txt的文件放在根目录显示以外还可以写在mate标签下面,但不同的是meta标签主要是针对一个个具体的页面。和其他的meta标签(如使用的语言、页面的描述、关键词等)一样。

  而且在meta标签中没有大小写之分,name="Robots"表示所有的搜索引擎,可以针对某个具体搜索引擎(如百度)写为name="Baiduspider",content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

  Index指令告诉蜘蛛抓取该页面;

  NoIndex命令:告诉蜘蛛不允许抓取这个页面

  Follow指令表示蜘蛛可以沿着该页面上的链接继续抓取下去;

  NoFollow命令:告诉蜘蛛不允许从此页找到链接、拒绝其继续访问。

  robots的写法讲了这么多,但如何才能得知自己写的协议是否有效呢?

  如下图所示,去百度资源平台检测robots就行了

百度资源平台robots检测

  总结:SEO是一个系统的工程,在网站建设之初就应该想好一系列优化的流程,如关键词布局、robots协议、网站架构等,而在网站上线前,就一定要仔细检查robots.txt文件,如果没有及时添加或者规则写错了,那么就要及时调整过来,以免影响网站的收录。

提供SEO服务本文地址:http://www.musiseo.cn/anli/91.html 欢迎分享本文,转载请保留出处和链接!
© 著作权归作者所有
慕斯简介
慕斯 博主
5年seo项目实战经验,拥有3年大型网站优化经验,擅长大型网站项目系统架构与优化执行。
目前就职于专业SEO外包服务公司智优营家,想来了解seo并且想要寻求SEO帮助的来公司或者加慕斯微信沟通与探讨,欢迎联系!
合作伙伴: SEO SEO博客 SEO工具 SEO教程
慕斯SEO专注于株洲SEO优化,湖南地区网络营销推广,提供SEO服务,现已为数百家企业提供了网站推广解决方案,欢迎联系。