您所在的位置:首页 > 网站推广 >深度分析搜索引擎蜘蛛从爬行网站到最后参与排名的一系列步骤

深度分析搜索引擎蜘蛛从爬行网站到最后参与排名的一系列步骤

慕斯头像
博主
2019-03-06 22:42:37 阅读 0

  在做SEO优化时,我们都知道,只有搜索引擎蜘蛛收录网站的页面并成功建立索引之后,才会参与排名,那么搜索引擎蜘蛛是如何从爬行然后抓取收录并建立索引参与排名的呢,下面株洲SEO就来深度分析。

  搜索引擎蜘蛛是如何爬行的?

  搜索引擎蜘蛛在爬行时一般会有两种抓取策略,分别是深度优先和广度优先。

  1、深度优先

  深度优先就是指让搜索引擎蜘蛛尽可能地往网站的深层进行爬取,讲究的是深度,搜索引擎蜘蛛会从首页开始,一个链接接着一个链接爬取下去,处理完这条线路之后再转入下一个起始页,持续爬取链接。

株洲SEO:蜘蛛爬行的策略

  2、广度优先

  广度优先是指搜索引擎蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页,这是我们常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。

  爬行我们说完了,那搜索引擎蜘蛛是如何抓取的?

  蜘蛛通过种子URL进行爬行拓展,列出大量待抓取URL。但是待抓取URL数量庞大,蜘蛛如何确定抓取顺序先后呢?蜘蛛抓取的策略有很多种,但最终目的是一个:优先抓取重要的网页。评价页面是否重要,蜘蛛会根据页面内容原创程度,链接权重分析等众多方式来进行计算。比较有代表性的抓取策略如下:

  1,宽度优先策略

  宽度优先是指:蜘蛛在抓取一个网页后,继续将该网页所包含的其它页面按顺序进行进一步抓取。这种思想看似简单,其实却很实用。因为大多数网页都是按优先级进行排序,重要的页面会优先在页面上进行推荐。

蜘蛛抓取的策略

  2,PageRank策略

  PageRank是一种非常著名的链接分析方法,主要是用来衡量网页权重。如谷歌的PR,就是典型的PageRank算法。通过PageRank算法我们可以找出哪些页面是更重要的,然后蜘蛛优先去抓取这些重要性的页面。

  3,大站优先策略

  这个很容易理解,大网站通常拥有更多的内容页面,并且质量也会更高。蜘蛛会先分析网站归类与属性。如果这个网站已经收录很多,或者在搜索引擎系统中权重很高,则优先考虑收录。

  收录是收录了,但收录了也不一定会参与排名,只有建立了索引才有机会参与排名,那搜索引擎蜘蛛是怎样建立索引并参与排名的?株洲SEO接着往下讲。

  1、预处理

  预处理通常也被称为索引,因为索引是预处理最主要的步骤,搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名处理。必须经过预处理阶段,从HTML文件中去除标签、程序,提取出可以用于排名处理的网页文字内容。蜘蛛会将提取出来的文字进行中文分词、去除停止词、消除噪声、去重等处理,提取出页面中重要的文字,建立关键词与页面的索引,形成索引词库表。建立索引的过程中有正向索引和倒排索引两种排序方式,使得排序更加准确。

索引到参与排名

  2、参与排名

  经过搜索引擎蜘蛛抓取页面,索引程序计算得到倒排索引后,搜索引擎就准备随时处理用户的搜索需求了,搜索引擎主要对用户的搜索词进行中文分词处理,去停止词处理、指令处理、拼写错误矫正、整合搜索处罚等处理进行用户搜索词有搜索引擎索引词库的匹配,建立关键词排名。

  总结:搜索引擎蜘蛛从爬行到抓取到收录到建立索引最后参与排名的步骤就解析到这里了,随着搜索引擎逐渐规范化,标准化,现在搜索引擎越来越注重网站的内容质量,在株洲SEO看来,我们在做SEO时,只有真正做到用户体验第一,解决好用户需求才会受搜索引擎蜘蛛更多的关注,更好的参与排名。

提供SEO服务添加微信号:w1352649547 欢迎分享本文,转载请保留出处和链接!
© 著作权归作者所有
慕斯简介
慕斯 博主
5年seo项目实战经验,拥有3年大型网站优化经验,擅长大型网站项目系统架构与优化执行。
目前就职于专业SEO外包服务公司智优营家,想来了解seo并且想要寻求SEO帮助的来公司或者加慕斯微信沟通与探讨,欢迎联系!