15891777269

网站优化

作者:西安网站建设 日期:2021-01-01 10:45 | 阅读数:

  爬虫质量的评价标准

  如果从搜索引擎用户体验的角度考虑,对爬虫的工作效果有不同的评价标准,其中最主要的 3 个标准是:抓取网页的覆盖率、抓取网页时新性及抓取网页重要性。如果这 3 方面做得好,则搜索引擎用户体验必定好。

  对于现有的搜索引擎来说,还不存在哪个搜索引擎有能力将互联网上出现的所有网页都下载并建立索引,所有搜索引擎只能索引互联网的一部分。而所谓的抓取覆盖率指的是爬虫抓取网页的数量占互联网所有网页数量的比例,覆盖率越高,等价于搜索引擎的召回率越高,用户体验越好。

  索引网页和互联网网页对比

  抓取到本地的网页,很有可能已经发生变化,或者被删除,或者内容被更改,因为爬虫抓取完一轮需要较长的时间周期,所以抓取到的网页当中必然会有一部分是过期的数据,即不能在网页变化后第一时间反应到网页库中。所以网页库中过期的数据越少,则网页的时新性越好,这对用户体验的改善大有裨益。

  如果时新性不好,搜索到的都是过期数据,或者网页被删除,用户的内心感受可想而知。

  互联网尽管网页繁多,但是每个网页的差异性都很大,比如来自腾讯、网易新闻的网页和某个作弊网页相比,其重要性犹如天壤之别。如果搜索引擎抓取到的网页大部分是比较重要的网页,则可以说明在抓取网页重要性方面做得比较好。这方面做的越好,则越说明搜索引擎的搜索精度越高。

  通过以上 3 个标准的说明分析,可以将爬虫研发的目标简单描述如下:在资源有限的情况下,既然搜索引擎只能抓取互联网现存网页的一部分,那么就尽可能给选择比较重要的那部分页面来索引;对于已经抓取到的网页,尽可能快的更新内容,使得索引网页和互联网对应页面内容同步更新;在此基础上,尽可能扩大抓取范围,抓取到更多以前无法发现的网页。

  3 个“尽可能”基本说清楚了爬虫系统为增强用户体验而奋斗的目标。

  大型商业搜索引擎为了满足 3 个质量标准,大都开发了多套针对性很强的爬虫系统。以Google为例,至少包含两套不同的爬虫系统:一套被称为Fresh Bot,主要考虑网页的时新性,对于内容更新频繁的网页,目前可以达到以秒计的更新周期;另外一套被称之为Deep Crawl Bot,主要针对更新不是那么频繁的网页抓取,以天为更新周期。

  除此之外,Google投入了很大精力研发针对暗网的抓取系统,


网址:http://www.tengfan.cchttp://www.tengfan.cc/wang/youhua/16735.html
本文由西安网站建设公司 西安做网站公司 西安网站制作 西安网站设计 西安网络公司 网络中心收集整理!以上整理自互联网,如有侵权,请及时联系我们进行删除,谢谢!
免责声明:本网站部分图片和文字来源于网络,版权归原作者或者原公司所有,如果您觉得侵犯了您的权利,请告知我们立即删除,谢谢!Email: 917896677@qq.com
西安网站建设,西安做网站,西安网站设计,西安网站制作,西安网站开发,西安网页设计,西安小程序开发,西安微信开发,西安网站优化,西安网络公司,西安网站维护,西安网络推广关于我们
公司简介 荣誉资质 团队介绍 联系我们
西安网站建设,西安做网站,西安网站设计,西安网站制作,西安网站开发,西安网页设计,西安小程序开发,西安微信开发,西安网站优化,西安网络公司,西安网站维护,西安网络推广电子商务
B2C电商 O2O电商 BBC电商
西安网站建设,西安做网站,西安网站设计,西安网站制作,西安网站开发,西安网页设计,西安小程序开发,西安微信开发,西安网站优化,西安网络公司,西安网站维护,西安网络推广网站建设
企业网站建设 品牌网站建设 响应式网站建设 营销网站建设

与我们合作

与腾帆科技合作,您将会得到更成熟的品牌建设服务。力求呈现优质的品牌建设成果 主营业务:企业网站建设、品牌网站开发、商城网站建设、微信公众号开发、小程序开发
西安网站建设,西安做网站,西安网站设计,西安网站制作,西安网站开发,西安网页设计,西安小程序开发,西安微信开发,西安网站优化,西安网络公司,西安网站维护,西安网络推广
品牌咨询热线15891777269
2018 西安腾帆网络科技有限公司 All Rights Reserved   陕ICP备15000721号
西安网站建设_西安网站设计_西安网站制作_西安做网站      网站地图 XML      免责申明
地址:西安市高新区科技五路8号数字生活1幢2单元25层22501号     
    

0

在线
客服

在线客服服务时间:9:00-24:00

客服
热线

4000-700-102
7*24小时客服服务热线

关注
微信

关注官方微信
顶部