据国外媒体报道,雅虎周一宣布,将推出第三代网络爬虫Slurp 3.0。
“目前所有的准备工作已经就绪,正式推出活动已经启动。”雅虎搜索部门的沙拉德·维玛(Sharad Verma)和约拉姆·阿伦(Yoram Arnon)周一在雅虎搜索博客中表示。
上周五,雅虎主要竞争对手谷歌披露,其最新的网络爬虫软件采用嵌入网页的方式,可以发现那些此前被遗漏的被隐藏的网页。不过雅虎并没有对其最新的爬虫软件做详细介绍。
雅虎建议关注网络爬虫软件的相关用户尽快升级现有的Slurp 2.0版本。
下面是关于Yahoo! Slurp的一些信息:
Yahoo!爬虫的效率对我们来说一直是个困扰,以IT技术点评6月份的情况为例,“Yahoo Slurp的读取数据量为170.31M,与之相对的是Googlebot的57.48M和BaiduSpider 39.26M,明显的投入产出比较差,有点可笑的是,6月Yahoo Slurp读取Robots.txt的次数为3104,平均每天100次,不知道是不是因为Yahoo Slurp从不记录Robots.txt的内容,每读取一次网页就要查看一下Robots.txt。”老实说,究竟为什么Yahoo!的效率低到这个程度我们也无从知晓,也许,是Yahoo!与Yahoo!中文造成的重复访问?(纯属猜测)