首页 > SEO技术 > 正文

解析为什么网站url层级深网络爬虫(蜘蛛)难抓取得到的原因

作者: admin     来源: 红尘画舫     发布时间: 2019-10-06 10:42:23    浏览人数:
摘要之前在介绍搜索引擎的网络爬虫抓取网站的过程一文中曾说过,网络爬虫(蜘蛛)爬取的过程是将页面抓取回来到服务器上,然后经过服务器的分析后提取出新发现的URL,接着再让网络爬虫去抓取新的url的页面。
之前在介绍搜索引擎网络爬虫抓取网站的过程一文中曾说过,网络爬虫(蜘蛛)爬取的过程是将页面抓取回来到服务器上,然后经过服务器的分析后提取出新发现的URL,接着再让网络爬虫去抓取新的url的页面。按照这个逻辑下去,一个网站,无论url层级有多深,只要内链做得好,那网络爬虫一进来到网站的其中一个页面,就能抓取完整站的页面才对,为什么会出现url层级越深,网络爬虫就难抓取呢?是不是哪里出错了?

其实不是,搜索引擎是首先选取一部分精心挑选的种子URL,然后将这些URL放入待抓取URL队列,接着就从待抓取URL队列中取出待抓取在URL。也就是说,搜索引擎的蜘蛛去爬取网站页面也是有优先级设定的,这就是网络爬虫的抓取策略。

1、大站优先策略

对待抓取URL队列中的全部网页,依据所属的站点进行分类。然后对每类站点中待下载页面数多的站点,优先下载。这个策略也因此叫做大站优先策略。因此,如果你是大站,url层级深一些还是比一些小网站有优先抓取的权利,但小站和新站就不行了。

2.宽度优先遍历策略

宽度优先遍历策略的基本思路是,将新下载网页中发现的链接直接插入待抓取URL队列的末尾。也就是指网络爬虫会先抓取起始网页中链接的全部网页,然后再选择当中的一个链接网页。继续抓取在此网页中链接的全部网页。遍历路径:遍历路径:A-B-C-D-E-F G H I(如图)
蜘蛛遍历抓取图
3.Partial PageRank策略

Partial PageRank算法借鉴了PageRank算法的思想:对于已经下载的网页,连同待抓取URL队列中的URL,形成网页集合,计算每一个页面的PageRank值,计算完之后,将待抓取URL队列中的URL依照PageRank值的大小排列,并依照该顺序抓取页面。

4.深度遍历策略

深度遍历策略是指网络爬虫会从起始页開始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页。继续跟踪链接。遍历的路径:A-F-G , E-H-I, A-B, A-C,A- D(如上图)

这里我将深度优先遍历策略放到最后,这是因为如果从首页进来,那么就得抓取完整站的页面,如此就需要消耗很多搜索引擎的资源,如果你的一个质量不高的网站,试问搜索引擎会这样消耗资源去抓取不?我想不会,有这样的资源早就分配给高质量的大站了,你说对不对?

所以,网站URL的层级越深,抓取的排序就越靠后,网络爬虫就难抓取得到深层级里面的页面,因此,缩短网站url的层级,是有利于搜索引擎的网络爬虫(蜘蛛)抓取的,我们在优化网站的时候,尽量不要把url的层级布得太深。
很赞哦! ()