面议元2023-04-13 23:00:16
网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则、自动的抓取万维网信息的程序或者脚本。通常它为搜索引擎从万维网上网页,是搜索引擎的重要组成部分。
抓取策略
链接的抓取策略可以分为深度优先、广度优先和佳优先三种。
1、深度化先索策略从起始网页开始,选择一个URL进入,分析这个网页中的URL,选择一个再进入。如此深入地抓取下去,直到处理完一条路线之后再处理下一条路线。
深度优先策略设汁较为简单。然而用户网站提供的链接往往具价值,PageRa址也很高,但每深入一层,网页价值和PageRank都会相应地有所下降。这暗示了重要网页通常跑离种子较近,而过度深入抓取到的网页价值巧低。同时,这种策略抓取深度直接影响着抓取命中率以及抓取效率,对抓取深度是该种策略的关键。相对于其他两种策略而言。此种策略很少被使用。
2、广度优先索策略是指在抓取过程中,在完成当前层次的索后,才进行下一层次的索。在目前为覆盖尽可能多的网页,一般使用广度优先搜索方法。也有很多研究将广度优先搜索策略应巧于聚焦爬虫中。其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。另外一种方法是将广度优先索与网页过滤技术结合使用,先用广度优先策略抓取网页,再将其中无关的网页过滤掉。这些方法的缺点在于,随着抓取网页的多,大量的无关网页将被并过滤,算法的效率将变低。
3、佳优先索策略按照一定的网页分析算法,预测候选URL与目标网页的相似度、或与主题的相关性,并选取评价好的一个或几个URL进行抓取。它只访问经过网页分析算法预测为有用的网页。存在的一个问题是,在爬虫抓取路径上的很多相关网页可能被忽略,因为佳化先策略是一种局部优搜索算法。因此需要将佳优先结合具体的应用进行改进,以跳出局部优点。研究表明,这样的闭环调整可以将无关网页数量降低30%90%。
由于对爬取的网页特殊要求,因此使用短网址链接是比较简单被爬行抓取。
原文来自:短网址http980.so