1 网络爬虫的爬行策略-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

网络爬虫的爬行策略

工程师 来源:网络整理 作者:h1654155205.5246 2019-03-21 17:08 次阅读

网络爬虫的爬行策略

1、PartialPageRank策略

PartialPageRank算法借鉴了PageRank算法的思想:对于已经下载的网页,连同待抓取URL队列中的URL,形成网页集合,计算每个页面的PageRank值,计算完之后,将待抓取URL队列中的URL按照PageRank值的大小排列,并按照该顺序抓取页面。

如果每次抓取一个页面,就重新计算PageRank值,一种折中方案是:每抓取K个页面后,重新计算一次PageRank值。但是这种情况还会有一个问题:对于已经下载下来的页面中分析出的链接,也就是我们之前提到的未知网页那一部分,暂时是没有PageRank值的。为了解决这个问题,会给这些页面一个临时的PageRank值:将这个网页所有入链传递进来的PageRank值进行汇总,这样就形成了该未知页面的PageRank值,从而参与排序。

2、宽度优先遍历策略

宽度优先遍历策略的基本思路是,将新下载网页中发现的链接直接插入待抓取URL队列的末尾。也就是指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。

3、大站优先策略

对于待抓取URL队列中的所有网页,根据所属的网站进行分类。对于待下载页面数多的网站,优先下载。这个策略也因此叫做大站优先策略。

4、反向链接数策略

反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐的程度。因此,很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度,从而决定不同网页的抓取先后顺序。

在真实的网络环境中,由于广告链接、作弊链接的存在,反向链接数不能完全等他我那个也的重要程度。因此,搜索引擎往往考虑一些可靠的反向链接数。

5、OPIC策略策略

该算法实际上也是对页面进行一个重要性打分。在算法开始前,给所有页面一个相同的初始现金(cash)。当下载了某个页面P之后,将P的现金分摊给所有从P中分析出的链接,并且将P的现金清空。对于待抓取URL队列中的所有页面按照现金数进行排序。

6、深度优先遍历策略

深度优先遍历策略是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 网络爬虫
    +关注

    关注

    1

    文章

    52

    浏览量

    8647
  • 爬虫
    +关注

    关注

    0

    文章

    82

    浏览量

    6867
收藏 人收藏

    评论

    相关推荐

    海外HTTP安全挑战与应对策略

    海外HTTP安全挑战与应对策略是确保跨国网络通信稳定、安全的关键。
    的头像 发表于 10-18 07:33 231次阅读

    全球视野下的海外爬虫IP:趋势、机遇与风险

    在全球视野下,海外爬虫IP的使用呈现出一系列趋势,同时也伴随着机遇与风险。
    的头像 发表于 10-15 07:54 209次阅读

    海外爬虫IP的合法边界:合规性探讨与实践

    海外爬虫IP的合法边界主要涉及合规性探讨与实践。
    的头像 发表于 10-12 07:56 209次阅读

    如何利用海外爬虫IP进行数据抓取

    利用海外爬虫IP进行数据抓取需要综合考虑多个方面。
    的头像 发表于 10-12 07:54 181次阅读

    详细解读爬虫多开代理IP的用途,以及如何配置!

    爬虫多开代理IP是一种在爬虫开发中常用的技术策略,主要用于提高数据采集效率、避免IP被封禁以及获取地域特定的数据。
    的头像 发表于 09-14 07:55 489次阅读

    高压放大器在柔性爬行机器人驱动性能研究中的应用

    实验名称:柔性爬行机器人的材料测试研究方向:介电弹性体的最小能量结构是一种利用DE材料的电致变形与柔性框架形变相结合设计的新型柔性驱动器,所谓最小能量是指驱动器在平衡状态时整个系统的能量最小,当系统
    的头像 发表于 09-06 09:57 1147次阅读
    高压放大器在柔性<b class='flag-5'>爬行</b>机器人驱动性能研究中的应用

    TCS系统的核心控制策略与方法

    策略与方法 控制策略:TCS系统运用了一系列高级控制理论,包括逻辑阈值、比例积分微分(PID)控制、模糊逻辑和神经网络技术。这些控制策略使系统能够快速准确地对各种复杂的驾驶状况进行响应
    的头像 发表于 08-29 11:25 600次阅读

    网络爬虫,Python和数据分析

    德赢Vwin官网 网站提供《网络爬虫,Python和数据分析.pdf》资料免费下载
    发表于 07-13 09:27 1次下载

    用pycharm进行python爬虫的步骤

    以下是使用PyCharm进行Python爬虫的步骤: 安装PyCharm和Python 首先,您需要安装PyCharm和Python。PyCharm是一个流行的Python集成开发环境(IDE),它
    的头像 发表于 07-11 10:11 822次阅读

    深度神经网络(DNN)架构解析与优化策略

    深度神经网络(Deep Neural Network, DNN)作为机器学习领域中的一种重要技术,以其强大的特征学习能力和非线性建模能力,在多个领域取得了显著成果。DNN的核心在于其多层结构,通过
    的头像 发表于 07-09 11:00 1777次阅读

    数据采集方法有哪些?工具有哪些?

    数据采集是数据分析和数据科学的基础,它涉及到从各种来源收集、整理和存储数据的过程。以下是一些常见的数据采集方法和工具,以及它们的特点和应用场景。 网络爬虫 网络爬虫是一种自动化的程序,
    的头像 发表于 07-01 15:35 1320次阅读

    电机控制系统的神经网络优化策略

    电机控制系统作为现代工业自动化的核心组成部分,其性能直接影响到整个生产线的效率和稳定性。随着人工智能技术的快速发展,神经网络在电机控制系统中的应用越来越广泛。神经网络优化策略通过模拟人脑神经元的连接
    的头像 发表于 06-25 11:46 645次阅读

    基于DOE的管道爬行机器人轻量化研究

    随着科技的不断发展,管道爬行机器人在各种工业领域中的应用越来越广泛,尤其在管道检测和维护方面发挥着不可替代的作用。然而,传统的管道爬行机器人往往存在质量较大、操作不便等问题,影响了其在实际应用中
    的头像 发表于 06-14 09:33 2489次阅读

    全球新闻网封锁OpenAI和谷歌AI爬虫

    分析结果显示,至2023年底,超半数(57%)的传统印刷媒体如《纽约时报》等已关闭OpenAI爬虫,反之电视广播以及数字原生媒体相应地分别为48%和31%。而对于谷歌人工智能爬虫,32%的印刷媒体采取相同措施,电视广播和数字原生媒体的比率分别为19%和17%。
    的头像 发表于 02-27 15:31 845次阅读

    如何解决Python爬虫中文乱码问题?Python爬虫中文乱码的解决方法

    如何解决Python爬虫中文乱码问题?Python爬虫中文乱码的解决方法 在Python爬虫过程中,遇到中文乱码问题是常见的情况。乱码问题主要是由于编码不一致所导致的,下面我将详细介绍如何解
    的头像 发表于 01-12 15:11 2331次阅读