从0到1构建智能分布式大数据爬虫系统

news2024/11/25 20:17:18

文章目录

  • 1. 写在前面
  • 2. 数据获取挑战
  • 3. 基础架构
  • 4. 爬取管理
  • 5. 数据采集
  • 6. 增量与去重设计

【作者主页】:吴秋霖
【作者介绍】:Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作!
【作者推荐】:对JS逆向感兴趣的朋友可以关注《爬虫JS逆向实战》,对分布式爬虫平台感兴趣的朋友可以关注《分布式爬虫平台搭建与开发实战》
还有未来会持续更新的验证码突防、APP逆向、Python领域等一系列文章

1. 写在前面

  随笔写一下,最近比较忙。这里我还是拿开源情报或者舆情项目来展开描述,因为现在有自研爬虫系统的企业基本上所涉及的数据源第一个比较多,第二个则是数据更新及时性高。爬虫业务单一少的基本也到不上平台级,爬虫写完基本挂到容器里面就完了,有的甚至可能容器都用不上!

舆情项目中数据采集是一个极其关键的部分!核心技术则是爬虫技术的构建,这里说的不是指简单的一些爬虫脚本程序,数据源肯定是很多的,每天几乎覆盖的源或多或少都在变化,数据源状态或者页面结构变化

这里我画了一个基础且常见的爬虫平台架构:

在这里插入图片描述

2. 数据获取挑战

  数据需求范围广,难以全面采集!很多产品需要数据的赋能。对数据的需求往往需要采集全网或特定领域的数据,在有限的时间和成本内,批量深度爬取,尤其目前国内的一些渠道数据获取采集的难度越来越大

数据获取时间长,难以保证时效性!如果在短时间内需要的数据量庞大,并且及时性高!导致爬取到数据的时间过长,难以将数据实时的流转并供给业务分析应用。数据产生的时间过长,导致数据的时效价值被严重降低

数据源防护技术加大采集数据的难度!越来越多的网站具有大数据防护技术,并不断更新增强反爬策略,以及各国加大对隐私信息的保护,这些措施都在不断加大数据采集的难度

3. 基础架构

  既然是分布式系统,那么爬虫肯定是比较多的,这些爬虫的任务必须分配到多台机器上执行。所以这些爬虫程序如何部署?部署在哪?当然是容器里面,为了更加便捷的部署、拓展与管理、Kubernetes+Docker将会成为分布式爬虫采集系统中基础架构承载底座!

在这里插入图片描述

4. 爬取管理

  • 爬虫状态:爬虫分布式在很多台服务器上,不知道在哪个服务器上的哪个爬虫程序出了问题是很痛苦的事情,甚至抓取数据量猛增导致服务器挂掉都不知道。所以,需要能对服务器监控,对服务器上每一个爬虫程序进行监控。监控每个爬虫运行是否正常,监控每个运行爬虫的服务器是否正常

  • 采集状态:抓取的站点时常发生变化,我们就需要知道每个目标采集的站点抓取的数据是否都正常的采集下来了,通过给每个爬虫编上采集任务编号,展示在web界面上,就可以直观的看见数据采集下来的效果。通过邮件告警和每天发送邮件统计数据,可以实时对采集状态进行监控

  • 任务调度:任务调度模块实现数据爬取任务的分布式任务调度,包括添加、执行、监控、停止、删除爬虫的这些功能。系统能够自动根据任务优先级和资源状态进行任务分配和任务调整,在数据爬取任务发,可以看看我之前写的关于Scrapyd爬虫部署的文章:Scrapyd核心源码剖析及爬虫项目实战部署

  • 资源管理:资源管理是对某些站点的账号资源、IP 资源和采集节点等与采集相关的资源信息的集中管理

  • 状态监测:状态监测模块提供对网页页面改版、网页反爬策略、节点运行状态和数据产量等进行告警的功能,并以通知的方式实时推送到web前端,可以看看之前我写的这篇告警设计文章:【爬虫系统设计系列】好的爬虫系统一定要这样去设计告警功能)

5. 数据采集

  • 模板配置:例如新闻这类的网站源,页面的结构基本都是一样的,列表到详情页。可以采用模板配置的方案交给XPATH工程师,模板爬虫功能设计可以参考我的这篇文章【爬虫系统设计系列】模板爬虫的动态配置策略设计与实现

  • 可视化采集:爬取难度低的这类网站可以通过可视化配置的方式,所见即所得通过点击页面生成爬虫工程的方式。感兴趣的可以去看看开源可视化爬虫项目:可视化爬虫-Portia

  • 人工配置:这类网站一般难度较高、需要定制化开发、更新频率高!

  • 智能解析:像新闻、小说、应用市场这些页面特征相似的网站可以采用通用抽取算法!

在这里插入图片描述

6. 增量与去重设计

  这一部分可以说是非常重要也是经常接触的,除了一次性爬虫外几乎都要添加去重的功能,有的则需要定期或实时增量爬取

  • 增量设计:可以根据时间,记录最新更新的时间,这个是比较常见的,或者说咱们对页面的内容计算哈希值,将哈希值与上次爬取时存储的哈希值进行比较,不同则更新!

  • 去重设计:可以根据URL、数据内容计算指纹!可以使用Bloom或者是Set具体根据实际的业务场景跟数据体量去做一个技术选型

  好了,到这里又到了跟大家说再见的时候了。创作不易,帮忙点个赞再走吧。你的支持是我创作的动力,希望能带给大家更多优质的文章

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1288591.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深度学习助力手写识别OCR软件的发展与应用

随着人工智能和深度学习技术的不断发展,手写识别OCR软件的技术也在不断进步。目前,市场上已经有一些基于深度学习的手写识别OCR软件,可以对手写文字进行自动识别和转换。 首先,我们来介绍一下基于深度学习的手写识别OCR软件的基本…

相对路径与绝对路径

1、相对路径与绝对路径 定义:要去的path是否和当前页面有联系 绝对: 1、http://www.baidu.com/a/b 2、/a/b 如果没有host则会直接取当前站点的host (location.origion) 相对: 1、当前是 http://www.baidu.com/a/b…

SQL-求解连续数问题

问题 解法 自连接求解 求解连续值的问题可以用常规的自连接方法比较当前行与下一行的值,自连接条件一般是id列,如果id列没有可以使用排序函数row_number、dense_rank等进行人为构造。这种方法比较常见直接给出代码: select distinct t1.nu…

C# Demo--汉字转拼音

1.Nuget安装NPOI及Pinyin4net 2.Demo 代码部分 using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks; using NPOI.SS.UserModel; using NPOI.HSSF.UserModel; using NPOI.XSSF.UserModel; using System.IO;…

【JavaScript手撕代码】日期格式化 yyyy-mm-dd hh:mm:ss

一行代码: function formatTime() {return new Date().toLocaleString().replace(/\//g, -) }

中小企业:理解CRM与ERP系统的区别与联系,提升业务效能

许多中小型企业正面临着客户递增,市场营销,货存流通等递增数据整合的困扰。这个时候需要根据自身企业的实际情况去选择适合自己的系统。那么,中小企业使用CRM系统和erp系统的区别是什么? 一、含义和目标区别 CRM系统旨在帮助企业…

【若依系列】1.项目修改成自己包名并启动服务

项目下载地址: 分离版本 https://gitee.com/y_project/RuoYi-Vue 修改工具下载 https://gitee.com/lpf_project/common-tools 相关截图: 1.项目结构: 2.修改包名工具: 工具截图,根据对应提示自定义修改即可&#x…

岳阳楼3D模型纹理贴图

在线工具推荐: 3D数字孪生场景编辑器 - GLTF/GLB材质纹理编辑器 - 3D模型在线转换 - Three.js AI自动纹理开发包 - YOLO 虚幻合成数据生成器 - 三维模型预览图生成器 - 3D模型语义搜索引擎 岳阳楼,位于湖南省岳阳市岳阳楼区洞庭北路,地…

云轴科技ZStack助力彬长矿业建设智能矿山

陕西彬长矿业集团有限公司(简称彬长矿业)选择云轴科技ZStack智能矿山云解决方案建设云基础设施:ZStackCube超融合一体机部署在西咸云基地机房构建私有云资源池,ZStackCMP多云管理平台对西咸云基地机房以及各矿井生产服务中心资源进…

写class的奇淫巧技-数组遍历

class想提供类似数组的能力 可以自定义 Symbol.iterator class A {*[ Symbol.iterator ]() {yield this.x;yield this.y;yield this.z;} }如:

程序员如何开发高级python爬虫?

之前我有写过一篇“高级爬虫和低级爬虫的区别”的文章,我们知道它并非爬虫领域中专用术语。只是根据爬虫的复杂性来断定是否是高级爬虫。以我个人理解:高级爬虫是可能具有更复杂的功能和更高的灵活性的爬虫。下面我们围绕高级爬虫来了解下有趣的事情。 低…

网络广播音柱在多场景中的应用

网络广播音柱在多场景中的应用 首先,网络音响在家庭娱乐方面有着突出的表现。在家里,我们可以通过它享受高质量的音乐、电影和游戏。无论是听悠扬的音乐旋律,还是看电影时震撼的音效,它都能提供逼真的沉浸式音效。此外&#xff0…

写实3D游戏模型纹理贴图设置

在线工具推荐: 3D数字孪生场景编辑器 - GLTF/GLB材质纹理编辑器 - 3D模型在线转换 - Three.js AI自动纹理开发包 - YOLO 虚幻合成数据生成器 - 三维模型预览图生成器 - 3D模型语义搜索引擎 当谈到游戏角色的3D模型风格时,有几种不同的风格&#xf…

Redis(三):常见数据类型:List、Set、Zset

List 列表 列表类型是用来存储多个有序的字符串, 如图: a、b、c、d、e 五个元素从左到右组成 了⼀个有序的列表,列表中的每个字符串称为元素(element),⼀个列表最多可以存储个元素。在 Redis 中&#xff…

剪刀石头布游戏

csdn问答社区的一道题目,题目描述都像一篇论文了,界面设置不敢恭维,不过也算是可练手工程。 (笔记模板由python脚本于2023年12月05日 22:15:03创建,本篇笔记适合熟悉Python字典、列表、字符串的coder翻阅) 【学习的细节是欢悦的历…

军大衣方歇 东北大花袄正当时

聊起最近军大衣和各式棉服的销量,丽亮服饰的陈先生正忙于打包,他说现在订购的军大衣最早也得20天后才能到货,除了零散的几件,市面基本都处于断货状态。 做了十多年服装生意,陈先生也没想到军大衣会从自己的父辈&#x…

【Vue】element组件不显示问题

使用element组件但不显示 不显示的原因:(未引入element-ui) 首先在控制台输入 npm i element-ui 进行安装 安装完之后,再去main.js配置element-ui组件库 import ElementUI from element-ui import element-ui/lib/theme-chal…

MYSQL数据库中运行SQL文件报错

报错显示 当使用mysql数据库运行SQL文件报错时 [Err] 1273 - Unknown collation: utf8mb4_0900_ai_ci 报错原因 版本高低问题,一个是5.7版本,一个是8.0版本生成转储文件的数据库版本为8.0,要导入sql文件的数据库版本为5.7,因为是高版本导入到低版本&a…

.NET Core 依赖注入 Microsoft.Extensions.DependencyInjection(未完待续)

文章目录 前言什么是依赖注入C# 使用依赖注入框架介绍 Microsoft.Extensions.DependencyInjectionNuget安装简单单例使用打印结果 暂时结束 前言 依赖注入是一个非常重要的编程思想,就和面向过程和面向对象一样,IOC和控制反转是一种解耦的编程思想。 什…

小满CRM与畅捷通T+系统数据集成方案分享

小满CRM与畅捷通T系统数据集成方案分享 在当前数字化浪潮的推动下,越来越多的企业选择使用各种信息化系统来提高工作效率和管理水平。其中,小满CRM和畅捷通T系统成为了广受企业欢迎的两个主流系统。然而,企业在使用这两个系统的过程中&#…