一.总体概述
本套教程适用于还没进入爬虫界的宝宝们
这套流程基本涵盖了全平台(
x抖 x快 x头 xB x淘 x知 x红
)个人信息->作品->评论,为不侵权,有兴趣可以拉到最后进行交流
二.爬虫过程
随便拿个平台举例
老规矩f12
返回json数据格式的这个,进行json格式化发现评论数据
接口如下,一定要加referer,不然返回数据会为空
翻页逻辑
二级评论逻辑
多线程逻辑
数据添加逻辑
这里跟以往不同的是,我此次多加了日志逻辑,因为爬取的页数实在太多,就增设日志查看异常
详情见代码
最后这张贴图是展示最后爬取过多导致的无数据回显情况,所以增设了[对应api数据为空,无法爬取]模块
x站
抖x
这套流程基本涵盖了全平台个人信息->作品->评论
为防止侵权和打广告,此处不提供源码
关注 剑客古月的安全屋 获取 联系方式
直达连接 区块链-RUST实战篇(1)