11.无代码爬虫八爪鱼采集器抓取网站信息的实操案例——选择目标网站、提取标题、发布时间、评论内容、作者昵称、点赞数量等字段

news2024/11/23 5:14:05

首先,多数情况下免费版本的功能,已经可以满足绝大多数采集需求,想了解八爪鱼采集器版本区别的详情,请访问这篇帖子: https://blog.csdn.net/cctv1123/article/details/139581468

八爪鱼采集器免费版和个人版、团队版下载icon-default.png?t=N7T8https://affiliate.bazhuayu.com/retrieve

今天我们以采集哔哩哔哩的评论作为八爪鱼采集器的案例进行讲解,提取一级评论中的发布者昵称、发布时间、评论内容、点赞数

首先采集三板斧我们回忆一下,翻页、循环、数据采集

受官方邀请做直播讲课的时候,做了一整套的ppt,如果需要可以联系我:tktk6622 免费索取

填入网址

预登陆

设定滚动翻页

使用自动识别网页内容或者执行添加滚动循环都可以

配置一些细节

设置循环列表

自动识别网页很多时候不能正确的获取到自己要点信息字段,那就手动修改吧

添加一个循环,调整到不固定元素列表,因为评论有一级评论和二级评论的区别,为了方便讲解,我们这边只提取一级评论(二级评论其实是可以采集的,也能够有关联的方式在一起采集)

一级评论的xpath代码是这个://div[@class="root-reply-container"]

提取循环中的数据字段

昵称xpath://div[@class="user-name"]

评论://span[@class="reply-content"] 

时间://span[@class="sub-reply-time"]

点赞://span[@class="reply-like"]

(*注意这是结合上一个循环的拼接xpath)

进行测试数据采集

查看导出的数据情况

采集的数据导出到表格全都正常,没有乱码。这个采集需求圆满搞定。

需要这个采集规则,可以在我的B站资源列表中下载

做个总结,这篇教程再次通过实例讲解工作流程如何设置翻页、循环、数据提取,并给出来循环列表的xpath。下一节课我们说说:二级页面数据提取与细节页面处理——点击链接进入详情


这贴是教程专栏的目录链接:

八爪鱼采集器入门基础教程,日常更新中-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1831279.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【SpringBoot】SpringBoot:打造现代化微服务架构

文章目录 引言微服务架构概述什么是微服务架构微服务的优势 使用SpringBoot构建微服务创建SpringBoot微服务项目示例:创建订单服务 配置数据库创建实体类和Repository创建服务层和控制器 微服务间通信使用RestTemplate进行同步通信示例:调用用户服务 使用…

hadoop/hive/DBeaver启动流程

hadoop 启动 cd到指定目录下 cd /opt/module/hadoop-3.3.0/sbin/启动文件 ./start-all.shjps一下,查看显示的内容 应该显示以下内容 NameNode SecondaryNameNode DataNode ResourceManager NodeManager如果缺少namenode,那么执行 rm -rf /tmp/hadoo…

数据可视化实验二:回归分析、判别分析与聚类分析

目录 一、使用回归分析方法分析某病毒是否与温度呈线性关系 1.1 代码实现 1.2 线性回归结果 1.3 相关系数验证 二、使用判别分析方法预测某病毒在一定的温度下是否可以存活,分别使用三种判别方法,包括Fish判别、贝叶斯判别、LDA 2.1 数据集展示&am…

超越中心化:Web3如何塑造未来数字生态

随着技术的不断发展,人们对于网络和数字生态的期望也在不断提升。传统的中心化互联网模式虽然带来了便利,但也暴露出了诸多问题,比如数据滥用、信息泄露、权力集中等。在这样的背景下,Web3技术应运而生,旨在打破传统中…

帕金森运动小贴士,壁纸里的健康密码

🌟 在这个快节奏的时代,我们越来越关注身体的健康。今天,我想和大家分享一份特别的小贴士,它藏在一张精致的小红书壁纸里,是关于帕金森病的运动建议。帕金森病是一种常见的神经系统疾病,适当的运动对于缓解…

Excel 常用技巧(六)

Microsoft Excel 是微软为 Windows、macOS、Android 和 iOS 开发的电子表格软件,可以用来制作电子表格、完成许多复杂的数据运算,进行数据的分析和预测,并且具有强大的制作图表的功能。由于 Excel 具有十分友好的人机界面和强大的计算功能&am…

Oracle--服务器结构详解

一、Oracle服务器主要组成 实例(系统全局区SGA、后台进程)数据库程序全局区(PGA)前台进程 二、系统全局区SGA 1.高速数据缓冲区 用来存放Oracle系统最近访问过的数据块,经常或者最近被访问的数据块会被放置到高速数据…

【Win】识别Hyper-V虚拟机第一代与第二代及其差异

Hyper-V作为微软强大的虚拟化平台,允许用户创建虚拟机并安装各种操作系统。但您是否知道Hyper-V虚拟机分为第一代和第二代,并且它们之间存在一些关键差异?本文将指导您如何识别您的虚拟机属于哪一代,并详细解释两者之间的主要区别…

C#结合JS 修改解决 KindEditor 弹出层问题

目录 问题现象 原因分析 范例运行环境 解决问题 修改 kindeditor.js C# 服务端更新 小结 问题现象 KindEditor 是一款出色的富文本HTML在线编辑器,关于编辑器的详细介绍可参考我的文章《C# 将 TextBox 绑定为 KindEditor 富文本》,这里我们讲述在…

cad怎么转成pdf文件?方法很简单!

cad怎么转成pdf文件?在数字化时代,CAD图纸的转换与共享已成为日常工作中的常态。无论是建筑设计师、工程师还是学生,都可能遇到需要将CAD文件转换为PDF格式的需求。本文将为您推荐三款高效的CAD转PDF软件,让您轻松实现文件格式的转…

GPRS抄表技术是什么?

1.GPRS抄表技术概述 GPRS(GeneralPacketRadioService)抄表是一种基于移动通信网络的远程抄表技术,它利用GPRS网络进行数据传输,实现了对水、电、气等公用事业表计的实时、远程读取。这项技术的出现,极大地提升了公用事业管理的效率和准确性&…

apollo配置中心入门实践

说明: (如果微服务开发没有严格统一的代码开发规范,不建议采用apollo,否则只会更浪费时间在一堆配置上) 通常情况下,我们无论是但模块开发,还是微服务多模块开发,都采用springboot…

想要做好短视频?这5大关键点你知道吗?沈阳短视频剪辑培训

在新媒体运营中,短视频已成为抓住观众注意力的重要工具。制作成功的短视频需要细心规划和精确执行。今天小编就围绕做好短视频的五大关键点,为大家进行详细解析,帮助您提升视频的吸引力和效果。 做好短视频的5大关键点 01内容策划&#xff1…

docker通过容器id查看运行命令;Portainer监控管理docker容器

1、docker通过容器id查看运行命令 参考:https://blog.csdn.net/a772304419/article/details/138732138 docker inspect 运行镜像id“Cmd”: [ “–model”, “/qwen-7b”, “–port”, “10860”, “–max-model-len”, “4096”, “–trust-remote-code”, “–t…

【CMU 15-445】Proj3 Query Execution

Query Execution 通关记录Task1 Access Method ExecutorsSeqScanInsertUpdateDeleteIndexScanOptimizing SeqScan to IndexScan Task2 Aggregation & Join ExecutorsAggregationNextedLoopJoin Task3 HashJoin Executor and OptimizationHashJoinOptimizing NestedLoopJoin…

两台电脑如何建立局域网?三种简便方法推荐

方法一:使用网线直接连接 1、准备一根网线,长度不宜过长(建议不要超过80米,否则信号会衰减),确保两台电脑相邻或距离较近。 2、将网线的一头插入一台电脑的网口,另一头插入另一台电脑的网口。 …

MATLAB直方图有关函数的关系

histogram Histogram plot画直方图 histcounts 直方图 bin 计数 histcounts是histogram的主要计算函数。 discretize 将数据划分为 bin 或类别 histogram2 画二元直方图 histcounts2 二元直方图 bin 计数 hist和histc过时了。替换不建议使用的 hist 和 histc 实例 hist → \r…

26. 一个反射远照相物镜的设计

导论: 反摄远照相物镜是一类照相物镜的统称,他们的共同特点是有一个负光焦度的前组,和一个正光焦度的后组,至于前组和后组的具体结构,种类繁多。 反摄远物镜能同时实现大视场和大相对孔径,这类系统的长度…

工厂方法模式实战之某商场一次促销活动

目录 1.5.1、前言1.5.2、实战场景简介1.5.3、开发环境1.5.4、用传统的if-else语句实现1.5.4.1、工程结构1.5.4.2、if-else需求实现1.5.4.3、测试验证 1.5.5、工厂模式优化代码1.5.5.1、工程结构1.5.5.2、代码实现1.5.5.2.1、定义各种商品发放接口及接口实现1.5.5.2.2、定义工厂…

数据库管理-第205期 换个角度看23ai(20240617)

数据库管理205期 2024-06-17 数据库管理-第205期 换个角度看23ai(20240617)1 规范应用开发2 融合总结 数据库管理-第205期 换个角度看23ai(20240617) 作者:胖头鱼的鱼缸(尹海文) Oracle ACE Pro…