SpiderFlow爬虫获取网页节点

news2024/9/24 11:31:38

SpiderFlow爬虫获取网页节点

一、SpiderFlow 文档地址:https://www.spiderflow.org/

二、问题:获取一篇文章的标题、来源、发布时间、正文、下载附件该怎么获取?

举例:【公示】第三批智能光伏试点示范名单公示

三、抓取网页步骤(简单版,分页、循环、多分支暂不涉及,具体看文档)

1.设置抓取网页链接

2.设置参数,如果需要设置参数的话(上面例子不需要参数)

3.执行抓取

抓取后返回抓取结果,结果默认就叫resp。可以在Var变量中定义具体的数值,定义的变量后面的流程都可以使用,使用方法为${变量名},此时定义了一个变量叫responseData,这个变量代表resp.html

  • resp都有什么?

resp.html 为页面的HTML

resp.json  为json结果

具体区分看下图,文档地址:https://www.spiderflow.org/course/variable.html#%E7%88%AC%E5%8F%96%E7%BB%93%E6%9E%9C

4.输出结果,检查返回的结果是否正确

可以看到在测试窗口中已经展现了resp.html完整的页面结构,也就是 在浏览器中 按F12看到的前端页面完整的节点结构

四、要获取标题、公示时间、地址、正文等内容还需要学习了解如何获取节点

1.获取节点

(1)抽取函数 extract,文档地址https://www.spiderflow.org/function/extra.html#selector

获取单个节点 使用 selector

获取多个节点使用 selectors

举例 获取 标题

 

标题只有一个,所有用 selector,可以看到 标题所在的层级如下 #app/.artDetail/.ant-row/.artDetail_content/h2 ,那需不需要一级一级往下找呢?

${extract.selector(resp.html,'#app .artDetail .ant-row .artDetail_content h2')} 

答案是不需要,只要能保证父级唯一就行,如果父级不唯一则继续往上找

两级就可以

${extract.selector(resp.html,'.artDetail_content h2')} 

可以看到标题已经输入成功了

2.获取 html、文本、href链接

3.css 选择器

Css 选择器 包括 元素选择器、类选择器、id选择器、后代选择器、子代选择器等等

具体用法可以参考 css选择器 文档

https://www.runoob.com/cssref/css-selectors.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/400310.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Heatmap-based Out-of-Distribution Detection 论文阅读

原文地址 概要 我们的工作将分布失调【out-of-distribution,OOD】检测作为神经网络输出解释问题进行研究。我们学习了一种热图【heatmap】表示,用于检测OOD图像,同时可视化ID和OOD的图像区域。给定一个训练过的固定分类器,我们训练一个解码…

ArrayList源码分析(JDK17)

ArrayList类简介类层次结构构造无参构造有参构造添加元素add:添加/插入一个元素addAll:添加集合中的元素扩容mount与迭代器其他常见方法不常见方法不常见方法的源码和小介绍常见方法的源码和小介绍积累面试题ArrayList是什么?可以用来干嘛?Ar…

funkyheatmap | 用这个包来完美复刻Nature Biotechnology的高颜值神图吧!~

1写在前面 天气开始暖和了☀️,发现旅游的人好多啊!~🥲 不知道自己什么时候能有时间出去看看外面的世界,实在是太忙了。😷 最近用到的有个包感觉很不错,分享给大家,funkyheatmap包。&#x1f61…

进程与多线程(入门)

什么是线程 要了解什么是线程,得先知道什么是程序。 程序:为完成特定任务,用某种语言编写的一组指令的集合。 例如,QQ,Steam,亦或者java写的helloword。 这些都是程序 了解了程序,还得清楚什么…

d3.js绘制饼状图,悬浮出现字以及点击事件

代码以及注释如下: const width 300; // 定义圆的宽度 const height 300; // 定义圆的高度 const radius Math.min(width, height) / 2; // 算出半径 const color d3.scaleOrdinal() .range(["#98abc5", "#8a89a6", "#6b486b&qu…

【MySQL高级篇】第05章_存储引擎

第05章_存储引擎 1. 查看存储引擎 查看mysql提供什么存储引擎 show engines;2. 设置系统默认的存储引擎 查看默认的存储引擎 show variables like %storage_engine%; #或 SELECT default_storage_engine;修改默认的存储引擎 如果在创建表的语句中没有显式指定表的存储引擎…

一分钟成为签到达人!Redis BitMap轻松解决,Spring Boot带你飞

如何实现签到功能,尤其是如何实现高效的签到与统计,是开发者们需要考虑的问题。在本篇文章中,我们将介绍如何利用Spring Boot整合Redis BitMap实现签到与统计。 Redis BitMap简介 在介绍如何利用Redis BitMap实现签到与统计之前,…

unity动画--动画绑定,转换,用脚本触发

文章目录如何制作和添加动画大概过程示例图将多组图片转化为动画放在对象身上实现动画之间的切换使用脚本触发Parameters(Trigger)如何制作和添加动画 大概过程示例图 将多组图片转化为动画放在对象身上 首先,我们要为我们要对象添加animator 然后我们要设置对应的…

计算机网络-应用层

文章目录前言概述Https协议(443)Http协议(80)HttpsTLS/SSL 协议TLS的四次握手总结前言 本博客仅做学习笔记,如有侵权,联系后即刻更改 科普: 概述 Https协议(443) 参考网址 Http协议(80) 谈到Https必然要先将httpHTTP 请求报文结构 请求…

谷粒学院开发(一):基础准备

商业模式 常见商业模式 B2C模式: 两个角色: 管理员:增加,修改,删除普通用户:查询 商家到用户,自己制作大量自有版权的视频,放在自有平台上,让用户付费。 这是这个项目使…

Linux下查看图片中某点的像素X、Y坐标

在做目标检测、目标追踪的任务过程中,我们会用到一些开源的数据集,比如MOT16多目标追踪数据集。这些数据集会提供数据标注文件gt.txt,里面的内容如下1,1,912,484,97,109,0,7,12,1,912,484,97,109,0,7,13,1,912,484,97,109,0,7,14,1,912,484,97,109,0,7,1…

[Openwrt]procd实现hotplug机制介绍

Linux处理hotplug事件方法kobject_uevent() 产生 uevent 事件(lib/kobject_uevent.c 中), 产生的 uevent 先由 netlink_broadcast_filtered() 发出, 最后调用 uevent_helper[] 所指定的程序来处理.uevent_helper[] 里默认指定 "/sbin/hotplug", 但可以通过 /sys/kern…

spring boot starter 实现生成行为验证码验证

最近公司有一个验证用户行为的需求,因此实现了一个用户行为验证码的starter,具体效果如下:代码结构如下:common 下面放的是公共文件枚举类generator 下面放的是生成行为验证码的相关类与扩展接口resource 下面放的是加载解析行为图…

若依代码生成器的使用

一、代码生成器的使用1.新建maven模块原则上,我们的业务代码和若依系统本身的系统代码是要做隔离的,一方面是易于之后随着若依系统升级而升级,另一方面则是纯粹的合理性考虑。这里新建一个ruoyi-business模块作为业务代码模块,新建…

Mac环境安装python

一、介绍: Python是跨平台的,它可以运行在Windows、Mac和各种Linux/Unix系统上。在Windows上写Python程序,放到Linux上也是能够运行的。 要开始学习Python编程,首先就得把Python安装到你的电脑里。安装后,你会得到Pyt…

LearnOpenGL-光照-4.光照贴图

本人刚学OpenGL不久且自学,文中定有代码、术语等错误,欢迎指正 我写的项目地址:https://github.com/liujianjie/LearnOpenGLProject 文章目录光照贴图漫反射贴图例子1镜面光贴图例子2 采样镜面光贴图小结什么是光照贴图光照贴图如何影响颜色光…

开源一个通用的 HTTP 请求前端组件

像 Postman 这样可视化的 HTTP 请求工具是调试 API 不可或缺的利器。Postman 虽好但也越来越重,而且如果要整合到其他工具中,显然 Postman 又不是一个可行的方案。于是我想打造一个简单的前端组件(widget),它是一个标准…

天池 DeepRec CTR 模型性能优化大赛 - 夺冠技术分享

作者:niceperf 团队 (李扬, 郭琳) 大家好,我们是 niceperf 团队,在天池 DeepRec CTR 模型性能优化大赛中,很荣幸取得了冠军的成绩 (Top 1/3802)。这篇文章复盘一下我们的参赛经验,希望对大家有所启发。 1.背景介绍 …

KDZD5035系列电缆试验油杯

一、概述 武汉凯迪正大总结十多年的局放试验经验,开发生产了KDZD5035系列电缆试验油杯终端,具有使用方便,性能可靠,本身局放量小等优点,与早期落地式油杯相比,可为用户节约大量的试验成本。 KDZD5520交流…

单片机学习笔记之点阵(8x8)

心血来潮,想捡一下丢了很久的单片机,纪录一下单片机学习简单的点阵显示,及踩到的䟘,找到吃灰很久的普中科技开发板(非广告,为毕设学习买的)。 1. 使用工具 使用开发板: 普中科技开发…