Automa爬取网页数据直接入库(四)

news2024/11/27 22:44:35

介绍

在使用automa浏览器插件爬取数据时,可以直接通过发送请求将爬取到的网页数据持久化到数据库中

本次以360趋势图爬取后插入数据库当做测试

 建立流程

首先建立打开360趋势图的流程,这个不再演示,直接从获取分析元素开始

打开要爬取的网页 点击定位元素

 

 

 建立表格存储爬取到的数据

 建立获取文本组

 测试是否能拿到单个单元格数据

 其他几个也是同理

添加循环断点 指定断点的循环id

 

添加循环退出条件

 可以看出这里总共有41页,所以我们可以判断最后的标签数字是否是41,如果是则退出爬取流程,这个处理方法不是最优解,因为这需要提前知道网页数据的页数,但是先这样处理,后面最优解会再优化下

 所以这里可以直接拿取到当前元素判断当前元素数字是否是41,作为流程爬取的结束条件

 

如果不是41,则直接点击下一页

拿取到"下一页"的元素定位

 

再添加延时效果 延迟500ms

 

然后先测试是否可以爬取到数据

 

爬取到了数据

然后书写java后台,这里选择后台接口接参为 json格式

注意automa插件不能直接发送请求给localhost:端口号或者127.0.0.1:端口

这里可以将服务后台部署到外网可以访问的服务器,或者直接搭建内网穿透

首先建立表库

 

java后台简单展示下,只展示controller层 实体,服务层等不再展示

 

这里用natapp搭建内网穿透进行测试

在流程循环最后添加javaScript代码块

 

 先测试下看看能不能拿到表格数据

可以拿到

然后使用automa内置的发送请求方法

官方文档

 

 

 好了,发起请求测试

 

nice,测试成功! 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/533340.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【shell脚本】免交互操作

免交互操作 一、Here Document免交互1.1免交互概述1.2语法格式1.3实验 二、Expect2.1脚本格式2.2实验 一、Here Document免交互 1.1免交互概述 使用I/O重定向的方式将命令列表提供给交互式程序或命令,比如 ftp、cat 或 read 命令。是标准输入的一种替代品可以帮助…

森海塞尔及诺音曼携重磅新品亮相2023广州国际专业灯光、音响展览会

森海塞尔及诺音曼携重磅新品亮相2023广州国际专业灯光、音响展览会 以卓越产品和创新技术引领专业音频行业发展 广州,2023年5月16日——森海塞尔和诺音曼将于2023年5月22日至25日,携重磅新品及全新音频技术亮相第21届广州国际专业灯光、音响展览会。森海…

十七、Bus消息总线

目录 1、Bus消息总线介绍: 2、使用消息总线实现配置自动更新 2.1、方案一架构图: 2.2、方案二架构图(常用) 3、对springcloud-config-server项目进行改造 3.1、修改springcloud-config-server项目的pom文件,添加…

如何防范鱼叉式网络钓鱼及其他钓鱼攻击

在当今日益互联的世界中,远程访问已成为许多组织允许员工随时随地办公的必要条件。远程访问是一把双刃剑,有自身的优势,但也带来了重大的安全风险。网络犯罪分子一直想方设法利用远程访问系统的漏洞,试图通过这些漏洞发起鱼叉式网…

软件测试行业对新人友好吗?

软件测试真的算是对新人小白非常友好的学科了,但是你也千万不要抱有幻想,觉得轻轻松松就能掌握真正的技能,然后如愿找到高薪工作。从0到1还是需要一个过程的,也是需要你付出相当大的努力去学习的 随着人工智能时代的到来&#xf…

第01讲:RocketMQ入门

一、什么是消息队列 ​ 消息队列中间件是分布式系统中重要的组件,主要解决应用耦合,异步消息,流量削锋等问题。实现高性能,高可用,可伸缩和最终一致性架构。是大型分布式系统不可缺少的中间件。目前在生产环境&#x…

【C++进阶3-二叉搜索树】强,但没貌似还不够?

今天,带来二叉搜索树的讲解。 文中不足错漏之处望请斧正! 是什么 二叉搜索树(Binary Search Tree)又称二叉排序树。 它可以是一棵空树,也可以是具有以下性质的二叉树: 若它的左子树不为空,则左子树上所…

《花雕学AI》不用花钱,也能和ChatGPT聊天!快来看看这五个免费客户端吧

引言 你有没有想过和一个智能的聊天机器人对话?一个可以陪你聊天、讲故事、写代码、模仿名人、生成歌词等等的聊天机器人?如果你有这样的想法,那么你一定要了解ChatGPT。ChatGPT是一个由OpenAI开发的人工智能聊天机器人程序,它使用…

基于Ajax+JSon的表格数据浏览【简单版--没连接数据库】+【连接数据库版】

目录 基于AjaxJSon的表格数据浏览【简单版--没连接数据库】 代码: ajax.js ch10_4.jsp student.java Query.java 运行结果: 点击获取表格后: 基于AjaxJSon的表格数据浏览【简单版--没连接数据库】 代码: ajax.js //声明XM…

【案例实战】SpringBoot3.x自定义封装starter实战

1.starter背景简介及作用 (1)什么是starter starter是SpringBoot中的一个新发明,它有效的下降了项目开发过程的复杂程度,对于简化开发操做有着很是好的效果。 starter的理念:starter会把全部用到的依赖都给包含进来&a…

三极管的几点应用

三极管有三个工作状态:截止、放大、饱和,放大状态很有学问也很复杂,多用于集成芯片,比如运放,现在不讨论。其实,对信号的放大,我们通常用运放处理,三极管更多的是当做一个开关管来使…

微信小程序入门05-用户登录注册接口开发

用户登录注册,我们先需要开发后端的接口,接口一般需要有入参,然后和数据库进行交互。 1 创建表 我们现在先实现用户的登录及注册,建表语句 create database diancan; use diancan; CREATE TABLE users (id INT AUTO_INCREMENT …

软件设计模式介绍与入门

目录 1、软件设计模式的起源 2、什么是设计模式? 2.1、设计模式的设计意图 2.2、设计模式的分类准则 3、为什么要学习设计模式 4、如何学习设计模式 5、最后 VC常用功能开发汇总(专栏文章列表,欢迎订阅,持续更新...&#x…

毕业论文写作技巧

毕业论文的组成部分目录自定义目录 摘要(Abstract)绪论相关工作(Related work)研究方法和结果(Method and Results)研究方法研究结果 结论(Conclusion) 写好一篇论文其实就是讲好一个…

批量查询域名历史软件-域名历史快照查询工具

批量查询域名历史和域名历史快照 批量查询域名历史和域名历史快照是一种可以为您提供有关域名历史信息的工具,以下是该主题的详细介绍。 什么是域名历史? 域名历史记录是指域名在被注册前或过去的使用期间所经历的所有事件的记录。这些事件可能包括域…

SpringBoot拦截器获取Request的body数据

1. 场景 自定义Token后,需要在拦截器中进行token验证。在验证的过程中需要读取HttpServletRequest的body部分数据进行验证。 2. 存在问题 如果直接配置拦截器进行urlPatterns拦截,并进行参数验证,在拦截器中获取request的输入流&#xff0c…

智能防盗防偷门锁语音方案设计

智能锁主要功能 防撬报警功能(非必须,但很实用):防撬报警功能可以说是指纹密码锁功能中对提升家居安全有效的功能之一。当指纹锁受到外暴力破坏时,就会自动发出警报声,提醒小区安保。好一点的甚至可以自动…

【AUTOSAR】【以太网】UdpNM

目录 一、概述 二、限制与约束 三、功能说明 3.1 协调算法 3.2 操作模式 3.2.1 Network Mode 3.2.2 准备总线睡眠模式 3.2.3 准备总线睡眠模式 3.3 网络状态 3.4 初始化 3.5 通信调度 3.5.1 NM消息发送 3.5.2 NM消息接收 3.6 其他功能 3.7 帧结构 四、API接口 …

创新案例 | 肆拾玖坊白酒0到20亿增长是传销还是创新

01.背景介绍 中国证券报引用公开数据显示,2016年,规模以上白酒企业数量为1578家,2021年,这一数字下降到965家。 同时,白酒产能逐年向优势产区集中,头部企业市场占有率不断提高。2021年,茅台、…

性能测试-操作和优化分析

打流工具 iperf 测试吞吐率 服务端:iperf -u -s 客户端:iperf -u -c 1.1.1.1 -b 500M -t 10 测试结果 ------------------------------------------------------------ Client connecting to 192.168.56.106, UDP port 5001 Sending 1470 byte d…