影刀RPA实战:网页爬虫之药品数据

news2024/9/21 16:45:01

1 实战目标

这次给大家带来的实战示例是采集中国医药信息平台上的药品数据,主要获取药品名称,介绍,药品类型,处方类型,医保类型,参考价格,药品成分,性状,适应病症,用法用量等。我们依然使用excel将这些需要的数据字段展示出来

需要准备的影刀知识:

  • 网页元素操作
  • 流程判断与循环
  • excel操作
  • 列表及文本字符串处理

2 影刀机器人采集药品数据

2.1 打开药品数据网

2.2 循环每一页药品数据

2.2.1 进入列表页面

2.2.2 获取分页数据

获取总页码,便于我们使用循环,依次采集每个页面的药品数据

开始循环分页采集,演示中,我们只采集第一页

2.2.3 获取药品数据列表

使用循环相似元素,将本页面的药品数据放入到一个列表中

2.2.4 下一页数据

通过以上的操作步骤,我们可以获取到每一页的药品数据,然后,我们依次点击,进入详情页来正式采集药品数据

3.3药品详情页采集药品数据

药品数据都是在详情页面中获取的,前边我们已经做好了准备工作,现在我们正式开始,详情页大体可以看成2个部分,我们通过观察可以发现,这个2个部分都很有规律,可以使用循环相似元素指令获取,不用通过获取元素信息指令单个采集。

3.3.1  进入详情页

我们先设置一个列表变量,存放采集的数据,每次采集完成后,将其写入excel

3.3.2  药品采集

采集药品名称与介绍

采集类型与参考价

这里有个判断,主要是过滤我们不需要采集的信息

其他说明采集

通过以上的采集,我们把想要的数据都写入到一个列表中,准备写入。

3.4 保存数据到excel

新建excel文件,设置好字段

数据写入excel中,自动保存

最终展示:

3 数据采集后思考

数据采集后的数据处理是一个关键步骤,它直接影响到数据分析的质量和最终结果的准确性。以下是一些数据处理的思考和最佳实践:

3.1 数据清洗

  • 处理缺失值:通过删除、填充或插值等方法处理缺失数据。
  • 去除重复:识别并删除重复记录,确保数据的唯一性。
  • 纠正错误:修正明显的错误或不一致的数据,如错误的格式、拼写错误等。

3.2 数据转换

  • 格式统一:将数据转换成统一的格式,便于分析和处理。
  • 归一化:对数据进行标准化或归一化处理,使其整洁,统一。

3.3 数据存储

  • 选择合适的存储格式和数据库,如关系型数据库、NoSQL数据库或数据仓库。
  • 同时需要考虑数据检索是否方便

3.4 持续维护

  •  随着时间的推移和数据的更新,定期维护和更新数据处理流程。

3.5 遵守法规

  • 确保数据处理过程遵守相关的数据保护法规和行业标准。

通过这些步骤,可以确保数据采集后的数据处理既高效又准确,为数据分析和决策提供坚实的基础。

4 最后

最后,国庆马上到了,祝大家开开心心,快快乐乐!

感谢大家,请大家多多支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2152824.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Qt断点调试

Qt断点操作与调试窗口介绍_哔哩哔哩_bilibili 下图来自上面的视频!!! 1.断点调试常用的快捷键 ShiftF11:单步退出所在的那个函数,进行下一步 2.查看函数的调用情况 3.监视变量的值(当前断点时的变量值&am…

《操作系统 - 清华大学》第 0 章:操作系统概述 —— 内容概述

介绍一下有关操作系统的一个基本的一个概述: 比如说什么是操作系统?为什么要学习操作系统,以及如何学好操作系统?然后接下来会介绍一下,当前操作系统一些实例以及操作系统的历史,它的演变的一个过程。最后…

wsl2桥接网络 ubuntu到弃坑到又跳坑

搜索Hyper-V image.png 如下图进入虚拟交换机管理器 image.png image.png C:\Users\Administrator下存放 ; 这是 WSL 2 的配置文件 [wsl2] processors4 ; 设置 WSL 2 可以使用的最大 CPU 核心数为 4,自行修改 memory4GB …

使用 KMeans 聚类算法 对鸢尾花数据集进行无监督学习的简单示例

代码功能 主要功能: 加载数据集: 代码使用 load_iris() 函数加载了鸢尾花数据集(Iris dataset)。这个数据集包含 150 条样本,每条样本有 4 个特征,对应于 3 种不同的鸢尾花。 KMeans 聚类: 使用…

Flowable基础篇

Flowable基础篇 课程环境说明: JDK8Flowable6.7.2MySQL8 一、基础知识科普 1.工作流发展 BPM(BusinessProcessManagement),业务流程管理是一种管理原则,通常也可以代指BPMS(BusinessProcessManagementSuite),是一个实现整合不同…

JAVA毕业设计178—基于Java+Springboot+vue的智能家具管理系统(源代码+数据库+万字论文)

毕设所有选题: https://blog.csdn.net/2303_76227485/article/details/131104075 基于JavaSpringbootvue的智能家具管理系统(源代码数据库万字论文)178 一、系统介绍 本项目前后端分离(可以改为ssm版本),分为用户、管理员两种角色 1、用户&#xff1…

从HarmonyOS升级到HarmonyOS NEXT-环信SDK数据迁移

2024年6月21日 HarmonyOS NEXT (后续称之为 NEXT) 正式发布,随着 NEXT 稳定版的逐渐临近,各个应用及SDK正在忙于适配 NEXT 系统,同样也面临着系统升级时如何对数据的迁移适配。本文通过使用环信 SDK 介绍如何从 Harmon…

计算机毕业设计推荐-基于python大数据的个性化图书数据可视化分析

💖🔥作者主页:毕设木哥 精彩专栏推荐订阅:在 下方专栏👇🏻👇🏻👇🏻👇🏻 实战项目 文章目录 实战项目 一、个性化图书数据可视化分析-项…

带你0到1之QT编程:十四、QV/HBoxLayout和QStatckedWidget双剑合璧

此为QT编程的第十四谈!关注我,带你快速学习QT编程的学习路线! 每一篇的技术点都是很很重要!很重要!很重要!但不冗余! 我们通常采取总-分-总和生活化的讲解方式来阐述一个知识点! …

【我的 PWN 学习手札】tcache extend

目录 前言 一、利用手法 二、流程演示 (1)三块物理相邻的堆块 (2)溢出修改 size (3)释放该 chunk (4)重新申请该 chunk (5)释放第三块 chunk&#x…

算法-Init

(1)有限性(Finiteness):算法必 需在有限步骤内结束; (2)确定性(Definiteness):算法的每一个步骤必须清晰无歧义地定义; (3…

科研入门学习

学习视频链接 为什么要读论文 读哪些论文 论文的分类 论文质量 如何找论文 根据领域大牛的名字进行搜索查看高水平论文引用的论文,高水平论文引用的论文很大程度也是高水平的论文 如何整理论文 如何读论文 读论文的困境 不同人群阅读差异 读论文的方式 论文的结构…

叉车限速器外接LED屏,监督厂区安全,让速度慢下来!

叉车限速器外接LED屏,可实时显示当前叉车行驶中的速度,单/双面电子显示屏供用户选择,方便企业人员监控司机当前行驶速度,当速度超过指定值时,叉车速度报警系统发出声光警示,提醒行人、司机,超速…

【ArcGIS微课1000例】0121:面状数据共享边的修改方法

文章目录 一、共享边概述二、快速的修改办法1. 整形共享边2. 修改边3. 概化边缘一、共享边概述 面状数据共享边指的是两个或多个面状数据(如多边形)共同拥有的边界。在地理信息系统(GIS)、三维建模、大数据分析等领域,面状数据共享边是描述面状空间数据拓扑关系的重要组成…

C / C++的内存管理

前言 Hello,我又回来了,今天我们将继续学习C部分,今天我们将承接前面的知识,继续学习C的内存管理,今天的内容较为重要,所以我们废话不多说,我们还是按例三连上车,开始我们今天内容&…

【图灵完备 Turing Complete】游戏经验攻略分享 Part.4 处理器架构

比较有难度的一个部分。 运算单元ALU,其实就是通过OP选择计算方式,然后选通某个计算,之后输出。每个计算逐个实现就行了。 下面是一个优化占地面积的ALU,变得紧凑了一点。 下面是一个简单的OP选通原理线路。判断是立即数寻址&…

吹爆吊打 GPT-4 的大模型新王者Reflection 70B,是否言过其实?

引言 一觉睡西天,谁知梦里乾坤大。只身眠净土,只道其中日月长。 小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖铁观音的小男孩。今天这篇小作文主要介绍这几天网上狂吹的开源新晋王者Reflection 70B,该模型…

【医疗大数据】医疗保健领域的大数据管理:采用挑战和影响

选自期刊**《International Journal of Information Management》**(IF:21.0) 医疗保健领域的大数据管理:采用挑战和影响 1、研究背景 本研究的目标是调查阻止医疗机构实施成功大数据系统的组织障碍,识别和评估这些障碍,并为管理…

Qemu开发ARM篇-1、环境搭建篇

文章目录 1、目标2、欢迎来到qemu世界3、开发环境4、依赖安装5、编译安装qemu 1、目标 我们的目标是在x86平台上搭建上arm开发环境,及在x86平台模拟一台arm设备,以达到能快速在x86平台上学习arm相关知识,如uboot启动、kernel开发调试等&…

实时美颜的技术突破:视频美颜SDK与直播美颜工具的开发详解

如今,视频美颜SDK和直播美颜工具的开发,为各类应用提供了技术支持,使得美颜效果更加智能、高效。本文将详细探讨实时美颜的技术突破及其在视频美颜SDK和直播美颜工具中的应用与开发。 一、视频美颜SDK的核心技术 1.人脸检测与特征点识别 视…