使用Python爬取某发地网市场蔬菜价格数据

news2024/11/5 5:37:06

前言

随着互联网技术的发展,数据抓取成为了获取大量公开数据的重要手段。本文将介绍如何利用 Python 编程语言结合 DrissionPage 和自定义的 DataRecorder 模块,实现对新发地市场蔬菜价格数据的自动化抓取,并将抓取到的数据保存至 CSV 文件中。
目标网站
在这里插入图片描述

1. 准备工作

在开始之前,请确保您的环境中已安装了 DrissionPage 库。如果没有安装,可以通过 pip 安装:

pip install DrissionPage

同时,您需要创建一个名为 DataRecorder.py 的模块,该模块负责数据的记录功能。这里我们假设您已经有了这个模块,并且它支持向 CSV 文件追加数据的功能。

2. 导入必要的库

首先,我们需要导入本项目所需的库:

from DrissionPage import ChromiumPage
from DataRecorder import Recorder
3. 创建数据记录器

接下来,我们将创建一个 Recorder 实例,用于后续将数据记录到 CSV 文件中:

# 创建 Recorder 实例,用于记录数据到 CSV 文件
recorder = Recorder(path="./data.csv", cache_size=500)

# 设置 CSV 文件的表头
recorder.add_data(['品名', '最低价', '平均价', '最高价', '规格', '产地', '单位', '发布日期'])
4. 初始化浏览器对象

使用 ChromiumPage 类初始化一个浏览器实例,以便于后续操作网页:

# 初始化 ChromiumPage 对象
page = ChromiumPage()
5. 监听网络请求

为了捕获页面加载时发送的网络请求,特别是那些包含了我们所需数据的请求,我们需要开启监听:

# 开始监听指定 URL 的网络请求
page.listen.start('http://www.xinfadi.com.cn/getPriceData.html')
6. 访问目标页面

通过 get 方法访问目标网站,并等待页面开始加载:

# 请求目标页面
url = "http://www.xinfadi.com.cn/priceDetail.html"
page.get(url)
page.wait.load_start()  # 等待页面加载开始
7. 抓取并处理数据

接下来是关键步骤,我们需要找到页面上的所有蔬菜类别,点击每个类别以触发数据加载,然后从网络请求中提取数据:

# 获取页面上所有蔬菜类目的元素
vegetable_style = page.eles("x://li[contains(@class,'lis')]")

对于每个蔬菜类别,执行以下操作:

# 遍历每个蔬菜类目
for style in vegetable_style:
    style.click()  # 点击类目以触发数据加载
    page.wait.load_start()  # 等待页面加载完成

    # 等待数据包加载完成
    resp = page.listen.wait()
    data = resp.response.json()  # 解析响应体为 JSON 格式

遍历返回的数据列表,提取每条记录的信息:

# 遍历数据列表中的每个项目
for item in data['list']:
    # 构建一个包含所需信息的字典
    dict_item = {
        '品名': item['prodName'],
        '最低价': item['lowPrice'],
        '平均价': item['avgPrice'],
        '最高价': item['highPrice'],
        '规格': item['specInfo'],
        '产地': item['place'],
        '单位': item['unitInfo'],
        '发布日期': item['pubDate']
    }

    # 将数据添加到 Recorder 中
    recorder.add_data(dict_item)

    # 打印处理后的数据
    print(dict_item)
8. 保存数据

最后,确保所有数据都被正确地写入到 CSV 文件中:

# 最后,将所有缓存的数据写入文件
recorder.record()

运行结果

在这里插入图片描述

总结

通过上述步骤,我们成功地实现了对新发地市场蔬菜价格数据的自动化抓取,并将结果保存到了本地的 CSV 文件中。此过程不仅提高了工作效率,还保证了数据的准确性和时效性。
如果有爬虫的需求的话可以到,【python爬虫 文档、图片等数据抓取】
请注意,希望合理设置请求间隔时间,避免对服务器造成过大负担。
本代码仅用于学习和研究目的,不得用于商业用途或其他非法活动。
使用者自行承担因不当使用代码而产生的任何法律责任

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2231171.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

免费好用又好看且多端自动同步第三方终端工具Termius你值得拥有

使用目的: 本地终端功能一样,都是为了登录服务器查看日志等操作。 本地终端 优点:方便简单,无需额外下载安装、免费。 缺点:每次都需要重新登陆输入命令,步骤繁琐无法简化;不能跨端同步。 第…

Postman:高效的API测试工具

在现代软件开发中,前后端分离的架构越来越普遍。前端开发者与后端开发者之间的协作需要一种高效的方式来测试和验证API接口。在这个背景下,Postman作为一款强大的API测试工具,受到了广泛的关注和使用。 今天将介绍什么是Postman、为什么要使用…

计算机网络-以太网小结

前导码与帧开始分界符有什么区别? 前导码--解决帧同步/时钟同步问题 帧开始分界符-解决帧对界问题 集线器 集线器通过双绞线连接终端, 学校机房的里面就有集线器 这种方式仍然属于共享式以太网, 传播方式依然是广播 网桥: 工作特点: 1.如果转发表中存在数据接收方的端口信息…

基于Retinex算法的图像去雾matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 (完整程序运行后无水印) 2.算法运行软件版本 matlab2022a 3.部分核心程序 (完整版代码包含详细中文注释和操作步骤视频&#xff09…

Nature Medicine病理AI汇总|TORCH:预测未知原发部位癌症的肿瘤起源|顶刊精析·24-11-01

小罗碎碎念 今天分析Nature Medicine病理AI系列的第三篇文章——《Prediction of tumor origin in cancers of unknown primary origin with cytology-based deep learning》 这篇文章报道了一种基于细胞学图像的深度学习方法TORCH,用于预测未知原发部位癌症的肿瘤…

Ubuntu 安装CUDA, cuDNN, TensorRT(草稿)

文章目录 写在前面一、CUDA, cuDNN, TensorRT 三个库的版本的确定二、解决方法参考链接 写在前面 自己的测试环境: Ubuntu20.04, 本文安装的版本: cuda_11.1.0;cuDNN-8.2.1;TensorRT-8.2.4.2 一、CUDA, cuDNN, TensorRT 三个库…

豆包,攻克数字是个什么工具?《GKData-挖掘数据的无限可能》(数据爬虫采集工具)

豆包,攻克数字是个什么工具? “攻克数字” 指的是 “攻克数字(GKData)” 这样一款工具。是一款针对网页、APP中数据自动解析转表存入数据库的软件,为数据工作者而生。它是一个不会编程也能用的可视化数据解析为标准二…

rust编写的系统监测器

系统监测器 技术栈 rusttaurivue3vue-echartsrsbuild 软件介绍 用于查看电脑的硬件信息,实时监测cpu,内存,硬盘,网络,进程等系统资源 图形化,动态化展示,美观实用 软件截图 下载 https:/…

实体类中为什么要实现serializable接口

最近见到好多项目中写的代码,在实体类中实现了Serializable接口。说实话:这个在以前学习的时候,貌似学过,但是一直没有用过,所以看着一脸懵逼,但是别人总不可能随便写的吧.....所以就去查了一下这个接口。 …

github打不开网络问题

当打开github出现超时或者网络不能访问的情况时,我们进行如下方法解决: 1,ping gitbub.com查看域名分析的DNS IP C:\Users\86156>ping github.com 正在 Ping github.com [20.205.243.166] 具有 32 字节的数据: 来自 20.205.243.166 的回复…

基于NVIDIA NIM平台实现盲人过马路的demo(一)

前言:利用NVIDIA NIM平台提供的大模型进行编辑,通过llama-3.2-90b-vision-instruct模型进行初步的图片检测 step1: 部署大模型到本地,引用所需要的库 import os import requests import base64 import cv2 import time from datetime import datetimestep2: 观看官方使用文…

Java日志脱敏(二)——fastjson Filter + 注解 + 工具类实现

背景简介 日志脱敏 是常见的安全需求,最近公司也需要将这一块内容进行推进。看了一圈网上的案例,很少有既轻量又好用的轮子可以让我直接使用。我一直是反对过度设计的,而同样我认为轮子就应该是可以让人拿去直接用的。所以我准备分享两篇博客…

上海亚商投顾:沪指缩量调整 华为概念股午后爆发

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 一.市场情绪 市场全天震荡调整,沪指、深成指午后跌超1%,创业板指一度跌逾2%,尾盘跌幅有…

从0开始学PHP面向对象内容之(类,对象,构造/析构函数)

上期我们讲了面向对象的一些基本信息&#xff0c;这期让我们详细的了解一下 一、面向对象—类 1、PHP类的定义语法&#xff1a; <?php class className {var $var1;var $var2 "constant string";function classfunc ($arg1, $arg2) {[..]}[..] } ?>2、解…

利用Docker Compose构建微服务架构

&#x1f493; 博客主页&#xff1a;瑕疵的CSDN主页 &#x1f4dd; Gitee主页&#xff1a;瑕疵的gitee主页 ⏩ 文章专栏&#xff1a;《热点资讯》 利用Docker Compose构建微服务架构 引言 Docker Compose 简介 安装 Docker Compose 创建项目结构 编写 Dockerfile 前端 Dockerf…

CPU用户时间百分比

在计算机系统中&#xff0c;"CPU用户时间百分比&#xff08;CPU User Time&#xff09;"是一个性能监控指标&#xff0c;它描述了CPU在用户模式下执行的累积时间与总的CPU时间的比例。这个指标可以帮助我们了解系统在执行用户态程序时的负载情况。下面是一些关于CPU用…

TEC半导体致冷工作原理:【图文详讲】

目录 1&#xff1a;什么是TEC 2&#xff1a;TEC工作原理 3&#xff1a;TEC结构 4&#xff1a;TEC技术参数 5&#xff1a;TEC选型 6&#xff1a;实物TEC 7&#xff1a;手机散热器 1&#xff1a;什么是TEC TEC半导体致冷器&#xff08;Thermo Electric Cooler&#xff09…

排序 (插入/选择排序)

目录 一 . 排序概念及运用 1.1 排序的概念 1.2 排序的应用 1.3 常见的排序算法 二 . 插入排序 2.1 直接插入排序 2.1 复杂度分析 2.3 希尔排序 2.4 希尔排序时间复杂度分析 三 . 选择排序 3.1 直接选择排序 3.2 堆排序 一 . 排序概念及运用 1.1 排序的概念 排序 : 所…

由 GPT 引发的这波「大模型热」将会如何洗牌?

大模型,是风口还是陷阱?正如零一万物CEO李开复所言,模型落地是关键,性能、基础设施、应用缺一不可。这场由GPT引发的“大模型热”,正上演着一场残酷的洗牌游戏,淘汰赛早就开始了! 我个人认为由GPT引发的这波AI热潮,最终的胜负将取决于:市场竞争格局中头部企业与中小企…

WPF+MVVM案例实战(十七)- 自定义字体图标按钮的封装与实现(ABC类)

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 1、案例效果1、按钮分类2、ABC类按钮实现1、文件创建2、字体图标资源3、自定义依赖属性4、按钮特效样式实现 3、按钮案例演示1、页面实现与文件创建2、依赖注入3 运…