Python爬虫实战(进阶篇)—7获取每日菜价(附完整代码)

news2024/11/27 18:48:06

文章目录

  • 专栏导读
  • 背景
  • 前期准备
    • 1、网址:
    • 2、分析:
  • 请求url、请求方法、请求参数
  • 测试一个
  • 完整代码+写入Excel
  • 视频展示
  • 不足:
  • 结尾

专栏导读

🔥🔥本文已收录于《Python基础篇爬虫》

🉑🉑本专栏专门针对于有爬虫基础准备的一套基础教学,轻松掌握Python爬虫,欢迎各位同学订阅,专栏订阅地址:点我直达

🤞🤞此外如果您已工作,如需利用Python解决办公中常见的问题,欢迎订阅《Python办公自动化》专栏,订阅地址:点我直达

🔺🔺此外《Python30天从入门到熟练》专栏已上线,欢迎大家订阅,订阅地址:点我直达

背景

  • 由于我是一个蔬菜个体户,那么我想每天查询一下每日蔬菜的价格趋势相关信息,我们可以通过Python爬虫进而获取每日的蔬菜价格信息

PS:这是我们的第七节课,之前的课,欢迎大家查阅啊

在这里插入图片描述

前期准备

1、网址:

  • 蔬菜价格网—点我直达

2、分析:

  • 我们发现蔬菜的第一个是【大蒜报价】

  • 最后一个是【空心菜报价】

在这里插入图片描述在这里插入图片描述

右击检查网页发现每一种蔬菜都有一个编号,如【大蒜】的编号是【JO_111924】

以此类推 [生姜】的编号是【JO_111925】

以此类推 [土豆】的编号是【JO_111926】
。。。。

最后一个 [空心菜】的编号是【JO_120097】

在这里插入图片描述

请求url、请求方法、请求参数

  • 🚩请求URL :https://api.jijinhao.com/history/quotejs.htm?codes=JO_120097&pageSize=7&style=3&_=1700121561588

  • 修改后:https://api.jijinhao.com/history/quotejs.htm?codes=JO_{蔬菜编号}&pageSize=7&style=3&_=1700121561588

  • 🚩请求方法:get()

  • 经测试,headers,记得加上【User-Agent】、【Host】、【Referer】

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
'Host': 'api.jijinhao.com',
'Referer': 'https://jiage.cngold.org/shucai/',
}
  • 🚩请求参数:

params = {
'codes': 'J蔬菜编号',
'pageSize': 7,
'style': 3,
'_': int(time.time())
}

测试一个

  • 我们发现,【quote】中的
    【q67】是商品名称
    【q63】是今日价格
    【q70】是与昨日差价
    【q59】是今日日期

  • 在这里插入图片描述

由于这里的返回的json字符串,不太好直接用json.loads(),加载成字典,我们可以将【var quot_str 】中的var去除(replace替换掉),再利用【exec()】将【quot_str】直接变为一个python变量

🚩重要知识点:使用上面【exec()】方法,quot_str这个变量会报错,不过没关系,依旧可以运行!!

🚩重要知识点:使用上面【exec()】方法,quot_str这个变量会报错,不过没关系,依旧可以运行!!

🚩重要知识点:使用上面【exec()】方法,quot_str这个变量会报错,不过没关系,依旧可以运行!!

代码

import time
import requests

url = 'http://api.jijinhao.com/history/quotejs.htm?'

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
'Host': 'api.jijinhao.com',
'Referer': 'https://jiage.cngold.org/shucai/',
}

params = {
'codes': 'JO_111924',
'pageSize': '7',
'style': '3',
'_': str(int(time.time()))
}

res_data = requests.get(url=url,headers=headers,params=params)
# print(res_data.text)

res_dict = exec(res_data.text.replace("var",'').strip())
res = quot_str[0]['data'][0]['quote']
# print(res)
print(f"报价:{res['q67']}\n日期:{res['q59']}——价格:{res['q63']}\n较昨日:{res['q70']}")

输出

报价:大蒜报价
日期:2023-11-16 00:00:00——价格:10.3100
较昨日:0.0200

完整代码+写入Excel

  • 那么我们利用for 循环 将【大蒜】的编号是【JO_111924】到 [空心菜】的编号是【JO_120097】直接循环出来:

  • 这里的编号还是有点问题,不过基本上已经可以跑出来了!

# -*- coding: UTF-8 -*-
'''
@Project :测试
@File    :main.py
@IDE     :PyCharm
@Author  :一晌小贪欢
@Date    :2023/11/16 16:01
'''

import time

import openpyxl
import requests

wb = openpyxl.Workbook()
ws = wb.active
ws.append(["报价",'日期','价格','较昨日'])


url = 'http://api.jijinhao.com/history/quotejs.htm?'

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
'Host': 'api.jijinhao.com',
'Referer': 'https://jiage.cngold.org/shucai/',
}

for i in range(111924,111974):
    params = {
    'codes': f'JO_{i}',
    'pageSize': '7',
    'style': '3',
    '_': str(int(time.time()))
    }

    res_data = requests.get(url=url,headers=headers,params=params)
    # print(res_data.text)

    res_dict = exec(res_data.text.replace("var",'').strip())
    try:
        res = quot_str[0]['data'][0]['quote'] # 这一行会报错,不过是对的,没关系
    except:
        pass
    # print(res)
    print(f"报价:{res['q67']}\n日期:{res['q59']}——价格:{res['q63']}\n较昨日:{res['q70']}")
    ws.append([res['q67'],res['q59'],res['q63'],res['q70']])


wb.save("./结果.xlsx")

视频展示

在这里插入图片描述

不足:

  • 这里的编号还是有点问题,大家可以课后自行在认真探索一番!

结尾

希望对大家有帮助

我最近在努力学习爬虫,大家共同进步!!

都看到这了,关注+点赞+收藏=不迷路!!

希望大家多多订阅,多多关注点赞

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1216483.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IaaS、PaaS、SaaS 的区别

文章1:软件系统的分类 文章2:有哪些通俗易懂的例子可以解释 IaaS、PaaS、SaaS 的区别?——原文 写的很好的两篇文章值得一看 你一定听说过云计算中的三个“高大上”的你一定听说过云计算中的三个“高大上”的概念:IaaS、PaaS和…

【Java 进阶篇】JQuery 案例:qq表情选择,表达情感的小黄脸

在我们的数字交流时代,表情符号已成为表达情感的重要方式之一。为了丰富用户的输入体验,qq表情选择功能应运而生。通过巧妙运用 JQuery,我们可以在页面中实现一个生动活泼的表情选择框,让用户轻松表达各种情感。本篇博客将深入探讨…

使用量子玻尔兹曼机推进机器学习:新范式

一、说明 量子玻尔兹曼机(QBM)是量子物理学和机器学习的前沿融合。通过利用叠加和纠缠等量子特性的力量,QBM 可以同时探索多个解决方案,使其异常擅长解决复杂问题。它使用量子位(量子计算的构建模块)以传统…

所有社区工作者!能救一个是一个

救命啊,这东西我怎么早不知道呢! 社区人到年底了各种要写的东西很烦啊!突然看到这个,真的救我大命了啊! 谁懂啊?!!平时写个东西起码两三天,试了一下这东西!…

阅读记录 The Aggregation–Heterogeneity Trade-off in Federated Learning

The Aggregation–Heterogeneity Trade-off in Federated Learning Abstract 机器学习的传统观点认为,训练模型的数据越多,模型的性能就越好。因此,人们开发了多种联邦学习方法来聚合尽可能多的本地样本。与这种观点相反,本文表…

营收连续上涨,一脉阳光能否打造“医学影像独角兽”?

自2018年完成B轮融资的一脉阳光,时隔四年,于今年11月13日向港交所发起冲刺。作为国内唯一一家为整个医学影像产业链提供多元化服务的医学影像平台运营商及管理者,一脉阳光受到多家投资机构的青睐,高盛、新浚资本多次追加投资。 此…

网络和Linux网络_2(套接字编程)socket+UDP网络通信代码

目录 1. 预备知识 1.1 源IP地址和目的IP地址 1.2 端口号port和套接字socket 1.3 网络通信的本质 1.4 TCP和UDP协议 1.5 网络字节序 2. socket套接字 2.1 socket创建套接字 2.2 bind绑定 2.3 sockaddr结构体 3. UDP网络编程 3.1 server的初始化服务器 3.2 server的…

使用阿里云Logstash,从自建es6.2.4迁移数据至云ES7.10测试

一、购买阿里云Logstash服务 4C16G 40G 高效云盘 二、配置管道 2.1 配置启动管道前置工作 logstash要通源端ES网络及http端口,且加白logstash要通目标端ES网络及http端口,且加白目标端ES加配置自动创建索引配置管道前先安装 logstash-output-file_extend插件目标云ES7.10要…

Java 等后端应用如何获取客户端真实IP —— 筑梦之路

需求说明 现有一套Java开发的应用,需要能获取到用户访问的真实IP地址,以此来过滤到一些不安全的因素。而实际部署的场景中Java服务提供给用户访问需要经过多次代理,默认情况下是无法获取到客户端真实IP地址的,因此要实现该需求&a…

如何实现SSL证书自动部署、自动续费、自动更新?看这里~

SSL证书默认有效期默认为1年,部分免费证书的默认有效期为3个月。您必须在证书到期前的30个自然日内续费并更新证书,才能延长证书的服务时长。证书续费时, 会颁发一个新的证书,您收到新证书后需要手工更新到服务器上。部分证书支持…

乡村电商人才齐聚浙江建德,这场农播氛围值已拉满!

“3、2、1,上链接!” “现场营造了很好的交流氛围,碰撞出了不少合作机会。” “农播让我们有机会为家乡农产品代言,并且通过电商平台,把优质农特产品卖到全国各地。” “就像是一个演员需要一个舞台,一个好产品也需…

[Linux] yum仓库相关

一、yum仓库 1.1 yum简介 yum 是一种基于 RPM 软件包(Red-Hat Package Manager 的缩写)的软件更新机制,可自动解决软件包之间的依赖关系。这就解决了日常工作中花费大量时间寻找安装包的问题。 为什么会出现依赖 linux 本身就有简化系统的优…

华为鸿蒙开发记录

错误 1No module found. Make sure the project sync is completed successfully and the module is set in Edit Configuration > General 应该是项目建立的是Api是9 ,但是 华为远程模拟器是应该建立的是 8的,导致 版本过低。从新建立项目选择APi8就…

前端学习笔记--React

1. 什么是React? React 是一个用于构建用户界面的JavaScript库核心专注于视图,目的实现组件化开发我们可以很直观的将一个复杂的页面分割成若干个独立组件,每个组件包含自己的逻辑和样式 再将这些独立组件组合完成一个复杂的页面。 这样既减少了逻辑复杂度,又实现…

基于vue 2.0的H5页面中使用H5自带的定位,高德地图定位,搜索周边商户,覆盖物标记,定位到当前城市

基于vue的H5页面中使用高德地图定位&#xff0c;搜索周边商户&#xff0c;覆盖物标记 首先安装高德地图插件 npm i amap/amap-jsapi-loader --save地图承载容器 <template><div id"container"></div> </template>地图容器样式 <style…

《QT从基础到进阶·三十四》qobject_cast动态强制转换

qobject_cast()对QObject类执行动态强制转换。 qobject_cast()函数的行为类似于标准c dynamic_cast()&#xff0c;但执行速度比dynamic_cast 更快&#xff0c;且不需要C的RTTI 的支持&#xff0c;但qobject_cast 仅适用于QObject 及其派生类。 如果对象的类型正确(在运行时确定…

Git客户端(TortoiseGit)使用

参考文章&#xff1a; https://www.cnblogs.com/xuwenjin/p/8573603.html 【精选】使用TortoiseGit工具进行开发&#xff08;连接远程仓库进行克隆、拉取、获取、提交、推送、新建/切换/合并分支、解决冲突&#xff09;_tortoisegit连接远程仓库-CSDN博客 tortoise git 拉取…

网络运维Day18

文章目录 环境准备导入数据确认表导入成功练习用表解析表格结构设计 查询语句进阶什么是MySQL函数常用功能函数数学计算流程控制函数查询结果处理 连接查询(联表查询)表关系什么是连接查询连接查询分类笛卡尔积内连接(INNER)外连接 子查询什么是子查询子查询出现的位置子查询练…

Element UI 偶发性图标乱码问题

1. 问题如图所示 2. 原因&#xff1a;sass版本低 sass: 1.26.8 sass-loader: 8.0.2 3. 解决方法 (1) 提高sass版本 (2) 在vue.config.js中添加配置 css: {loaderOptions: {sass: {sassOptions: {outputStyle: expanded}}}},4. 遇到的问题 升级后打包&#xff0c;报错 Syntax…

自动化网络图软件

由于 IT 系统的发展、最近向混合劳动力的转变、不断变化的客户需求以及其他原因&#xff0c;网络监控变得更加复杂。IT 管理员需要毫不费力地可视化整个网络基础设施&#xff0c;通过获得对网络的可见性&#xff0c;可以轻松发现模式、主动排除故障、确保关键设备可用性等。 为…