爬虫案例5——爬取东方财富网的港股数据

news2025/1/17 5:58:41

简介:个人学习分享,如有错误,欢迎批评指正

任务从东方财富网中爬取港股的代码,名称,最近价格,涨跌幅,今开,最高等数据

目标网页地址:https://data.eastmoney.com/bbsj/yjbb/603112.htmll

一、思路和过程

目标网页具体内容如下图:
​​​​
图1

我们的任务是将上图中港股的代码,名称,最近价格,涨跌幅,今开,最高等数据爬取下来。

1.URL和User-Agent的确定

1.1. URL确定
在这里插入图片描述

东方财富网具有一定的反爬程序,具体分析如下:
如上图,当我们切换上图框2中的页码时,上图框2里面url地址并没有变化,也就是说上图框1的URL地址作为我们的目标URL时,将得不到我们想要的图中间部分内容(代码,名称,最近价格等信息)。

怎么解决:
在这里插入图片描述
如上图,鼠标右键选择检查,进入源代码操作页面,点击框2的元素,然后点击右边的框3的三个点,选择框4的搜索,在框5中搜索框1的股票代码,框6为搜索的结果。

在这里插入图片描述

如上图,点击刚才的搜索结果框1,上面源代码部分会对框1的内容进行一个格式化展示,可以看到刚才搜索的股票代码在框2中有了一个呈现,在框2旁边的空白处点击鼠标右键,复制框3的链接地址,该地址就是包含我们想要的股票信息的正确URL地址

1.2.User-Agent确定
由于网页普遍具有反爬程序,不加修饰的直接访问网页可能会失败,所以第一步学会伪装自己。
如何伪装自己呢,可以通过找到正常访问网页时的访问状态,将自己的这次爬虫模拟成一次正常访问网页,因此我们的目标是找到正常访问网页时的User-Agent。User Agent中文名为用户代理,(简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等)。User-Agent就是你访问网页的身份证明。具体操作如下:

如下图,首先打开目标(或任意)网页,然后点击鼠标右键后选择检查打开网页的HTML 页面。
在这里插入图片描述

如下图,在HTML 页面里面依次点击网络,然后任意点一条网络请求(如果没有显示任何网络请求可以点击网页左上角的刷新),然后选择标头,下拉列表找到User-Agent,User-Agent后面那段内容就是我们用来伪装自己的身份码。

在这里插入图片描述

2.发送GET请求获取网页内容

通过上面的步骤我们获得了
url = ‘https://34.push2.eastmoney.com/api/qt/clist/get?cb=jQuery112406894991919602407_1720001154034&pn=1&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&dect=1&wbp2u=|0|0|0|web&fid=f3&fs=m:128+t:3,m:128+t:4,m:128+t:1,m:128+t:2&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f19,f20,f21,f23,f24,f25,f26,f22,f33,f11,f62,f128,f136,f115,f152&_=1720001154170’

User-Agent:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0’

接下来发起网页访问请求,代码如下:

import requests  # 引入requests库,用于发送HTTP请求
import jsonpath  # 引入jsonpath库,用于解析JSON数据
import json  # 引入json库,用于处理JSON数据
import re  # 引入re库,用于使用正则表达式
import math  # 引入math库,用于数学计算
import csv  # 引入csv库,用于CSV文件读写

# 定义目标URL,获取股票数据的API接口地址
url = 'https://34.push2.eastmoney.com/api/qt/clist/get?cb=jQuery112406894991919602407_1720001154034&pn=1&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&dect=1&wbp2u=|0|0|0|web&fid=f3&fs=m:128+t:3,m:128+t:4,m:128+t:1,m:128+t:2&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f19,f20,f21,f23,f24,f25,f26,f22,f33,f11,f62,f128,f136,f115,f152&_=1720001154170'

# 定义HTTP请求头,其中包括User-Agent信息,用于伪装成浏览器进行访问
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 Firefox/2.0.0 Opera 9.50'
}

# 发送GET请求获取网页内容,并将响应内容解码为字符串格式
data = requests.get(url, headers=headers).content.decode()
print(data)

下图查看print结果,我们发现成功获得了网页相关的html表达,

在这里插入图片描述

3.分析网页内容

接下来对html进行解析获得我们目标内容。
这里,我们需要借助工具json.cn来辅助内容解析,

找到目标内容方法
首先,对刚才得到的结果,使用正则表达式从响应内容中提取出JSON数据,红框为解析后的数据。

# 使用正则表达式从响应内容中提取出JSON数据,'{"rc":.*}]}}'表示匹配以{"rc":开头,后面跟着任意字符,再后面跟着"}]"的字符串
json_data = re.findall('{"rc":.*}]}}', data)[0]
print(json_data)  # 打印提取出的JSON数据,检查内容是否正确

在这里插入图片描述

明确目标内容的位置。将上一步得到的JSON数据复制到json.cn中进行格式化

在这里插入图片描述

通过json.cn的可视化,我们可以清晰的看到f1、f2、f3等序号,而与之对应的则是我们需要的港股的代码,名称,最近价格,涨跌幅,今开等数据。

但是,我们发现上面只能取到单页的内容,而如下图整个网页有很多页。
在这里插入图片描述

对于上述问题,我们通过对比不同页面提取的URL,发现url地址不同的页码的url仅仅换了"pn="后面的数字,数字即对应页码。
在这里插入图片描述
首先,获取总页数,总页数在刚才获取的json格式结果中有,因此使用如下代码获取:

# 使用jsonpath从JSON数据中提取出总记录数,$..total表示从根节点开始,取出total字段的值
total = jsonpath.jsonpath(json_data, '$..total')[0]
print(json_data)  # 打印JSON数据,检查内容
print(total)  # 打印总记录数

# 计算总页数,每页20条数据
page = math.ceil(total / 20)
print(page)  # 打印总页数

其次,进一步添加一个for循环来取得所有页的url地址,代码如下:

   for i in range(1, page + 1):
        # 构建每一页的URL
        new_url = 'https://34.push2.eastmoney.com/api/qt/clist/get?cb=jQuery112406894991919602407_1720001154034&pn={}&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&dect=1&wbp2u=|0|0|0|web&fid=f3&fs=m:128+t:3,m:128+t:4,m:128+t:1,m:128+t:2&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f19,f20,f21,f23,f24,f25,f26,f22,f33,f11,f62,f128,f136,f115,f152&_=1720001154170'.format(i)

        # 发送GET请求获取当前页码的网页内容,并将响应内容解码为字符串格式
        data = requests.get(new_url, headers=headers).content.decode()
        j += 1  # 更新页数计数器
        print('第{}页已保存'.format(j))  # 打印当前页数已保存

4.获取目标数据

上一步得到了目标数据的地址,接下来就是分别获得到目标数据,代码如下:

 # 使用正则表达式从响应内容中提取出JSON数据
        new_json_data = re.findall('{"rc":.*}]}}', data)[0]

        # 将JSON数据字符串转换为Python字典对象
        json_data = json.loads(new_json_data)

        # 依次使用jsonpath从JSON数据中提取出代码、名称、最新价、涨跌幅、今开、最高、最低、昨收、成交量、成交额等数据
        code = jsonpath.jsonpath(json_data, '$..f12')  # 代码
        name = jsonpath.jsonpath(json_data, '$..f14')  # 名称
        new_price = jsonpath.jsonpath(json_data, '$..f2')  # 最新价
        up_and_down = jsonpath.jsonpath(json_data, '$..f4')  # 涨跌幅
        today = jsonpath.jsonpath(json_data, '$..f17')  # 今开
        highest = jsonpath.jsonpath(json_data, '$..f15')  # 最高
        minimum = jsonpath.jsonpath(json_data, '$..f16')  # 最低
        yesterday = jsonpath.jsonpath(json_data, '$..f18')  # 昨收
        volume = jsonpath.jsonpath(json_data, '$..f5')  # 成交量(股)
        turnover = jsonpath.jsonpath(json_data, '$..f6')  # 成交额(港元)

5.保存数据

首先创建一个csv文件。


with open('港股.csv', 'a+', newline='', encoding='utf-8-sig') as f:
    writer = csv.writer(f)
    # 写入CSV文件的表头
    writer.writerow(['代码', '名称', '最新价', '涨跌幅', '今开', '最高', '最低', '昨收', '成交量(股)', '成交额(港元)'])
    j = 0  # 初始化页数计数器

其次,对得到的数据进行清洗和写入csv文件

# 数据清洗和写入CSV文件
for i, code in enumerate(code):
     try:
         # 检查数据是否为空(即8个字段是否都为'-')
         res = new_price[i] + up_and_down[i] + today[i] + highest[i] + minimum[i] + yesterday[i] + volume[i] + \
               turnover[i]
         if res == '-' * 8:
             continue  # 如果数据为空,则跳过该条记录

         # 将提取到的数据写入CSV文件
         writer.writerow(
             [code, name[i], new_price[i], up_and_down[i], today[i], highest[i], minimum[i], yesterday[i],
              volume[i], turnover[i]])
     except:
         continue  # 如果发生异常,跳过该条记录

二、完整python代码

import requests  # 引入requests库,用于发送HTTP请求
import jsonpath  # 引入jsonpath库,用于解析JSON数据
import json  # 引入json库,用于处理JSON数据
import re  # 引入re库,用于使用正则表达式
import math  # 引入math库,用于数学计算
import csv  # 引入csv库,用于CSV文件读写

# 定义目标URL,获取股票数据的API接口地址
url = 'https://34.push2.eastmoney.com/api/qt/clist/get?cb=jQuery112406894991919602407_1720001154034&pn=1&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&dect=1&wbp2u=|0|0|0|web&fid=f3&fs=m:128+t:3,m:128+t:4,m:128+t:1,m:128+t:2&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f19,f20,f21,f23,f24,f25,f26,f22,f33,f11,f62,f128,f136,f115,f152&_=1720001154170'

# 定义HTTP请求头,其中包括User-Agent信息,用于伪装成浏览器进行访问
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 Firefox/2.0.0 Opera 9.50'
}

# 发送GET请求获取网页内容,并将响应内容解码为字符串格式
data = requests.get(url, headers=headers).content.decode()
print(data)
# 使用正则表达式从响应内容中提取出JSON数据,'{"rc":.*}]}}'表示匹配以{"rc":开头,后面跟着任意字符,再后面跟着"}]"的字符串
json_data = re.findall('{"rc":.*}]}}', data)[0]
print(json_data)  # 打印提取出的JSON数据,检查内容是否正确

# 将JSON数据字符串转换为Python字典对象
json_data = json.loads(json_data)

# 使用jsonpath从JSON数据中提取出总记录数,$..total表示从根节点开始,取出total字段的值
total = jsonpath.jsonpath(json_data, '$..total')[0]
print(json_data)  # 打印JSON数据,检查内容
print(total)  # 打印总记录数

# 计算总页数,每页20条数据
page = math.ceil(total / 20)
print(page)  # 打印总页数

# 打开一个CSV文件,准备写入数据。 a+
with open('港股.csv', 'a+', newline='', encoding='utf-8-sig') as f:
    writer = csv.writer(f)
    # 写入CSV文件的表头
    writer.writerow(['代码', '名称', '最新价', '涨跌幅', '今开', '最高', '最低', '昨收', '成交量(股)', '成交额(港元)'])
    j = 0  # 初始化页数计数器

    # 遍历所有页码
    for i in range(1, page + 1):
        # 构建每一页的URL
        new_url = 'https://34.push2.eastmoney.com/api/qt/clist/get?cb=jQuery112406894991919602407_1720001154034&pn={}&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&dect=1&wbp2u=|0|0|0|web&fid=f3&fs=m:128+t:3,m:128+t:4,m:128+t:1,m:128+t:2&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f19,f20,f21,f23,f24,f25,f26,f22,f33,f11,f62,f128,f136,f115,f152&_=1720001154170'.format(
            i)

        # 发送GET请求获取当前页码的网页内容,并将响应内容解码为字符串格式
        data = requests.get(new_url, headers=headers).content.decode()
        j += 1  # 更新页数计数器
        print('第{}页已保存'.format(j))  # 打印当前页数已保存

        # 使用正则表达式从响应内容中提取出JSON数据
        new_json_data = re.findall('{"rc":.*}]}}', data)[0]

        # 将JSON数据字符串转换为Python字典对象
        json_data = json.loads(new_json_data)

        # 依次使用jsonpath从JSON数据中提取出代码、名称、最新价、涨跌幅、今开、最高、最低、昨收、成交量、成交额等数据
        code = jsonpath.jsonpath(json_data, '$..f12')  # 代码
        name = jsonpath.jsonpath(json_data, '$..f14')  # 名称
        new_price = jsonpath.jsonpath(json_data, '$..f2')  # 最新价
        up_and_down = jsonpath.jsonpath(json_data, '$..f4')  # 涨跌幅
        today = jsonpath.jsonpath(json_data, '$..f17')  # 今开
        highest = jsonpath.jsonpath(json_data, '$..f15')  # 最高
        minimum = jsonpath.jsonpath(json_data, '$..f16')  # 最低
        yesterday = jsonpath.jsonpath(json_data, '$..f18')  # 昨收
        volume = jsonpath.jsonpath(json_data, '$..f5')  # 成交量(股)
        turnover = jsonpath.jsonpath(json_data, '$..f6')  # 成交额(港元)

        # 数据清洗和写入CSV文件
        for i, code in enumerate(code):
            try:
                # 检查数据是否为空(即8个字段是否都为'-')
                res = new_price[i] + up_and_down[i] + today[i] + highest[i] + minimum[i] + yesterday[i] + volume[i] + \
                      turnover[i]
                if res == '-' * 8:
                    continue  # 如果数据为空,则跳过该条记录

                # 将提取到的数据写入CSV文件
                writer.writerow(
                    [code, name[i], new_price[i], up_and_down[i], today[i], highest[i], minimum[i], yesterday[i],
                     volume[i], turnover[i]])
            except:
                continue  # 如果发生异常,跳过该条记录

结~~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2062320.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

科技大厂对AI的垄断

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

探索HTML中的“iframe”标签——WEB开发系列12

现代网页开发中&#xff0c;​​<iframe>​​ 标签是一个非常重要的工具。允许我们在一个网页中嵌入另一个网页&#xff0c;对于展示外部内容、应用嵌套或实现复杂的布局设计都非常有用。来一起探讨如何使用 ​​iframe​​ 标签&#xff0c;包括设置高度和宽度、移除边框…

记录 升级到Gradle 8.4.2 遇到的坑

序言 最近将Gradle从4.0.1 升级到 8.4.2 遇到了很多坑&#xff0c;记录下来帮助有缘人 升级gradle 修改根目录的build.gradle dependencies {classpath com.android.tools.build:gradle:8.4.2classpath org.jetbrains.kotlin:kotlin-gradle-plugin:1.9.0}修改gradle-wrapper.…

【html+css 绚丽Loading】000011 三元轮回珠

前言&#xff1a;哈喽&#xff0c;大家好&#xff0c;今天给大家分享htmlcss 绚丽Loading&#xff01;并提供具体代码帮助大家深入理解&#xff0c;彻底掌握&#xff01;创作不易&#xff0c;如果能帮助到大家或者给大家一些灵感和启发&#xff0c;欢迎收藏关注哦 &#x1f495…

【TS】函数重载的作用

前言 当调用一个函数时&#xff0c;通常会提示有多种调用方式&#xff0c;各种调用方式的参数类型、参数数量、返回值等均可能不同。本文通过自己封装的message作为案例模拟一下。 实现 自己封装的message组件&#xff0c;有以下7种调用方式 message({mode: "mode"…

QT-计算器

QT-计算器 一、演示效果二、关键程序三、下载链接 一、演示效果 二、关键程序 #include "mainwindow.h" #include "ui_mainwindow.h" #include <QDebug>MainWindow::MainWindow(QWidget *parent): QMainWindow(parent), ui(new Ui::MainWindow) {ui…

分布式事务:基本概念

文章目录 一、基础概念1、什么是事务2、本地事务3 、分布式事务4、分布式事务产生的场景 二、分布式事务基础理论1、CAP理论&#xff08;1&#xff09;理解CAP&#xff08;2&#xff09;CAP组合方式&#xff08;3&#xff09;总结 2、BASE理论 三、分布式事务解决方案之2PC&…

【Java日志系列】Logback日志框架

目录 前言 一、Logback简介 二、Logback组件 三、快速入门 四、配置文件的使用 1. 配置文件中的标签 1.1 logger标签 1.2 root标签 1.3 appender标签 1.4 filter标签 1.5 encoder标签 1.6 property标签 2. 常见的Appender 2.1 ConsoleAppender 2.2 FileAppender…

瓜子二手车源码开发

瓜子二手车作为国内知名的二手车交易平台&#xff0c;其开发需求与功能架构主要围绕提升用户体验、保障交易安全、优化交易流程以及提供全面服务等方面展开。以下是对瓜子二手车开发需求与功能架构的详细分析 一、开发需求 用户需求&#xff1a; 便捷性&#xff1a;用户希望能…

ReTagList标签列表(API)

组件实现基于 Vue3 + Element Plus + Typescript,同时引用 vueUse + lodash-es + tailwindCss (不影响功能,可忽略) 基于ElTag实现的Tag列表,支持Tag列表多选,动态Tag列表 ReTagList标签列表 基础 简单展示Tag列表,可通过size指定尺寸 查看 /demo/tag-list/basic.md …

叉车门口拐角盲区防撞系统,精准微波距离测距,助力企业安全生产

叉车流动性强、作业场所不固定&#xff0c;是特种设备管理的薄弱环节。如何管住叉车、管好叉车&#xff0c;保障作业人员安全一直都是重点话题&#xff0c;引入智慧叉车&#xff0c;使用智能化监管&#xff0c;很多城市相继开展智慧叉车试点工作&#xff0c;给叉车装上“智慧大…

机械学习—零基础学习日志(如何理解概率论4)

当已知一个概率&#xff0c;求解另外一个函数的概率。以下是离散型的概率计算方法。 这里是连续型的&#xff0c;已知概念密度&#xff0c;计算对应的另外一个函数的概率。 这里需要求解对应的原始函数。 这里我们做一道练习题。 《概率论与数理统计期末不挂科|考研零基础入门…

精选这五款热门好用的骨传导耳机,帮你避免踩坑的麻烦!

相信大家都已经深有体会&#xff0c;拿那种常规的入耳式无线蓝牙耳机来做运动耳机&#xff0c;很难满足运动需要。如果选择前两年流行的颈挂式无线运动蓝牙耳机&#xff0c;虽然简单轻巧&#xff0c;但也是入耳式设计&#xff0c;长时间佩戴耳朵不舒服。这样看来&#xff0c;运…

科普篇 | 如何查找参考基因组信息

前 言 很多老师会发现&#xff0c;高通量测序后需要生信分析的过程中&#xff0c;需要填写一个信息分析表。而信息分析表中有一个对生信分析很重要的信息——基因组文件及注释文件。通常这类文件我们都是需要老师提供对应的下载链接&#xff0c;以便于生信直接利用这个链接去…

Git介绍及配置

目录 Git GitHub GitLab Gitee 配置Git 安装git 初次运行 Git 前的配置 注册一个代码托管平台 用户信息 获取 Git 仓库 初始化仓库 克隆现有的仓库 https方式&#xff1a; ssh方式&#xff1a; 上传本地项目至Git仓库 https方式 ssh-key方式 添加个人公钥​ …

【python】PyQt5中的QFrame控件,控制图形的边框样式、阴影效果、形状等属性

✨✨ 欢迎大家来到景天科技苑✨✨ &#x1f388;&#x1f388; 养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; &#x1f3c6; 作者简介&#xff1a;景天科技苑 &#x1f3c6;《头衔》&#xff1a;大厂架构师&#xff0c;华为云开发者社区专家博主&#xff0c;…

【Redis】Redis 底层的数据结构(结合源码)

众所周知&#xff0c;Redis 是一个高性能的开源内存数据库&#xff0c;支持多种数据结构&#xff08;如字符串、哈希、列表和集合&#xff09;&#xff0c;提供持久化选项以确保数据安全&#xff0c;并具备高可用性和分布式功能。 下面我们就来了解一下其底层所使用到的数据结…

包装类和简单泛型

一、包装类 在Java中&#xff0c;由于基本类型不是继承自Object&#xff0c;为了在泛型代码中可以支持基本类型&#xff0c;Java给每个基本类型都对应了一个包装类型。 1.1 基本数据类型和对应的包装类 注意&#xff1a;除了 Integer 和 Character&#xff0c; 其余基本类型的…

微信怎么恢复好友?找回失联好友,5个有效方法奉上!

微信&#xff0c;这个我们日常沟通不可或缺的工具&#xff0c;但有时会因为一些小疏忽&#xff0c;让我们不小心与好友失去了联系。可能是误删了好友&#xff0c;也可能是换了手机没来得及备份&#xff0c;导致那些熟悉的面孔从列表中消失。 那么&#xff0c;微信怎么恢复好友…

软件设计师全套备考系列文章9 -- 算法设计与分析

软考-- 软件设计师&#xff08;9&#xff09;-- 算法设计与分析 文章目录 软考-- 软件设计师&#xff08;9&#xff09;-- 算法设计与分析前言一、章节考点二、分治法三、回溯法四、贪心法五、动态规划法 前言 考试时间&#xff1a;每年5月、11月&#xff0c;软件设计师每年都…