爬虫案例5——爬取东方财富网的港股数据

简介：个人学习分享，如有错误，欢迎批评指正

任务：从东方财富网中爬取港股的代码，名称，最近价格，涨跌幅，今开，最高等数据

目标网页地址：https://data.eastmoney.com/bbsj/yjbb/603112.htmll

一、思路和过程

目标网页具体内容如下图：

我们的任务是将上图中港股的代码，名称，最近价格，涨跌幅，今开，最高等数据爬取下来。

1.URL和User-Agent的确定

1.1. URL确定
在这里插入图片描述

东方财富网具有一定的反爬程序，具体分析如下：
如上图，当我们切换上图框2中的页码时，上图框2里面url地址并没有变化，也就是说上图框1的URL地址作为我们的目标URL时，将得不到我们想要的图中间部分内容（代码，名称，最近价格等信息）。

怎么解决：
在这里插入图片描述
如上图，鼠标右键选择检查，进入源代码操作页面，点击框2的元素，然后点击右边的框3的三个点，选择框4的搜索，在框5中搜索框1的股票代码，框6为搜索的结果。

在这里插入图片描述

如上图，点击刚才的搜索结果框1，上面源代码部分会对框1的内容进行一个格式化展示，可以看到刚才搜索的股票代码在框2中有了一个呈现，在框2旁边的空白处点击鼠标右键，复制框3的链接地址，该地址就是包含我们想要的股票信息的正确URL地址。

1.2.User-Agent确定
由于网页普遍具有反爬程序，不加修饰的直接访问网页可能会失败，所以第一步学会伪装自己。
如何伪装自己呢，可以通过找到正常访问网页时的访问状态，将自己的这次爬虫模拟成一次正常访问网页，因此我们的目标是找到正常访问网页时的User-Agent。User Agent中文名为用户代理，(简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等)。User-Agent就是你访问网页的身份证明。具体操作如下：

如下图，首先打开目标（或任意）网页，然后点击鼠标右键后选择检查打开网页的HTML 页面。
在这里插入图片描述

如下图，在HTML 页面里面依次点击网络，然后任意点一条网络请求（如果没有显示任何网络请求可以点击网页左上角的刷新），然后选择标头，下拉列表找到User-Agent，User-Agent后面那段内容就是我们用来伪装自己的身份码。

在这里插入图片描述

2.发送GET请求获取网页内容

通过上面的步骤我们获得了
url = ‘https://34.push2.eastmoney.com/api/qt/clist/get?cb=jQuery112406894991919602407_1720001154034&pn=1&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&dect=1&wbp2u=|0|0|0|web&fid=f3&fs=m:128+t:3,m:128+t:4,m:128+t:1,m:128+t:2&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f19,f20,f21,f23,f24,f25,f26,f22,f33,f11,f62,f128,f136,f115,f152&_=1720001154170’

User-Agent:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0’

接下来发起网页访问请求，代码如下：

import requests  # 引入requests库，用于发送HTTP请求
import jsonpath  # 引入jsonpath库，用于解析JSON数据
import json  # 引入json库，用于处理JSON数据
import re  # 引入re库，用于使用正则表达式
import math  # 引入math库，用于数学计算
import csv  # 引入csv库，用于CSV文件读写

# 定义目标URL，获取股票数据的API接口地址
url = 'https://34.push2.eastmoney.com/api/qt/clist/get?cb=jQuery112406894991919602407_1720001154034&pn=1&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&dect=1&wbp2u=|0|0|0|web&fid=f3&fs=m:128+t:3,m:128+t:4,m:128+t:1,m:128+t:2&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f19,f20,f21,f23,f24,f25,f26,f22,f33,f11,f62,f128,f136,f115,f152&_=1720001154170'

# 定义HTTP请求头，其中包括User-Agent信息，用于伪装成浏览器进行访问
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 Firefox/2.0.0 Opera 9.50'
}

# 发送GET请求获取网页内容，并将响应内容解码为字符串格式
data = requests.get(url, headers=headers).content.decode()
print(data)

下图查看print结果，我们发现成功获得了网页相关的html表达，

在这里插入图片描述

3.分析网页内容

接下来对html进行解析获得我们目标内容。
这里，我们需要借助工具json.cn来辅助内容解析，

找到目标内容方法
首先，对刚才得到的结果，使用正则表达式从响应内容中提取出JSON数据，红框为解析后的数据。

# 使用正则表达式从响应内容中提取出JSON数据，'{"rc":.*}]}}'表示匹配以{"rc":开头，后面跟着任意字符，再后面跟着"}]"的字符串
json_data = re.findall('{"rc":.*}]}}', data)[0]
print(json_data)  # 打印提取出的JSON数据，检查内容是否正确

在这里插入图片描述

明确目标内容的位置。将上一步得到的JSON数据复制到json.cn中进行格式化

在这里插入图片描述

通过json.cn的可视化，我们可以清晰的看到f1、f2、f3等序号，而与之对应的则是我们需要的港股的代码，名称，最近价格，涨跌幅，今开等数据。

但是，我们发现上面只能取到单页的内容，而如下图整个网页有很多页。
在这里插入图片描述

对于上述问题，我们通过对比不同页面提取的URL，发现url地址不同的页码的url仅仅换了"pn="后面的数字，数字即对应页码。
在这里插入图片描述
首先，获取总页数，总页数在刚才获取的json格式结果中有，因此使用如下代码获取：

# 使用jsonpath从JSON数据中提取出总记录数，$..total表示从根节点开始，取出total字段的值
total = jsonpath.jsonpath(json_data, '$..total')[0]
print(json_data)  # 打印JSON数据，检查内容
print(total)  # 打印总记录数

# 计算总页数，每页20条数据
page = math.ceil(total / 20)
print(page)  # 打印总页数

其次，进一步添加一个for循环来取得所有页的url地址，代码如下：

   for i in range(1, page + 1):
        # 构建每一页的URL
        new_url = 'https://34.push2.eastmoney.com/api/qt/clist/get?cb=jQuery112406894991919602407_1720001154034&pn={}&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&dect=1&wbp2u=|0|0|0|web&fid=f3&fs=m:128+t:3,m:128+t:4,m:128+t:1,m:128+t:2&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f19,f20,f21,f23,f24,f25,f26,f22,f33,f11,f62,f128,f136,f115,f152&_=1720001154170'.format(i)

        # 发送GET请求获取当前页码的网页内容，并将响应内容解码为字符串格式
        data = requests.get(new_url, headers=headers).content.decode()
        j += 1  # 更新页数计数器
        print('第{}页已保存'.format(j))  # 打印当前页数已保存

4.获取目标数据

上一步得到了目标数据的地址，接下来就是分别获得到目标数据，代码如下：

 # 使用正则表达式从响应内容中提取出JSON数据
        new_json_data = re.findall('{"rc":.*}]}}', data)[0]

        # 将JSON数据字符串转换为Python字典对象
        json_data = json.loads(new_json_data)

        # 依次使用jsonpath从JSON数据中提取出代码、名称、最新价、涨跌幅、今开、最高、最低、昨收、成交量、成交额等数据
        code = jsonpath.jsonpath(json_data, '$..f12')  # 代码
        name = jsonpath.jsonpath(json_data, '$..f14')  # 名称
        new_price = jsonpath.jsonpath(json_data, '$..f2')  # 最新价
        up_and_down = jsonpath.jsonpath(json_data, '$..f4')  # 涨跌幅
        today = jsonpath.jsonpath(json_data, '$..f17')  # 今开
        highest = jsonpath.jsonpath(json_data, '$..f15')  # 最高
        minimum = jsonpath.jsonpath(json_data, '$..f16')  # 最低
        yesterday = jsonpath.jsonpath(json_data, '$..f18')  # 昨收
        volume = jsonpath.jsonpath(json_data, '$..f5')  # 成交量（股）
        turnover = jsonpath.jsonpath(json_data, '$..f6')  # 成交额（港元）

5.保存数据

首先创建一个csv文件。


with open('港股.csv', 'a+', newline='', encoding='utf-8-sig') as f:
    writer = csv.writer(f)
    # 写入CSV文件的表头
    writer.writerow(['代码', '名称', '最新价', '涨跌幅', '今开', '最高', '最低', '昨收', '成交量(股)', '成交额(港元)'])
    j = 0  # 初始化页数计数器

其次，对得到的数据进行清洗和写入csv文件

# 数据清洗和写入CSV文件
for i, code in enumerate(code):
     try:
         # 检查数据是否为空（即8个字段是否都为'-'）
         res = new_price[i] + up_and_down[i] + today[i] + highest[i] + minimum[i] + yesterday[i] + volume[i] + \
               turnover[i]
         if res == '-' * 8:
             continue  # 如果数据为空，则跳过该条记录

         # 将提取到的数据写入CSV文件
         writer.writerow(
             [code, name[i], new_price[i], up_and_down[i], today[i], highest[i], minimum[i], yesterday[i],
              volume[i], turnover[i]])
     except:
         continue  # 如果发生异常，跳过该条记录

二、完整python代码

import requests  # 引入requests库，用于发送HTTP请求
import jsonpath  # 引入jsonpath库，用于解析JSON数据
import json  # 引入json库，用于处理JSON数据
import re  # 引入re库，用于使用正则表达式
import math  # 引入math库，用于数学计算
import csv  # 引入csv库，用于CSV文件读写

# 定义目标URL，获取股票数据的API接口地址
url = 'https://34.push2.eastmoney.com/api/qt/clist/get?cb=jQuery112406894991919602407_1720001154034&pn=1&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&dect=1&wbp2u=|0|0|0|web&fid=f3&fs=m:128+t:3,m:128+t:4,m:128+t:1,m:128+t:2&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f19,f20,f21,f23,f24,f25,f26,f22,f33,f11,f62,f128,f136,f115,f152&_=1720001154170'

# 定义HTTP请求头，其中包括User-Agent信息，用于伪装成浏览器进行访问
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 Firefox/2.0.0 Opera 9.50'
}

# 发送GET请求获取网页内容，并将响应内容解码为字符串格式
data = requests.get(url, headers=headers).content.decode()
print(data)
# 使用正则表达式从响应内容中提取出JSON数据，'{"rc":.*}]}}'表示匹配以{"rc":开头，后面跟着任意字符，再后面跟着"}]"的字符串
json_data = re.findall('{"rc":.*}]}}', data)[0]
print(json_data)  # 打印提取出的JSON数据，检查内容是否正确

# 将JSON数据字符串转换为Python字典对象
json_data = json.loads(json_data)

# 使用jsonpath从JSON数据中提取出总记录数，$..total表示从根节点开始，取出total字段的值
total = jsonpath.jsonpath(json_data, '$..total')[0]
print(json_data)  # 打印JSON数据，检查内容
print(total)  # 打印总记录数

# 计算总页数，每页20条数据
page = math.ceil(total / 20)
print(page)  # 打印总页数

# 打开一个CSV文件，准备写入数据。 a+
with open('港股.csv', 'a+', newline='', encoding='utf-8-sig') as f:
    writer = csv.writer(f)
    # 写入CSV文件的表头
    writer.writerow(['代码', '名称', '最新价', '涨跌幅', '今开', '最高', '最低', '昨收', '成交量(股)', '成交额(港元)'])
    j = 0  # 初始化页数计数器

    # 遍历所有页码
    for i in range(1, page + 1):
        # 构建每一页的URL
        new_url = 'https://34.push2.eastmoney.com/api/qt/clist/get?cb=jQuery112406894991919602407_1720001154034&pn={}&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&dect=1&wbp2u=|0|0|0|web&fid=f3&fs=m:128+t:3,m:128+t:4,m:128+t:1,m:128+t:2&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f19,f20,f21,f23,f24,f25,f26,f22,f33,f11,f62,f128,f136,f115,f152&_=1720001154170'.format(
            i)

        # 发送GET请求获取当前页码的网页内容，并将响应内容解码为字符串格式
        data = requests.get(new_url, headers=headers).content.decode()
        j += 1  # 更新页数计数器
        print('第{}页已保存'.format(j))  # 打印当前页数已保存

        # 使用正则表达式从响应内容中提取出JSON数据
        new_json_data = re.findall('{"rc":.*}]}}', data)[0]

        # 将JSON数据字符串转换为Python字典对象
        json_data = json.loads(new_json_data)

        # 依次使用jsonpath从JSON数据中提取出代码、名称、最新价、涨跌幅、今开、最高、最低、昨收、成交量、成交额等数据
        code = jsonpath.jsonpath(json_data, '$..f12')  # 代码
        name = jsonpath.jsonpath(json_data, '$..f14')  # 名称
        new_price = jsonpath.jsonpath(json_data, '$..f2')  # 最新价
        up_and_down = jsonpath.jsonpath(json_data, '$..f4')  # 涨跌幅
        today = jsonpath.jsonpath(json_data, '$..f17')  # 今开
        highest = jsonpath.jsonpath(json_data, '$..f15')  # 最高
        minimum = jsonpath.jsonpath(json_data, '$..f16')  # 最低
        yesterday = jsonpath.jsonpath(json_data, '$..f18')  # 昨收
        volume = jsonpath.jsonpath(json_data, '$..f5')  # 成交量（股）
        turnover = jsonpath.jsonpath(json_data, '$..f6')  # 成交额（港元）

        # 数据清洗和写入CSV文件
        for i, code in enumerate(code):
            try:
                # 检查数据是否为空（即8个字段是否都为'-'）
                res = new_price[i] + up_and_down[i] + today[i] + highest[i] + minimum[i] + yesterday[i] + volume[i] + \
                      turnover[i]
                if res == '-' * 8:
                    continue  # 如果数据为空，则跳过该条记录

                # 将提取到的数据写入CSV文件
                writer.writerow(
                    [code, name[i], new_price[i], up_and_down[i], today[i], highest[i], minimum[i], yesterday[i],
                     volume[i], turnover[i]])
            except:
                continue  # 如果发生异常，跳过该条记录