数据爬虫:获取申万一级行业数据

news2024/12/25 1:24:47

目录

1. 获取访问接口

2. 链接网址

3. 链接名单

免责声明:本文由作者参考相关资料,并结合自身实践和思考独立完成,对全文内容的准确性、完整性或可靠性不作任何保证。同时,文中提及的数据仅作为举例使用,不构成推荐;文中所有观点均不构成任何投资建议。请读者仔细阅读本声明,若读者阅读此文章,默认知晓此声明。本文使用爬虫获取相关网站公开数据,仅作为技术分享使用,数据不涉及商用和盈利。

   申万一级行业数据,对于行业的统计分析非常重要,本文主要是分享,如何通过爬虫获取其历史收盘价数值。

1. 获取访问接口

    此方法由一位昵称为‘富贵’的大佬分享,在此对其表示感谢。

   许多数据源使用的是json传输到网页,使用xpath或者bs4均无法提取数据,因此需要使用直接访问传输文件对应的接口。

    首先根据网址名称申万宏源证券咨询网 (swhyresearch.com),F12获取相应的网页信息。

   根据网页信息,可以发现trend文件中包含所需数据 ,接下来复制该文本为URL(bash)。

  将获取的数据粘贴到 https://curlconverter.com/中,并切换语言为python。

    这样一来,就可以获取类似于接口的代码:

import requests

cookies = {
    'i18next': 'zh-CN',
}

headers = {
    'Accept': '*/*',
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
    'Connection': 'keep-alive',
    # 'Cookie': 'i18next=zh-CN',
    'Sec-Fetch-Dest': 'empty',
    'Sec-Fetch-Mode': 'cors',
    'Sec-Fetch-Site': 'same-origin',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0',
    'X-Access-Token': 'null',
    'clientType': '4',
    'sec-ch-ua': '"Not_A Brand";v="8", "Chromium";v="120", "Microsoft Edge";v="120"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
    'token': '',
}

params = {
    'swindexcode': '801001',
    'period': 'DAY',
}

response = requests.get(
    'https://www.swhyresearch.com/institute-sw/api/index_publish/trend/',
    params=params,
    cookies=cookies,
    headers=headers,
)

2. 链接网址

    根据上述的代码,调整所需参数(参数位于params中,即申万一级行业对应的编码和数据频率),然后解析,即可获得数据(本文仅获取日期和收盘价)。

import requests
import pandas as pd
import sys

def get_sw_data(code, period=None):
    '''
    获取单个申万一级行业指数的收盘价
    code:str,指数编码,例如'801001'
    period:str,数据频率,例如'DAY',默认为日度;DAY-日度,WEEK-周度,MONTH-月度
    -------
    返回DataFrame,列名为日期和收盘价
    '''
    cookies = {'i18next': 'zh-CN', }
    headers = {
        'Accept': '*/*',
        'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
        'Connection': 'keep-alive',
        # 'Cookie': 'i18next=zh-CN',
        'Sec-Fetch-Dest': 'empty',
        'Sec-Fetch-Mode': 'cors',
        'Sec-Fetch-Site': 'same-origin',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0',
        'X-Access-Token': 'null',
        'clientType': '4',
        'sec-ch-ua': '"Not_A Brand";v="8", "Chromium";v="120", "Microsoft Edge";v="120"',
        'sec-ch-ua-mobile': '?0',
        'sec-ch-ua-platform': '"Windows"',
        'token': '',
    }
    params = {'swindexcode': code, 'period': period or 'DAY'}
    response = requests.get('https://www.swhyresearch.com/institute-sw/api/index_publish/trend/',
                            params=params, cookies=cookies, headers=headers)
    # 判断是否提取到数据,若未拿到数据,自动退出
    if response.status_code == 200:
        print('链接成功!开始获取数据')
    else:
        print('链接失败!自动退出', response.status_code)
        sys.exit()

    # 解码并将数据转换为DataFrame,然后对所需字段进行转换
    text_json = response.json()
    data = pd.DataFrame(text_json["data"])
    # 日期转化为str,格式如'20200101'
    data['date'] = data['bargaindate'].apply(lambda x: pd.to_datetime(str(x)).strftime("%Y%m%d"))
    out_df = pd.DataFrame({'日期': data['date'], '收盘价': data['closeindex']})
    return out_df


if __name__ == '__main__':
    code = '801001'
    data = get_sw_data(code, 'MONTH')

  运行后,得到的结果为:

3. 链接名单

    第二节分享了如何获取单个申万行业指数的数据,本节主要分享如何获取申万行业的名单和编码,方法和之前一样。网址为申万宏源证券咨询网 (swhyresearch.com)

  对应的代码为: 

import requests
import pandas as pd

cookies = {'i18next': 'zh-CN', }
headers = {
    'Accept': '*/*',
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
    'Connection': 'keep-alive',
    # 'Cookie': 'i18next=zh-CN',
    'Sec-Fetch-Dest': 'empty',
    'Sec-Fetch-Mode': 'cors',
    'Sec-Fetch-Site': 'same-origin',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0',
    'X-Access-Token': 'null',
    'clientType': '4',
    'sec-ch-ua': '"Not_A Brand";v="8", "Chromium";v="120", "Microsoft Edge";v="120"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
    'token': '', }
# page--页数;page_size--单页展示多少条数据,最大50条
# 由于申万行业当前共有30多个,因此此处直接设置为50,不进行循环page的操作
params = {'page': '1', 'page_size': '50', 'indextype': '一级行业', 'sortField': '', 'rule': '', }
response = requests.get('https://www.swhyresearch.com/institute-sw/api/index_publish/current/',
                        params=params, cookies=cookies, headers=headers)
text_json = response.json()
data = pd.DataFrame(text_json["data"]['results'])
out_df = pd.DataFrame({'申万代码': data['swindexcode'],
                       '指数名称': data['swindexname']})

   对应的结果为:

     结合第二节,是用循环,就可以获取所有申万一级行业的指数 数据,需要注意的是,循环时尽可能设置一下访问的时间间隔,不要过度和过快的去访问。许多可优化的点,本文就不再深究。

    本期分享结束,有何问题欢迎交流。

免责声明:本文由作者参考相关资料,并结合自身实践和思考独立完成,对全文内容的准确性、完整性或可靠性不作任何保证。同时,文中提及的数据仅作为举例使用,不构成推荐;文中所有观点均不构成任何投资建议。请读者仔细阅读本声明,若读者阅读此文章,默认知晓此声明。本文使用爬虫获取相关网站公开数据,仅作为技术分享使用,数据不涉及商用和盈利。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1307037.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

1-4、JDK目录结构

语雀原文链接 文章目录 1、目录结构2、JDK中rt.jar、tools.jar和dt.jar作用3、bin目录部分说明(基本工具) 1、目录结构 bin目录:包含一些用于开发Java程序的工具,例如:编译工具(javac.exe)、运行工具 (java.exe) 、打…

[Python进阶] 消息框、弹窗:批处理消息框\msg

5.20 消息框、弹窗:批处理消息框\msg 批处理中的MSG命令是一个用于向用户发送消息的命令。它可以用来在批处理脚本中向指定的用户发送消息。 命令格式为MSG {username | sessionname | sessionid | filename | *}[/SERVER:servername] [/TIME:seconds] [/V] [/W] […

网络安全这条路,如何打怪升级干掉大Boss?

企业对网络安全的重视是挂在嘴上还是落实在行动中?网络安全人员岗位设置是否合理而有效?网络安全从业者最需要什么样的技能培训?网络安全从业者的职业发展路径应该如何规划?一份“网络安全从业人员现状调查”报告,解你…

MAX/MSP SDK学习09:重要示例1

本示例涉及到单个MSP对象同时使用Signal类型、Message类型的入口;代理入口的使用。 注意:MSP对象的入口默认为代理入口,因此Signal类型、Message类型的数据都可接收; #include "ext.h" #include "ext_obex.h&…

如何应对网站的Canvas等高级指纹和MAC地址检测?

随着互联网技术的发展,网站和应用程序采用了越来越多的高级指纹和MAC地址检测技术来追踪用户和识别其身份。其中,Canvas指纹是一种常见的高级指纹检测技术,而MAC地址是设备的唯一标识符。在本文中,我们将了解Canvas指纹和MAC地址的…

C/C++常见面试知识总结(三)

C语言是一种通用计算机(高级)编程语言;面向过程;广泛应用于计算机系统设计以及应用程序编写;设计目标,是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行…

快速解决Edge浏览器常见问题:完整教程

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 目录 文章目录 前言 一、Edge浏览器是什么? 二、常见的问题 1. DNS服务器出错 解决方案一:清除浏览器缓存和Cookie 2.网络问题 3.缓存和Cook…

C# | CountdownEvent使用教程 (通过与ManualResetEvent对比,快速了解其特性)

C# CountdownEvent使用教程 对于熟悉ManualResetEvent的同学来说,了解CountdownEvent的差异对于更好地利用它们是非常重要的。通过对ManualResetEvent和CountdownEvent的对比,我们可以更好地理解CountdownEvent的特点和使用场景。 ManualResetEvent回顾…

TIM清理C盘记录

TIM文件储存的位置可以在这找到: 设置▶文件管理▶打开个人文件夹 这里是TIM一般的缓存位置: #群聊图片 \Tencent Files\对应QQ号\Image\Group2#好友图片 \Tencent Files\对应QQ号\Image\C2C#接收语音 \Tencent Files\对应QQ号\Audio#视频封面 \Tencent…

【Anaconda】Ubuntu anaconda使用(新建环境、最小化安装Tensorflow)

Ubuntu anaconda使用(新建环境、最小化安装Tensorflow) 清华源地址: https://pypi.tuna.tsinghua.edu.cn/simplepip安装使用的时候, pip install xxx(库名) -i https://pypi.tuna.tsinghua.edu.cn/simple请先安装好anaconda&am…

详解TCP报文格式以及TCP相关特性

✏️✏️✏️今天给大家分享的是TCP报文格式的解释以及TCP协议的一些重要特性。 清风的CSDN博客 🛩️🛩️🛩️希望我的文章能对你有所帮助,有不足的地方还请各位看官多多指教,大家一起学习交流! ✈️✈️✈…

VR全景直播来临,沉浸式代入吸引百万人目光

如今,VR技术正在不断改变着直播行业的面貌,为观众提供沉浸式的观看体验。在5G技术的快速发展背景下,VR全景直播作为5G应用的场景,被广泛应用在体育赛事、新闻会议、演唱会、教育医疗等场景,通过VR技术进行全景直播&…

k8s详细教程(二)

—————————————————————————————————————————————— 博主介绍:Java领域优质创作者,博客之星城市赛道TOP20、专注于前端流行技术框架、Java后端技术领域、项目实战运维以及GIS地理信息领域。 🍅文末获取源码…

C#的线程技术及操作(Thread类)

目录 一、线程基础 1.单线程 2.多线程 (1)多线程的缺点 (2)多线程的缺点 二、线程操作之Thread类 1. Thread类的相关方法和属性 (1)示例源码 (2)生成效果 2.创建线程Star…

机器人制作开源方案 | “AIBOT”-多功能货物搬运机

作者:王晨曦、敖鑫、王威威、安尚琦 单位:北京理工大学 指导老师:李忠新、朱杰 一、场景调研 如今搬运机在我们的生产作业及生活中都起着比较重要的作用,在现代社会对升降机需求的增多,市场的不断扩大,使…

2.5 常规游戏中模型通用要求介绍

一、布线和理性 多星点(4个及4个以上边的交点) 如果是在中模阶段,减少使用多星点,因为会在细分是时出现凸点问题,如果要使用多星点,需要通过布线技巧把它移动至平面处,不要让他出现在倒角边缘。…

基于SSM医院员工考勤管理系统,请假系统,员工管理系统,部门管理系统(Java毕业设计)

大家好,我是DeBug,很高兴你能来阅读!作为一名热爱编程的程序员,我希望通过这些教学笔记与大家分享我的编程经验和知识。在这里,我将会结合实际项目经验,分享编程技巧、最佳实践以及解决问题的方法。无论你是…

电流测量原理

由于直接测量电流信号是很难的,但是测试电压信号比较容易,因此通常都是先将电流信号转换为电压信号,将电压信号进行调理后送至 CPU,CPU 通过 AD 转换得到一个码值,软件读出该码值,先根据主控的硬件设计参数…

1688一件采购实现指南:含代码实现采购流程

一、引言 1688是中国最大的B2B电子商务平台之一,提供了丰富的商品信息和采购服务。一键采购是1688平台的一项便捷功能,可以帮助用户快速完成采购流程,提高采购效率。本文将详细介绍如何使用1688一键采购功能,并通过代码示例演示如…

语音群呼有哪些常见的应用场景?

事务通知提醒 银行信用卡还款通知、帐户进出帐通知等;供电部门电费收缴通知、客户查询、公告通知等;通信企业话费欠费通知。其他行业如:物业行业、自来水行业、人社局、法院等事务通知。 预警通知 譬如台风、防汛、防洪、地震、海啸、泥石…