ChatGPT炒股:从巨潮资讯网上批量下载特定主题的股票公告

news2024/9/20 14:48:39

巨潮资讯网是股票公告的指定披露渠道之一,上面有非常详细的A股股票公告内容。

现在,我们要获取2023-01-04~2023-07-04期间所有新三板公司中标题包含“2023年日常性关联交易”的公告。

首先从network中获取到真实网址:http://www.cninfo.com.cn/new/hisAnnouncement/query

然后在查询里面输入时间和关键词,点击查询

然后可以看到返回的是json数据:

通过formdata传递参数:

所以可以在ChatGPT中这样输入提示词:

你是一个Python编程专家,要完成一个爬取网页数据的任务。具体步骤如下:

打开网页http://www.cninfo.com.cn/new/hisAnnouncement/query,

该动态网页的Request headers

Accept:

*/*

Accept-Encoding:

gzip, deflate

Accept-Language:

zh-CN,zh;q=0.9,en;q=0.8

Connection:

keep-alive

Content-Length:

240

Content-Type:

application/x-www-form-urlencoded; charset=UTF-8

Host:

http://www.cninfo.com.cn

Origin:

http://www.cninfo.com.cn

Referer:

http://www.cninfo.com.cn/new/commonUrl/pageOfSearch?url=disclosure/list/search&lastPage=index

User-Agent:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36

X-Requested-With:

XMLHttpRequest

该动态网页的Formdata

pageNum: 1

pageSize: 30

column: third

tabName: fulltext

plate:

stock:

searchkey: 2023年日常性关联交易

secid:

category:

trade:

seDate: 2023-01-04~2023-07-04

sortName:

sortType:

isHLtitle: true

其中,pageNum参数的值是从1到72;

获取每页的json数据;

然后提取json数据中的 "announcements"数据,保存到F盘的excel表格“新三板 2023年日常性关联交易20230704.xlsx”;

读取F盘的excel表格“新三板 2023年日常性关联交易20230704.xlsx”,提取单元格secCode{no}、secName{no}、announcementTitle{no}的内容,连接在一起,作为PDF文件的标题;

提取单元格adjunctUrl{no}的内容,作为PDF文件的URL,前面加上http://static.cninfo.com.cn/,构成PDF文件的完整下载URL;

下载这个PDF文件,保存到F盘的文件夹:”新三板 2023年日常性关联交易20230704”

其中,no参数的值是从2到2125;

注意:

每一个步骤都要输出信息;

每爬取一页,暂停10秒;

每1个PDF文件下载完后,暂停5秒;

数据爬取正常,全部公告信息成功保存到表格:

全部公告成功下载到本地:

但是,也有一些没有成功下载,应该是频繁连接导致触发网站的反爬虫机制。所以,每下载一个公告后应该等待时间设置长一些,比如10秒或者15秒。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/733777.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大一下学期期末考wp

【web】 1.sign 打开题目 发现有1000个页面 打开第9999个和第9998个页面,发现是utf-8编码 当再随机打开其他页面时,页面又出现了另外一种情况 于是我们猜测,flag是由utf-8编码的,编码被拆散了随机放在10000个页面中的几个页面中…

找不到msvcp140.dll解决方法有哪些?那个修复方法更简单

是使用Windows操作系统的计算机时,总是不可避免会遇到系统报错。像计算机提示找不到msvcp140.dll,msvcp140.dll是一个Windows操作系统中的动态链接库文件,它属于Microsoft Visual C Redistributable包的一部分。这个文件包含了一些供C程序使用…

计算机的大脑 CPU

晶体管 N型MOS管P型MOS管 算术逻辑单元 ALU 晶体管–>门电路–>加法器–>ALU 既可以做逻辑运算、也可以做逻辑运算、成为计算机CPU中非常核心的组件。 指令 一条指令只完成一个基本操作的精简指令集 RISC 、它们的指令长度基本上是固定的。比如 ARM一条指令可以…

【SLAM14讲】02 视觉SLAM基本架构

一、传感器 1.1 安装位置分类 根据安装位置分为两类: 携带于机器人本体 上的传感器,比如激光传感器、相机、轮式编码器、惯性测量单元(Inertial Measurement Unit, IMU)等等,它们测到的通常都是一些间接的物理量而不…

一键创建日期命名的txt文件(方便日报)

背景 刚工作,免不了写日报,写日计划的时候。为了方便,写了一个bat文件直接点击即可创建今天时间命名的txt文件 代码 win10我的笔记本 echo set tmp%date:~3,4%%date:~8,2%%date:~11,2% type nul > %tmp%.txtwindows 下创建文件就是 t…

排序算法性能分析

目录 实现插入排序、冒泡排序、选择排序、合并排序、快速排序算法(从小到大) ①插入排序 ②冒泡排序 ③选择排序 ⑥快速排序 五种排序 现在有10亿的数据(每个数据四个字节),请快速挑选出最大的十个数&#xff0…

红黑树与234树

红黑树 参考:宇文新粥:红黑树红黑树可视化 234树 这个树有三种节点,分别包含1/2/3个元素,下方可以有2/3/4个子节点理解234树的插入 红黑树与234树之间的关系 红黑树有几个特性,但如果从234树的角度理解红黑树&…

在微软十年了!

时光飞逝,光阴如梭。 2013 年的 7 月 8 号,我在隔壁的交大软院毕业后,正式入职紫竹微软。 至今,已是整整 10 年了。 记得当时的闵行回市区的交通还不是那么堵,坐 5点半的班车下班,S4中环一路走,…

【C++ OJ练习】4.字符串中的第一个唯一字符

1.题目链接 力扣 2.解题思路 利用计数排序的思想 映射进行计数 最后计数为1的那个字符就是唯一字符 从前往后遍历 可以得到 第一个唯一字符 3.代码 class Solution { public:int firstUniqChar(string s) {//使用映射的方式统计次数 计数排序思想int count[26] { 0 };fo…

机器视觉硬件选型-工业光源-环形光源

视觉人机器视觉-硬件发货前硬件确认效果 工业光源根据灯的几何形状可分为条形光源,分区光源,环形光源、圆顶(积分)光源、平面光源,同轴光源,方形光源,线扫光源,点光源,线光源等等。 …

在上海滩,听懂5G时代的浪奔浪流

几天前的“湾区升明月”上,赵雅芝与吕良伟合唱了一首《上海滩》。“浪奔,浪流”的歌词一出,无数记忆涌上了一代人的心头。 上海这座城市,始终代表着进取、创新、引领,代表着面向世界的中国形象。黄浦江的浪花&#xff…

【尚医通】vue3+ts前端项目开发笔记 2 —— 创建项目、封装网络请求、集成elment-plus 、重置样式、准备状态管理/路由 等开发前准备

尚医通开发记录(Vue3TypeScriptPiniaAxios) 一、接口地址 服务器地址:http://syt.atguigu.cn 医院接口:http://139.198.34.216:8201/swagger-ui.html 公共数据接口:http://139.198.34.216:8202/swagger-ui.html 会员接口:http://139.198.34…

掌握文件转换的技巧:在线工具帮你轻松转换为PDF格式

许多文件都有自己的原始格式,然而这些格式都可以进行修改。遇到无法打开或信息丢失的情况时,可以进行格式转换,其中效果最好的就是PDF格式,无论在哪个平台上查看文档,都有自己的格式,能够在所有平台上查看的…

中国首个铝基轻量化平台?纯电中型 SUV 奇瑞eQ7将于7月12日发布

奇瑞新能源将于7月12日发布首台量产车奇瑞eQ7,并公布中国首个铝基轻量化平台。 车型参数:奇瑞 eQ7是一款定位纯电动中型SUV,采用后置后驱和油冷扁线三合一电机技术。其以全铝车身和全铝平台为基础,整备质量为185kg。车身尺寸为467…

表中签到ID格式是以逗号分隔,需将ID拆开并分成多条数据

原有数据格式: 拆分后数据格式: 拆分SQL: select bc.资源名称,bc.资源ID,bc.签到时间,bc.签到人,bb.column_value 签到附件ID from report_fir.V_kw_checksign_info bc,table(hbrmw6.split_string(bc.签到附件ID,,)) bb; HBRMW6.split_string函数创…

mysql数据库内存占用高原因(数据库内存占用高)

1、查看数据库分配内存大小 ( mysql内存计算器,具体地址为http://www.mysqlcalculator.com/ ) select VARIABLE_NAME,VARIABLE_VALUE/1024/1024 MB from information_schema.GLOBAL_VARIABLES WHERE VARIABLE_NAME in (key_buffer_size,query_cache_size,tmp_tabl…

基本数据与封装对象转换(Java)

文章目录 1. 基本数据与对象封装转换1.1 8种基本数据类型:1.2 基本数据类型 -- > 封装对象:1.3 封装对象 -- > 基本数据类型:1.4 借助String类型作为中间桥梁 2. 自动转换规则 1. 基本数据与对象封装转换 1.1 8种基本数据类型: boolean(true/false),byte(1 …

时间序列预测 | Matlab粒子群算法(PSO)优化极限梯度提升树XGBoost时间序列预测,PSO-XGBoost时间序列预测模型

文章目录 效果一览文章概述部分源码参考资料效果一览 文章概述 时间序列预测 | Matlab基粒子群算法(PSO)优化极限梯度提升树XGBoost时间序列预测,PSO-XGBoost时间序列预测模型 评价指标包括:MAE、RMSE和R2等,代码质量极高,方便学习和替换数据。要求2018版本及以上。 部分源码…

【雕爷学编程】Arduino动手做(153)---2.4寸TFT液晶触摸屏模块4

37款传感器与执行器的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止这37种的。鉴于本人手头积累了一些传感器和执行器模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的&am…

基于matlab使用激光雷达检测地平面和障碍物(附源码)

一、前言 此示例演示如何通过分割地平面并查找附近的障碍物来处理来自安装在车辆上的传感器的 3-D 激光雷达数据。这可以促进车辆导航的可驾驶路径规划。该示例还演示如何可视化流式激光雷达数据。 二、创建 Velodyne 文件读取器 本例中使用的激光雷达数据是使用安装在车辆上…