AI金融投资:批量下载巨潮资讯基金招募说明书

news2024/12/27 11:17:39

打开巨潮资讯的基金招募说明书页面:

http://www.cninfo.com.cn/new/fulltextSearch/full?searchkey=%E5%B0%81%E9%97%AD%E5%BC%8F%E5%9F%BA%E7%A1%80%E8%AE%BE%E6%96%BD%E8%AF%81%E5%88%B8%E6%8A%95%E8%B5%84%E5%9F%BA%E9%87%91%E6%8B%9B%E5%8B%9F%E8%AF%B4%E6%98%8E%E4%B9%A6&sdate=&edate=&isfulltext=false&sortName=pubdate&sortType=desc&pageNum=1&pageSize=20&type=

动态网页,返回json数据:

"adjunctUrl": "finalpage/2024-06-08/1220300147.PDF",

{

"classifiedAnnouncements": null,

"totalSecurities": 0,

"totalAnnouncement": 141,

"totalRecordNum": 141,

"announcements": [

{

"id": null,

"secCode": "180601",

"secName": "华夏华润商业REIT",

"orgId": "jjjl0000031",

"announcementId": "1220300147",

"announcementTitle": "华夏华润商业REIT:华夏华润商业资产<em>封闭式</em><em>基础设施</em><em>证券投资基金</em><em>招募</em><em>说明书</em>更新",

"announcementTime": 1717776000000,

"adjunctUrl": "finalpage/2024-06-08/1220300147.PDF",

"adjunctSize": 6265,

"adjunctType": "PDF",

"storageTime": null,

"columnId": "09020302||250601",

"pageColumn": "SZJJ",

"announcementType": "0101050916||0101050917||013511",

"associateAnnouncement": null,

"important": null,

"batchNum": null,

"announcementContent": null,

"orgName": null,

"tileSecName": "华夏华润商业REIT",

"shortTitle": "华夏华润商业资产<em>封闭式</em><em>基础设施</em><em>证券投资基金</em><em>招募</em><em>说明书</em>更新",

"announcementTypeName": null,

"secNameList": null

},

在ChatGPT中输入提示词:

你是一个Python编程专家,要完成一个批量下载网页PDF的Python脚本,具体步骤如下;

解析网页:http://www.cninfo.com.cn/new/fulltextSearch/full?searchkey=%E5%B0%81%E9%97%AD%E5%BC%8F%E5%9F%BA%E7%A1%80%E8%AE%BE%E6%96%BD%E8%AF%81%E5%88%B8%E6%8A%95%E8%B5%84%E5%9F%BA%E9%87%91%E6%8B%9B%E5%8B%9F%E8%AF%B4%E6%98%8E%E4%B9%A6&sdate=&edate=&isfulltext=false&sortName=pubdate&sortType=desc&pageNum={pagenumber}&pageSize=20&type=

{pagenumber}的值从1开始,以1递增,到8结束;

获取网站的响应,这是一个json数据;

提取"announcements"键的值,这个值也是一个json数据;

从这个json数据中提取"announcementTitle"键的值,作为PDF文件的标题,写入Excel表格第1列;

从这个json数据中提取"adjunctUrl"键的值,前面加上“http://static.cninfo.com.cn/”,作为PDF文件的下载地址,写入Excel表格第2列;

保存Excel文件, Excel文件保存在文件夹:F:\AI自媒体内容\AI炒股\REITs,Excel文件名为:REITspdf.xlsx

注意:

每一步都输出信息到屏幕上,每一步添加调试信息,以便详细检查每一步是否正常工作;

每读取一页,随机暂停3-7秒;

PDF文件名要进行清洗处理,因为其中可能包含不符合windows系统命名规范的字符,处理文件名中的 HTML 实体,去除 <em> 和 </em> 标签,文件名中的特殊字符(如:)和无效字符替换为“_” 避免无效字符导致文件系统错误

设置请求标头:

Accept:

application/json, text/javascript, */*; q=0.01

Accept-Encoding:

gzip, deflate

Accept-Language:

zh-CN,zh;q=0.9,en;q=0.8

Connection:

keep-alive

Host:

http://www.cninfo.com.cn

Referer:

http://www.cninfo.com.cn/new/fulltextSearch?notautosubmit=&keyWord=%E5%B0%81%E9%97%AD%E5%BC%8F%E5%9F%BA%E7%A1%80%E8%AE%BE%E6%96%BD%E8%AF%81%E5%88%B8%E6%8A%95%E8%B5%84%E5%9F%BA%E9%87%91%E6%8B%9B%E5%8B%9F%E8%AF%B4%E6%98%8E%E4%B9%A6

User-Agent:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36

X-Requested-With:

XMLHttpRequest

这样就把所有说明书的名称和下载地址获取到了,然后导入迅雷批量下载。

下载完成后,进行重命名,在chatgpt中输入提示词:

你是一个Python编程专家,要完成一个批量重命名的Python脚本,具体步骤如下;

逐个读取文件夹里面的PDF文件:D:\文档任务组_20240617_1112,获取PDF文件主文件名,设为变量{pdfname1};

读取Excel文件:"F:\AI自媒体内容\AI炒股\REITs\REITspdf.xlsx"第2列全部内容,提取第三个”/”和”.PDF”之间的内容,设为变量{pdfname2},比如:http://static.cninfo.com.cn/finalpage/2022-08-02/1214190987.PDF,应该提取的内容是“1214190987”;

将{pdfname1}与所有的{pdfname2}进行比较,如果两者一致,那么用{pdfname2}所对应的第1列单元格内容作为新的PDF主文件名,重命名这个PDF文件;

注意:

每一步都输出信息到屏幕上,每一步添加调试信息,以便详细检查每一步是否正常工作;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1840368.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何配置node.js环境

文章目录 step1. 下载node.js安装包step2. 创建node_global, node_cache文件夹step3.配置node环境变量step3. cmd窗口检查安装的node和npm版本号step4. 设置缓存路径\全局安装路径\下载镜像step5. 测试配置的nodejs环境 step1. 下载node.js安装包 下载地址&#xff1a;node.js…

Windows下MySQL数据库定期备份SQL文件与删除历史备份文件.bat脚本

目录 一、功能需求 二、解决方案 (1)新建文件夹及批处理文件 (2)编写备份脚本 ①完整脚本 ②参数修改 (3)编写定期删除备份脚本 ①根据文件名识别日期进行删除 ② 根据文件的修改日期删除 (4)设置定时器 (5)常见报错与处理 一、功能需求 在Windows系统下…

【吊打面试官系列-Mysql面试题】SQL 语言包括哪几部分?每部分都有哪些操作关键字?

大家好&#xff0c;我是锋哥。今天分享关于 【SQL 语言包括哪几部分&#xff1f;每部分都有哪些操作关键字&#xff1f;】面试题&#xff0c;希望对大家有帮助&#xff1b; SQL 语言包括哪几部分&#xff1f;每部分都有哪些操作关键字&#xff1f; SQL 语言包括数据定义(DDL)、…

Linux PXE高效批量装机

部署PXE远程安装服务 在大规模的 Linux 应用环境中&#xff0c;如 Web 群集、分布式计算等&#xff0c;服务器往往并不配备光驱设备&#xff0c;在这种情况下&#xff0c;如何为数十乃至上百台服务器裸机快速安装系统呢?传统的USB光驱、移动硬盘等安装方法显然已经难以满足需…

「Python-docx 专栏」docx设置罗马数字页码,即页码编码格式为罗马数字

本文目录 前言一、docx 设置罗马数字页码1、docx设置大写罗马数字的页码①、docx背后的xml长啥样②、<w:sectPr> 标签详解③、通过<w:sectPr> 设置大写罗马数字的页码A、完整代码B、处理效果图C、这段代码实际上的作用2、docx设置小写罗马数字的页码①、完整代码②…

ABAP-03基础数据类型

基本数据类型 数据类型默认大小&#xff08;byte&#xff09;有效大小初始值说明示例C11-65535SPACE文本字符&#xff08;串&#xff09;‘Name’N11-65535‘00…0’数字文本‘0123’T66‘000000’时间(HHMMSS)‘123010’D88‘00000000’日期(yyyymmdd)‘20090901’I4-231~232…

ELISA Flex: Monkey IFN-γ (HRP)

ELISA Flex: Monkey IFN-γ (HRP)该ELISA试剂盒能够检测溶液样本比如细胞培养上清或者血清/血浆中猴子γ干扰素&#xff08;IFN-γ&#xff09;的含量。 产品组分&#xff1a; 捕获抗体&#xff1a;克隆号MT126L&#xff08;0.5mg/ml&#xff09; 检测抗体&#xff1a;克隆号7…

mamba模型原理解读

本文主要讲解我对于2023年提出的mamba模型的理解和解读&#xff0c;mamba模型的提出为transformer模型存在的计算效率低下&#xff0c;需要大量时间运行程序提出了解决方案。提高了模型的运行效率和计算效率。我主要是根据下面这篇文章入手&#xff1a; 1.mamba模型是通过堆叠多…

数据分析必备:一步步教你如何用matplotlib做数据可视化(6)

1、Matplotlib 网格 axes对象的grid()函数将图中网格的可见性设置为on或off。还可以显示网格的主要/次要(或两者)刻度。另外&#xff0c;可以在grid()函数中设置color&#xff0c;linestyle和linewidth属性。 参考以下示例代码 import matplotlib.pyplot as plt import numpy…

网安人必备!开源网络安全工具TOP 10(附下载地址)

工欲善其事&#xff0c;必先利其器。对于广大的网络安全从业者&#xff0c;以及未来想要从事网络安全的人来说&#xff0c;选择并善用合适的网络安全工具&#xff0c;能有效提升工作效率。 开源网络安全工具之所以能够在众多安全解决方案中脱颖而出&#xff0c;不仅是因为它们…

若依RuoYi-Vue分离版—富文本Quill的图片支持伸缩大小及布局

若依RuoYi-Vue分离版—富文本Quill的图片支持伸缩大小及布局、工具栏带中文提示 1.在vue.config.js 文件中添加 一下内容2.下载安装插件3.在Editor组件中引入插件4.使用Editor组件&#xff08;特别注意要的加 v-if &#xff09;5.bug 之 imageResize的 img的style丢失1.先创建一…

minSdkVersion、targetSdkVersion、compileSdkVersion三者的作用解析

minSDK和targetSDK&#xff0c;这两者相当于一个区间。你能够用到targetSDK中最新的API和最酷的新功能&#xff0c;但又需要向后(向下)兼容到minSDK&#xff0c;保证这个区间内的设备都能够正常的执行你的APP。换句话说&#xff0c;想使用Android刚刚推出的新特性&#xff0c;但…

桥梁施工监测:科技守护,让施工更稳更安全!

桥梁作为重要的交通设施&#xff0c;其安全性和稳定性不容忽视。在施工过程中&#xff0c;进行严格的监测成为确保桥梁质量的关键。本文将深入探讨桥梁施工监测的核心内容、流程以及技术优势&#xff0c;并通过实际案例展示其应用效果。 一、监测内容概览 环境因素监测&#xf…

【DAMA】掌握数据管理核心:CDGA考试指南

引言&#xff1a;        在当今快速发展的数字化世界中&#xff0c;数据已成为组织最宝贵的资产之一。有效的数据管理不仅能够驱动业务决策&#xff0c;还能提升竞争力和市场适应性。DAMA国际一直致力于数据管理和数字化的研究、实践及相关知识体系的建设。秉承公益、志愿…

红海云CEO孙伟获2024“新锐企业家”荣誉

近日&#xff0c;由羊城晚报报业集团联合广东软件行业协会主办的“2024广东软件风云榜”活动圆满落下帷幕&#xff0c;红海云CEO孙伟以新技术、新业态、新模式&#xff0c;带领企业取得创新发展&#xff0c;荣膺2024广东软件风云榜“新锐企业家”称号。 为把握广东省数字经济和…

关于Panabit在资产平台中类型划分问题

现场同事问了一个问题&#xff1a;Panabit能不能当做CentOS接入&#xff1f; 我第一反应是&#xff1a;Panabit是个什么鬼&#xff1f;为啥要混编接入&#xff1f;后期维护都是事啊。所以&#xff0c;我就想回答&#xff1a;不能&#xff01; 但是&#xff0c;最好要给出一个…

【AI】通义千问使用指南:让你快速上手,成为问题解决高手!

大家好&#xff0c;我是木头左。 近日&#xff0c;继文心一言和讯飞星火之后&#xff0c;阿里虽迟但到&#xff0c;直接宣布开源两款“通义千问”大模型。作为国内首个开源且可商用的人工智能大模型&#xff0c;这会给我们带来哪些变化呢&#xff1f; 如何申请阿里通义千问&am…

揭秘!家用空气净化器针对“毛絮、灰尘”的制胜秘诀是什么?

亲爱的朋友们&#xff01;作为一个家庭主妇&#xff0c;我想和大家聊聊我日常生活中那些让人头疼的飞尘和毛絮问题。 每天忙得团团转&#xff0c;累得腰酸背痛&#xff0c;但家里仍然飘着那些烦人的飞尘和毛絮。它们就像一群顽皮的小精灵&#xff0c;四处飞舞&#xff0c;怎么…

从钉钉到跨境电商领域的技术演变,HHO如何通过NineData实现全球化业务布局

两氢一氧&#xff08;HHO&#xff09;是一家跨境出海电商平台&#xff0c;专注于通过数字化手段连接全球市场和中国优质供应链&#xff0c;致力于打造数字化时代的全球化新品牌。 创始人陈航&#xff0c;曾任钉钉 CEO 并成功打造行业领先的亿级活跃用户产品--钉钉。离开阿里后创…

使用密钥对登录服务器

目录 1、使用密钥文件登录服务器 2、登录成功画面&#xff1a; 3、如若出现以下状况&#xff0c;则说明密钥文件登录失败 1、使用密钥文件登录服务器 首先需要上传pem文件 2、登录成功画面&#xff1a; 3、如若出现以下状况&#xff0c;则说明密钥文件登录失败 解决方法&…