AI网络爬虫:用deepseek提取百度文心一言的智能体数据

news2024/11/27 11:45:41

真实网址:https://agents.baidu.com/lingjing/experhub/search/list?pageSize=36&pageNo=1&tagId=-99

返回的json数据:{

"errno": 0,

"msg": "success",

"data": {

"total": 36,

"pageNo": 1,

"pageSize": 36,

"plugins": [

{

"name": "零基础学习路径规划",

"description": "你好,请你给出一个主题,我将给你一份完整的学习路径规划",

"logoUrl": "https://now.bdstatic.com/stash/v1/6f672d5/lingjing-fe/07ccbd4/agent-logo/logo-1.png",

"logoText": {

"bgImage": "",

"labelValue": "1",

"color": 0,

"labelType": 2

},

"previewUrl": "https://t6acl8.smartapps.baidu.com",

"appId": "UjRqa5SBZzwvbRH8I06qp19H6OZdzjCR",

"pluginSource": 3,

"useNum": "786492",

"buildType": 1,

"isOwner": null,

"packageStatus": 6,

"dialogueCount": "2030481",

"developerName": "好想出去玩2020",

"isFavorited": false

},

deepseek中输入提示词:

你是一个Python编程专家,完成一个Python脚本编写的任务,具体步骤如下:

在F盘新建一个Excel文件:baiduaiagent20240619.xlsx

请求网址:

https://agents.baidu.com/lingjing/experhub/search/list?pageSize=36&pageNo=1&tagId=-99请求方法:

GET

状态代码:

200 OK

获取网页的响应,这是一个嵌套的json数据;

获取json数据中"data"键的值,然后获取其中"plugins"键的值,这是一个json数据,提取这个json数据中所有的键写入Excel文件的表头 ,提取这个json数据中所有键对应的值写入Excel文件的列 ;

保存Excel文件;

注意:每一步都输出信息到屏幕;

每爬取1页数据后暂停5-9秒;

需要对 JSON 数据进行预处理,将嵌套的字典和列表转换成适合写入 Excel 的格式,比如将嵌套的字典转换为字符串;

在较新的Pandas版本中,append方法已被弃用。我们应该使用pd.concat来代替。

源代码:

import requests

import pandas as pd

import time

import json

# 请求URL

url = "https://agents.baidu.com/lingjing/experhub/search/list?pageSize=36&pageNo=1&tagId=-99"

# 请求头

headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36"

}

# 创建Excel文件

file_path = "F:/baiduaiagent20240619.xlsx"

df = pd.DataFrame()

# 发送GET请求

response = requests.get(url, headers=headers)

if response.status_code == 200:

data = response.json()

products = data['data']['plugins']

# 提取所有产品的键作为表头

headers = set()

for product in products:

headers.update(product.keys())

# 创建DataFrame并填充数据

for product in products:

product_data = {header: product.get(header, '') for header in headers}

new_data = pd.DataFrame([product_data])

df = pd.concat([df, new_data], ignore_index=True)

print("Data processed.")

else:

print(f"Failed to retrieve data. Status code: {response.status_code}")

# 保存Excel文件

df.to_excel(file_path, index=False)

print(f"Data saved to {file_path}")

# 暂停5-9秒

time.sleep(5 + (1 % 5))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1845221.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【动态规划】路径问题 {二维动态规划;选择合适的状态表示方法;创建虚拟节点}

一、经验总结 选择合适的状态表示方法 一般的,状态表示的方法有两种: 以[i, j]位置为终点,正向填表;用之前的状态推导出dp[i][j]的值(从哪里来);以[i, j]位置为起点,反向填表&…

Spring Boot组件化与参数校验

Spring Boot组件化与参数校验 Spring Boot版本选择 2.3.x版本 2.6.x版本 Spring Boot核心思想 约定大于配置,简化繁琐的配置 Spring Boot自动配置原理 SpringBootApplication: Spring Boot应用标注在某个类上说明这个类是SpringBoot的主配置类,Spr…

详细分析Oracle日期和时间的基本命令

目录 1. 基本类型2. 常用函数3. Demo 1. 基本类型 Oracle支持不同的日期格式模型,其中包括: ISO 8601: YYYY-MM-DDTHH:MI:SS,例如2024-06-20T14:30:00Oracle内部格式: DD-MON-YYYY HH:MI:SS AM,例如20-JUN-2024 02:30:00 PM DA…

6月20日(周四)欧美股市总结:“三巫日”当前,标普开盘创新高后与纳指转跌,英伟达一度跳水8%,市值跌离最大

美国上周首次申请失业救济人数高于预期,新屋建造和费城制造业数据均显示经济放缓,市场维持对美联储年内降息两次的预期。标普盘初升破5500点创新高后下跌,纳指止步七日连创新高,但道指涨300点至四周新高。英伟达盘初涨3.8%至盘中最…

【C++高阶】探索STL的瑰宝 map与set:高效数据结构的奥秘与技巧

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:C “ 登神长阶 ” 🤡往期回顾🤡:初步了解 二叉搜索树 🌹🌹期待您的关注 🌹🌹 ❀map与set 📒1.…

绿色领航·数链未来“2024中国消费电子博览会”招商工作全面启动

中国国际消费电子博览会(简称CICE电博会)自2001年创办以来,已逐渐发展成为全球极具影响力的行业盛会。它不仅是国内外消费电子产业的重要交流平台,更是展示我国消费电子产业发展成果的重要窗口。2024年,这一盛会再次在…

windows下前端开发环境安装

文章目录 windows下前端开发环境安装1. Cmder 终端使用1.1 cmder进入指定目录 2. nodejs环境安装3. vscode编辑器下载3.1 vscode插件离线安装 windows下前端开发环境安装 1. Cmder 终端使用 使用Cmder替换cmd,让开发更高效 https://cmder.net/ 打开网址后&#…

系统架构设计师 - 数据库系统(1)

数据库系统 数据库系统数据库模式 ★分布式数据库 ★★★数据库设计阶段 ★★ER模型 ★关系模型 ★ ★结构约束条件完整性约束 关系代数 ★ ★ ★ ★概述自然连接 大家好呀!我是小笙,本章我主要分享系统架构设计师 - 数据库系统(1)知识,希望内…

掌握心理学知识成为产品经理一门必修课?

文章目录 心理学与产品设计的关联关系产品经理需要学习哪些心理学知识产品心理学的学习对象包含哪些 谈及心理学,往往认为它是一门研究人类心理现象及其影响下的精神功能和行为活动的科学,很多情况下,我们的直观印象是把心理学与医学领域进行…

Hadoop三大组件原理详解:hdfs-yarn-MapReduce(第9天)

系列文章目录 一、HDFS读写原理【重点】 二、YARN提交mr流程【重点】 三、MapReduce计算流程【重点】 文章目录 系列文章目录前言一、HDFS读写原理[面试]1、HDFS数据写入解析2、HDFS数据读取解析 二、YARN提交mr流程[面试]1. YARN提交mr过程解析 三、MapReduce计算流程[面试]1…

RK3568技术笔记十四 Ubuntu创建共享文件夹

单击“虚拟机”,单击“设置”,如图所示: 单击“选项”,选择“总是启用(E)”,单击“添加”,如图所示: 单击“下一步”,如图所示: 单击“浏览”添加…

建筑幕墙设计乙级资质申请要点梳理

建筑幕墙设计乙级资质申请要点梳理如下: 一、申请条件 资历和信誉: 企业需具有独立企业法人资格,能够独立承担法律责任。社会信誉良好,无不良记录。注册资本不少于100万元人民币。技术条件: 专业配备齐全、合理&#…

苹果电脑如何清理磁盘空间 苹果电脑如何清理系统数据

你是否遇到过电脑磁盘空间不足的情况呢?Mac电脑有着流畅的操作系统,但是随着日常使用,可能电脑里的垃圾文件越来越多,导致磁盘空间不足,随之会出现电脑卡顿、软件闪退等情况。及时清理磁盘空间可以有效避免电脑这些问题…

java连接kerberos用户认证

文章目录 一、背景二、代码2.1目录2.2配置文件application.properties2.3pom依赖2.4代码AuthProviderConfig配置类CustomConfigurationByKeytab配置类CustomConfigurationByPassword配置类TestControllerMyCallbackHandlerDummyUserDetailsService实现类LdapTest2Application启…

AI播客下载:Possible(OpenAI投资人Reid Hoffman主持)

这是由 LinkedIn 创办人,同时也是 OpenAI 早期投资者 Reid Hoffman。节目上会邀请各领域的专家 (教育、医疗、司法),探讨 AI 对世界的影响。这节目特别有趣的地方,是在 GPT-4 协助下制作的,开创了人机协作内容 。 如果未来一切都能…

Windows10任务栏卡顿解决方案

一、重新启动任务资源管理器 右键底部任务栏选择“任务管理器”;按快捷键“CtrlShiftEsc”;搜索框搜索“任务管理器”并单击“打开”;“WinX”打开开始菜单附属菜单,在列表中选择“任务管理器” ;按下“ctrlaltdelete”…

Linux管道与重定向

管道 是进程通信的方法之一,在Linux中用命令1|命令2的形式表示,将前一个命令的结果作为后续命令的参数进行输入,也有tee管道,可以进行多次筛选,即多次使用|过滤命令。 重定向 文件描述符FD Linux中输入输出分为三种…

HTTP 抓包工具——Fiddler项目实战

网络爬虫实质上是模拟浏览器向 Web 服务器发送请求。对于一些简单的网络请求,我们 可以通过查看 URL 地址来构造请求,但对于一些稍复杂的网络请求,仍然通过观察 URL 地 址将无法构造正确。因此我们需要对这些复杂的网络请求进行捕获分…

高考填报志愿,性格决定命运

所谓性格决定命运,也即是强调了性格在左右我们的人生,性格会和个人的未来成就相挂钩,当一个人向来小心谨慎时,适合一些与数字打交道的工作,也可以从事一些比较细致点的工作,如果一个人向来大大咧咧&#xf…

【Linux命令入门】shell命令解析与PATH环境变量

文章目录 前言1.Linux shell 简介2. Linux命令提示符Linux命令的组成环境变量设置环境变量永久设置临时设置总结前言 Linux命令行(shell)是与操作系统交互的重要工具。通过学习和掌握基本的shell命令,用户可以高效地管理文件、执行程序和处理系统任务。PATH环境变量在Linux…