大模型系列|基于大模型复杂数据系统架构(二)

news2024/12/27 12:17:49

张俊林老师在 2023 WAIC AI 开发者论坛的演讲非常有概括性,这边沿着思路进行一定的整理。(文章来源:WAIC 2023 | 张俊林:大语言模型带来的交互方式变革)

文章目录

  • 1 Planning+Programming 模式的系统技术架构
  • 2 HuggingGPT的Prompt架构
  • 3 数据系统:Data-Copilot


1 Planning+Programming 模式的系统技术架构

在这里插入图片描述
基于大模型的数据系统要实现更加智能的自动化,要将LLM大模型放在大脑中枢位置,张老师的这页概括了依靠大模型的理解能力,下游需要的两个大模块:

  • 任务规划(复杂的任务,将它先拆成若干个简单任务,然后再逐个解决)
  • 形式化语言(Programming(程序)、API、SQL、模块调用)

这里的任务规划有点类似“把大象放进冰箱”的任务拆解。来看张老师的一个举例,SheetCopilot:
在这里插入图片描述
用户可以发出一个查询:
「把销售额在 200-500 之间的记录点亮。」

LLM(这里是 GPT-4)首先会把这个任务规划成子任务,这里是三个子任务:

  • 1)先筛选出销售额在 200-500 之间的条目(写 prompt,再把表格的 schema(即表格每一列的含义)告诉它。GPT-4 就会生成一个 API)
  • 2)把背景点亮成蓝色;
  • 3)把点亮的数据嵌入回表格。

其中这里需要使用Text-to-SQL 的技术(可参考:大模型与数据科学:从Text-to-SQL 开始(一)),比如,谷歌的SQL-PaLM 操作数据库的方式有两种:

  • 一是在上下文学习(in-context learning), 也就是给模型一些例子,包括数据库的 schema、自然语言的问题和对应的 SQL 语句,然后再问几个新问题,要求模型输出 SQL 语句
  • 另一种方式是微调(fine-tuning)

在比较复杂的数据库表上,其准确率为 78%,已经接近实用化水准了。这意味着随着技术的进一步快速发展,很可能 SQL 语句不需要人写了

参考文献:
WAIC 2023 | 张俊林:大语言模型带来的交互方式变革


2 HuggingGPT的Prompt架构

参考HuggingGPT:
在这里插入图片描述
LLM作为控制器(Controller),用来理解用户需求,然后结合HuggingFace社区的模型,将用户任务分解为:

  • 任务规划(Task Planning)
  • 模型选取(Model Selection)
  • 任务执行(Task Execution)
  • 响应生成(Response Generation)

HuggingGPT综合使用了:

  • “基于规范的指令”(specification-based instruction)
    是指对Task做了规范约束,必须是下面的这种格式,包含任务内容(task)、任务id(id)、任务依赖(dep)和参数(args)等四个要素:
[{"task": task, "id", task_id, "dep": dependency_task_ids, "args": {"text": text, "image": URL, "audio": URL, "video": URL}}]
  • “基于示范的解析”(demonstration-based parsing)
    Prompt中给它提供了若干“示例”(Demonstrations)。这会激发大模型的基于上下文学习(In-Context Learning)或者叫做Few-shot learning能力,从而产生更好的理解和生成。

参考文献:
硬核Prompt赏析:HuggingGPT告诉你Prompt可以有多“工程”


3 数据系统:Data-Copilot

Data-Copilot: 大语言模型做你最贴心省事的数据助手

号称:无需繁琐操作,只需要输入一句话, Data-Copilot自动帮你完成查数据,分析数据,管理数据,预测趋势,还可以画图做表

在这里插入图片描述
接口设计:我们设计了一个self-request的过程,使LLM能够自主地从少量种子请求生成足够的请求。然后,LLM根据生成的请求进行迭代式的设计和优化接口。这些接口使用自然语言描述,使它们易于扩展和在不同平台之间转移。
接口调度:在接收到用户请求后,LLM根据自设计的接口描述和in context demonstration来规划和调用接口工具,部署一个满足用户需求的工作流,并以多种形式呈现结果给用户。

此时该系统也是符合:Planning+Programming 模式。其中:

  • LLM根据自设计的接口描述和in context demonstration来规划任务实现Planning;
  • 还有该系统的Programming 核心是利用LLM强大的代码生成能力为接口库中的每个接口生成具体的代码(interface implementation)
    在这里插入图片描述

来看一个例子:

用户问题: 预测下面四个季度的中国季度GDP
部署工作流:获取历史GDP数据----> 采用线性回归模型预测未来----->输出表格

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/831762.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

运维:18工作中常用 Shell 脚本, 强烈推荐

1、检测两台服务器指定目录下的文件一致性 #!/bin/bash ###################################### 检测两台服务器指定目录下的文件一致性 ##################################### #通过对比两台服务器上文件的md5值,达到检测一致性的目的 dir=/data/web b_ip=192…

el-popover使用自定义图标

使用el-popover实现鼠标点击或浮动到自定义图标上弹出表格弹窗,官方文档上使用的是按钮el-button,如果想换成图标或其他的组件的话直接把el-button替换掉即可。注意替换之后的组件一定要加slot“reference”,不然组件是显示不出来的。 代码如…

数据可视化(六)多个子图及seaborn使用

1.多个子图绘制 #绘制多个子图 #subplot(*args,**kwargs) 每个subplot函数只能绘制一个子图 #subplots(nrows,ncols) #fig_add_subplot(行,列,区域) #绘制子图第一种方式 plt.subp…

qq邮箱 会自动拦截 github 邮件,醉了!

今天登录Github,修改密码,qq邮箱一直收不到Github的邮件 打开自助查询一看,自助查询在右边栏 为什么steam登陆 qq邮箱收不到验证码了? - 知乎 点击左上角设置,点击反垃圾,点击设置右键地址白名单 然后就可…

恒运资本:满仓的含义?

满仓,望文生义,便是财经领域中的一个术语。它指的是出资者将一切可用资金悉数用于购买股票、基金或其他金融资产。满仓的意义是出资者对某种出资产品充满决心,并乐意将自己的大部分资金投入其中,以希望取得更高的报答。但是&#…

Mongodb安装(Centos7)

1. 下载 MongoDB: The Developer Data Platform | MongoDB 2. 安装 上传至服务器 解压 tar -zxvf mongodb-linux-x86_64-rhel70-5.0.19.tgz 移动 mv mongodb-linux-x86_64-rhel70-5.0.19 /usr/local/mongodb 3. 配置 vim /etc/profile # set mongodb configuration expor…

shell centos 7 一键部署 KVM软件脚本

这个脚本有限地方还需要完善下 设计思路: 1、创建检查内核函数 check_kernel() 2、创建升级内核函数 update_kernel() 3、创建检查是否支持虚拟化函数 check_virtual() 4、创建检查操作系统函数 check_system() 5、创建检查网络函数 check_network() 6…

安防视频汇聚平台EasyCVR视频广场面包屑侧边栏支持拖拽操作

智能视频监控平台EasyCVR能在复杂的网络环境中,将海量设备实现集中统一接入与汇聚管理,实现视频的处理与分发、录像与存储、按需调阅、平台级联等。 TSINGSEE青犀视频汇聚平台EasyCVR可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协…

实例029 半透明渐显窗体

实例说明 很多专业软件在启动前都会显示一个说明该软件信息或用途的窗口,有的则是一个漂亮的启动界面,如Adobe公司的Acrobat。该窗口使软件显得更加专业。本例将实现一个半透明的渐显窗体,运行本软件会显示一个启动画面,并且画面…

【大招:谨慎使用】如果Git上传,pull总是有冲突而且无法解决

目录 1.先去当前项目文件夹,拷贝一份项目作为备份。 2.右键运行Git Bash 3.把刚才备份的项目文件夹中,自己的代码,拷贝到覆盖后文件夹里,并替换。 4.打开idea,进到项目里。把代码重新push。按如下操作: …

AI人工智能到底会如何发展,有没有哪些是确定的将来?

自从 chatGPT 发布,Ai的未来难以预测,但过往清晰可见,我们从过去大胆推测一下未来。 1950年,图灵提出了"图灵测试",作为衡量机器是否具有人类智能的标准。 2016年,DeepMind的AlphaGo战胜了围棋世…

Qt实现自定义QDoubleSpinBox软键盘

在Qt应用程序开发中,经常会遇到需要自定义输入控件的需求。其中,对于QDoubleSpinBox控件,如果希望在点击时弹出一个自定义的软键盘,以便用户输入数值,并将输入的值设置给QDoubleSpinBox,该如何实现呢&#…

35.利用fminsearch解 多元变量无约束条件下的函数最小值(matlab程序)

1.简述 1.fminsearch函数基本语法 函数功能:使用无导数法计算无约束多变量函数的最小值 语法 x fminsearch(fun,x0) x fminsearch(fun,x0,options) x fminsearch(problem) [x,fval] fminsearch(___) [x,fval,exitflag] fminsearch(___) [x,fval,exitflag,out…

苹果、高通、联发科新一代旗舰处理器纷纷出炉,A17 又赢麻了

眼看又到了 8 月份,距离每年后半段各家新款旗舰手机发布的日子越来越近。 但在这之前往往率先展开的是移动手机处理器之间的巅峰对决。 高通骁龙 8 Gen3、联发科天玑 9300、苹果 A17 无疑将会成为今年厮杀的主战场。 到了临近关头,这几款处理器规格、性…

如何制作一个中小学分班查询系统?

随着暑假接近尾声,新学年即将开始,学校面临着重要的任务,即学生们的分班问题。这一问题包括新生入学的分班及低年级学生升入高年级的分班。对负责分班工作的老师们来说,这无疑增加了工作量和挑战。 为确保学生顺利入学并分配到适…

url编码,html编码,uncode编码

目录 url编码 html实体编码 unicode编码 url编码 URL编码遵循下列规则: 每对name/value由&;符分开;每对来自表单的name/value由符分开。如果用户没有输入值给这个name,那么这个name还是出现,只是无值。任何特殊…

【复习61-66题】【每天40分钟,我们一起用50天刷完 (剑指Offer)】第四十四天 44/50

专注 效率 记忆 预习 笔记 复习 做题 欢迎观看我的博客,如有问题交流,欢迎评论区留言,一定尽快回复!(大家可以去看我的专栏,是所有文章的目录)   文章字体风格: 红色文字表示&#…

KEIL Map文件解析以及如何从Map文件还原内存分布

一、什么是Map文件 简单来说,Map文件是编译器编译工程后生成的一个文件,这个文件反映了各个源文件生成的模块间的交叉引用、移除的未使用模块、符合映射表、内存映射以及各个模块的大小和汇总数据等。 所以说,当你在遇到或怀疑存在内存越界或…

RISC-V基础之函数调用(三)保留寄存器(包含实例)

RISC-V将寄存器分为保留和非保留两类。保留寄存器是指在函数调用前后必须保持相同值的寄存器,因为调用者期望在调用后能够继续使用这些寄存器的值。保留寄存器包括s0到s11(因此称为saved),sp和ra。非保留寄存器,也称为…

2023年华数杯B题

B 题 不透明制品最优配色方案设计 日常生活中五彩缤纷的不透明有色制品是由着色剂染色而成。因此,不透明 制品的配色对其外观美观度和市场竞争力起着重要作用。然而,传统的人工配色 存在一定的局限性,如主观性强、效率低下等。因此&#xff0…