GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra 挑战控制工程的新领域

news2024/9/29 9:23:57

介绍

论文地址:https://arxiv.org/abs/2404.03647

近年来,GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra 等大规模语言模型(LLM)迅速发展,展示了它们解决复杂问题的能力。LLM 的这些发展在多个领域都有潜在的应用前景。

最显著的应用之一是控制工程。控制工程是一个涉及数学理论和设计的领域,有可能利用 LLM 的高级推理能力。然而,人们对 LLM 解决控制问题的能力还不完全了解。

因此,本研究旨在确定最先进的 LLM 在多大程度上可以解决大学级别的控制问题。作者开发了一个涵盖基础和应用控制工程的基准数据集 ControlBench,并全面评估了 GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra 这三个模型的性能。

这一举措有望凸显 LLM 在控制工程领域的潜力和局限性,并为人工智能与控制工程的未来融合提供重要见解。

相关研究

开发 ControlBench 数据集

作者构建了一个 ControlBench 数据集,涵盖了大学级别的控制问题。该数据集涵盖控制工程的多个领域,包括稳定性、瞬态响应、方框图、控制系统设计、波特图和奈奎斯特图。该数据集还包括需要可视化信息的问题,旨在全面评估 LLM 的分析能力。

ControlBench 数据收集自教科书和在线资料,并以 LaTeX 格式整理。每个问题还提供了详细的答案和解释,可用于评估 LLM 的性能。

评估 LLM 解决控制问题的能力

上图显示了 GPT-4 和 Claude 3 Opus 的错误类型和百分比;定义了七种错误模式,并对其百分比进行了比较。

首先,可以看出 GPT-4 的主要挑战在于其 “有限的推理能力”。换句话说,从逻辑上解释控制问题并推导出正确的解决方案被认为是 GPT-4 的弱点。

另一方面,Claude 3 Opus 面临的最大挑战是 “计算错误”。它似乎很容易在数学处理方面出错,如公式的转换和数字计算的准确性。

然而,两者之间的比较表明,Claude 3 Opus 因 "推理能力有限 "而出现的错误较少。这说明,在对控制理论的理解和推理能力方面,Claude 3 Opus 更胜一筹。

因此,利用图 1 对每种 LLM 的优势和挑战进行定量比较和分析,可以清楚地表明 LLM 解决控制问题能力的特点。这一分析结果是将 LLM 应用于控制工程的重要发现。

关于 ControlBench-C 的建议

使用 ControlBench 进行的详细评估很有意义,但对于非控制工程专家来说,难度偏高。因此,作者提出了一个更简单的版本,即 ControlBench-C。

ControlBench-C 以单选题取代了 100 道 ControlBench 题目。通过这种形式,无需控制工程方面的专业知识,就能快速自动地评估 LLM 的反应。

ControlBench-C 要求用户输入 LLM 选项的答案及其推理,并计算正确答案百分比(ACC)和自我修正后的正确答案百分比(ACC-s)。通过这种方法,非控制专家可以了解 LLM 解决控制问题的基本能力。

ControlBench-C 的定位是 ControlBench 的补充:ControlBench 提供详细的见解,而 ControlBench-C 的特点是能够进行简单的自动评估。预计在未来的研究中,两者将分别使用。

结论

本文开创性地研究了大规模语言模型(LLM)在控制工程中的适用性。作者开发了一个名为 ControlBench 的基准数据集,并用三种 LLM(GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra)对其进行了评估。

结果表明,Claude 3 Opus 在解决控制问题方面表现最佳。另一方面,也证实了 LLMs 仍存在一些问题,如处理需要视觉信息的问题和计算错误的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2066640.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Postman接口测试 —— 设置全局变量、参数传递、断言

在能熟练使用postman运行接口请求后,会遇到一些问题。例如: 我们的web网站一共有几十个接口,测试的时候如果要切换环境,这个时候要每个接口都要修改url的根路径,一个一个的改也太麻烦了; 还有时候我们经常…

八、SPA单页面实现SEO优化之预渲染prerender-spa-plugin

文章目录 一、前言二、prerender-spa-plugin预渲染方式实现SEO插件介绍实现步骤 一、前言 关于SPA和SEO优化、SSR服务器渲染的介绍可以参考这里: 六、什么是SEO优化(搜索引擎优化)?SPA单页面应用如何实现SEO优化? 通…

C/C++语言基础--字符串(包括字符串与字符数组、字符串与指针、字符串处理函数等),代码均可运行

本专栏目的 更新C/C的基础语法,包括C的一些新特性 前言 无论什么语言,字符串都是最重要、最基础的数据类型,他对二进制有很好的对应关系在C语言中没有提供专门的处理字符串的类型,但是我们可以通过字符数组、开辟内存地址来处理…

Content-Encoding: br

爬虫的时候遇到了 Content-Encoding: br , 这可能会导致返回的数据有乱码,无法解析,也无法解码, 浏览器显示编码 按照这么写,还是乱码 查了很久,需要在请求头 Accept-Encoding 将这个改为gzip&#xff0c…

Swift 6.0 如何更优雅的抛出和处理特定类型的错误

概述 从 Swift 语言诞生那天儿起,它就不厌其烦一遍又一遍地向秃头码农们诉说着自己的类型安全和高雅品味。 不过遗憾的是,作为 Swift 语言中错误处理这最为重要的一环却时常让小伙伴们不得要领、满腹狐疑。 在本篇博文中,您将学到如下内容&…

企业数字化转型会面临哪些挑战,如何解决?

当前,数字技术发展迅速,已迈入 AI 人工智能时代。企业若不进行数字化转型,可能会被用户抛弃、被竞争对手超越。那么,传统企业在转型过程中会遇到哪些挑战呢? 一、企业数字化转型面临的挑战 1、缺乏明确的战略规划和转…

宠物空气净化器除臭吗?性价比高的宠物空气净化器十大排名分享

来来来,先带大家一睹我店里的小可爱们 是不是超级可爱呀~?这样的大卡车猫猫,在我这猫咖里可是还有好几十只!作为一位坐拥几十只猫咪的“猫咖掌门”,朋友们总是投来羡慕的目光。但这份光鲜背后,可是有我无数…

轻松制作 GIF 动图,你也可以!

你是否曾为找不到合适的动图而烦恼? 是否羡慕别人能制作出精彩的 GIF 动图? 现在,无需再羡慕!因为我们用以下图片中的方法,你自己也能轻松制作 GIF 动图。 这款工具,操作简单易懂, 即使你没有…

舞动奇迹,亨廷顿舞蹈症患者专属健身秘籍!

🌈 在小红书的温馨角落里,让我们一起探索一个特别的世界——为亨廷顿舞蹈症(HD)患者量身定制的健身之旅。HD,这个名字或许带着一丝沉重,但它绝不能定义我们生活的全部色彩。通过科学的锻炼方式,…

APP逆向百例五-Flutter逆向案例----某次元(AES+RSA)

现在售价依旧是99¥,计划更新100案例,平均一个案例1块钱,要什么自行车! 还原一下我逆向此app的方法 1.抓包分析: 我这边用socksDroid抓不到数据包,但是小黄鸟可以,那就用Reqable结合电脑端进行抓包,不纠结…

Leetcode 347. 前 K 个高频元素

解法: 字典统计排序 class Solution:def topKFrequent(self, nums: List[int], k: int) -> List[int]:cont {}for eve in nums:if eve not in cont: cont[eve] 1else: cont[eve] 1contlist sorted(cont.items(), keylambda x: x[1])res [eve[0] for eve i…

从安装Docker到打包迁移MySQL的完整指南

从安装Docker到打包迁移MySQL的完整指南 每一天过得充实,眼中无迷茫,心中无烦恼。日子就会充满希望,岁月就会洒满清欢。 这篇文章将带你从零开始,在CentOS服务器上安装Docker、使用Docker部署MySQL数据库,并打包和迁移…

凯迪仕智能锁携手唐百电器达成战略合作,市场布局和拓展再加速

近日,凯迪仕智能锁中国区总裁陈露拜访唐山百货大楼集团(唐百电器),双方深入交流资源优势,结合唐山市场实际情况达成2024年-2025年度深度战略合作,并完成首次签约千余套凯迪仕智能锁战略目标,接下…

【java计算机毕设】中小型人力资源管理系统MySQL ssm vue maven项目设计源代码带项目报告 前后端可分离可不分离

目录 1项目功能 2项目介绍 3项目地址 1项目功能 【java计算机毕设】中小型人力资源管理系统MySQL ssm vue maven项目设计源代码带项目报告 前后端可分离可不分离 2项目介绍 系统功能: 中小型人力资源管理系统包括管理员、人事管理员、普通人员三种角色。 管理员…

【JS】不使用BigInt实现大整数相加

前言 JS中整数有存储范围,一旦超出这个范围则会丢失精度,通过MAX_SAFE_INTEGER可以看到JS中支持的最大的、安全的正整数为9007199254740991。 JS新类型BigInt可以处理大整数运算,但这次不逃课,本文将尝试自行处理大整数相加&…

python安装包,2024最新Python下载环境配置教程!

一、Python安装包下载 1.进入Python官网下载(如果不想去官网下载可以点击领取安装包) Python官网主要有python的About (简介)、Downloads (下载)、Documentation(文档)、Community (团体)、Success Stories (成功案例)、News (新闻)、Events (事件动态…

Windows微调Qwen2-7B-Instruct-甄嬛

一、下载Anaconda 在下载Anaconda之前建议先将电脑原有的python卸载,避免造成冲突。 之后一直Next即可,不过要记得在环境变量中添加Anaconda(在安装完成之前会有一个Add PATH选项,可以选上) 安装完成之后打开CMD&…

3.2.5 宙之CPU的时分复用

点击查看系列文章 》 Interrupt Pipeline系列文章大纲-CSDN博客 3.2.5.1 __primary_switched开始构建0号进程 宙者,古往今来,时间为宙。盘古为了开天辟地,必须分开空间和时间。在时间维度,要对CPU的运行时间进行切分,…

netty编程之自定义编解码器

写在前面 源码 。 本文看下netty如何自定义编解码器。为此netty专门定义抽象类io.netty.handler.codec.MessageToByteEncoder和io.netty.handler.codec.ByteToMessageDecoder,后续我们实现自定义的编解码器就继承这两个类来做。 1:正戏 server 启动类&#xff1a…

卖一辆亏6万搞倾销,极越汽车高管掀了小米汽车遮羞布?

"炮轰解决不了极越销量问题" 作者 | 魏 强 编辑 | 卢旭成 8月22日早9点40分,极越汽车公关负责人徐继业发朋友圈炮轰小米汽车创始人雷军:“雷军这样的企业家,有点公德心和羞耻心好不好?每台车亏6万,亏那么…