绝区陆--大语言模型的幻觉问题是如何推动科学创新

news2024/11/15 5:00:54

介绍

大型语言模型 (LLM)(例如 GPT-4、LLaMA-2、PaLM-2、Claude-2 等)已展示出为各种应用生成类似人类文本的出色能力。然而,LLM 的一个鲜为人知的方面是它们倾向于“产生幻觉”或生成不正确或没有根据的事实陈述。我不认为这仅仅是一个限制,我认为,如果得到正确引导,LLM 幻觉实际上可以帮助激发新的科学发现和编码创新。

让我来解释一下大语言模型幻觉的自由特性如何让他们能够建立人类大脑可能无法建立的横向联系。研究人员开始向大语言模型提出科学难题和问题,看看他们能想出什么非常规的解决方案。虽然大多数输出​​可能毫无意义,但一些想法可以提供有希望的新研究方向。

作为一名软件开发人员和工程师,我将特别关注如何促使大语言模型 (LLM) 集思广益,想出解决编码问题的创新方法。他们不受约束的幻想可能会产生新的算法、数据结构、架构和编程范例。我将提供大语言模型 (LLM) 在被要求解决复杂挑战时可能编写的富有想象力的代码示例。

大语言模型幻觉的力量

但首先,为什么 LLM 幻觉具有如此大的创造潜力?当 LLM 接受大量文本数据集的训练时,它们会发展出一种令人印象深刻的能力,能够以非常像人类的方式继续讨论任何主题的段落。然而,与人类不同,LLM 并不真正理解它们生成的内容。它们没有现实世界知识或常识的基础。

因此,大语言模型可以自信地讨论实际上并不存在的概念、人物、地点和事件。例如,GPT-4 可以令人信服地描述一个它完全虚构的国家的地理。细节似乎足够连贯,直到你意识到它没有任何事实依据。

对于大多数应用来说,这些事实幻觉是大语言模型的一大缺点。但一些研究人员正在探索大语言模型生成文本不受控制、不受约束的性质是否也能释放出不同寻常的创造力。正因为 GPT-4 不知道幻想和现实之间的区别,它的想象力是无限的。不受关于什么是可能的或科学有效的先入为主的观念的束缚,GPT-4 可以抛出人类会自我审查的非常规假设和解决方案。

当然,LLM 并不真正理解科学,在被要求解决复杂问题时,他们给出的大多是胡言乱语。但在这些混乱中,一些研究人员认为,偶尔也会有一些精彩的提示,它们可以表明人类专家可能没有考虑到的有前途的新研究方向。诀窍在于设计有效的提示,以有效地激发 LLM 的想象力,同时过滤掉那些让人产生幻觉的废话。在太狭窄(限制 LLM 的创造力)和太开放(引发胡言乱语)之间可能存在一个最佳的提示点。

幻覺創意代碼

作为一名开发人员和工程师,我特别兴奋于利用 LLM 幻觉来激发解决编码问题的创新方法的可能性。现有的程序合成技术可以自动化简单的编码,但它们利用了狭义约束内的模式识别。LLM 幻觉提供了一些新的东西:人类程序员可能永远不会想到的不同代码概念。

例如,假设我提示 GPT-4:“编写一种新型压缩算法的伪代码,以比 B 帧或 P 帧更有效地缩小视频文件大小。重点关注关键数据结构和逻辑流程。”

LLMs 并不真正了解视频压缩或编码最佳实践。但摆脱了先入为主的观念后,它可能会幻化出令人惊讶的创造性伪代码。也许它利用了一种非常规的预测模型。或者它想出了一种人类程序员不会想到的递归数据转换。同样,大多数输出​​可能毫无用处,但 LLMs 幻觉的绝对范围增加了偶然发现有希望的东西的机会。

与人类程序员不同,LLM 可以快速生成并测试心智模型,且不会有任何风险,这可能会带来富有成效的路径,而人类可能会过早地拒绝这些路径,因为它们太过不合常规。这种能力可以扩展到编码领域。我们可以促使 LLM 产生幻觉,想象出新颖的加密技术、更优雅的数据结构、更快的搜索/排序算法、创造性的 Web 框架或革命性的编程语言。

欺骗的风险

当然,如果我们过于依赖 LLM 幻觉,也会有风险。由于缺乏现实世界的基础,LLM 在讨论它实际上并不理解的概念时听起来很有说服力。如果我们将 GPT-4 中的每个幻觉代码想法都视为合理的,我们可能会浪费时间追逐海市蜃楼。

例如,在提示 GPT-4 提出一种新颖的加密货币系统后,它可能会使用奇特的加密和创造性的去中心化验证方法生成代码。从表面上看,其幻觉加密货币在技术上似乎很合理。但如果没有对分布式系统或经济学的扎实理解,GPT-4 的建议如果实施,很可能会失败。它的代码通过了“嗅探测试”,只是因为 GPT-4 的胡说八道能力太强了!

因此,尽管 GPT-4 不受约束的想象力具有创造潜力,但我们需要进行严格的筛选,以确定其众多幻觉想法中哪些值得进一步探索。对于科学发现,我们仍然需要通过实验仔细测试 LLM 假设的可行性。对于编码,我们需要实际尝试实现 GPT-4 算法和数据结构,以评估它们的实际性能和可扩展性。

大语言模型合作伙伴

我认为 LLM 最大的价值在于充当一个始终存在的自动化头脑风暴伙伴。我们可以给它提供源源不断的编码挑战和提示变化,以刺激其幻觉输出。在此过程中,LLM 可以激发我们独自无法获得的人类洞察力。

我们不应该将 LLM 视为可以处理问题的自主系统,而应该在 LLM 和人类专家之间建立紧密的反馈循环。我们提示 GPT-4,处理结果,识别有希望的部分,再次提示 GPT-4 完善某些概念,过滤并重复。这构建了新的混合人类-LLM 发现过程,我们才刚刚开始探索。

头脑风暴会议示例

场景:我是一家对冲基金的数据工程师,该基金采用复杂的机器学习算法来指导我们的交易策略。数据科学团队依靠我来汇总市场数据流、实施管道并在云端管理我们的大数据基础设施。

然而,我们当前的数据仓库和数据湖难以跟上来自市场、替代数据源和我们自己的投资组合分析的金融时间序列数据的爆炸式增长。我们的管道无法以足够快的速度提取和处理数据以进行机器学习训练。

我决定选择 GPT-4 大脑来获得满足算法金融对速度、多样性和数量需求的创造性数据架构理念。

头脑风暴会议 我:“GPT-4,我需要一个创新的大数据蓝图来处理大量、高速率的金融数据馈送,这些数据将动态地为交易模型提供信息。细节对时间非常敏感。概述一种完全针对速度和灵活性进行优化的方法。”

GPT-4:“这听起来像是云端 Lambda 架构的一个很棒的应用!结合流和批处理路径,我们可以实现低延迟提取,同时仍支持历史回测。”

Lambda 架构让我想起了领域驱动设计的事件源……也许我们可以围绕来自不同市场的事件流来构建它?

我:“很好,我喜欢 Lambda 的想法!既然金融围绕市场事件而展开,如果我们在事件流主干上构建它会怎么样?比如在不同的数据域(交易、订单、交易等)中遵循事件源模式。有什么创新建议吗?”

GPT-4:“喜欢事件源概念——它很自然!我们可以将所有市场数据视为来自不同领域的时间事件日志流。一些关键创新:

  1. 使用集成的 Apache Kafka 生态系统(Kafka、Kafka Connect、KSQL)进行事件提取、代理和流处理。
  2. 数据作为事件让我们能够利用事件驱动的微服务架构进行扩展和发展。
  3. 对于机器学习,Kafka 流式传输使实时/持续的模型训练保持反应能力。
  4. 使用 Kafka 时间窗口、时间戳、水印对事件流进行分区,以进行历史回溯测试。
  5. 随着事件模式的发展,实施 Kafka Schema Registry 进行集中验证和版本控制。”

GPT-4 详细介绍了这个事件流平台,我越来越兴奋了!它完美地契合了我们实时、基于时间轴的数据挑战,同时为批量/历史建模敞开了大门。我迫不及待地想把它充实成一个久经考验的金融数据网格,我们可以无限制地扩展。我们的战略家会喜欢这个的。

关键要点

总而言之,虽然大语言模型没有扎实的知识或推理能力,但它们不受约束的幻想倾向确实提供了不同寻常的创造潜力。通过在人类专家和大语言模型之间建立紧密的反馈回路,我们可以激发任何一方都无法独立实现的新发现。大语言模型提供丰富的想象力,而人类提供批判性分析。

我尤其热衷于鼓励大语言模型提出富有想象力的方法来解决棘手的编码难题。大语言模型摆脱了先入为主的观念,可能会想到人类无法想到的非传统算法、数据结构、架构和范例。它还允许通过生成大量伪代码来快速进行原型设计。

当然,我们需要严格筛选,以确定大语言模型的众多幻想想法中哪些在技术上是可行的,值得实施。只有一小部分可能被证明是可行的,但这些稀有的宝石可以开辟有前途的新研究方向。随着时间的推移,随着我们通过对哪些可行和哪些失败的反馈来建立大语言模型的知识库,信噪比可能会大幅提高。

因此,尽管大型语言模型幻觉显然存在缺点,但我相信我们只触及了其创造潜力的表面。通过建立紧密的人机-LLM 协作循环,我们可以突破发现的界限!

创作不易,觉得不错的话,点个赞吧!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1910314.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

下载安装Microsoft DirectX SDK(June 2010)

官方下载网址如下: Microsoft DirectX SDK(June 2010)链接 下载后是一个.exe文件 在安装之前,需要先检查你的电脑中是否已经安装过(如果你安装过VS,那么一定会有这两个文件) Microsoft Visual C 2010 x86 Redistribu…

解决 NullReferenceException: Object reference not set to an instance of an object

在 Unity 中 利用 URDF Importer import UR5e_gripper 的 URDF file 时出现错误: NullReferenceException: Object reference not set to an instance of an object。 理论上是有个Object 是 Null,当我再次检查URDF后仍觉得路径没有写错。 于是我 把Mesh…

压缩感知2——算法模型

采集原理 其中Y就是压缩后的信号表示(M维),Φ表示采集的测量矩阵,可以是一个随机矩阵,X代表原始的数字信号(N维)。 常见的测量矩阵——随机高斯矩阵 随机伯努利矩阵 稀疏随机矩阵等,矩阵需要满足与信号的稀…

SenseVoice - 阿里最新开源精准多语言语音识别与情感辨识模型 本地一键整合包下载

阿里巴巴近期发布了开源语音大模型项目FunAudioLLM,该项目包含了两个核心模型:SenseVoice和CosyVoice。可以精准多语言识别并且进行语音克隆 本地一键包下载地址: SenseVoice - 精准多语言语音识别与情感辨识模型 本地一键整合包下载 SenseVo…

Appium-移动端自动测试框架详解

Appium是一个开源跨平台移动应用自动化测试框架。 既然只是想学习下Appium如何入门,那么我们就直奔主题。文章结构如下: 为什么要使用Appium?如何搭建Appium工具环境?(超详细)通过demo演示Appium的使用Appium如何实现移动端UI自…

基层医院、专科医院云HIS系统,支持电子病历四级,全套源码交付

云HIS系统采用B/S架构云端SaaS服务的方式提供,使用用户通过浏览器即能访问,无需关注系统的部署、维护、升级等问题,系统充分考虑了模板化、配置化、智能化、扩展化等设计方法,覆盖了基层医院的主要工作流程,能够与监管…

大模型常见的LoRA算法原理、实现和运用详解

文章目录 1. 前言2. 算法介绍2.1 微调2.2 核心思想 3. 几个关键问题3.1 LoRA如何应用在Transformer上3.2 LoRA的最佳秩r如何选择3.3 W W W和 Δ W \Delta W ΔW有什么关系 4. 源码5. 实际应用6. 总结7. 参考 1. 前言 本文是常用算法的快速浏览入门(扫盲&#xff0…

升级iOS18有问题?学会这2招能解决90%iOS问题!

在 iOS 18beta发布后,有部分朋友升级后表示遇到了各种奇怪问题,比如升级卡在Apple Logo,黑屏,无限重启,卡在恢复模式,程序闪退,电池消耗过快,发烫等问题。 于是,小编决定…

HTML(27)——渐变

渐变是多个颜色逐渐变化的效果,一般用于设置盒子模型 线性渐变 属性:background-image : linear-gradient( 渐变方向 颜色1 终点位置, 颜色2 终点位置, ......); 取值: 渐变方向:可选 to 方位名词角度度数 终点位置:可选 百分…

生物素标记的柚皮苷探针;Biotin-Naringin

生物素标记的柚皮苷探针(Biotin-Naringin)是一种结合了生物素(Biotin)和柚皮苷(Naringin)特性的化合物,它在有机合成及药物化学技术领域具有重要意义。以下是对该探针的详细解析: 一…

研华工控机 UNO-2473G WIN7专业版系统下安装网卡驱动异常

基本配置:UNO-2473G、Windows 7 Pro 64bit 常规型嵌入式工控机,搭配Intel Atom™ E3845/Celeron J1900 处理器 第四代Intel Atom/Celeron J1900处理器,最高可达1.91/2.0 GHz,4GB DDR3L存储4/2 x GbE, 3 x USB 2.01 x USB 3.0或4…

VOS历史话单的非法呼叫话单解决方案,IPSS模块安装到VOS服务器,可大幅度提高安全性!

由于VOS的普及性,不得不承认VOS确实是非常优秀的软交换,但是很多客户在使用过程中都会遇到各种安全问题,比如话费被盗用了,历史话单一堆的非法呼叫话单,严重的影响到了话务安全,并不是那点话费的事了&#…

留学Assignment写作如何正确选择topic?

留学Assignment在写作之前首先需要选好topic,一个好的topic能让你的Assignment写起来更加顺畅,俗话说“文好题一半”,好的创作主题,不但对于写作帮助颇大,对于Assignment总体也是加分不少的。 添加图片注释&#xff0c…

python-课程满意度计算(赛氪OJ)

[题目描述] 某个班主任对学生们学习的的课程做了一个满意度调查,一共在班级内抽取了 N 个同学,对本学期的 M 种课程进行满意度调查。他想知道,有多少门课是被所有调查到的同学都喜欢的。输入格式: 第一行输入两个整数 N , M 。 接…

高,实在是高

go,去 //本义音通义通汉字“高”,指太阳升起、上升,即高上去 god | God,神,上帝 //本义音通义通“高的”,指太阳高高在上的,至高无上的 glad,高兴的 //本义音通义通“高了的”&#…

【CUDA|CUDNN】安装

every blog every motto: You can do more than you think. https://blog.csdn.net/weixin_39190382?typeblog 0. 前言 显卡驱动安装参考之前的文章 cuda、cudnn 安装 1. cuda 安装 访问https://developer.nvidia.com/cuda-toolkit-archive 选择需要的版本:h…

【瑞吉外卖 | day03】公共字段自动填充+分类信息的增删改查

文章目录 1. 公共字段自动填充1.1 问题分析1.2 代码实现1.3 代码完善 2. 新增分类2.1 需求分析2.2 数据模型2.3 代码开发 3. 分类信息分页查询3.1 代码开发 4. 删除分类4.1 需求分析4.2 代码开发4.3 功能完善 5. 修改分类 1. 公共字段自动填充 1.1 问题分析 在后台系统的员工管…

【VUE基础】VUE3小技巧(持续更新)

一键快速生成自定义vue3模板代码 根据上图打开配置用户代码片段 搜索vue.jsond打开 "Print to console": {"prefix": "vue","body": ["<!-- $0 -->","<template>"," <div></div>&…

加油卡APP系统开发,优惠加油收益

目前&#xff0c;汽车已经成为了不可或缺的出行工具&#xff0c;汽车加油更是成为了家家户户要做的事。不过随着油价的波动&#xff0c;车主急需能够进行优惠加油的渠道&#xff0c;因此&#xff0c;加油卡APP成为了大众汽车加油新的选择方式&#xff0c;用户在下载APP后即可享…

220V降5V芯片输出电压电流封装选型WT

220V降5V芯片输出电压电流封装选型WT 220V降5V恒压推荐&#xff1a;非隔离芯片选型及其应用方案 在考虑220V转低压应用方案时&#xff0c;以下非隔离芯片型号及其封装形式提供了不同的电压电流输出能力&#xff1a; 1. WT5101A&#xff08;SOT23-3封装&#xff09;适用于将2…