GPT4限制被破解!ChatGPT实现超长文本处理的新方法

news2024/12/23 15:05:35

目录

前言

使用chat-gpt过程中有哪些痛点

1.无法理解人类情感和主观性 

2.上下文丢失

3.约定被打断

那如何去解决这个痛点

Transformer(RMT)怎么去实现的

1.Transformer 模型

2.RMT模型

 3.计算推理速率

4.渐进学习能力

总结

写到最后


大家好,我是AI大侠,AI领域的专业博主

前言

ChatGPT已经成为了一款备受欢迎的工具,它可以帮助用户解答问题、写代码、翻译,甚至可以通过它学习更多行业的知识。然而,博主在使用ChatGPT时会发现它还不够智能,有时候不能够完全理解用户的意思,答非所问,下面是博主在使用中遇到的痛点

使用chat-gpt过程中有哪些痛点

1.无法理解人类情感和主观性 

尽管ChatGPT可以根据上下文理解用户的输入,但它仍然无法真正了解用户的意图,ChatGPT只能根据输入数据和算法进行分析和回答,无法真正理解人类的情感和主观性。这种局限性可能导致一些误解和问题。

2.上下文丢失

与ChatGPT进行对话时,它能够记住上下文,并在后续回答中考虑之前的内容。但是,博主在使用过程中经常会出现ChatGPT忘记之前的对话,这可能是由于单次请求中Token数量的限制或是ChatGPT会话长度的限制所导致的。

3.约定被打断

如果在会话中如果有很多其他的问答,ChatGPT可能会在继续下一步时忘记之前的约定,需要再次约定才会保持下去

那如何去解决这个痛点

这几个痛点我想使用过gpt的小伙伴都深有体会,那如何去解决这些问题呢。其实openAI已经给出了答案。

在发布gpt4的时候,最大的变化除了新数据模型的发布,还有一个重要的技术点更新:上下文token默认为8K 最长32k(约50页文本) 这代表可以可以处理更长的对话 以及 更深层次的语义分析。这也是gpt4更智能好用的原因。

但如果把这个token提升到200万个,那又会发生什么,

AI 模型使用的是非结构化文本,常用 Token 表示,以 GPT 模型为例,1000 个 Token 约等于 750 个英文单词

一篇在AI界热论的论文给出了答案,《Scaling Transformer to 1M tokens and beyond with RMT》它可以把Transformer 的 Token 上限扩展至 100 万,甚至更多

Transformer(RMT)怎么去实现的

1.Transformer 模型

Transformer 是一种神经网络模型,是迄今为止最新和最强大的模型之一,常用于处理上下文学习语义含义

我们来看看gpt4的上下文处理模型为什么只能达到8-32k,因为transformer 的可输入长度取决于内存大小,这意味着实现太长的token不现实,Transformer 存在一个关键问题,即其注意力操作的二次复杂度,这导致将大模型应用于处理较长序列变得越来越困难。然而,通过利用特殊的记忆 token 实现记忆机制的 Recurrent Memory Transformer(RMT)模型,有效上下文长度能够增长到百万级,这带来了新的发展前景。

2.RMT模型

RMT 全称Recurrent Memory Transformer(递归记忆Transformer)

RMT结构图

递归记忆Transformer(RMT)是一种基于记忆机制的序列建模架构,用于存储和处理序列数据中的局部和全局信息,并通过递归传递信息来处理长序列中的段之间的依赖关系。

相较于标准Transformer模型的实施,RMT仅通过对输入和输出序列进行修改而无需修改底层模型架构。模型通过训练过程中的记忆操作和序列表示处理来掌控记忆机制的行为。

具体而言,RMT采用记忆token的方式将记忆信息添加到输入序列中,从而为模型提供额外的容量,以处理与输入序列中任意元素无直接关联的信息。为了应对长序列的挑战,RMT将序列分割为不同的段,并通过记忆传递机制将上一段的记忆状态传递到当前段。在训练过程中,梯度通过记忆传递的路径从当前段向前一段流动,从而实现信息的回传和更新记忆状态的目的。

这意味着扩展了token的数量,如果达到理想的200万,我们可以将整部小说甚至更多内容输入到GPT中,而无需依赖上下文来理解用户的信息。这种改进使得GPT能够更准确地处理输入,并提供更精准的回复。现在,试想一下,如果我将整篇《红楼梦》输入到GPT中,是否可以让它帮我续写这个经典作品呢?

 3.计算推理速率

从论文的计算结果中可以很直观地观察到,推理时间与输入序列长度呈线性关系

在处理包含多个片段的大型序列时,递归记忆Transformer(RMT)模型可能比非循环模型更有效率。

这意味着在GPT模型中输入更多内容,可以让模型更深入地理解用户的意图,从而提供更准确的答复。

如果将自己的聊天信息和朋友圈动态等数据导入GPT模型,并让它进行理解和吸收,是否能够快速生成一个完整的虚拟人格呢?如果token达到这个量级 完全是可实现的,这就有些恐怖了

4.渐进学习能力

论文中还指出,随着输入数量的增加,机器学习模型学习到的结果也变得更加准确。

这意味着输入更多的数据可以显著提升模型的性能和预测准确度。

总结

这项技术将使得ChatGPT的能力上限被突破。这也让ChatGPT的痛点得以解决,使得它更完美。

我们甚至可以将整个项目的代码交给GPT,并明确告诉它我们的需求,它将能够直接开始处理后续需求、修改代码并进行优化以及后面的需求迭代。

写到最后

每天在AI领域都有令人震撼的进展,各种新技术层出不穷。有幸生活在这个充满创新的时代,你准备好了吗

AI是一个充满机遇和挑战的领域,

AI时代已经到来,AI真的会取代我们吗?

你还不主动了解AI?

你还在为跟同事聊AI插不上话吗?

那请关注大侠,带你了解AI行业第一动态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/562631.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

DeepPyramid:在白内障手术视频中实现金字塔视图和可变形金字塔接收的语义分割

文章目录 DeepPyramid: Enabling Pyramid View and Deformable Pyramid Reception for Semantic Segmentation in Cataract Surgery Videos摘要本文方法模块细节 实验结果 DeepPyramid: Enabling Pyramid View and Deformable Pyramid Reception for Semantic Segmentation in …

探秘 | 简说IP地址以及路由器的功能究竟是什么?

我们都知道我们在上网的时候都有一个IP地址,用来和其他人进行通信和数据交换。 其中IP地址又分为内网地址和外网地址,也叫作私有地址和公有地址。 为什么要区分私有地址和公有地址呢?原因很简单,因为公有的IP地址不够使用了&…

UnityVR--组件4--Ray/Raycast/Linecast/OverlapSphere

目录 Ray/Raycast/Linecast//OverlapSphere简介 Ray类 Physics.Raycast方法 应用1:实现鼠标点击出射线并检测物体 应用2:实现鼠标点击拖拽物体 Physics.Linecast和Physics.OverlapSphere 应用3:进入范围时触发攻击 Ray/Raycast/Lineca…

day13 网络编程Tomcat服务器

c/s架构和b/s架构的区别 c/s架构:客户端软件,直观,体验好,界面美观,安全性高 b/s架构:浏览器–>服务器,可移植性好,开发和维护性好 网络访问的三要素:ip,端口,协议 udp协议和tcp协议的区别 udp协议:只管发送,不管发送到哪里,是否能不能接收,一对多,无连接通信协议 ​ …

蓝桥:前端开发笔面必刷题——Day3 数组(三)

文章目录 📋前言🎯两数之和 II📚题目内容✅解答 🎯移除元素📚题目内容✅解答 🎯有序数组的平方📚题目内容✅解答 🎯三数之和📚题目内容✅解答 📝最后 &#x…

混沌演练实践(二)-支付加挂链路演练 | 京东云技术团队

1. 背景 当前微服务架构下,各个服务间依赖高,调用关系复杂,业务场景很少可以通过一个系统来实现,常见的业务场景实现基本涉及多个上下游系统,要保证整体链路的稳定性,需要尽量减少系统之间的耦合性&#x…

Elasticsearch与Clickhouse数据存储对比 | 京东云技术团队

1 背景 京喜达技术部在社区团购场景下采用JDQFlinkElasticsearch架构来打造实时数据报表。随着业务的发展Elasticsearch开始暴露出一些弊端,不适合大批量的数据查询,高频次分页导出导致宕机、存储成本较高。 Elasticsearch的查询语句维护成本较高、在聚…

CloudBase CMS的开发注意事项

引言 在进行基于云开发的微信小程序开发时为了减轻工作量打算用CloudBase CMS来减轻工作量,随后去了解并体验了CloudBase CMS的使用,总体来说还有些许问题没有解决,对减轻后台管理工作并没有起到很大的作用。 项目情景 使用CloudBase CMS来管…

Flutter 笔记 | Flutter 基础组件

Text Text 用于显示简单样式文本,它包含一些控制文本显示样式的一些属性,一个简单的例子如下: Text("Hello world",textAlign: TextAlign.left, );Text("Hello world! Im Jack. "*4,maxLines: 1,overflow: TextOverflo…

HACKABLE: III

文章目录 HACKABLE: III实战演练一、前期准备1、相关信息 二、信息收集1、端口扫描2、访问网站3、查看网站源码4、扫描目录5、访问网址6、查看并下载7、访问网站8、查看文件9、解密10、访问网站11、访问网站12、查看文件13、解密14、访问网站15、访问网站16、下载图片17、隐写1…

tcp连接阿里云linux服务器失败

原因: 自己程序bind的是127.0.0.1 应该改成 bind 阿里云的私网地址 client连接的是阿里云公网地址 参考: 阿里云服务器,客户端socket无法连接的问题 - 爱码网 排查过程记录: 1,安全组设置:有正常设置…

【C++】 模板(泛型编程、函数模板、类模板)

文章目录 模板泛型编程概念 函数模板常规使用显式指定及默认值多模板参数模板函数的声明和定义用函数模板优化冒泡排序 类模板常规使用显式指定及默认值多模板参数类中成员函数的定义和声明嵌套的类模板1.类和类型都能确定2.类和类型都不能确定3.类能确定,类型不确定…

Unity3D下如何实现跨平台低延迟的RTMP、RTSP播放

技术背景 好多开发者,希望我们能探讨下Unity平台RTMP或RTSP直播流数据播放和录制相关的模块,实际上,这块流程我们已经聊过多次,无非就是通过原生的RTMP或者RTSP模块,先从协议层拉取到数据,并解包解码&…

常用的表格检测识别方法——表格结构识别方法(上)

第三章 常用的表格检测识别方法 3.2表格结构识别方法 表格结构识别是表格区域检测之后的任务,其目标是识别出表格的布局结构、层次结构等,将表格视觉信息转换成可重建表格的结构描述信息。这些表格结构描述信息包括:单元格的具体位置、单元格…

子网掩码计算方法

子网掩码是用来划分网络的一种方式,它是一个32位的二进制数,用于将IP地址分成网络地址和主机地址两部分。子网掩码中的1表示网络地址,0表示主机地址。计算子网掩码的方式取决于需要划分的网络数量和主机数量。 以下是一些计算子网掩码的示例…

【LeetCode热题100】打卡第2天:两数相加

两数相加 ⛅前言 大家好,我是知识汲取者,欢迎来到我们的LeetCode热题100刷题专栏! 精选 100 道力扣(LeetCode)上最热门的题目,适合初识算法与数据结构的新手和想要在短时间内高效提升的人,熟练…

【2】tensorflow基本概念及变量函数

目录 1 tensorflow运行机制 1.1 搭建计算图模型 计算图的概念 计算图的使用 新建计算图 1.2 在会话中执行计算图 会话的启动方式 1.3 指定计算图的运行设备 2 tensorflow数据模型 2.1 认识张量及属性 张量的类型 张量的阶 2.2 张量类型转换和形状变换 张量类型转换 张…

TwinCAT ENI 数据详解

使用倍福TwinCAT工具可以生成ENI,先对ENI的cyclic frame数据进行解释说明 需要提前了解EtherCAT报文格式,可参考下面文章 EtherCAT报文格式详解_ethercat listtype 1_EtherCat技术研究的博客-CSDN博客https://blog.csdn.net/gufuguang/article/details/…

理解HAL_UARTEx_ReceiveToIdle_IT的工作过程

先只看没错误发生, 没开DMA时候的情况 将会面临3种结局, 收满数据时候IDLE正好发生, 数据发多了, 数据已经收满时候IDLE还没发生IDLE发生了数据没收满, 首先: 接收开始 主要的动作是 1. status UART_Start_Receive_IT(huart, pData, Size); 开始中断接口 2.…

【国产虚拟仪器】基于 ZYNQ 的电能质量系统高速数据采集系统设计

随着电网中非线性负荷用户的不断增加 , 电能质量问题日益严重 。 高精度数据采集系统能够为电能质 量分析提供准确的数据支持 , 是解决电能质量问题的关键依据 。 通过对比现有高速采集系统的设计方案 , 主 控电路多以 ARM 微控制器搭配…