LongLLaMA:LLaMA的升级版,处理超长上下文的利器!

news2024/9/24 23:30:47

原文来源:芝士AI吃鱼

有效整合新知识:大模型面临的挑战

大家使用过大型模型产品的时候可能会遇到一个共同的问题:在进行多轮对话时,模型可能会忘记之前的对话内容,导致回答不连贯。这实际上是由于大型模型在处理大量新内容时有时会力不从心,给人一种分心的感觉。

这个问题实际上也是当前大型模型面临的一个主要挑战,即如何有效地将大量新知识整合到模型中。目前常见的解决方法之一是微调(fine-tune),但这种方法不仅需要大量资源和复杂的流程,而且并不能总是清晰地指导模型如何整合新知识。例如,对《爱丽丝梦游仙境》这样的文本进行微调,不能让模型回答与故事本身相关的问题,只能让模型预测下一个词或者补全句子。这种情况让人感到很沮丧。

整合新知识的替代方法:上下文整合

除了微调外,另一种有效的替代方法是将新知识整合到上下文中,而无需进行模型训练。然而,这种方法受到模型上下文长度的限制。为了处理大型知识数据库,模型需要将上下文长度扩展到数百万个标记,但这在现实中是不可行的。即使是强大的GPT-4模型,其上下文长度也只有32K。

谷歌DeepMind研究团队最近提出了一种名为"Focused Transformer"(FoT)的注意力集中的Transformer架构,旨在解决大型模型的分心问题。他们使用FoT对LLaMA模型进行微调,从而获得了名为LongLLaMA的模型,其架构与LLaMA相同。通过解决大型模型的分心问题,LongLLaMA显著提高了模型的上下文长度,并且在passkey检索任务中甚至可以扩展到256K长度的上下文。更重要的是,LongLLaMA对标准Transformer的改动非常小,可以无缝切换到其他任务的大型语言模型。

Focused Transformer(FoT)是一种注重注意力集中的Transformer架构。它通过优化模型的注意力机制,帮助模型更好地处理大量新知识和上下文信息。这项创新技术的引入使得模型能够有效整合新知识,提高对话的连贯性。

在FoT的基础上,研究团队对LLaMA模型进行了微调,得到了LongLLaMA模型。与LLaMA相比,LongLLaMA在处理上下文长度方面取得了显著的改进。在passkey检索任务中,LongLLaMA能够处理长达256K的上下文信息,这在过去是难以实现的。

LongLLaMA-3B模型在上下文长度为100k时准确率达到94.5%,在上下文长度达到256k的准确率为73%,而标准的LLaMA-3B模型在上下文长度2k时准确率接近于0,已基本不可用了。

FoT的实现方法很简单,它实际和谷歌2022年提出的一个内存加大版的transormer—Memoryrizing Transormer非常相似,后面我们也会详细讨论FoT和它的区别。FoT额外使用了一块较大的内存来存储历史信息的key-value对,然后借鉴了对比学习的思想在训练阶段中使用跨批次训练(cross-btach)将大量历史信息融入到样本中以增强key-value对的空间结构,这样模型就能对更加专注在和当前问题非常相关的历史信息中。

目前LongLLaMA模型的代码和权重已经公布在github和Hugging Face:

论文链接:
https://arxiv.org/pdf/2307.03170.pdf
项目地址:
https://github.com/CStanKonrad/long_llama
Hugging Face:
https://huggingface.co/syzymon/long_llama_3b

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/738953.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ARM day10 (IIC协议接收温湿传感器数据)

iic.h #ifndef __IIC_H__ #define __IIC_H__ #include "stm32mp1xx_gpio.h" #include "stm32mp1xx_rcc.h" /* 通过程序模拟实现I2C总线的时序和协议* GPIOF ---> AHB4* I2C1_SCL ---> PF14* I2C1_SDA ---> PF15** */#define SET_SDA_OUT do{…

c++实现贝塞尔曲线,生成缓动和回弹动画

贝塞尔曲线于1962年由法国工程师皮埃尔贝塞尔(Pierre Bzier)所广泛发表,他运用贝塞尔曲线来为汽车的主体进行设计。 一般参数公式 贝兹曲线可如下推断。给定点P0、P1、…、Pn,其贝兹曲线即: 几何学的方向上理解贝塞尔曲线: 一阶贝塞尔曲线 二阶贝塞尔曲线 三阶贝塞尔曲…

记录使用注入的方式为Unity编辑器实现扩展能力

使用场景 当前项目编辑器中不方便存放或者提交扩展代码相同的扩展功能需要在多个项目(编辑器)中使用项目开发中,偶尔临时需要使用一个功能,想随时使用随时卸载 设计思路 使用进程注入,将一个c/c dll注入到当前运行的unity编辑器中使用c/c …

分布式搜索 (二)

一、DSL 查询文档 1. DSL Query 的分类 Elasticsearch 提供了基于 JSON 的 DSL (Domain Specific Language) 来定义查询 常见的查询类型包括: ① 查询所有:查询出所有数据,一般测 试用 例如:match_all ② 全文检索 (full text) …

C++数据结构笔记(8)循环链表实现

1.循环链表与单链表的区别在于尾部结点存在指向头结点的指针 2.无论尾部结点指向第一个结点(头结点)还是第二个结点(第一个有效结点),都可以被称为循环链表 3.判断循环结束的两种方式:遍历次数等于size;或…

《深度探索c++对象模型》笔记

非原创,在学习 1 关于对象(Object Lessons) 这里最开始从C语言的结构体引出C中的”抽象数据类型(ADT)“。 而加上封装之后,布局成本没有增加,三个data member直接内含在每一个class object之中…

深入选择屏幕

2.3.4.4 屏幕输入报表筛选条件等 &--------------------------------------------------------------------- *& selection-screen /option/parameter:屏幕输入报表赛选条件 *& TABLES . *selection-screen begin of block test select-options: selection-screen…

PHY芯片快速深度理解

摘要: 什么是phy 为什么要熟悉RJ45网口 网络七层协议 两个模块进行通信 什么是MDIO协议 MDIO的作用 MDIO没那么重要 MDIO读写时序 为什么说读取的phy最多32个 什么是phy 物理层芯片称为PHY、数据链路层芯片称为MAC。 可以看到PHY的数据是RJ45网络接口&am…

linux常见指令下

接下来我们就聊聊linux的后面十条指令。 一:echo 作用是往显示器输出内容,和printf类型,但是该指令最核心的是与之相关的一些概念 概念1.输出重定向: echo不仅可以向显示打印内容,还可以向文件输出内容,本应该输出到…

在服务器上启动springboot项目

环境搭建:要在服务器上运行SpringBoot Web项目,需要先在服务器上安装JDK(CentOS系统安装JDK参考:http://t.csdn.cn/0zYml) 第一步:创建项目 创建一个简单的springboot项目,并通过测试&#xf…

Java Web Servlet (2)23.7.8

1.7 urlPattern配置 Servlet类编写好后,要想被访问到,就需要配置其访问路径(urlPattern) 一个Servlet,可以配置多个urlPattern package com.itheima.web;import javax.servlet.ServletRequest; import javax.servlet.ServletRes…

嵌入式基础知识-流水线

提到流水线,最先想到的可能是流水线车间中的产品制造过程。 工业上的流水线,又称装配线,指每一个生产单位只专注处理某一个片段的工作,以提高工作效率及产量。 在计算机领域中,也有流水线的概念,其核心原理…

互联网医院系统定制|互联网医院在线诊疗平台

互联网医院系统对医院有以下几个方面的帮助:   提升医疗服务效率:互联网医院系统可以为医院提供在线挂号、在线问诊、远程会诊等功能,减少患者排队等待时间,提高医疗服务效率。   扩大服务范围:互联网医院系统可以…

【数据结构二叉树OJ系列】6、平衡二叉树

目录 题述: 思路: 正确代码如下: 时间复杂度分析: 现让你把代码优化时间复杂度为O(N) 思路: 题述: 给定一个二叉树,判断他是否是高度平衡的二叉树。 本题中&#xf…

HttpRunner自动化之接口关联和常用断言

接口关联 第一个test接口获取token,并提取出存储到变量中,在第二个test接口中直接调用该变量,如下图 # 接口关联 - config:name: 微信接口base_url: https://api.weixin.qq.com - test:name: 获取tokenrequest:url: /cgi-bin/tokenmethod: GETparams:g…

在vue3项目中加载Cesium立体地形信息并调整初始化角度

在vue3项目中加载Cesium立体地形信息并调整初始化角度 使用vite创建vue3项目 npm create vitelatestcd到创建的项目文件夹中 npm install安装Cesium npm i cesium vite-plugin-cesium vite -D配置 (1)在项目的vite.config.js文件中添加: impo…

Java模拟cookie登陆操作

Java模拟cookie登陆操作 在使用java访问URL时,如果该URL需要身份验证,那么就不能够直接访问,因为没有登陆。那么,如何解决这个问题呢? 方法是使用java模拟登陆,登陆后记录下cookie信息,在下次发…

【算法集训之线性表篇】Day 07

文章目录 题目基本设计思想代码实现效果 题目 一个长度为L(L>1)的升序序列S,处在第[L/2]个位置的数称为S的中位数。例如,若序列S1{11,13,15,17,19},则S1的中位数是15,两个序列的中位数是含它们所有元素的升序序列的中位数,例如…

使用ida pro反编译并修改so库

快速搜索 图表视图 找到需要修改的行 Edit -> Patch program -> change byte… 复制指令 到这个网站Online ARM to HEX 点击可以切换为HEX to ARM 构造待修改的指令 修改好后复制HEX字符串 Edit -> Patch program -> Apply patches to input file

测试工程师的个人年终总结报告模板

目录 正文之前的思考: 年终总结报告 开篇语 1.  项目概述 1.1  项目情况 1.2  工作流程 1.3  个人角色 1.4  完成情况 2.  工作业绩 3.  亮点和不足 4.  未来展望 总结: 正文之前的思考: 开始编排文档之前来做一个…