将Llama2上下文长度扩展100倍;效率更高的SeTformer;LLM准确度基本不变加速1.56×;FreeTalker

news2024/11/23 12:20:03

本文首发于公众号:机器感知

将Llama2上下文长度扩展100倍;效率更高的SeTformer;LLM准确度基本不变加速1.56×;FreeTalker

Latte: Latent Diffusion Transformer for Video Generation

图片

本文使用Latent Diffusion Transformer(Latte)做视频,首先从输入视频中提取时空tokens,然后采用一系列Transformer块来建模潜在空间中的视频分布。为了建模从视频中提取的大量tokens,作者从输入视频的空间和时间的角度引入了四种高效变体。实验结果表明,Latte在四个标准视频生成数据集(FaceForensics、SkyTimelapse、UCF101和Taichi-HD)上实现了SOTA性能。此外,作者还将Latte扩展到文本到视频生成(T2V)任务,且Latte取得了与最近的T2V模型相当的结果。

Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon

图片

本文提出了一种名为Activation Beacon的模块,可以用于扩展大语言模型(LLM)处理长上下文的能力。该模块通过压缩LLM的原始激活来感知更长的上下文,与此同时保持LLM在处理短上下文时的原始能力。此外,该模块使用短滑动窗口处理长上下文,提高了在训练和推理时的内存和时间效率。该模块通过自回归任务进行训练,仅需10K步和少量GPU时间即可完成训练。实验结果表明,Activation Beacon可以将Llama-2-7B的上下文长度扩展100倍(从4K扩展到400K),同时在长上下文生成和理解任务上取得了很好的结果。

Freetalker: Controllable Speech and Text-Driven Gesture Generation Based on Diffusion Models for Enhanced Speaker Naturalness

图片

本文提出了一种名为FreeTalker的框架,用于生成自发(如伴随言语的手势)和非自发(如演讲者在讲台上的移动)的演讲者动作。该框架利用了来自不同动作数据集的异构数据,训练了一个基于扩散模型的演讲者动作生成器,该模型使用统一的表示形式来驱动言语手势和文本动作。在推理过程中,使用CFG来控制clips的风格。此外,为了创建clips之间的平滑过渡,作者使用了DoubleTake方法,该方法利用生成先验并确保无缝的运动混合。实验结果表明,该方法能够生成自然且可控的演讲者动作。

SeTformer is What You Need for Vision and Language

图片

本文提出了一种名为SeTformer的新型Transformer,该模型通过将点积自注意力(DPSA)完全替换为自我最优传输(SeT)来提高性能和计算效率。SeT基于两个重要的softmax属性,并通过引入核代价函数来实现这些属性。在小型和基础模型上,SeTformer在ImageNet-1K上实现了84.7%和86.2%的top-1准确率。在目标检测中,SeTformer-base比FocalNet高出2.2 mAP,参数和FLOPs分别减少了38%和29%;在语义分割中,基础模型比NAT高出3.5 mIoU,参数减少了33%;SeTformer还在GLUE语言建模任务中取得了最佳结果;这说明SeTformer适用于视觉和语言任务中。

FlightLLM: Efficient Large Language Model Inference with a Complete Mapping Flow on FPGA

图片

Transformer-based大语言模型(LLMs)在多个领域产生了重大影响,但计算和内存开销过大。常用的压缩技术缓解了LLM计算/内存开销与硬件限制的差距,但现有的GPU和transformer加速器无法高效处理压缩的LLM,因为存在计算效率低、内存带宽未充分利用和编译开销大等问题。本文提出了FlightLLM,通过在FPGA上实现完整的映射流实现LLM的高效推理。在FlightLLM中,作者利用FPGA特有的资源(如DSP48和异构内存层次结构)来解决LLM的计算和内存开销问题。还提出了一种可配置的稀疏DSP链,以高计算效率支持不同的稀疏模式。其次,还提出了一种always-on-chip的解码方案,以支持混合精度并提高内存带宽。

FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency Trade-off in Language Model Inference

图片

预训练语言模型(LLM)性能强大,但参数众多,难以在单GPU等硬件上部署。为降低模型大小和推理延迟,常采用模型压缩技术,但会影响模型准确性和效率。作者发现前馈网络(FFN)只有少数神经元对输入有大的输出范数(heavy hitters),据此,将FFN分为两部分,并为heavy hitters部分分配更多资源,从而平衡优化效率和准确性。此方法可使模型大小减少43.1%,加速1.25∼1.56×,同时几乎不降低准确性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1370161.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

程序媛的mac修炼手册-- 终端(terminal)常用命令

「终端(terminal)」相当于macOS的一个 App ,它的特殊之处是,它是管理其它App的App,操作主要通过命令行界面 (CLI) 。 相比于我们日常熟悉的用户界面(User Interface,UI)&#xff0c…

go image.DecodeConfig 和image.Decode 不能同时使用吗

问题场景:在同时使用go image.DecodeConfig 和image.Decode获取图片信息时,报错提示: 无法读取图像配置 image: unknown format package mainimport ("fmt""github.com/golang/freetype""image""image/d…

GPT在地学、GIS、气象、农业、生态、环境等领域应用教程

详情点击链接:GPT在地学、GIS、气象、农业、生态、环境等领域应用教程 一开启大模型 1 开启大模型 1)大模型的发展历程与最新功能 2)大模型的算法构架与底层逻辑 3)大模型的强大功能与应用场景 4)国内外经典大模型(ChatGPT、LLaMA、Gemini、DALLE、…

【echarts】雷达图参数详细介绍

1. 详细示例 var option {tooltip: {trigger: item},radar: {startAngle: 90,//第一个指示器轴的角度,默认90indicator: [// 指示器{ name: Category A, max: 220 },// name:指示器名称{ name: Category B, max: 200 },// max:指示器的最大值,可选&…

【JAVA】throw 和 throws 的区别?

🍎个人博客:个人主页 🏆个人专栏: JAVA ⛳️ 功不唐捐,玉汝于成 目录 前言 正文 throw: throws: 区别: 作用: 使用位置: 个数: 应…

第1章 初识JavaScript

学习目标 了解JavaScript基本概念,能够说出JavaScript的作用、由来、组成和特点 熟悉常见浏览器的特点,能够说出浏览器的组成以及作用 掌握下载和安装Visual Studio Code编辑器,能够独立完成编辑器的下载和安装 掌握JavaScript代码引入方式…

【forwardRef与useImperativeHandle】

1、 2、 3、 4、代码 1、index.tsx代码 import React, {useRef, useEffect} from react import MyInput from "./InputItem";export default function Index() {const ref useRef<any>(null);useEffect(() > {ref.current?.focus();}, [])return (<&…

安达发|APS计划与排程软件之超级BOM功能

在制造业中&#xff0c;物料清单&#xff08;BOM&#xff09;是一个重要的概念&#xff0c;它描述了产品的组成结构和各个部件之间的关系。随着制造业的发展&#xff0c;对于生产计划和排程的要求也越来越高&#xff0c;因此APS&#xff08;高级计划与排程&#xff09;软件应运…

2023年,To B资本航船走向哪了?

国内To B领域在去掉泡沫、结束资本狂欢之后&#xff0c;投资决策愈加理性。但与此同时&#xff0c;下滑的步伐正在放慢&#xff0c;交易数量和金额的降低逐渐放缓&#xff0c;市场逐渐走向稳定。 作者|斗斗 编辑|皮爷 出品|产业家 2023年&#xff0c;在一众业内人士的眼中&…

openai API key 提示你的卡被拒绝怎么办?

openai API key 对于IP的要求非常的严格&#xff0c;以前你开腾讯云、阿里云的服务器都可以绑定、现在就不行了&#xff0c;一定要纯净的IP才可以绑定 一、排除法 1、首先确保自己的账号是没有被封的&#xff0c;可以正常使用的 2、确保银行卡是可以支持openai的银行卡 3、…

IDEA的lombok失效导致工程代码编译build失败的问题处理

今天也是奇了怪了&#xff0c;打包工程&#xff0c;编译始终失败&#xff0c;明明代码符号存在的 解决办法就是&#xff1a;-Djps.track.ap.dependenciesfalse

嵌入式(八)电源低功耗管理 | 五种运行模式 模式转换 睡眠定时器唤醒

文章目录 1 低功耗基本介绍1.1 五种运行模式 2 低功耗控制相关寄存器3 睡眠唤醒实现方式3.1 系统睡眠定时器唤醒 1 低功耗基本介绍 对于嵌入式系统而言&#xff0c;一个非常重要的内容就是低功耗&#xff0c;尽可能减少电量损耗&#xff0c;然后获得更多的续航时间 当然功耗越…

UG装配-布置

UG装配中&#xff0c;当一个产品在不同情况下具有不同的形态的时候&#xff0c;为了快速进行展示&#xff0c;我们可以使用布置命令. 我们可以直接在工具栏布置中&#xff0c;或者在装配导航器中右键单击装配体&#xff0c;选择布置-编辑&#xff0c;添加不同不同的布置页面 使…

模拟算法(模拟算法 == 依葫芦画瓢)万字

模拟算法 基本思想引入算法题替换所有的问号提莫攻击Z字形变换外观数列数青蛙 基本思想 模拟算法 依葫芦画瓢解题思维要么通俗易懂&#xff0c;要么就是找规律&#xff0c;主要难度在于将思路转换为代码。 特点&#xff1a;相对于其他算法思维&#xff0c;思路比较简单&#x…

Docker简介、基本概念和安装

Docker简介、基本概念和安装 1.docker简介 1.1 什么是docker Docker 最初是 dotCloud 公司创始人 Solomon Hykes (opens new window)在法国期间发起的一个公司内部项目&#xff0c;它是基于 dotCloud 公司多年云服务技术的一次革新&#xff0c;并于 2013 年 3 月以 Apache 2…

Power BI - 5分钟学习修改数据类型

每天5分钟&#xff0c;今天介绍Power BI修改数据类型 Power BI加载数据时&#xff0c;会尝试将源列的数据类型转换为更高效的存储、计算和数据可视化的数据类型。 例如&#xff0c;如果从Excel导入的值的列没有小数值&#xff0c;Power BI Desktop会将整个数据列转换为整数数据…

HCIA-Datacom题库(自己整理分类的)_17_简单的命令判断【11道题】

1.华为AR路由器的命令行界面下&#xff0c;save命令的作用是保存当前的系统时间。 解析&#xff1a;Save保存配置 2.VRP界面下&#xff0c;使用命令delete vrpcfg.zp删除文件&#xff0c;必须在回收站中清空&#xff0c;才能彻底删除文件。√ 解析&#xff1a;delete删除到回…

“高端”的位运算

王有志&#xff0c;一个分享硬核Java技术的互金摸鱼侠加入Java人的提桶跑路群&#xff1a;共同富裕的Java人 原计划迭代作为预备知识的收尾&#xff0c;不过在解2的幂和4的幂时&#xff0c;想到关于数字2的问题可以通过位运算去解决&#xff0c;因此补充了关于位运算的内容。 …

Spring循环引用和三级缓存

前言 Spring 解决 Bean 之间的循环引用关系用到了三级缓存&#xff0c;那么问题来了。三级缓存是怎么用的&#xff1f;每一层的作用是什么&#xff1f;非得用三级吗&#xff1f;两级缓存行不行&#xff1f; 理解循环引用 所谓的“循环引用”是指 Bean 之间的依赖关系形成了一…

什么事“网络水军”?他们的违法活动主要有四种形式

我国治理网络水军&#xff0c;包括造谣引流、舆情敲诈、刷量控评、有偿删帖等各类“网络水军”等违法犯罪活动已经许久。 日前&#xff0c;官方召开新闻发布会&#xff0c;公布了相关的一些案件进程&#xff0c;今年已累计侦办相关案件339起&#xff0c;超过历年的全年侦办案件…