Big Model Weekly | 第34期

news2024/11/16 17:52:05

点击蓝字

4e2a796b26bde5170b7623585f24ae90.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

01

MiniCPM-V: A GPT-4V Level MLLM on Your Phone

近期多模态大型语言模型(MLLMs)的快速发展,从根本上改变了人工智能研究和产业的格局,为实现人工智能的下一个重要突破指明了充满希望的方向。然而,MLLMs在现实世界应用中仍面临重大挑战。最主要的挑战来自于运行具有庞大参数量和高计算需求的MLLMs所需的巨大成本。因此,大多数MLLMs需要部署在高性能的云服务器上,这在很大程度上限制了它们在移动设备、离线环境、能耗敏感和注重隐私保护的应用场景。在这项研究中,提出了MiniCPM-V,这是一系列可在终端设备上部署的高效MLLMs。通过融合最新的MLLM架构、预训练和对齐技术,最新的MiniCPM-Llama3-V 2.5具备以下几个显著特点:(1) 出色的性能,在OpenCompass上的表现超越了GPT-4V-1106、Gemini Pro和Claude 3,OpenCompass是一个覆盖11个流行基准测试的全面评估平台;(2) 强大的OCR能力,能够处理任何纵横比下的180万像素高分辨率图像;(3) 可信的行为表现,低幻觉率;(4) 支持30多种语言;(5) 可在手机上高效部署。更重要的是,MiniCPM-V可以看作是一种有希望趋势的代表(见图1):实现可用性能(例如GPT-4V级别)所需的模型尺寸正在迅速减小,同时终端计算能力也在迅速增长。这表明,在终端设备上部署GPT-4V级别的MLLMs正变得越来越可行,预示着在不久的将来将有更广泛的现实世界AI应用被解锁。

7449ac7f23373894ca20d81863efdb27.png

392436df150272368ae5c3962d2831d9.png

d0441239229e65690a843c59e0d5e549.png

ddca823908680d2cef9794affb032308.png

3032559c35172536b7ce239b909165d2.png

c2aad42c22de85e35f512f4ea99acb47.png

82563788279b5a6ed906371fa0841fba.png

91ebf65920d971fe329778f2b30b535e.png

be664a6796ed586afef63d2ef7b27fe5.png

文章链接:

https://arxiv.org/pdf/2408.01800

02

PackMamba: Efficient Processing of Variable-Length Sequences in Mamba training

随着大型语言模型的发展,由于计算量与序列长度呈二次方增长,传统的Transformer模型在处理长序列时变得计算密集。Mamba作为生成人工智能领域的一项创新架构,显示出在降低计算和内存复杂性的同时,有效处理长序列的能力。然而,Mamba的现有训练框架在处理可变长度序列输入时存在效率问题。单一序列训练导致GPU利用率不足,或者将可变长度序列批量处理至固定最大长度则会带来显著的内存和计算负担。为了解决这个问题,研究者分析了Mamba在不同张量形状下的瓶颈操作性能,并提出了PackMamba,这是一个高吞吐量的Mamba变体,能够高效地处理可变长度序列。深入探究状态空间模型(SSMs),研究者改进了并行操作,避免在序列间传递信息,同时维持了高性能。通过软硬件协同优化,这一改进确保了对位置索引的连续内存访问,避免了额外的核心开销。在NVIDIA A100 GPU上的实验结果显示,与基线单序列处理方案相比,吞吐量得到了显著提升:1.4B模型的速度提升了3.06倍,2.8B模型的速度提升了2.62倍。

1c27f49b6588b5643257525a8cafc633.png

af21a8b3cf7f8e17a7b5761699f2e1dd.png

91b7e3858e283924acf34e76f3382339.png

ed18794a8c556cc2876fb669aa8bc404.png

f875e12769dece3286c33556078a8e13.png

46e47904ac5b4d7333523204fb5b8644.png

7b52a0d9f6a459c2bd6df6347da25a26.png

文章链接:

https://arxiv.org/pdf/2408.03865

03

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

使大型语言模型(LLMs)能够通过使用更多的测试时计算来改进其输出,是构建能够处理开放式自然语言的通用自我改进代理的关键一步。在本文中,研究了LLMs在推理时计算的扩展,重点关注回答以下问题:如果允许LLM使用固定但非平凡的推理时计算量,它能在应对具有挑战性的提示时将性能提高多少?回答这个问题不仅对LLMs可达到的性能有影响,而且对未来的LLM预训练以及如何在推理时间和预训练计算之间进行权衡也有影响。尽管这个问题很重要,但很少有研究尝试理解各种测试时推理方法的扩展行为。此外,目前的工作主要为这些策略中的许多提供了负面结果。在这项工作中,分析了两种主要的扩展测试时计算的机制:(1) 针对基于处理的密集验证者奖励模型进行搜索;(2) 根据测试时的提示,适应性地更新模型对响应的分布。发现在这两种情况下,不同方法扩展测试时计算的有效性关键地取决于提示的难度。这一观察激发了应用一种“计算最优”的扩展策略,该策略能够最有效地适应性地为每个提示分配测试时计算。使用这种计算最优策略,我们可以将测试时计算扩展的效率提高4倍以上,与N个最佳基线相比。此外,在FLOPs匹配的评估中,发现在较小的基础模型获得某种非平凡成功率的问题上,可以使用测试时计算来超越一个大14倍的模型。

6412d822b84f95927b4419c22bc9f582.png

4abb421e44e443039b7091ac15272a65.png

cd582ae981136fa7d94c4fb247c1db20.png

3680911004319f4c6221c3c7b84a7715.png

5ba501838f0af74c9105a6eb7d6e56bf.png

文章链接:

https://arxiv.org/pdf/2408.03314

04

Better Alignment with Instruction Back-and-Forth Translation

本文提出了一种新的方法,即指令来回翻译,用于构建基于世界知识构建高质量的合成数据,以对齐大型语言模型(LLMs)。给定来自网络语料库的文档,使用Li等人(2023a)提出的回翻译方法生成和策划合成指令,并根据初始文档进一步改写响应以提高其质量。使用生成的(回翻译指令,改写响应)对进行微调,在AlpacaEval上的胜率高于使用其他常见的指令数据集,如Humpback、ShareGPT、Open Orca、AlpacaGPT4和Self-instruct。研究还表明,使用LLM重写响应的表现优于直接蒸馏,且两种生成的文本分布在嵌入空间中表现出显著差异。进一步的分析显示,来回翻译指令的质量优于其他合成指令来源,而该方法的响应比蒸馏得到的响应更加多样化和复杂。总体而言,作者发现指令来回翻译结合了两个世界的优点——利用网络上发现的信息多样性和数量,同时确保响应的质量,这对于有效的对齐是必要的。

0441bdfdc3e903216206328ff8081b8a.png

0cb91dd18e9e342cced7b6eab5b4fdf9.png

611ef1b5626bc4575f96ffb1b53395e6.png

31b96508493a16f9e757c75a03dc9a62.png

48b20634efc7f0c4292b7ceb9038f67b.png

文章链接:

https://arxiv.org/pdf/2408.04614

05

EfficientRAG: Efficient Retriever for Multi-Hop Question Answering

检索增强生成(RAG)方法在处理复杂问题,如多跳查询时遇到难题。虽然迭代检索方法通过收集额外信息提高了性能,但当前方法通常依赖于多次调用大型语言模型(LLMs)。在本文中,介绍了EfficientRAG,一种用于多跳问答的高效检索器。EfficientRAG通过迭代生成新查询,无需在每次迭代中调用LLMs,同时过滤掉不相关信息。实验结果表明,EfficientRAG在三个开放域多跳问答数据集上超越了现有的RAG方法。

7a6b48271d655a1f1acb4cd81f8a4caa.png

b64373e24921910c30aeb1e214cc3db2.png

dbe7adddd80e1ee5e79a372f534b9696.png

74091ceed1db32debf456745fee3cb2a.png

adba875e4d4d9bfe1fcf9ef8752f78de.png

01ebe741d3e20303227d660f28957b10.png

4ac7a1ae207dc631a4ccc5516616261d.png

文章链接:

https://arxiv.org/pdf/2408.04259

06

From Data to Story: Towards Automatic Animated Data Video Creation with LLM-based Multi-Agent Systems

从原始数据中创建数据故事是一项挑战,因为人类的注意力有限,且需要专业技能。近期在大型语言模型(LLMs)方面的进步为开发具有自主代理的系统提供了巨大机会,以简化数据故事讲述的工作流程。尽管多代理系统具有诸如完全实现LLM潜力、为各个代理分解任务等优点,但设计这类系统也面临着任务分解、子任务性能优化和工作流程设计的挑战。为了更好地理解这些问题,作者开发了Data Director,这是一个基于LLM的多代理系统,旨在自动化创建动画数据视频——数据故事的一个代表性类型。Data Director解释原始数据,分解任务,设计代理角色以自动做出明智决策,并无缝集成数据视频的不同组成部分。一个案例研究证明了Data Director在生成数据视频方面的有效性。在整个开发过程中,从解决挑战中学到了教训,这些教训指导了数据故事讲述中自主代理的进一步发展。本文还展望了全局优化、人在循环中的设计,以及应用先进的多模态LLMs的未来方向。

6d4647875693f485efb1b6815e2761fc.png

b12cb7faad93fe81ae4bcf15ff13affc.png

文章链接:

https://arxiv.org/pdf/2408.03876

07

Scaling Laws for Data Poisoning in LLMs

近期的研究表明,大型语言模型(LLMs)容易受到数据投毒的影响,即它们在部分损坏或有害数据上进行训练。投毒数据难以检测,破坏了防护措施,并导致不良和有害的行为。鉴于领先的实验室在训练和部署越来越大、越来越能干的LLMs方面的密集努力,关键的问题是数据投毒的风险是否会自然地被规模所缓解,或者它是否是一个日益增长的威胁。作者考虑了数据投毒可能发生的三种威胁模型:恶意微调、数据管理不完善和故意数据污染。本文的实验评估了数据投毒对23个前沿LLMs的影响,这些模型的参数范围从15亿到720亿,涵盖了三个数据集,分别对应文中的每种威胁模型。作者发现,较大的LLMs越来越容易受到攻击,即使在最小的数据投毒情况下,它们学习有害行为(包括潜伏代理行为)的速度也显著快于较小的LLMs。这些结果强调了对较大的LLMs进行数据投毒防范的强有力的保障措施的必要性。

95304987292544b50730ecd03c143d03.png

2c7886c68ae1795a7c5c0c6f1f668c8b.png

a18cc08ae9b2c366db9bd92677d8631d.png

文章链接:

https://arxiv.org/pdf/2408.02946

本期文章由陈研整理

往期精彩文章推荐

58445a8bfcb8874714d60c095f6c526a.jpeg

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。

 e7c535437d6109a8967857d8b6f498c7.png

我知道你

在看

提出观点,表达想法,欢迎

留言

01f18806d3af3cced824da3ac61e172f.gif

点击 阅读原文 查看更多!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2085922.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java去掉字符串中的特殊符号只保留中文数字和字母

今天在做一个导入功能发现用户导入的数据有特殊符号,于是想着给他去掉,搜了一下发现大多数方法都只保留了字母数字,连中文都去掉了,这很明显不符合我的需求 直接上代码 /*** author Sakura* date 2024/8/27 15:18*/ public clas…

Python(C++)自动微分导图

🎯要点 反向传播矢量化计算方式前向传递和后向传递计算方式图节点拓扑排序一阶二阶前向和伴随模式计算二元分类中生成系数高斯噪声和特征二元二次方程有向无环计算图超平面搜索前向梯度下降算法快速傅里叶变换材料应力和切线算子GPU CUDA 神经网络算术微分 Pytho…

使用谷歌浏览器查看原型

需求人员给了一个原型文件包,用谷歌浏览器打开提示以下内容: 找到需求人员发的原型文件包 进入到resources-->chrome,找到axure-chrome-extension.crx,复制一份出来命名为axure-chrome-extension.tar,然后在该目录下…

招联金融基于 Apache Doris 数仓升级:单集群 QPS 超 10w,存储成本降低 70%

在竞争激烈的消费金融市场中,有效利用海量数据、提升业务运营效率是赢得市场的关键。早期招联采用典型的 Lambda 架构提供业务报表、数据运营、个性推荐、风险控制等数据服务,而 Lambda 过多的技术栈也引发了数据孤岛、查询效率不足、代码复用性差以及开…

AI算法平台训练站裸土检测算法训练裸土检测算法源码

在全球化进程加快与环境问题日益突出的今天,裸土检测成为了环境监测和土壤管理中不可或缺的一环。裸土指的是没有植被覆盖的土壤区域,这些区域易受侵蚀,并可能导致土壤流失和环境退化。为了有效应对这些问题,裸土检测算法应运而生…

Redis持久化与主从同步

1 淘汰策略 127.0.0.1:6379> help expireEXPIRE key secondssummary: Set a keys time to live in secondssince: 1.0.0group: generic127.0.0.1:6379> help PEXPIREPEXPIRE key millisecondssummary: Set a keys time to live in millisecondssince: 2.6.0group: gener…

【CSP:202112-1】序列查询(Java)

题目链接 202112-1 序列查询 题目描述 求解思路 模拟:a数组可以看作是记录 f ( x ) f(x) f(x) 函数值发生变化出的 x x x 点(每次自增1)。因此将每段相同数值的 f ( x ) f(x) f(x) 用乘法计算出来即可,最后记得要加上最后一…

Java Web —— 第九天(事务)

事务管理 & AOP 事务回顾 概念 事务 是一组操作的集合,它是一个不可分割的工作单位,这些操作 要么同时成功,要么同时失败 操作 开启事务(一组操作开始前,开启事务): start transaction / begin 提交事务(这组操作全部成功…

服务器访问端口命令

服务器访问端口命令是一组用于管理服务器端口的命令行指令。服务器端口是用于与外部设备或应用程序进行通信的逻辑通道,它允许数据在服务器和其他设备之间传输。以下是一些常见的服务器访问端口命令。 netstat:这个命令用于检查服务器上当前的网络连接和…

FPGA第 5 篇,FPGA技术优略势,FPGA学习方向,FPGA学习路线(FPGA专业知识的学习方向,FPGA现场可编程门阵列学习路线和方向)

前言 前几篇讲了一下FPGA的发展和应用,以及未来前景。具体详细,请看 FPGA发展和应用,以及未来前景https://blog.csdn.net/weixin_65793170/category_12665249.html 这里我们来,记录一下,FPGA专业知识的学习路线 一.…

OpenAI remove key access while using AAD authentication

题意:“OpenAI 在使用 AAD 认证时移除了密钥访问权限” 问题背景: I am calling Azure OpenAI API in my python code. To set it up, we need to provide a few parameters, one of which is openai.api_key. There are 2 options to get this value -…

力扣hot100-动态规划

文章目录 概念动态规划基本思想常见步骤常用技巧常见问题类型 动态规划题目题目: 爬楼梯题解 概念 动态规划 动态规划(Dynamic Programming,简称DP)是一种解决问题的算法思想,通常用于优化问题。它的核心思想是将一个…

K8S声明式的管理方式

一、K8S声明式的管理方式: 1、适合对资源的修改操作 2、声明式管理依赖于yaml文件,所有的内容都在yaml文件中声明 3、编辑好的yml文件还是要靠陈述式命令发布到K8S集群中 二、K8S中支持三种声明式的资源管理方式: 1、deployment格式&…

如何用Java SpringBoot Vue搭建创新创业学分管理系统?实战教程

✍✍计算机编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java实战 |…

GLM大模型 - CogVideoX:5B 开源,2B 转为 Apache 协议

8月6日,我们发布并开源了CogVideoX-2B模型,受到广大开发者的欢迎。 为了促进社区的自主使用和开放式创新,我们现决定将参数规模更大、性能更强的产品级模型 CogVideoX-5B 开源,同时 CogVideoX-2B 的开源协议调整为更加开放的Apac…

阿里云链接远程桌面Ubuntu22.4,出现的各种问题汇总,太艰辛,所以发出来,帮助一下后边的小伙伴

问题一:远程登录桌面计算机名写什么:写ip,公网ip,用户名不要填 问题二 Win10远程连接Ubuntu20.04桌面黑屏的问题 如果你是用浏览器连接上了云服务器,那么请先logout!

算法的学习笔记—从 1 到 n 整数中 1 出现的次数(牛客JZ43)

😀前言 在编程面试中,求解从 1 到 n 的整数中数字 1 出现的次数是一个常见的挑战。该问题的关键在于如何高效地统计数字 1 出现的次数。本文将详细分析该问题的解题思路,并提供一个高效的 Java 实现。 🏠个人主页:尘觉…

java 切面日志打印出参入参

切面Controller出入参日志打印 项目结构 切面日志对controller下所有的方法生效 切面代码 Slf4j Aspect Component public class ControllerLogAspect {// 定义一个切点,拦截所有Controller层的public方法Before("execution(public * com.jzt.market.cont…

Android解析异步消息处理机制

文章目录 Android解析异步消息处理机制MessageHandlerMessageQueueLooper Android解析异步消息处理机制 Android中的异步消息处理主要由4个部分组成:Message、Handler、MessageQueue和Looper。其中Message和Handler在上一小节中我们已经接触过了,而Mess…

大数据基础:离线与实时数仓区别和建设思路

文章目录 离线与实时数仓区别和建设思路 一、离线数仓与实时数仓区别 ​​​​​​​二、实时数仓建设思路 离线与实时数仓区别和建设思路 ​​​​​​​一、离线数仓与实时数仓区别 离线数据与实时数仓区别如下: 对比方面 离线数仓 实时数仓 架构选择 传…