大家好,今日必读的大模型论文来啦!
1.中科院、国科大新研究:进行自我感知、更接近人类的AI
“机器能思考吗?”这个问题和评估机器是否能达到人类智能水平的图灵测试,是人工智能(AI)的核心问题之一。
来自中科院和国科大的研究团队通过哲学论证“我思故我在”,对当前 AI 所支持的“会思考的机器”这一观点提出质疑,因为它们没有自我意识。当前的 AI 只是看似智能的信息处理,并不能像人类智能那样真正理解或主观意识到自我,并以自我感知世界。
研究团队提出了一种受大脑启发的基于自我的 AI(BriSe AI)范式。BriSe AI 范式致力于以自组织的方式协调各种认知功能和学习策略,以构建人类级别的 AI 模型和机器人应用。
具体来说,BriSe AI 强调“自我”在塑造未来 AI 中的关键作用,并植根于一个实用的分层自我框架,包括感知与学习、身体自我、自主自我、社会自我和概念自我。自我的分层框架突出了基于自我的环境感知、自我身体建模、与环境的自主交互、与他人的社交互动和协作,以及对自我更抽象的理解。此外,多层次“自我”之间以及“自我”与“学习”之间的积极相互促进和支持,增强了 BriSe AI 对信息的自觉理解和对复杂环境的灵活适应,成为推动 BriSe AI 向真正的通用人工智能迈进的动力。
论文链接:
https://arxiv.org/abs/2402.18784
2.综述:大模型与游戏
近年来,有关大型语言模型(LLMs)的研究呈爆炸式增长,公众对这一主题的参与也随之增加。虽然 LLMs 最初只是自然语言处理中的一个小众领域,但它在包括游戏在内的广泛应用和领域中展现出了非凡的潜力。
来自马耳他大学和纽约大学的研究团队概述了 LLMs 在游戏中的各种应用现状,并指出了 LLMs 在游戏中的不同作用。他们讨论了游戏中未充分开发的 LLMs 领域和未来有望使用 LLMs 的方向,并协调了游戏领域中 LLMs 的潜力和局限性。作为 LLMs 与游戏交叉领域的第一份全面调查报告和路线图,研究团队希望这篇论文能够为这一新领域的突破性研究和创新奠定基础。
论文链接:
https://arxiv.org/abs/2402.18659
3.Panda-70M:包含7000万段高质量字幕的视频数据集
数据和标注的质量是下游模型质量的上限。虽然存在大量的文本语料库和图像-文本对,但高质量的视频-文本数据却很难收集。首先,人工标注需要标注者观看整个视频,这十分耗时。其次,视频具有时间维度,由多个场景叠加而成,显示了多个动作。
为了建立一个具有高质量字幕的视频数据集,来自 Snap 公司、加州大学和特伦托大学的研究团队提出了一种利用多模态输入(如文字视频描述、字幕和单个视频帧)的自动方法。具体来说,研究团队从公开的 HD-VILA-100M 数据集中收集了 380 万个高分辨率视频。然后将它们分割成语义一致的视频片段,并应用多种跨模态教师模型来获取每个视频的字幕。接下来,在一小部分子集上对检索模型进行微调,人工选择每个视频的最佳字幕,然后在整个数据集中使用该模型选择最佳字幕作为标注。
通过这种方法,他们得到了 7000 万个与高质量文字说明配对的视频。研究团队将该数据集命名为 Panda-70M。该项研究展示了 Panda-70M 数据集在三个下游任务中的价值:视频字幕、视频和文本检索以及文本驱动的视频生成。在提出的数据上训练出来的模型在所有任务的大多数指标上都获得了大幅提升。
论文链接:
https://arxiv.org/abs/2402.19479
项目地址:
https://snap-research.github.io/Panda-70M/
4.综述:AIGC的检索增强生成
人工智能生成内容(AIGC)的发展得益于模型算法的进步、可扩展的基础模型架构以及大量高质量数据集的可用性。虽然 AIGC 已经取得了令人瞩目的成绩,但它仍然面临着各种挑战,比如难以维护最新的长尾知识、数据泄漏的风险以及与训练和推理相关的高昂成本。
检索增强生成(RAG)是最近出现的一种应对这些挑战的范例。特别是,RAG 引入了信息检索过程,通过从可用数据存储中检索相关对象来增强 AIGC 结果,从而提高准确性和鲁棒性。
来自北京大学的研究团队全面回顾了将 RAG 技术集成到 AIGC 场景中的现有工作。首先根据检索器如何增强生成器对 RAG 基础进行分类。为各种检索器和生成器提炼了增强方法的基本抽象。这种统一的视角涵盖了所有 RAG 场景,揭示了有助于未来潜在进展的先进技术和关键技术。
研究团队还总结了 RAG 的其他增强方法,用于促进 RAG 系统的有效工程设计和实施。然后,他们从另一个角度考察了 RAG 在不同模式和任务中的实际应用,为研究人员和从业人员提供了参考。此外,研究团队还介绍了 RAG 的基准,讨论了当前 RAG 系统的局限性,并提出了未来研究的潜在方向。
论文链接:
https://arxiv.org/abs/2402.19473
项目地址:
https://github.com/hymie122/RAG-Survey
5.DeepMind新模型Griffin:结合门控线性递归和局部注意力,建立高效语言模型
递归神经网络(RNNs)推理速度快,可有效扩展长序列,但存在训练困难、难以扩展的问题。为此,Google DeepMind 团队提出了一个具有门控线性递归的 RNN——Hawk 和一个混合了门控线性递归和局部注意的混合模型 Griffin。
在下游任务上,Hawk 的性能超过了 Mamba,在比 Llama-2 少 6 倍的 token 上训练出来的 Griffin 的性能则与 Llama-2 不相上下。研究团队还展示了 Griffin 可以在训练期间看到的序列长度之外进行外推。这些模型在训练过程中的硬件效率与 Transformers 相当,而在推理过程中,它们的延迟更低,吞吐量明显更高。研究团队将 Griffin 扩展到 14B 个参数,并解释了如何对模型进行分片来实现高效的分布式训练。
论文链接:
https://arxiv.org/abs/2402.19427
6.清华、中央音乐学院、微软亚研院:Byte模型是数字世界的模拟器
传统的深度学习往往忽视字节(bytes),它是数字世界的基本单位,所有形式的信息和操作都以二进制格式进行编码和处理。受自然语言处理中下一个 token 预测的成功启发,来自微软亚洲研究院、中央音乐学院和清华大学的研究团队及其合作者提出了一个用于模拟数字世界、具有下一个字节预测功能的模型——bGPT。
bGPT 在文本、音频和图像等各种模态下的性能与专业模型不相上下,为预测、模拟和诊断算法或硬件行为提供了新的可能性。它几乎完美地复制了符号音乐数据的转换过程,在将 ABC 记谱法转换为 MIDI 格式时,实现了每字节仅 0.0011 比特的低错误率。
此外,bGPT 在模拟 CPU 行为方面也表现出非凡的能力,执行各种操作的准确率超过 99.99%。利用下一字节预测,bGPT 等模型可以直接从大量二进制数据中学习,有效模拟数字世界的复杂模式。
论文链接:
https://arxiv.org/abs/2402.19155
项目地址:
https://byte-gpt.github.io/