大模型日报|今日必读的6篇大模型论文

news2025/1/11 0:55:34

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.中科院、国科大新研究:进行自我感知、更接近人类的AI

“机器能思考吗?”这个问题和评估机器是否能达到人类智能水平的图灵测试,是人工智能(AI)的核心问题之一。

来自中科院和国科大的研究团队通过哲学论证“我思故我在”,对当前 AI 所支持的“会思考的机器”这一观点提出质疑,因为它们没有自我意识。当前的 AI 只是看似智能的信息处理,并不能像人类智能那样真正理解或主观意识到自我,并以自我感知世界。

研究团队提出了一种受大脑启发的基于自我的 AI(BriSe AI)范式。BriSe AI 范式致力于以自组织的方式协调各种认知功能和学习策略,以构建人类级别的 AI 模型和机器人应用。

具体来说,BriSe AI 强调“自我”在塑造未来 AI 中的关键作用,并植根于一个实用的分层自我框架,包括感知与学习、身体自我、自主自我、社会自我和概念自我。自我的分层框架突出了基于自我的环境感知、自我身体建模、与环境的自主交互、与他人的社交互动和协作,以及对自我更抽象的理解。此外,多层次“自我”之间以及“自我”与“学习”之间的积极相互促进和支持,增强了 BriSe AI 对信息的自觉理解和对复杂环境的灵活适应,成为推动 BriSe AI 向真正的通用人工智能迈进的动力。

论文链接:
https://arxiv.org/abs/2402.18784

2.综述:大模型与游戏

近年来,有关大型语言模型(LLMs)的研究呈爆炸式增长,公众对这一主题的参与也随之增加。虽然 LLMs 最初只是自然语言处理中的一个小众领域,但它在包括游戏在内的广泛应用和领域中展现出了非凡的潜力。

来自马耳他大学和纽约大学的研究团队概述了 LLMs 在游戏中的各种应用现状,并指出了 LLMs 在游戏中的不同作用。他们讨论了游戏中未充分开发的 LLMs 领域和未来有望使用 LLMs 的方向,并协调了游戏领域中 LLMs 的潜力和局限性。作为 LLMs 与游戏交叉领域的第一份全面调查报告和路线图,研究团队希望这篇论文能够为这一新领域的突破性研究和创新奠定基础。

论文链接:
https://arxiv.org/abs/2402.18659

3.Panda-70M:包含7000万段高质量字幕的视频数据集

数据和标注的质量是下游模型质量的上限。虽然存在大量的文本语料库和图像-文本对,但高质量的视频-文本数据却很难收集。首先,人工标注需要标注者观看整个视频,这十分耗时。其次,视频具有时间维度,由多个场景叠加而成,显示了多个动作。

为了建立一个具有高质量字幕的视频数据集,来自 Snap 公司、加州大学和特伦托大学的研究团队提出了一种利用多模态输入(如文字视频描述、字幕和单个视频帧)的自动方法。具体来说,研究团队从公开的 HD-VILA-100M 数据集中收集了 380 万个高分辨率视频。然后将它们分割成语义一致的视频片段,并应用多种跨模态教师模型来获取每个视频的字幕。接下来,在一小部分子集上对检索模型进行微调,人工选择每个视频的最佳字幕,然后在整个数据集中使用该模型选择最佳字幕作为标注。

通过这种方法,他们得到了 7000 万个与高质量文字说明配对的视频。研究团队将该数据集命名为 Panda-70M。该项研究展示了 Panda-70M 数据集在三个下游任务中的价值:视频字幕、视频和文本检索以及文本驱动的视频生成。在提出的数据上训练出来的模型在所有任务的大多数指标上都获得了大幅提升。

论文链接:
https://arxiv.org/abs/2402.19479
项目地址:
https://snap-research.github.io/Panda-70M/

4.综述:AIGC的检索增强生成

人工智能生成内容(AIGC)的发展得益于模型算法的进步、可扩展的基础模型架构以及大量高质量数据集的可用性。虽然 AIGC 已经取得了令人瞩目的成绩,但它仍然面临着各种挑战,比如难以维护最新的长尾知识、数据泄漏的风险以及与训练和推理相关的高昂成本。

检索增强生成(RAG)是最近出现的一种应对这些挑战的范例。特别是,RAG 引入了信息检索过程,通过从可用数据存储中检索相关对象来增强 AIGC 结果,从而提高准确性和鲁棒性。

来自北京大学的研究团队全面回顾了将 RAG 技术集成到 AIGC 场景中的现有工作。首先根据检索器如何增强生成器对 RAG 基础进行分类。为各种检索器和生成器提炼了增强方法的基本抽象。这种统一的视角涵盖了所有 RAG 场景,揭示了有助于未来潜在进展的先进技术和关键技术。

研究团队还总结了 RAG 的其他增强方法,用于促进 RAG 系统的有效工程设计和实施。然后,他们从另一个角度考察了 RAG 在不同模式和任务中的实际应用,为研究人员和从业人员提供了参考。此外,研究团队还介绍了 RAG 的基准,讨论了当前 RAG 系统的局限性,并提出了未来研究的潜在方向。

论文链接:
https://arxiv.org/abs/2402.19473
项目地址:
https://github.com/hymie122/RAG-Survey

5.DeepMind新模型Griffin:结合门控线性递归和局部注意力,建立高效语言模型

递归神经网络(RNNs)推理速度快,可有效扩展长序列,但存在训练困难、难以扩展的问题。为此,Google DeepMind 团队提出了一个具有门控线性递归的 RNN——Hawk 和一个混合了门控线性递归和局部注意的混合模型 Griffin。

在下游任务上,Hawk 的性能超过了 Mamba,在比 Llama-2 少 6 倍的 token 上训练出来的 Griffin 的性能则与 Llama-2 不相上下。研究团队还展示了 Griffin 可以在训练期间看到的序列长度之外进行外推。这些模型在训练过程中的硬件效率与 Transformers 相当,而在推理过程中,它们的延迟更低,吞吐量明显更高。研究团队将 Griffin 扩展到 14B 个参数,并解释了如何对模型进行分片来实现高效的分布式训练。

论文链接:
https://arxiv.org/abs/2402.19427

6.清华、中央音乐学院、微软亚研院:Byte模型是数字世界的模拟器

传统的深度学习往往忽视字节(bytes),它是数字世界的基本单位,所有形式的信息和操作都以二进制格式进行编码和处理。受自然语言处理中下一个 token 预测的成功启发,来自微软亚洲研究院、中央音乐学院和清华大学的研究团队及其合作者提出了一个用于模拟数字世界、具有下一个字节预测功能的模型——bGPT。

bGPT 在文本、音频和图像等各种模态下的性能与专业模型不相上下,为预测、模拟和诊断算法或硬件行为提供了新的可能性。它几乎完美地复制了符号音乐数据的转换过程,在将 ABC 记谱法转换为 MIDI 格式时,实现了每字节仅 0.0011 比特的低错误率。

此外,bGPT 在模拟 CPU 行为方面也表现出非凡的能力,执行各种操作的准确率超过 99.99%。利用下一字节预测,bGPT 等模型可以直接从大量二进制数据中学习,有效模拟数字世界的复杂模式。

论文链接:
https://arxiv.org/abs/2402.19155
项目地址:
https://byte-gpt.github.io/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1480770.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Stable Diffusion 模型分享:Realistic Stock Photo(真实的库存照片)

本文收录于《AI绘画从入门到精通》专栏,专栏总目录:点这里。 文章目录 模型介绍生成案例案例一案例二案例三案例四案例五案例六案例七案例八 下载地址 模型介绍 条目内容类型大模型基础模型SDXL 1.0来源CIVITAI作者PromptSharingSamaritan文件名称reali…

java 获取package下的所有类名

1、获取指定包的路劲 2、根据路劲获取所有实体类的.class文件 3、我们使用ClassLoader来获取资源的URL,然后根据URL获取对应的文件夹。最后,我们使用过滤器来筛选出所有以".class"结尾的文件 获取entity包下所有的实体进行映射 1.包的路劲…

android程序员面试笔试宝典,Android开发社招面试总结

部分面试常问的面试专题 一、Java篇 1.多线程并发; sleep 和 wait 区别join 的用法线程同步:synchronized 关键字等线程通信线程池手写死锁 2.Java 中的引用方式,及各自的使用场景 3.HashMap 的源码 4.GC(垃圾回收)是什么?如何…

浅谈 Linux 网络编程 - Server 端模型、sockaddr、sockaddr_in 结构体

文章目录 前言前置知识Server 端核心模型 【重点】相关函数 【重点】socket 函数bind 函数listen 函数accept 函数close 函数 sockaddr 数据结构 【重点】 前言 本文主要是对 Linux 网络编程中,Server 端的模型、相关函数 以及 sockaddr、sockaddr_in 结构体做介绍…

用node写后端环境运行时报错Port 3000 is already in use

解决方法:关闭之前运行的3000端口,操作如下 1.WindowR输入cmd确定,打开命令面板 2.查看本机端口详情 netstat -ano|findstr "3000" 3.清除3000端口 taskkill -pid 41640 -f 最后再重新npm start即可,这里要看你自己项目中package.joson的启动命令是什…

VBA_MF系列技术资料1-390

MF系列VBA技术资料1-390 为了让广大学员在VBA编程中有切实可行的思路及有效的提高自己的编程技巧,我参考大量的资料,并结合自己的经验总结了这份MF系列VBA技术综合资料,而且开放源码(MF04除外),其中MF01-0…

阿里云能处!2024年ta真降价呀!附服务器优惠价格表

阿里云能处,关键时刻ta真降价啊!2024新年伊始阿里云带头降价了,不只是云服务器,云数据库和存储产品都降价,阿里云新老用户均可购买99元服务器、199元服务器,续费不涨价,阿里云百科aliyunbaike.c…

新闻网站封锁AI爬虫 AI与新闻媒体博弈继续

随着ChatGPT等新兴AI模型的兴起,它们所依赖的网络爬虫正面临来自全球主流新闻网站的大规模封锁。Richard Fletcher博士团队对十个国家主流新闻网站的统计发现,到2023年底,48%的网站屏蔽了OpenAI的爬虫,24%屏蔽了Google的爬虫。那么…

【总结】对大量函数进行trace调用流程+国际AIS3题

现在混淆的主要目的之一就有让逆向分析人员不清楚函数的调用流程,给你一堆函数,加了高强度的OLLVM,更不能看了。那么Trace跟踪技术就显得很重要的,如果清楚了函数调用流程,那么逐个分析,距离成功不就很快了…

方格分割644--2017蓝桥杯

1.用dfs解决,首先这题的方格图形就很像一个走迷宫的类型,迷宫想到dfs,最中心点视为起点,起点有两个小人在这个方格里面对称行动,直到走出迷宫(一个人走出来了另一个人就也走出来了,而走过的点会…

亚信安慧AntDB:打破数据孤岛,实现实时处理

AntDB数据库以其独特的创新能力在分布式数据库领域引领潮流。其中,融合统一与实时处理是其两大核心创新能力,为其赢得广泛关注与赞誉。融合统一意味着AntDB能够将多种不同类型的数据库融合为一体,实现数据的统一管理与处理,极大地…

NC65 rest接口 开发 NC65接口开发

一、在对应模块META-INF下编写 xxx.rest 文件,也要放在Home里对应的目录下。 二、开发接口,继承extends AbstractUAPRestResource,(有的项目会继承别的方法如:AbstractNCCRestResource,MTFRestResource;有…

公司招嵌入式开发岗位,为什么感觉一年比一年难?

最近看到一个问题: 是一个HR在吐槽招不到嵌入式开发的人才。 这句话,难免会误导一些想入行嵌入式的同学,卧槽,这么缺人?赶紧冲! 哼次哼次学完一堆技术栈,一投简历,一个面试机会都没有。 这就是…

详解字符串函数<string.h>(上)

1. strlen函数的使用和模拟实现 size_t strlen(const char* str); 1.1 函数功能以及用法 字符串长度 strlen函数的功能是计算字符串的长度。在使用时&#xff0c;要求用户传入需要计算长度的字符串的起始位置&#xff0c;并返回字符串的长度。 #include <stdio.h> #…

CC攻击与DDoS攻击有什么区别?如何进行有效防护?

CC攻击的前身是一个名为Fatboy攻击程序&#xff0c;而之所以后来人们会成为CC&#xff0c;是因为DDoS攻击发展的初期阶段&#xff0c;绝大部分DDoS攻击都能被业界熟知的“黑洞”&#xff08;collapsar&#xff0c;一种安全防护产品&#xff09;所抵挡&#xff0c;CC攻击的诞生就…

NFTScan NFT API 在 Web3 钱包追踪器上的开发应用

Web3 钱包追踪器是通过整合区块链数据 API&#xff0c;为加密资产投资者提供全面的钱包分析和追踪工具。用户可以利用钱包追踪器跟踪特定钱包地址的资产总额和交易情况&#xff0c;分析历史交易发现交易趋势&#xff0c;设置资产价格警报&#xff0c;生成钱包报告&#xff0c;同…

C++二叉搜树的实现(递归和非递归)

目录 1.什么是二叉搜索树 2.二叉搜索树的查找 3.二叉搜索树插入 4.二叉搜索树的删除 1.删除的节点只有左子树或者右子树 2.删除节点左右子树都有的情况 5.代码 1.什么是二叉搜索树 左节点的值小于根节点 右节点大于根节点 左右子树也满足上面两个条件 例&#xff1a;…

Liberod的License申请

Liberod的License申请 找到license申请的路径 查找C盘的磁盘序列号 键盘的win+R,输入cmd 输入vol,然后回车 图中的DiskID就是填写你C盘序列号的位置,填写完成后点击Register,几秒钟后会提示你,预计45分钟后会发送到你的邮箱

绍兴市新昌县人大一行莅临迪捷软件走访考察

2024年2月29日下午&#xff0c;绍兴市新昌县人大常委会副主任王敏慧一行莅临迪捷软件走访考察&#xff0c;绍兴市委科创委副主任、科创走廊建设领导小组副组长、市人大一级巡视员王继岗&#xff0c;绍兴市科技局副局长、科创走廊建设办公室常务副主任梁枫陪同。 王主任一行听取…

LabVIEW起重机工作参数远程监测系统

LabVIEW起重机工作参数远程监测系统 随着起重机技术的持续发展&#xff0c;对其工作参数的实时监控需求日益增加。设计了一个基于LabVIEW和TBox的起重机工作参数远程监测系统&#xff0c;能够实现起重机工作参数的实时采集、传输、解析和显示&#xff0c;有效提升起重机的性能…