大模型日报|今日必读的7篇大模型论文

news2024/11/28 0:41:55

在这里插入图片描述
大家好,今日必读的大模型论文来啦!

1.CT-LLM:仅 20 亿参数,基于中文的大型语言模型

来自开源研究社区 Multimodal Art Projection、复旦大学和香港科技大学的研究团队及其合作者,推出了一个 20 亿参数的大型语言模型(LLM)——CT-LLM。

据介绍,CT-LLM 主要采用中文文本数据,并使用了由 12000 亿个 token 组成的庞大语料库,其中包括 8000 亿个中文 token、3000 亿个英文 token 和 1000 亿个代码 token。这种策略性组合有助于该模型更好地理解和处理中文,并通过对齐技术进一步增强了这一能力。

结果显示,CT-LLM 在 CHC-Bench 上表现出色,在中文任务中有不俗的表现,并通过 SFT 展示了其在英文任务中的能力。这项研究挑战了目前主要在英语语料库中训练 LLM,然后将其应用于其他语言的模式。

论文链接:
https://arxiv.org/abs/2404.04167

2.TableLlama:开放式表格通用大模型

该研究为使开源大型语言模型(LLM)成为适用于各种基于表格的任务的通用模型,迈出了重要一步。

来自俄亥俄州立大学的研究团队构建了一个新的数据集 TableInstruct,其中包含各种现实的表格和任务,用于指令微调和评估 LLM。他们通过对 Llama 2 (7B) 和 LongLoRA 进行微调,进一步开发了首个针对表格的开源通用模型 TableLlama,从而应对长上下文挑战。

在 8 个域内任务中的 7 个任务上,TableLlama 在每个任务上都取得了与当前 SOTA 相当或更好的性能,尽管后者通常具有针对特定任务的设计。在 6 个域外数据集上,与基础模型相比,TableLlama 的绝对值提高了 5-44 个百分点,这表明在 TableInstruct 上进行的训练增强了模型的通用性。

论文链接:
https://arxiv.org/abs/2311.09206
项目地址:
https://osu-nlp-group.github.io/TableLlama/

3.Concept Weaver:在文本到图像模型中实现多概念融合

虽然在定制“文生图”模型方面取得了重大进展,但生成结合了多个个性化概念的图像仍然具有挑战性。

在这项工作中,来自韩国科学技术院和 Adobe 的研究团队,提出了一种在推理时组成定制文本到图像扩散模型的方法——Concept Weaver。

具体来说,该方法将整个过程分为两个步骤:创建与输入提示语义一致的模板图像,然后使用概念融合策略对模板进行个性化处理。融合策略将目标概念的外观融入模板图像,同时保留其结构细节。

结果表明,与其他方法相比,该方法可以生成多个自定义概念,并具有更高的身份保真度。此外,该方法还能无缝处理两个以上的概念,并密切遵循输入提示的语义,而不会混合不同主体的外观。

论文链接:
https://arxiv.org/abs/2404.03913

4.从语言嵌入的特征字段理解物理特性

计算机能否仅通过视觉感知物体的物理特性?认知科学和视觉科学的研究表明,人类擅长纯粹根据视觉外观识别材料并估计其物理特性。

在这项工作中,伊利诺伊大学香槟分校团队提出了一种利用图像集密集预测物体物理特性的新方法。受人类如何通过视觉进行物理推理的启发,他们利用大型语言模型(LLM)为每个物体提出候选材;然后,构建语言嵌入点云,并使用零样本核回归方法估计每个 3D 点的物理属性。

该方法准确、无需注释,适用于开放世界中的任何物体。实验证明了所提方法在各种物理属性推理任务中的有效性,如估算常见物体的质量以及摩擦力和硬度等其他属性。

论文链接:
https://arxiv.org/abs/2404.04242
项目地址:
https://ajzhai.github.io/NeRF2Physics/

5.微软研究院:让语言模型利用一般偏好进行自我改进

这项工作研究了大型语言模型(LLMs)的后训练(post-training),利用来自强大 oracle 的偏好反馈来帮助模型迭代改进自身。

后训练 LLM 的典型方法是人类反馈强化学习(RLHF),这种方法传统上将奖励学习和后续策略优化分开。然而,这种奖励最大化方法受限于“按点计算”奖励的性质(如 Bradley-Terry 模型),无法表达复杂的不等式或循环偏好关系。虽然 RLHF 的研究进展表明,奖励学习和策略优化可以合并为一个单一的对立目标,从而实现稳定性,但它们仍然受制于奖励最大化框架。最近,新一轮研究避开了奖励最大化的假设,转而直接对“成对”(pair-wise)或一般偏好进行优化。

微软研究院团队提出了一种可证明、可扩展的算法“直接纳什优化”(DNO),其将对比学习的简单性和稳定性与优化一般偏好的理论通用性结合在一起。由于 DNO 是一种使用基于回归目标的批量 on-policy 算法,因此其实现简单高效。

此外,DNO 还能在迭代过程中实现单调改进,这有助于其超越强大的“教师模型”(如 GPT-4)。结果显示,由 DNO 对齐的 7B 参数 Orca-2.5 模型在 AlpacaEval 2.0 上对 GPT-4-Turbo 的胜率达到了 33%(即使在控制了响应长度之后),比初始化模型的高出 26%(7% 到 33%)。它甚至优于参数更多的模型,包括 Mistral Large、Self-Rewarding LM(70B 参数)和旧版本的 GPT-4。

论文链接:
https://arxiv.org/abs/2404.03715

6.增强物联网智能:基于 Transformer 的强化学习方法

物联网(IoT)的普及使得互联设备产生的数据激增,为复杂环境中的智能决策带来了机遇和挑战。

然而,传统的强化学习(RL)方法由于处理和解释物联网应用中固有的复杂模式和依赖关系的能力有限,往往难以充分利用这些数据。

来自亚喀巴科技大学研究团队及其合作者提出了一种新颖的框架,它将 transformer 架构与近端策略优化 (PPO) 相集成,以应对这些挑战。

通过利用 transformer 的自我关注机制,他们的方法增强了 RL 智能体在动态物联网环境中的理解和行动能力,从而改进了决策过程。该研究团队在从智能家居自动化到工业控制系统等各种物联网场景中展示了此方法的有效性、决策效率和适应性的显著提高。该研究团队详细探讨了 transformer 在处理异构物联网数据中的作用,评估了该框架在不同环境中的性能,并与传统的 RL 方法进行了对比。

结果表明,该方法使 RL 智能体在驾驭复杂的物联网生态系统方面取得了SOTA 。

论文链接:
https://arxiv.org/abs/2404.04205

7.RLCM:通过强化学习微调一致性模型

强化学习(RL)通过直接优化获取图像质量、美学和指令跟随能力的奖励,改进了扩散模型的引导图像生成。然而,由此产生的生成策略继承了扩散模型的迭代采样过程,导致生成速度缓慢。

为了克服这一局限性,一致性模型提出学习一类新的生成模型,直接将噪声映射到数据,从而产生一种只需一次采样迭代就能生成图像的模型。

在这项工作中,为了优化文本到图像生成模型从而获得特定任务奖励,并实现快速训练和推理,来自康奈尔大学的研究团队提出了一种通过 RL 对一致性模型进行微调的框架——RLCM,其将一致性模型的迭代推理过程构建为一个 RL 过程。RLCM 在文本到图像生成能力方面改进了 RL 微调扩散模型,并在推理过程中以计算量换取样本质量。

实验表明,RLCM 可以调整文本到图像的一致性模型,从而适应那些难以通过提示来表达的目标(如图像压缩性)和那些来自人类反馈的目标(如审美质量)。与 RL 微调扩散模型相比,RLCM 的训练速度明显更快,提高了在奖励目标下测量的生成质量,并加快了推理过程,只需两个推理步骤就能生成高质量图像。

论文链接:
https://arxiv.org/abs/2404.03673
项目地址:
https://rlcm.owenoertell.com/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1577966.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

c++配置libtorch

这里写目录标题 LibTorch下载Vistual Studio环境配置C部署Libtorch出现问题、错误汇总检测环境是否配置成功 LibTorch下载 安装LibTorch非常简单,只需要从其官网选择相应的版本即可,具体页面如下图所示。 如果需要加载PyTorch训练的模型文件&#xff0…

Centos中一些有趣的命令

目录 1.sl 小火车 2. cowsay 会说话的牛 3.toilet/figlet 图形化输出 4.aafire 小火焰 5.linux_logo 显示系统logo 1.sl 小火车 yum install sl 2. cowsay 会说话的牛 yum install cowsay 3.toilet/figlet 图形化输出 yum install toilet yum install figlet 4.aafire 小火…

电子电路中,MOS管的开启电压取多少最为合适呢?

电路中,MOS管的开启电压取多少最为合适呢? 比如: 某Nmos VGS范围为正负20V 栅极阈值电压(VGSth)最小为0.8V,最大为1.5V 那么此时的Mos管栅极电压取多少最为合适? 在电路中,MOS管的开…

通过Golang获取公网IP地址

在Go语言中,获取当前的外网(公网)IP地址可以通过多种方法实现。其中一种常见的方法是通过访问外部服务来获取。这些服务可以返回访问者的公网IP地址,例如 httpbin.org/ip 或 ipify.org。下面是一个简单的例子,展示了如…

汇编语言程序设计实验五 条件转移指令

实验目的和要求 (1) 编写实验任务要求的两个程序。 (2) 写出调试以上程序,即修改程序参数,检查结果的操作方法。 (3) 熟悉源程序汇编、连接命令的使用方法即要回答的内容。 实验环境 DOSBOX 实验内容与过程 验证以下程序 16进制数…

JS 轮播图点击左右切换

点击左右按钮实现轮播图切换图片 style: *{margin: 0;padding: 0;margin: auto;}#img1{width: 300px;height: 300px;position: relative;}#butto1{width: 50px;height: 100px;font-size: 50px;border: none;background-color: hsla(0, 0%, 0%, 0.2);position: abs…

CS162 Operating System笔记

What is an Operating System? it’s typically a special layer of software that provides the application access to hardware resources.So.it’s convenient abs fractions of complex hardware devices.

DVWA-xss储存型及beef下载(kali)

beef下载 apt-get update apt-get install beef-xss 登录网址是 这里的ip为虚拟机的地址 之后会让你设置密码 如果密码和用户不知道在etc/beef-xss/config.yaml可以查看 这是偷cookie的就是代码 这里是可以修改的不修改的话代码是不全的 通过beef拿到了cookies之后在网页…

知名度最高的3款电脑监控软件

知名度最高的3款电脑监控软件 公司电脑监控软件是一种安装在员工电脑上的软件,主要用于监控和管理员工的电脑屏幕操作、网络行为以及文件操作等。这种软件有助于企业提高员工的工作效率,保护公司的数据安全,并维护公司的IT健康环境。 市面有…

Seatunnel和web快速安装详解

目录 版本声明下载地址seatunnel下载seatunnel-web下载 安装seatunnel上传压缩包解压配置环境变量下载JAR包测试功能启动服务 安装seatunnel-web解压安装包初始化数据库修改数据连接配置文件配置Client信息配置支持的插件信息配置JAR包配置数据源JAR包配置datasource开头的jar包…

Leetcode 第 390 场周赛题解

Leetcode 第 390 场周赛题解 Leetcode 第 390 场周赛题解题目1:3090. 每个字符最多出现两次的最长子字符串思路代码复杂度分析 题目2:3091. 执行操作使数据元素之和大于等于 K思路代码复杂度分析 题目3:3092. 最高频率的 ID思路代码复杂度分析…

nginx支持的多种负载均衡策略

目录 1.轮询(默认) 2. ip_hash 3. 加权轮询(weight) 4. fair(第三方) 5. 最少连接(least_conn) 1.轮询(默认) 将请求依次分配给每个服务器,确…

嵌入式工控机:提升工业生产线智能化水平

工业4.0和智能制造的发展,嵌入式工控机在自动化生产线中的角色日益凸显。它作为一种高度集成且适用于严苛工业环境的专用计算机,凭借其强大的数据处理能力和实时控制特性,正逐步成为现代工业生产线的协调器和核心控制器。 嵌入式工控机能够实…

人工智能的前景发展和可能产生的职业影响

人工智能作为科技创新的关键领域和数字经济时代的重要支柱,其发展前景广阔,未来的就业前景也备受关注。以下是对人工智能格局未来就业前景的展望: 首先,随着技术的不断进步和应用场景的拓展,人工智能行业对人才的需求将…

12_Spring-AOP

文章目录 动态代理原理AOPAOP和OOPAOP的特点AOP的应用场景AOP的编程术语AOP的实现SpringAOPAspectJ切面组件切入点表达式AspectJ切面JoinPoint连接点 机制 动态代理原理 AOP Aspect Oriented Programming面向切面编程,是指通过预编译方式和运行期动态代理实现程序功…

目标检测——RCNN系列学习(一)

前置知识 包括:非极大值抑制(NMS)、selective search等 RCNN [1311.2524] Rich feature hierarchies for accurate object detection and semantic segmentation (arxiv.org)https://arxiv.org/abs/1311.2524 1.网络训练 2.推理流程 3.总…

【C++ STL算法】sort 排序

文章目录 【 1. 基本原理 】【 2. sort 的应用 】实例 - sort 函数实现 升序排序和降序排序 函数名用法sort (first, last)基于 快速排序,对容器或普通数组中 [ first, last ) 范围内的元素进行排序,默认进行升序排序(从小到大)。…

vscode-tasks.json自定义任务

以下所有内容,参考自VScode官方文档: vscode_tasks-docs任务说明文档vscode_variables-reference-docs变量说明文档vscode addtional docs for tasksvscode launch.json 属性设置文档,(下文没有介绍,没有涉及) 浅浅记录一下个人对vscode任务(task)的理解,还谈不上使用. 文章目…

TouchGFX之时钟

代码 #ifndef TOUCHGFX_ABSTRACTCLOCK_HPP #define TOUCHGFX_ABSTRACTCLOCK_HPP #include <touchgfx/containers/Container.hpp> #include <touchgfx/hal/Types.hpp>namespace touchgfx { class AbstractClock : public Container { public:AbstractClock();/* 设…

【IMU系列】什么是传感器的ODR和FSR实际如何配置传感器

使用更高的ODR信号有两个主要缺点&#xff1a;内存限制和功耗 以实际传感器为例