大模型日报|今日必读的9篇大模型论文

news2024/11/24 12:41:25

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.Cognition is All You Need

最近对如由大型语言模型(LLMs)驱动的聊天机器人等对话式人工智能(AI)工具在复杂的现实世界知识工作中的应用进行的研究表明,这些工具在推理和多步骤问题解决方面存在局限性。具体来说,虽然现有的聊天机器人可以模拟浅层推理和理解,但随着问题复杂性的增加,它们很容易出错。

这些系统之所以无法处理复杂的知识工作,是因为它们没有进行任何实际认知。Mindcorp 公司研究团队提出了一个在 LLMs 之上和之外实现编程定义的神经符号认知的更高层次框架——Cognitive AI。具体来说,研究团队提出了 Cognitive AI 的双层功能架构,作为 AI 系统的路线图,可以执行复杂的多步骤知识工作。他们提出,Cognitive AI 是更高形式的AI(如 AGI)进化的必要先导,并特别声称 AGI 无法通过概率方法单独实现。

最后,研究团队讨论了对 LLMs、AI 采用周期和 Cognitive AI 商业开发的影响。

论文链接:
https://arxiv.org/abs/2403.02164

2.迈向整体智能的 Agent AI

大型基础模型的最新进展极大地增强了我们对开放世界环境中感官信息的理解。在利用基础模型的力量时,人工智能(AI)研究必须从过度的还原论转向强调系统的整体功能。

来自微软的研究团队及其合作者强调开发 AI 智能体(Agent AI)——一种将大型基础模型整合到智能体行动中的具身系统。AI 智能体这一新兴领域横跨现有的各种体现式和基于智能体的多模态交互,包括机器人、游戏和医疗保健系统等。研究团队提出了一种新颖的大型行动模型——Agent Foundation Model 来实现具身智能行为。

在这一想法的基础上,研究团队讨论了AI 智能体如何在各种领域和任务中展现出非凡的能力,挑战我们对学习和认知的理解。此外,他们还从跨学科的角度讨论了AI 智能体的潜力,强调了科学话语中的 AI 认知和意识。这些讨论将成为未来研究方向的基础,并鼓励更广泛的社会参与。

论文链接:
https://arxiv.org/abs/2403.00833

3.TroubleLLM:向红队专家看齐

大型语言模型(LLMs)已成为各种自然语言任务的最先进解决方案,并被整合到现实世界的应用中。然而,LLMs 可能会表现出不良的安全问题,如社会偏见和有毒内容,因而具有潜在的危害性。因此,在部署之前必须对其安全问题进行评估。然而,现有方法生成的测试提示的质量和多样性还远远不能令人满意。这些方法不仅耗费大量人力和预算成本,而且在 LLM 应用的特定测试领域中,测试提示的生成缺乏可控性。

本着将 LLM 用于 LLM 测试的理念,来自蚂蚁集团和香港中文大学的研究团队提出了第一个用于生成有关 LLM 安全问题的可控测试提示的 LLM——TroubleLLM。实验和人工评估证明了 TroubleLLM 在生成质量和生成可控性方面的优越性。

论文链接:
https://arxiv.org/abs/2403.00829

4.HanDiffuser:从文本到图像生成逼真的手部外观

文生图模型可以生成高质量的人类形象,但在生成手部的过程中会失去真实感。常见的问题包括不规则的手部姿势、形状、不正确的手指数量以及物理上难以置信的手指方向。为了生成具有逼真手部的图像,来自石溪大学和 Adobe Research 的研究团队提出了一种名为 HanDiffuser 的基于扩散的新型架构,通过在生成过程中注入手部嵌入实现逼真效果。

HanDiffuser 由两部分组成:一个是Text-to-Hand-Params 扩散模型,用于根据输入文本提示生成 SSMPL-Body 和 MANO-Hand 参数;另一个是文本引导的 Hand-Params-to-Image 扩散模型,用于根据前一部分生成的提示和手部参数合成图像。研究团队结合了手部表征的多个方面,包括三维形状和关节级手指位置、方向和衔接,以便在推理过程中实现鲁棒的学习和可靠的性能。实验和用户研究证明 HanDiffuser 在生成高质量手部图像方面的有效性。

论文链接:
https://arxiv.org/abs/2403.01693

5.EyeGPT:大模型驱动的眼科助手

人工智能(AI)具有改善临床工作流程和加强医疗沟通的潜力,因此在医疗咨询领域备受关注。然而,由于医疗信息的复杂性,用普通世界知识训练的大型语言模型(LLM)可能无法在专家级水平上处理与医疗相关的任务。

来自香港理工大学、Centre for Eye and Vision Research (CEVR)、中山大学、上海交通大学和眼科临床医学中心的研究团队提出了专为眼科设计的专业 LLM——EyeGPT,它采用了角色扮演、微调和检索增强生成三种优化策略。特别是,研究团队提出了一个全面的评估框架,包含一个涵盖眼科的各个亚专科、不同的用户和不同的查询意图的多样化数据集。

此外,研究团队还考虑了多种评估指标,包括准确性、可理解性、可信度、共鸣和幻觉比例。通过评估不同 EyeGPT 变体的性能确定了最有效的变体,它在可理解性、可信度和移情能力方面与人类眼科医生的水平相当(all Ps>0.05)。该研究为今后的研究提供了宝贵的见解,有助于全面比较和评估眼科专业 LLM 的不同开发策略。其潜在益处包括改善患者的眼科护理体验和优化眼科医生的服务。

论文链接:
https://arxiv.org/abs/2403.00840

6.ChatDiet:个性化食品推荐 AI 聊天机器人

食物对健康影响深远,我们需要先进的营养导向型食物推荐服务。传统方法往往缺乏个性化、可解释性和互动性等关键要素。虽然大语言模型(LLMs)带来了可解释性和可说明性,但独立使用它们却无法实现真正的个性化。

加州大学尔湾分校研究团队提出了一个由 LLM 驱动的新型框架——ChatDiet,它专为个性化营养导向食物推荐聊天机器人而设计。ChatDiet 整合了个人和群体模型,并辅以一个协调器( orchestrator)来可无缝检索和处理相关信息。能够根据个人用户的偏好动态提供个性化和可解释的食物推荐。

研究团队通过一项案例研究对 ChatDiet 进行了评估,他们建立了一个因果个人模型来估计个人的营养效果。评估展示了有效性达 92% 的推荐测试和说明性的对话实例,这凸显了ChatDiet在可解释性、个性化和互动性方面的优势。

论文链接:
https://arxiv.org/abs/2403.00781

7.RegionGPT:实现区域理解视觉语言模型

通过将大型语言模型(LLMs)与图像-文本对进行整合,视觉语言模型(VLMs)取得了突飞猛进的发展,但由于视觉编码器的空间感知能力有限,而且使用的是缺乏详细的特定区域描述的粗粒度训练数据,因此它们在详细的区域视觉理解方面举步维艰。

为此,来自香港大学和英伟达的研究团队推出了一个专为复杂区域级字幕和理解而设计的新型框架——RegionGPT(RGPT)。RGPT 通过对 VLMs 现有视觉编码器进行简单而有效地修改,增强了区域表征的空间意识。研究团队通过在训练和推理阶段整合任务引导的指令提示,进一步提高了需要特定输出范围的任务的性能,同时保持了模型在通用任务中的通用性。

此外,研究团队还开发了一个自动区域标题(caption)数据生成管道,用详细的区域级标题来丰富训练集。通用的 RGPT 模型可以有效地应用于一系列区域级任务并能够显著提高其性能,包括但不限于复杂的区域描述、推理、对象分类和引用表达式理解。

论文链接:
https://arxiv.org/abs/2403.02330
项目地址:
https://guoqiushan.github.io/regiongpt.github.io/

8.AtomoVideo:高保真图像视频生成器

基于卓越的文生图技术,视频生成技术取得了显著的快速发展。阿里巴巴团队提出了一种高保真图像视频生成框架 AtomoVideo,它基于多粒度图像注入实现了生成的视频与给定图像的更高保真度。

得益于高质量的数据集和训练策略,AtomoVideo 在保持出色的时间一致性和稳定性的同时,实现了更高的运动强度。这一架构可灵活扩展到视频帧预测任务,通过迭代生成实现长序列预测。此外,由于采用了适配器训练的设计,AtomoVideo 可以很好地与现有的个性化模型和可控模块相结合。通过定量和定性评估,AtomoVideo 与流行的方法相比取得了更优越的结果。

论文链接:
https://arxiv.org/abs/2403.01800
项目地址:
https://atomo-video.github.io/

9.MovieLLM:利用人工智能生成的电影增强对长视频的理解

多模态模型的开发标志着机器在理解视频方面迈出了重要一步。这些模型在分析短视频片段方面大有可为。然而,当涉及电影等较长的格式时,它们往往力不从心。主要障碍在于缺乏高质量、多样化的视频数据,以及收集或注释此类数据所需的大量工作。

为此,来自复旦大学和腾讯的研究团队提出了一个为长视频创建合成的高质量数据的新框架——MovieLLM。该框架利用 GPT-4 和文生图模型的强大功能,生成详细的脚本和相应的视觉效果。MovieLLM 以其灵活性和可扩展性脱颖而出,成为传统数据收集方法的优越替代方案。

实验证明,MovieLLM 生成的数据显著提高了多模态模型在理解复杂视频叙事方面的性能,克服了现有数据集在稀缺性和偏差方面的局限性。

论文链接:
https://arxiv.org/abs/2403.01422
项目地址:
https://deaddawn.github.io/MovieLLM/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1493382.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL NDB Cluster 分布式架构搭建 自定义启动、重启和关闭集群Shell脚本

此次NDB Cluster使用三台虚拟机进行搭建,一台作为管理节点;而对于另外两台服务器,每一台都充当着数据节点和SQL节点的角色。注意不是MGR主从复制架构,而是分布式MySQL架构。 创建 /var/lib/mysql-cluster/config.ini Cluster全局…

uniapp iOS 真机调试

一、下载爱思助手 二、打开爱思助手,把你的 苹果手机 用原装数据线连接至电脑: 找到 工具箱 > 搜索IPA > 打开IAP签名 三、添加 IPA 文件 mac:finder 》应用程序 》右键 HbuilderX 》显示包内容 》HbuilderX / plugins/ lau…

seata服务器集群搭建

搭建seata-server-1.3服务器对应SpringBoot2.3.12&#xff0c;springcloud2.2.3 <spring-cloud-alibaba.version>2.2.3.RELEASE</spring-cloud-alibaba.version> 首先你安装了nacos 1解压文件 2修改cong/file.conf 让seata集群信息可以共享&#xff0c;我们应该…

基于 HBase Phoenix 构建实时数仓(1)—— Hadoop HA 安装部署

目录 一、主机规划 二、环境准备 1. 启动 NTP 时钟同步 2. 修改 hosts 文件 3. 配置所有主机间 ssh 免密 4. 修改用户可打开文件数与进程数&#xff08;可选&#xff09; 三、安装 JDK 四、安装部署 Zookeeper 集群 1. 解压、配置环境变量 2. 创建配置文件 3. 创建新…

【视频转码】基于RK3588的视频转码探索

传统的视频转码服务基本都是基于X86下CPU、GPU转码&#xff0c;对硬件性能、功耗、成本来说都比较高。从技术角度来说现有视频转码技术有&#xff1a; 视频编码转变&#xff1a; 1. H.264 > H.265 保持视频分辨率、清晰度不变情况下&#xff0c;更改视频压缩方式&#xff0…

【Redis】Redis持久化模式AOF

目录 引言 AOF持久化模式​编辑​编辑 AOF与RDB的混合持久化(4.x后的新特性) AOF的优缺点 修复破损aof文件 到底用RDB还是AOF 引言 AOF就相当于上面的日志形式。是追加式备份。所有发生的写操作&#xff0c;新增啊&#xff0c;修改啊&#xff0c;删除啊&#xff0c;这些命…

03. Nginx入门-Nginx虚拟主机

Nginx虚拟主机简介 yum安装与源码安装一样&#xff0c;只是Nginx配置文件路径不一致&#xff0c;这里用的yum安装的配置文件路径。 利用虚拟主机的功能&#xff0c;可以在一台Nginx服务器上部署一个或多个虚拟主机。 虚拟主机主配置文件 注意&#xff1a;配置完成Nginx主配置…

怎么申请SSL证书?——保姆级教程

一&#xff1a;挑选一家权威的CA机构比如&#xff1a;JoySSL,进入官网之后可以看到有免费的DV单域名&#xff0c;多域名&#xff0c;通配符证书。根据自己的域名类型选择适合的证书。以下我也以单域名证书举例。 永久免费SSL证书_永久免费https证书_永久免费ssl证书申请-JoySS…

【Linux】访问文件的本质|文件描述符|文件重定向

文章目录 文件的结构文件描述符标准输入输出文件描述符的规则 文件重定向输出重定向(对应符号>)echo的输出重定向 输入重定向&#xff08;对应符号<&#xff09;追加重定向&#xff08;对应符号‘>>’&#xff09;实现文件重定向的函数dup2()参数测试 前言&#xf…

语文教学方法有哪些,产生了什么效果

你是否曾想过&#xff0c;一位普通的语文老师如何化身为智慧的引导者&#xff0c;点燃学生心中的求知之火&#xff1f;让我们一起探寻那些神奇的语文教学方法&#xff0c;以及它们带来的深远影响。 不仅让知识变得容易理解&#xff0c;更在无形中培养了学生的各项能力。通过谈话…

《JAVA与模式》之命令模式

系列文章目录 文章目录 系列文章目录前言一、命令模式的结构二、AudioPlayer系统三、宏命令四、命令模式的优点 前言 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到网站&#xff0c;这篇文章…

笔记本上使用usb蓝牙适配器

注意 必须先禁用笔记本上原来的蓝牙功能 禁用笔记本原来的蓝牙功能 使用usb蓝牙适配器

openEuler系统远程SSH远程连接

文章目录 1. 本地SSH连接测试2. openEuler安装Cpolar3. 配置 SSH公网地址4. 公网远程SSH连接5. 固定连接SSH公网地址6. SSH固定地址连接测试 欧拉操作系统(openEuler, 简称“欧拉”)是面向数字基础设施的操作系统,支持服务器、云计算、边缘openEuler是面向数字基础设施的操作系…

Latent Topic-aware Multi-Label Classification

X t ^t t and X s ^s s分别是训练和测试输入矩阵 predictive model h of the mapping between X t ^t t and Y t ^t t in the training data can be applied to the testing data&#xff0c;predictive model g of the mapping between X t ^t t and X s ^s s in the input da…

免费SSL证书有效期

免费SSL证书有效期现状 目前市场上主流的免费SSL证书提供商大多遵循行业规范&#xff0c;将免费证书的有效期设为3个月。这意味着每隔三个月&#xff0c;网站管理员必须重新申请、验证并安装新的SSL证书&#xff0c;以维持网站的HTTPS安全连接状态。这种做法已成为行业的常态&…

顶顶通呼叫中心中间件-如何利用机器人话术转接到坐席中

文章目录 前言联系我们实现方法 前言 场景&#xff1a;机器人话术执行到某一节点需要转接到人工坐席中&#xff0c;且呼叫坐席超时后可以返回到机器人话术中&#xff0c;然后继续执行话术剩下的流程。 联系我们 有意向了解呼叫中心中间件的用户&#xff0c;可以点击该链接添加…

MQTT.fx下载使用详解

mqtt.fx是一款基于 Eclipse Paho&#xff0c;使用 Java 语言编写的 MQTT 客户端工具。支持通过 Topic 订阅和发布消息&#xff0c;用来前期和物联网云平台调试非常方便。 &#xff08;一&#xff09;下载软件 傻瓜式安装 链接&#xff1a;https://pan.baidu.com/s/1PxXnuIPN…

基于springboot+vue的医疗挂号管理系统

博主主页&#xff1a;猫头鹰源码 博主简介&#xff1a;Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战&#xff0c;欢迎高校老师\讲师\同行交流合作 ​主要内容&#xff1a;毕业设计(Javaweb项目|小程序|Pyt…

Tomcat实现java博客项目、状态页及常见配置介绍

目录 一、自建博客 1. 项目背景 2. 操作示例 二、状态页 1. 概述 2. server status 信息状态页 3. manager app 项目管理状态页 4. host manger 虚拟主机管理状态页 三、常见配置 1. 端口8005/tcp安全配置管理 2. tomcat端口号 3. 虚拟主机设置 4. Context配置 一…

我国离子注入设备市场规模不断增加 本土企业仍有较大发展空间

我国离子注入设备市场规模不断增加 本土企业仍有较大发展空间 离子注入是半导体器件和集成电路生产的关键工艺之一&#xff0c;其提供的高精度和高均匀性可以大幅度提高集成电路的成品率。离子注入设备是芯片制造的核心工艺装备。 从全球市场来看&#xff0c;随着科学技术不断进…