每日学术速递5.12

news2025/1/31 8:27:55

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CV

1.ImageBind: Holistic AI learning across six modalities

标题:ImageBind:跨六种模式的整体人工智能学习

作者:Mengyuan Yan Jessica Lin Montserrat Gonzalez Arenas Ted Xiao Daniel Kappler Daniel Ho

文章链接:https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf

项目代码:https://github.com/facebookresearch/ImageBind

摘要:

        当人类从世界吸收信息时,我们天生会使用多种感官,例如看到繁忙的街道和听到汽车引擎的声音。今天,我们推出了一种方法,使机器更接近人类同时、整体和直接从许多不同形式的信息中学习的能力——不需要明确的监督(组织和标记原始数据的过程)。我们已经构建并正在开源 ImageBind,这是第一个能够绑定来自六种模式的信息的人工智能模型。该模型学习单个嵌入或共享表示空间,不仅适用于文本、图像/视频和音频,还适用于记录深度 (3D)、热(红外辐射)和惯性测量单元 (IMU) 的传感器,这计算运动和位置。ImageBind 使机器具备全面的理解力,将照片中的对象与它们的声音、3D 形状、它们的冷暖程度以及它们的移动方式联系起来。如我们的论文所述,ImageBind 可以胜过针对一种特定模态单独训练的先前专家模型。但最重要的是,它通过使机器能够更好地分析多种不同形式的信息来帮助推进人工智能。例如,使用 ImageBind,Meta 的 Make-A-Scene 可以从音频创建图像,例如根据雨林或熙熙攘攘的市场的声音创建图像。其他未来的可能性包括以更准确的方式识别、连接和调节内容,以及促进创意设计,例如更无缝地生成更丰富的媒体和创建更广泛的多模式搜索功能。ImageBind 是 Meta 致力于创建多模态 AI 系统的一部分,该系统可以从周围所有可能类型的数据中学习。随着模态数量的增加,ImageBind 为研究人员打开了尝试开发新的整体系统的闸门,例如结合 3D 和 IMU 传感器来设计或体验身临其境的虚拟世界。ImageBind 还可以提供一种探索记忆的丰富方式——使用文本、音频和图像的组合来搜索图片、视频、音频文件或文本消息。

2.HumanRF: High-Fidelity Neural Radiance Fields for Humans in Motion

标题:HumanRF:运动中人体的高保真神经辐射场

作者:Mustafa Işık, Martin Rünz, Markos Georgopoulos, Taras Khakhulin, Jonathan Starck, Lourdes Agapito, Matthias Nießner

文章链接:https://arxiv.org/abs/2305.06356

项目代码:https://synthesiaresearch.github.io/humanrf/

摘要:

        以高保真度表现人类表现是电影制作、电脑游戏或视频会议等各种应用的重要组成部分。为了缩小与生产级质量的差距,我们引入了 HumanRF,这是一种 4D 动态神经场景表示,可从多视图视频输入中捕捉运动中的全身外观,并能够从新颖的、看不见的视点进行回放。我们的新颖表示充当动态视频编码,通过将时空分解为时间矩阵向量分解来以高压缩率捕获精细细节。这使我们能够为长序列获得人类演员的时间相干重建,同时即使在具有挑战性的运动的背景下也能呈现高分辨率细节。虽然大多数研究都集中在 4MP 或更低分辨率的合成上,但我们解决了在 12MP 下运行的挑战。为此,我们介绍了 ActorsHQ,这是一种新颖的多视图数据集,它提供来自 160 个摄像机的 12MP 镜头,用于 16 个序列,具有高保真度、每帧网格重建。我们展示了使用此类高分辨率数据所带来的挑战,并表明我们新推出的 HumanRF 有效地利用了这些数据,朝着生产级质量的新颖视图合成迈出了重要一步。

3.FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance

标题:FrugalGPT:如何在降低成本和提高性能的同时使用大型语言模型

作者:Lingjiao Chen, Matei Zaharia, James Zou

文章链接:https://arxiv.org/abs/2305.05176

摘要:

        用户可以付费查询的大型语言模型 (LLM) 数量迅速增加。我们审查了与查询流行的 LLM API 相关的成本,例如GPT-4、ChatGPT、J1-Jumbo,并发现这些模型具有异构的定价结构,费用可能相差两个数量级。特别是,在大量查询和文本上使用 LLM 可能会很昂贵。受此启发,我们概述并讨论了三种类型的策略,用户可以利用这些策略来降低与使用 LLM 相关的推理成本:1) 提示适应,2) LLM 近似,以及 3) LLM 级联。例如,我们提出了 FrugalGPT,这是一种简单而灵活的 LLM 级联实例,它学习将哪些 LLM 组合用于不同的查询,以降低成本并提高准确性。我们的实验表明,FrugalGPT 可以与最好的单个 LLM(例如 GPT-4)的性能相媲美,成本降低高达 98%,或者在成本相同的情况下比 GPT-4 的准确度提高 4%。这里提出的想法和发现为可持续和高效地使用 LLM 奠定了基础。

 

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/521217.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

支付系统设计三:渠道网关设计04-渠道数据补全

文章目录 前言一、交易信息准备1. MessageDescription内容2. 交易信息填充3. 开户机构信息填充4. 省市区域信息填充5. 银行信息填充 二、路由处理三、支付渠道数据补全1.服务端支付渠道获取2. 支付渠道通用数据补全2.1 支付渠道账户信息补全2.1 商户信息补全结束 3. 支付渠道差…

具有噪声标签的鲁棒医学图像分割的点类仿射损失校正

文章目录 Joint Class-Affinity Loss Correction for Robust Medical Image Segmentation with Noisy Labels摘要本文方法Differentiated Affinity Reasoning (DAR)Class-Affinity Loss Correction (CALC)Class-Level Loss CorrectionAffinity-Level Loss CorrectionClass-Affi…

AcWing算法提高课-1.3.4数字组合

宣传一下算法提高课整理 <— CSDN个人主页&#xff1a;更好的阅读体验 <— 本题链接&#xff08;AcWing&#xff09; 点这里 题目描述 给定 N N N 个正整数 A 1 , A 2 , … , A N A_1,A_2,…,A_N A1​,A2​,…,AN​&#xff0c;从中选出若干个数&#xff0c;使它们…

轻松搭建冒险岛服务器-冒险岛私服搭建详细教程

想要拥有一个属于自己的冒险岛世界吗&#xff1f;想要一步步学习如何架设冒险岛服务器吗&#xff1f;本文将从如何选择服务器、安装系统、配置环境、搭建数据库、部署网站、上传文件、启动服务等8个方面&#xff0c;一步步为大家详细讲解冒险岛架设教程。让你轻松打造属于自己的…

sql 性能优化基于explain调优

文章目录 Explain分析&#xff1f;问题描述解决方案 Explain分析&#xff1f; 关于Explain具体可以干什么&#xff0c;有哪些优缺点&#xff0c;本博主的文章有写到&#xff0c;这是链接地址: 点击这里查看. 下面来说下Explain在项目实战中&#xff0c;如何去进行优化。 问题…

7年老人,30岁的测试说辞就辞,“人员优化”4个字,泰裤辣...

前几天&#xff0c;一个认识了好几年在大厂做测试的程序员朋友&#xff0c;年近30了&#xff0c;在公司做了7年了&#xff0c;一直兢兢业业&#xff0c;最后还是却被大厂以“人员优化”的名义无情被辞&#xff0c;据他说&#xff0c;有一个月散伙饭都吃了好几顿…… 在很多企业…

【ChatGPT】国内免费使用ChatGPT镜像

Yan-英杰的主页 悟已往之不谏 知来者之可追 C程序员&#xff0c;2024届电子信息研究生 目录 什么是ChatGPT镜像&#xff1f; 亲测&#xff1a; 一、二狗问答(AI对话) 二、AiDuTu 三、WOChat 四、ChatGPT(个人感觉最好用) 我们可以利用ChatGPT干什么&#xff1f; 一、三分…

薪人薪事 java开发实习一面

目录 1.常用数据结构&#xff0c;区别及使用场景2.数组和链表在内存中数据的分布情况3.HashMap底层数据结构4.put操作5.JVM内存区域6.各个区域存放什么东西7.创建一个对象&#xff0c;内存怎么分配的8.堆中内存怎么划分&#xff0c;gc怎么回收9.IOC 原理10.Bean存放在哪里11.AO…

支付系统设计三:渠道网关设计05-交易持久化

文章目录 前言一、领域模型持久化服务工厂二、聚合创建工厂1. 模型创建1.1 获取域模型Class1.2 新建模型1.3 数据填充 2. 模型持久化2.1 获取域模型对应的仓储2.2 调用域模型仓储进行持久化 总结 前言 本篇将解析交易信息入库&#xff0c;即对上送的参数&#xff0c;在进行校验…

关于ASA广告归因接入方法

投放苹果ASA广告&#xff0c;提高 app 曝光率、下载量的增长&#xff0c;那么我们该如何从后台看到投放广告的效果呢&#xff1f; 我们可以借助Apple Ads归因API。那什么是归因&#xff1f;什么又是API呢&#xff1f; 归因&#xff1a;可以给用户打标签&#xff0c;然后看他在…

[GUET-CTF2019]encrypt 题解

本题是输入了一个字符串&#xff0c;进行了rc4加密&#xff0c;和魔改的base64加密 RC4算法初始化函数 RC4加密过程 魔改的base64加密 最后加密的字符串是byte_602080 我们可以将byte_602080提取出来&#xff0c;下面是提取数据的IDC脚本&#xff0c;得到了密文 #include<…

赫夫曼树和赫夫曼编码详解

目录 何为赫夫曼树&#xff1f; 赫夫曼树算法 赫夫曼编码 编程实现赫夫曼树 编程实现赫夫曼编码 编程实现WPL 总代码及分析 何为赫夫曼树&#xff1f; 树的路径长度&#xff1a;从树根到每一结点的路径长度之和 结点的带权路径长度&#xff1a;从树根到该结点的路径长度…

2023网络安全十大顶级工具

从事网络安全工作&#xff0c;手上自然离不开一些重要的网络安全工具。今天&#xff0c;分享10大网络安全工具。 一、Kali Linux Kali 是一个基于 Debian 的 Linux 发行版。它的目标就是为了简单&#xff1a;在一个实用的工具包里尽可能多的包含渗透和审计工具。Kali 实现了这…

【AI面试】CNN 和 transformer 的问题汇总

​ CNN卷积神经网络和transformer相关的知识&#xff0c;是AI的一个基础的&#xff0c;也是前言的知识点。一般面试官会从以下这些问题入手&#xff1a; 卷积神经网络&#xff0c;有什么特点&#xff1f;1*1卷积核有什么作用&#xff1f;计算经过卷积的输出尺寸大小空洞卷积你…

机器学习之朴素贝叶斯三、拉普拉斯平滑技术、优化改进情感分析

文章目录 一、前文问题1. 先看下改进前我们的代码计算部分2. 问题分析&#xff1a; 二、针对问题进行解决1. 什么是拉普拉斯平滑技术2. 拉普拉斯优化-下溢上溢问题3. 改进地方分析&#xff1a;4.改进优化1.优化一&#xff0c;对条件概率计算进行优化2.优化二&#xff0c;对后延…

从小白到黑客高手:一份全面详细的学习路线指南

前言 黑客从入门到精通需要经过深入的学习和实践&#xff0c;这是一个需要长时间投入和大量精力的过程。在这份学习路线中&#xff0c;我将为你介绍黑客学习的基本知识和技能&#xff0c;帮助你逐步掌握黑客技能。 黑客 一、入门阶段 1.了解计算机基础知识 学习计算机基础知…

红黑树(小白教学)

分享一个动画展示的网址&#xff1a;Red/Black Tree Visualization (lerogo.com) 将红黑树之前&#xff0c;我们先来了解一下什么叫做2-3树&#xff01;&#xff01;&#xff01; 在我们以前学习的过程中&#xff08;二分搜索树、完全二叉树等&#xff09;结点都是存放了一个元…

Auto_GPT:如何使用Auto-GPT、安装、开发

文章目录 前言一、使用前提二、如何在您的 PC 上安装 Auto-GPT第 1 步&#xff1a;安装 Python第 2 步&#xff1a;获取 Auto-GPT 源代码和 OpenAI API 密钥第 3 步&#xff1a;在 Windows、MacOS和 Linux上安装 Auto-GPT 三、如何在你的 PC 上运行Auto-GPT总结 前言 Auto-GPT…

Redis消息队列(1)

一)消息队列:从字面意思上来看是存储消息的队列&#xff0c;最简单的消息队列包含三个元素: 1)消息队列:存储和管理消息&#xff0c;也被称之为是消息代理 2)生产者:发送消息到消息队列 3)消费者:从消息队列中获取消息并处理消息 4)当有用户想要进行秒杀下单的时候&#xff0c;…

CENTO OS上的网络安全工具(二十一)Hadoop HA swarm容器化集群部署

如果使用swarm来构建Hadoop、Spark之类的集群&#xff0c;一个绕不过去的问题每个容器都需要支持SSH免密互联——因为Hadoop需要。这就需要事先准备可以一键进行集群化部署的SSH镜像。 一、SSH集群及镜像的构建 1. 准备更换镜像源的Centos7 由于Centos7已经停止维护&#xff0c…