音视频技术开发周刊 | 323

news2024/12/23 5:54:17

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

844745d62465f582cdfcd92dfff636e1.png

Meta牵头组建开源「AI复仇者联盟」,AMD等盟友800亿美元力战OpenAI英伟达

超过50家科技大厂名校和机构,共同成立了全新的人工智能联盟。以开源为旗号,誓于OpenAI和英伟达一决高下。 

深度学习大牛权威预测2024年AI行业热点,盘点开源AI趋势!

AI社区大佬Sebastian总结了2023年全年AI行业的热点和问题,针对开源社区和AI研究的热点问题给出了自己读到的解读和发展建议,精彩内容千万不能错过。

跨语种「AI同传」震撼登场!Meta谷歌连发重大突破,颠覆语音翻译

Meta谷歌接连放出重磅成果!Meta开源无缝交流语音翻译模型,谷歌放出无监督语音翻译重大突破Translation 3。

AI颠覆材料学!DeepMind重磅研究登Nature,预测220万晶体结构赢人类800年

继AlphaFold系列改变了生物学领域之后,谷歌DeepMind今日再发Nature,全新AI工具GNoME,成功预测220万种晶体结构,颠覆了材料学领域。

Gemini:我们规模最大、能力最强的 AI 模型 

每一次技术的变革都是推进科学发现、加快人类进步和改善人们生活的机会。我相信我们此时正在见证的 AI 转变将是我们一生中影响最为深远的转变,其影响力远超过移动技术或互联网的转变。AI 有着为世界各地的人们创造机会的潜力,无论是在日常生活中还是在铸就非凡成就方面。它将带来新一轮的创新和经济进步,并以前所未有的规模推动知识、学习、创造力和生产力的发展。 

1c09c0e149d780139b2cd2fc5445c182.png

横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%

哈工深发布全新多模态大语言模型九天(JiuTian-LION),融合细粒度空间感知和高层语义视觉知识,在13个评测任务上实现了sota性能。

脑机接口重要突破!国内团队成功实现「全谱汉语解码」:Top 3准确率接近100%

国内团队实现对脑机接口汉语解码「零的突破」,系统覆盖了全部407个汉语拼音音节以及汉语发音特点,句子完全正确率高达30%!

全球首个开源多模态医疗基础模型:人工打分平均超越GPT-4V、支持2D/3D放射影像

本文中,上海交大 & 上海 AI Lab 发布 Radiology Foundation Model (RadFM),开源 14B 多模态医疗基础模型,首次支持 2D/3D 放射影像输入。

手机上0.2秒出图、当前速度之最,谷歌打造超快扩散模型MobileDiffusion

近日,来自谷歌的一篇论文「MobileDiffusion: Subsecond Text-to-Image Generation on Mobile Devices」,提出了手机端最快文生图,在 iPhone 15 Pro 上只要 0.2 秒。论文出自 UFOGen 同一团队,在打造超小扩散模型的同时, 采用当前大火的 Diffusion GAN 技术路线做采样加速。

9fe3a161549b3b2807bd40d563fe0b6f.png

3D Gaussian Splatting的福音!快速提取精确且可编辑的3D网格来啦!

本文介绍了一种从3D Gaussian Splatting表示中快速提取精确且可编辑的网格的方法。该方法利用Gaussian Splatting的渲染速度快、训练速度慢的特点,通过引入正则化项鼓励Gaussian Splatting表示与场景表面对齐,并使用Poisson重建方法从Gaussian Splatting表示中提取网格。此外,该方法还引入了一种优化策略,将Gaussian Splatting表示与网格一起优化,通过Gaussian Splatting渲染实现高效的编辑、雕塑、动画和重新光照。这种方法能够在几分钟内检索到具有更好渲染质量的可编辑网格,相比于从SDF中提取网格的方法需要几个小时。

使用库普曼线性化以及数据驱动的批量定位和SLAM 

本文提出了一个无模型批量定位和SLAM的框架。我们使用提升函数将控制仿射系统映射到高维空间,其中过程模型和测量模型都被渲染为双线性。在训练过程中,使用真实数据求解一个最小二乘问题,以纯粹从数据中计算与提升系统相关的高维模型矩阵。在推理时,通过一个优化问题来解决未知的机器人轨迹和路标,其中引入了约束,以保持解在提升函数的流形上。使用序列二次规划( SQP )有效地解决了该问题,其中SQP迭代的复杂度与时间步数呈线性比例关系。

UWB雷达SLAM:一种在视觉拒止的室内环境中的无锚点方法

激光雷达和相机常被用作同步定位与地图构建( SLAM )的传感器。然而,这些传感器在低能见度(例如烟雾)或具有反射面(例如反射镜)的地方容易失效。另一方面,电磁波在波长增加时表现出更好的穿透特性,因此不受低能见度的影响。因此,本文提出了超宽带( UWB )雷达作为现有传感器的替代方案。UWB通常被用于锚点-标签SLAM系统。在环境中安装一个或多个锚点,并将标签附着在机器人上。

https://ieeexplore.ieee.org/document/10175555/

4f5dbc9ad940b78fb283237f852c0eea.png

iPhone 15 Pro+三方软件,开拓“空间视频”平民时代

2023 苹果秋季发布会上,iPhone 15 Pro 系列带来了一个彩蛋功能——空间视频拍摄。该功能将 iPhone 与 Vision Pro 进行了生态联动,不仅增强了 Vision Pro 的用户生活场景,更能为明年 Vision Pro 的销售埋下伏笔。

评测丨一键成为虚拟偶像?索尼mocopi会是新的动捕黑科技吗?

此前,一名游戏动捕演员“曦曦鱼SAKANA”走出幕后,在b站发布了多条关于不同风格游戏角色的动作捕捉视频,因其传神的动作与表情获得了观众的高度认可,不少观众纷纷表示“仿佛看到了xx角色本人”。

Varjo最新VR/MR头显XR-4开始面向专业消费者提供

在过去,Varjo的设备主要面向企业市场,定价高昂,而且购买需要咨询问价。对于这家公司刚刚发布的全新XR-4系列头显,这是一款无需支付高额年费且直接向专业消费者销售的旗舰设备。

ba6220b8cd2a8fa82d2f25fcac673f83.png

亚马逊AI芯片,深度解读

亚马逊网络服务可能不是第一家创建自己的定制计算引擎的超大规模提供商和云构建商,但它紧随谷歌之后发布了自研的AI芯片——谷歌于 2015 年开始使用其自主研发的 TPU 加速器来处理人工智能工作负载。

GPU,巨变前夜

在3D图像学中,对于真实场景和物体的高精度建模/渲染一直是整个学界梦寐以求的目标之一。在过去几十年中,3D场景和物体建模的主流方式是基于多边形(ploygon mesh)的建模,即把一个3D建模的物体表面近似为由大量多边形组成,而多边形数量越多,则3D建模和真实物体/场景越接近。  

3D封装,成本最优的选择?

当 2.5D 和 3D 封装最初被构想出来时,普遍的共识是只有最大的半导体公司才能负担得起,但开发成本很快就得到了控制。在某些情况下,这些先进的封装实际上可能是成本最低的选择。

苹果芯片实验室首次对外公开!

美国 CNBC 发布新闻报道,称于今年 11 月访问了苹果位于加州库比蒂诺的园区,首次获批公开了苹果芯片实验室内部场景。

b2f7c0313c45e10eb58775e70164029e.png

空间音频体验与评价方案

区别于传统单通道和立体声音频,3D音频是一种带来三维沉浸式音频体验的新范式,其在制作、传输分发、端侧渲染端到端全链条都引入了更复杂的音频数据存储格式、编解码策略以及音效算法,继而为消费者带来了更身临其境的音频体验感以及空气感(eg:戴上耳机听音频,感觉就像没戴耳机且听到身边真实三维世界的声音一样),极有潜力成为未来交互式社交、沉浸式多媒体创作&娱乐、XR等产业的技术底座。

任意文本、视觉、音频混合生成,多模态有了强大的基础引擎CoDi-2

今年 5 月,北卡罗来纳大学教堂山分校、微软提出一种可组合扩散(Composable Diffusion,简称 CoDi)模型,让一种模型统一多种模态成为可能。CoDi 不仅支持从单模态到单模态的生成,还能接收多个条件输入以及多模态联合生成。

https://arxiv.org/pdf/2311.18775.pdf

如何优化智能扬声器的语音和音频测试?

智能扬声器已经风靡千家万户,消费者满意度与其智能扬声器对语音命令的理解程度密切相关。语音清晰度和音质对于领先的平台提供商至关重要。那么,如何确保您的产品能够满足消费者的严格要求?

超声波可实现侵入性较小的脑机接口

脑机接口(BMI)是可以读取大脑活动并将该活动转换为控制假肢或计算机光标等电子设备的设备。科学家们希望能借用BMI使瘫痪的人能够用自己的思想移动假肢装置。许多BMI需要侵入性手术将电极植入大脑以读取神经活动。然而,在2021年,加州理工学院的研究人员开发了一种使用功能性超声(fUS) 读取大脑活动的方法,这是一种侵入性小得多的技术。

23121341d8496c8c9a4e103cfd257af2.png

音视频编解码--随机访问Random Access

在理想情况下,视频编码器可以发送视频第一帧的关键帧,然后每个后续帧都将表示为差异,直到视频结束。 

92e9c0cc7fbc36e84b36f5489ec8a2e7.png

NeurIPS2023 | ResShift:通过残差位移实现的用于图像超分辨率的高效扩散模型 

基于扩散的图像超分辨率(SR)方法主要因需要进行数百甚至数千次采样步骤,导致推理速度较慢而受到限制。现有的加速采样技术不可避免地在一定程度上牺牲性能,导致超模糊的SR结果。为了解决这个问题,本文提出了一种新颖高效的扩散模型用于SR,显著减少了扩散步骤的数量,从而在推理过程中消除了后加速的需求及其相关的性能下降。

ICCV 2023 | 基于不规则群解耦的语义结构图像压缩 

图像压缩技术通常侧重于压缩图像以供人类消费,这导致为下游应用传输冗余内容。为了解决这一问题,一些先前的工作提出对比特流进行语义结构划分,通过选择性的传输和重构可以满足特定的应用需求。它们根据语义将输入图像划分为多个矩形区域,但忽略了区域之间的交互信息,导致比特率的浪费和区域边界的重建失真。本文提出了基于定制的组掩码将图像解耦为多个具有不规则形状的组,并对其进行独立压缩。组掩码以更精细的粒度描述图像,减少冗余内容的传输。

385f4cb58f5d230e9f5c28637191b5a7.png

年终王炸!Amazon Q重磅登场,云巨头开创企业级生成式AI新赛道

就在刚刚,亚马逊云科技祭出了全新AI「大杀器」Amazon Q。不仅只用两天时间就升级了上千款Java应用,更是将企业的数据屏障一举击穿。

苹果选择视涯和京东方供应Vision Pro微显示器;复旦科创母基金首期十亿元启动

苹果首款 AR 硬件 Apple Vision Pro 将采用双 1.3 英寸 4K Micro-OLED 微显示器。苹果一直在与生产首款 Micro-OLED 微显示器的索尼合作,但后来的报道表明,苹果正在寻求用视涯和京东方的合作,以取代索尼作为其供应商,降低成本(并且也可能增加潜在供应,因为索尼产能有限)。    

SteamVR官方串流工具上线Quest Store;中兴通讯发布5G VR大空间沉浸剧场解决方案头条

近日,Valve所发布的官方免费串流工具Steam Link正式上线Quest Store。借助该工具,用户可以基于无线WiFi网络畅玩《Half-Life: Alyx》等SteamVR知名游戏,此外,用户还可以通过VR头显体验传统的平面游戏。

7570e034fd467b5566c687b91f96c7e0.png

重磅首发|2024音视频技术发展报告(文末附下载)

11月24日,在LiveVideoStackCon 2023深圳站大会上,我们与腾讯云音视频联合首发《2024音视频技术发展报告》。报告通过300+音视频开发者调研,40+专家一线访谈,下沉8大细分技术领域进行全面解读,涵盖音视频编解码/AI编码/多媒体处理框架/媒体传输协议/超低延迟技术/虚拟现实/AIGC/出海等领域,深入洞察音视频技术现状和未来发展趋势。  

点击阅读原文

跳转报告下载链接

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1303909.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

c++ multimap

multimap创建 multimap<string , string> m; m.insert(make_pair("12","3234")); m.insert(make_pair("12","3234")); m.insert(make_pair("12","3234"));遍历 multimap<string , string> m; m.inser…

Nacos配置管理-nacos集群搭建

一、集群结构图 其中包含3个nacos节点&#xff0c;然后一个负载均衡器代理3个Nacos。这里负载均衡器可以使用 nginx。 二、 计划实现 --计划架构-- 3个Nacos节点&#xff1b; 3个mysql库&#xff1b; --计划节点地址-- 三、集群搭建 3.1 基本步骤 &#xff08;1&#…

Camunda 7.x 系列【60】流程分类

有道无术,术尚可求,有术无道,止于术。 本系列Spring Boot 版本 2.7.9 本系列Camunda 版本 7.19.0 源码地址:https://gitee.com/pearl-organization/camunda-study-demo 文章目录 1. 前言2. 案例演示2.1 后端2.2 前端2.3 测试1. 前言 钉钉中的OA审批分类: 企业级的业务…

SQL自学通之函数 :对数据的进一步处理

目录 一、目标 二、汇总函数 COUNT SUM AVG MAX MIN VARIANCE STDDEV 三、日期/时间函数 ADD_MONTHS LAST_DAY MONTHS_BETWEEN NEW_TIME NEXT_DAY SYSDATE 四、数学函数 ABS CEIL 和FLOOR COS、 COSH 、SIN 、SINH、 TAN、 TANH EXP LN and LOG MOD POW…

软件测试之缺陷管理

一、软件缺陷的基本概念 1、软件缺陷的基本概念主要分为&#xff1a;缺陷、故障、失效这三种。 &#xff08;1&#xff09;缺陷&#xff08;defect&#xff09;&#xff1a;存在于软件之中的偏差&#xff0c;可被激活&#xff0c;以静态的形式存在于软件内部&#xff0c;相当…

输电线路故障监测系统:实现电力传输的智能化管理

随着科技的不断发展&#xff0c;电力系统的安全稳定运行对于国家经济和人民生活至关重要。为了提高电力系统的运行效率和安全性&#xff0c;恒峰智慧科技研发的输电线路故障监测系统HFP-GZS2000应运而生。本文将介绍输电线路分布式故障定位及隐患监测装置的技术原理、功能特点以…

洗衣行业在线下单小程序源码系统:上门取货,轻松操作,简单便捷 带完整的安装部署教程

传统洗衣行业存在一些问题&#xff0c;如店面覆盖范围有限、取送时间较长、服务水平参差不齐等。随着消费升级和移动互联网技术的发展&#xff0c;消费者对于洗衣服务的需求也在发生变化。他们需要更便捷、高效、优质的服务方式。因此&#xff0c;开发一款基于移动互联网技术的…

vscode 远程连接内网服务器和通过跳板机远程连接外网服务器

1.打开vscode congfig文件&#xff0c;输入相应信息如下图 若本地没有id_rsa文件&#xff0c;可打开cmd进入.ssh目录下输入命令&#xff1a;ssh-keygen&#xff0c;创建该文件&#xff0c;会提示输入该文件保存地址以及设置秘钥密码&#xff08;最好不要设置密码&#xff0c;不…

Java EE 多线程之多线程案例

文章目录 1. 多线程案例1.1 单例模式1.1.1 饿汉模式1.1.2 懒汉模式1.1.3 多线程下的单例模式 1.2 阻塞队列1.2.1 阻塞队列定义1.2.2 生产者消费者模型的意义1.2.4 标准库中的阻塞队列1.2.5 实现阻塞队列1.2.6 用阻塞队列实现生产者消费者模型 1.3 实现定时器1.3.1 标准库中的定…

在接触新的游戏引擎的时候,如何能快速地熟悉并开发出一款新游戏?

引言 大家好&#xff0c;今天分享点个人经验。 有一定编程经验或者游戏开发经验的小伙伴&#xff0c;在接触新的游戏引擎的时候&#xff0c;如何能快速地熟悉并开发出一款新游戏&#xff1f; 利用现成开发框架。 1.什么是开发框架&#xff1f; 开发框架&#xff0c;顾名思…

Slice和MB

Slice 编码帧或场分割成若干个slice独立编码,各Slice之间相互独立,Slice中又有多个宏块构成,各Slice中的宏块个数不一定要一致,可以有以下几种Slice的划分方式: 一个picture一个Slice一个picture多个Slice,每个Slice的宏块数目一致一个picture多个Slice,每个Slice的宏块…

注意力机制和自注意力机制

有很多自己的理解&#xff0c;仅供参考 Attention注意力机制 对于一张图片&#xff0c;我们第一眼看上去&#xff0c;眼睛会首先注意到一些重点的区域&#xff0c;因为这些区域可能包含更多或更重要的信息&#xff0c;这就是注意力机制&#xff0c;我们会把我们的焦点聚焦在比…

cadence中如何在更新原理图封装

cadence中如何在更新原理图封装 一、更改原理图封装 当原理图画好后&#xff0c;如果我们发现某个封装错了&#xff0c;需要改动&#xff0c;需要找到你最初画Library中器件封装文件打开&#xff0c;进行修改&#xff0c;修改好后保存。 二、更新封装 保存好后&#xff0c;…

性能测试:方法、工具与最佳实践

目录 前言 1. 为什么进行性能测试&#xff1f; 2. 性能测试方法 3. 性能测试工具 Apache JMeter: LoadRunner: Gatling: Apache ab (Apache Benchmark): Locust: Tsung: BlazeMeter: K6: Neoload: WebLOAD: 4. 最佳实践 设定明确的性能测试目标&#xff1a; 模…

visual studio 2022 IDE对C++代码反汇编

敲一段代码&#xff0c;在windows电脑儿上&#xff0c;忽然想用visual studio瞧瞧这段代码的汇编长什么样&#xff0c;怎么做呢&#xff1f; 代码有了 #include <stdio.h> void sort(int*,int);int main(){int array[] { 977,1,32,3,99,8,7,5,23,6 };int length int(…

Python 学习笔记之 networkx 使用

介绍 networkx networkx 支持创建简单无向图、有向图和多重图&#xff1b;内置许多标准的图论算法&#xff0c;节点可为任意数据&#xff1b;支持任意的边值维度&#xff0c;功能丰富&#xff0c;简单易用 networkx 中的 Graph Graph 的定义 Graph 是用点和线来刻画离散事物…

react Hooks(useRef、useMemo、useCallback)实现原理

Fiber 上篇文章fiber简单理解记录了react fiber架构&#xff0c;Hooks是基于fiber链表来实现的。阅读以下内容时建议先了解react fiber。 jsx -> render function -> vdom -> fiber树 -> dom vdom 转 fiber 的过程称为 recocile。diff算法就是在recocile这个过程…

国内外聊天AI大比拼,你知道几个?一键了解最火聊天AI应用!

国内类ChatGPT的AI工具一网打尽 2022年&#xff0c;是一个不平凡的一年。ChatGPT迅速崭露头角&#xff0c;成为备受瞩目的热门话题。特别是在OpenAI发布了基于GPT-3.5模型的ChatGPT版本后&#xff0c;这一产品因其卓越的对话能力和广泛的应用潜力&#xff0c;很快引起了大众的…

GoWeb开发框架gin-基础路由使用

文章目录 1.安装并写一个demo2.配置GoLang热加载脚手架3.配合net/http使用完整示例4.返回值4.1String返回值4.2Json返回值4.3struct结构体返回值4.4jsonp返回值4.5XML返回值 5.接收前端传过来的参数5.1get请求传值5.2form表单传值5.3接收结构体5.4路由地址传参 6.完整代码 1.安…

nodejs+vue+微信小程序+python+PHP基于spark的酒店管理系统-计算机毕业设计推荐

通过管理系统进行全面的线上管理。管理者可以通过基于spark的酒店管理系统&#xff0c;全面掌握酒店客房的各项状态&#xff0c;会员通过系统查询酒店客房信息&#xff0c;在线预定。 酒店作为旅游过程必须的设施&#xff0c;也逐渐需需要进行信息化管理&#xff0c;把酒店类型…