音视频技术开发周刊 | 326

news2024/11/25 23:36:23

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

3428c81ca17399dffaae481bf337e441.png

全球最强「开源版Gemini」诞生!全能多模态模型Emu2登热榜,多项任务刷新SOTA

最强的全能多模态模型来了!就在近日,智源研究院重磅发布了开源界的「Gemini」——Emu2,一口气刷新多项SOTA。

成立2年融资近9亿!AI NPC引爆游戏行业巨变,微软等大厂已经入局

成立2年融资近9亿!AI NPC引爆游戏行业巨变,微软等大厂已经入局。

谷歌DeepMind联手复仇!Jeff Dean、Hassabis万字长文总结2023绝地反击

刚刚,谷歌DeepMind联手复仇!Jeff Dean、Hassabis万字长文总结2023绝地反击。

c7ac07f3d4a8eb6789ed22491ba8af03.png

昆仑万维入选机器之心2023年度最佳大模型 TOP 20、最佳大模型产品及应用 TOP 20
近日,机器之心正式揭晓「AI 中国」机器之心 2023 年度榜单,昆仑万维天工大模型入选“最佳大模型 TOP 20”,天工APP入选“最佳大模型产品及应用 TOP 20”。

快手Agents系统、模型、数据全部开源!

快手联合哈尔滨工业大学研发的「KwaiAgents」,使7B/13B模型也能达到超越GPT-3.5的效果,并且这些系统、模型、数据、评测都开源了!

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

在这篇 NeurIPS23 论文中,来自鲁汶大学、新加坡国立大学和中科院自动化所的研究者提出了一种视觉 「读脑术」,能够从人类的大脑活动中以高分辨率解析出人眼观看到的图像。

CPU推理提升4到5倍,苹果用闪存加速大模型推理,Siri 2.0要来了?

文生视频可以精细到什么程度?最近,阿里巴巴的一项研究给出了答案:1280×720 分辨率没有压力,而且生成效果非常连贯。

bbe66f44280edb5e7156590549c758f8.png

深度学习特征提取匹配开源算法:SuperPoint和SuperGlue

SuperPoint是AR公司——magicleap的工作, SuperGlue是magicleap和苏黎世联邦理工学院(ETH)一起合作的,在2020年附近,SuperPoint+SuperGlue在特征点提取和匹配上有很好的效果,可以达到世界第一的水平。

悉尼大学新作:坐标系在动态SLAM中究竟有多重要?

本文对动态SLAM的多种解决方案进行了深入分析,并且确定了解决该问题的最佳方案。本文旨在突出坐标系对于解决动态SLAM问题的重要性。

太强了!世界第一款开源的自动驾驶一体化框架Autoware!

Autoware最早是由名古屋大学研究小组在加藤伸平教授(Prof. Shinpei Kato)的领导下于2015年8月正式发布。

挪威科技大学开源!用于水下里程计折射相机在线自标定

本文提出了一种适用于水等折射介质的相机模型及其在水下视觉惯性里程计中的应用。该模型是实时自校准的,不需要已知的对应关系或校准目标。它可分为畸变模型(依赖于折射率n和径向像素坐标)和虚拟针孔模型(作为n的函数)。我们推导了利用极线约束的自校准公式来估计折射率,然后对畸变进行校正。

6950ae5723c69544dbd8aec5f5a3a4ee.png

国产AR操作系统告别“卡脖子”,迈向新里程碑

近日, Rokid 联合粒界科技就推动了国产 AR操作系统向前走了一大步,Rokid 新一代空间计算操作系统 YodaOS-Master 将全面支持粒界图形引擎GritGene,实现在 AR 领域软硬件产品全面自主可控和闭环,向行业释放了一系列利好的消息。

微软专利分享元宇宙远程会议中2D与3D的无缝过渡方法

远程会议的发展正在促进元宇宙的普及。然而,当前在线会议应用使用元环境的其中一个主要问题是,并非会议的所有参与者都拥有相同类型的设备。例如,特定用户操作PC,而其他用户操作VR头显。

Meta正式推出MR Utility Kit,帮助你快速构建空间感知型MR应用

Meta在Connect大会发布的实用工具套件MR Utility Kit( Unity和Unreal)现已可用,并提供了诸如Passthrough Rellighting等能够帮助你加快开发并增强应用程序真实感的功能。

dbbcc8dc0e72bb2631999dab2d0fa61e.png

EUV光刻,日本多路出击

在半导体制造过程中,光刻是最关键的步骤之一,决定了芯片的功能和性能。

被放弃的存储技术,3D XPoint细节首度公开

3D XPoint内存技术被称为英特尔与美光科技(以下简称美光)于2015年7月28日(美国时间)共同开发的大容量、高速非易失性内存技术。英特尔于2017年3月商业化了用于服务器的“傲腾SSD DC P4800X”高速SSD,并于2017年4月商业化了用于HDD缓存的“傲腾内存系列”M2卡。“Optane”是英特尔为配备 3D XPoint 内存的产品赋予的品牌名称。

被放弃的存储技术,3D XPoint细节首度公开

3D XPoint内存技术被称为英特尔与美光科技(以下简称美光)于2015年7月28日(美国时间)共同开发的大容量、高速非易失性内存技术。英特尔于2017年3月商业化了用于服务器的“傲腾SSD DC P4800X”高速SSD,并于2017年4月商业化了用于HDD缓存的“傲腾内存系列”M2卡。“Optane”是英特尔为配备 3D XPoint 内存的产品赋予的品牌名称。

一文读懂GPU的过去、现在和未来

大模型AI席卷全球,推理创新的APP、场景落地越来越多。当训练达到一定阶段,推理必然会形成一个爆发。推理的产品要起来,必然要把推理的成本降到今天 1/ 10 甚至 1/100。此时该如何选好、用好 GPU ,进而影响推理成本?

ee84954e0987a0de71a48b724001ceb3.png

ASRU2023 | U2-KWS: 基于关键词偏置的两阶段自定义关键词检出

近期,西工大音频语音与语言处理研究组(ASLP@NPU)和理想汽车合作论文“U2-KWS: Unified Two-pass Open-Vocabulary Keyword Spotting with Keyword Bias”被语音领域旗舰会议IEEE ASRU 2023接收。该论文提出了基于关键词偏置的两阶段自定义关键词检出方案U2-KWS,该方案在两级验证阶段基于注意力机制分别进行关键词偏置(bias)。

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

近日,由清华大学计算机系朱军教授课题组发布的基于薛定谔桥的语音合成系统 [1],凭借其 「数据到数据」的生成范式,在样本质量和采样速度两方面,均击败了扩散模型的 「噪声到数据」范式。

清华大学人机语音交互实验室关于表现力语音合成自动风格控制和篇章情感分析的工作荣获最佳论文

语音合成旨在让机器根据给定的文本生成对应内容的语音。表现力语音合成(Expressive Speech Synthesis)致力于为语音合成提供更丰富的情感波动和风格变化,以提高合成语音的拟人度和感染力,在有声读物、虚拟主播、虚拟人等场景下有着广泛的应用价值,因而受到了越来越多研究者的关注。

https://arxiv.org/abs/2312.03491

郑成诗研究员科研团队发表重要综述:时频域单通道语音增强60年——从传统方法到深度学习方法

近日,中国科学院声学研究所(以下简称声学所)噪声与音频声学实验室郑成诗研究员研究团队在听觉领域期刊Trends in Hearing(中国科学院期刊分区一区top)发表综述:Sixty Years of Frequency-Domain Monaural Speech Enhancement: From Traditional to Deep Learning Methods(0时频域单通道语音增强60年——从传统方法到深度学习方法)。

座舱音频系统的架构设计和音频体验

近年来,智能座舱体验日益成为汽车竞争力的核心,智能座舱的多样体验正在成为用户购车时考虑的重要因素。 

4066cc45f150c425455dc0f8380ce54e.png

低延时视频技术的应用场景和挑战

无线网络对人们的生活产生了巨大的影响,而5G技术的引入将彻底改变我们与世界互联互通的方式。在5G时代,实现万物互联离不开低延时技术的应用。

19e9661d3ff375e02addf0d9be40d217.png

专访Meta CTO:AI已是XR杀手应用,LLM开源社区竞争没有输家

Meta CTO接受访谈,大谈AI开源竞争,认为AI开源将让所有参与者获益。同时,XR已经准备好利用AI搭建杀手应用,Meta最近推出的AR眼镜就是最好的例子。

对话国产EDA和IP厂商,如何攻克大规模数字电路设计挑战?

随着先进制程不断推进,以及AI、大数据、云计算等一系列新技术的快速发展,数字电路的处理能力越来越强,电路规模越来越大,对大规模数字芯片的需求也越来越多。因此,如何加速大规模数字电路设计就成为了业内芯片设计企业关注的焦点。

ae778b2c776c1f55c26d125066cee643.png

阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解能力,推动了多模态大模型(MLLM)快速发展,MLLM 成为了现在业界最热的研究方向。

华为发布问界M9,号称一千万以内最好的SUV,有被震撼到

昨天看了华为问界M9的发布会,余总号称一千万以内最好的SUV(本来以为是个梗,发布会对标的确实很多是几百万的豪车)。计划继续完善Enhance VR,并通过虚拟现实+人工智能的力量来改善大脑健康。

郭明錤:2024年Vision Pro出货量约50万台;Meta 明年将展示一款超前 AR 眼镜原型

苹果年度重磅产品 Vision Pro 将于明年 Q1 于美国市场上市,目前业内对于 Vision Pro 的预估出货量都持不同看法。据天风国际证券分析师郭明錤最新的推文预测,Vision Pro 在明年的出货量约为 50 万台。

腾讯云音视频的创新技术、多元场景以及出海洞察

近年来,腾讯云音视频在音视频技术领域不断突破创新,从采集、编码、传输加速、云端媒体处理、分发到解码,不断探索前沿技术,并将其广泛应用于多元化的场景中。与此同时,在海外市场的实践中,腾讯云音视频积累了丰富的经验和对市场的深刻洞察。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1349913.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

红队打靶练习:SAR: 1

目录 信息收集 1、arp 2、netdiscover 3、nmap 4、nikto 5、whatweb 小结 目录探测 1、gobuster 2、dirsearch WEB CMS 1、cms漏洞探索 2、RCE漏洞利用 提权 get user.txt 本地提权 信息收集 1、arp ┌──(root㉿ru)-[~/kali] └─# arp-scan -l Interface:…

系统学习Python——装饰器:函数装饰器-[对方法进行装饰:使用嵌套函数装饰方法]

分类目录:《系统学习Python》总目录 如果想要函数装饰器在简单函数和类级别的方法上都能工作,最直接的解决办法在于使用前面文章介绍的状态保持方案之一:把自己的函数装饰器编写为嵌套的def,这样你就不会陷入单一的self实例参数既…

【办公技巧】pdf打印没反应怎么办

正常的PDF文件是可以打印的,如果PDF文件打开之后发现文件不能打印,我们需要先查看一下自己的打印机是否能够正常运行,如果打印机是正常的,我们再查看一下,文件中的打印功能按钮是否是灰色的状态。 如果PDF中的大多数功…

找火鸡^^

欢迎来到程序小院 找火鸡 玩法:记忆翻牌游戏,不同关卡会有不同数目的火鸡,卡牌自由滚动,记住火鸡的位置, 规定的时间内找到火鸡所在的位置,快去找火鸡吧^^。开始游戏https://www.ormcc.com/play/gameStart…

江西速欣商务咨询有限公司:债务规划重组的专业法务咨询服务

在财务管理中,债务问题往往成为个人和企业面临的一项重要挑战。江西速欣商务咨询有限公司作为债务问题的专业解决者,致力于为客户提供高效而专业的债务规划重组法务咨询服务,帮助他们摆脱负担,重整财务秩序。 深谙债务规划的专业智…

Python 基础语法01

变量声明 #运算 num 1 num 1 print("num 1",num)num - 1 print("num - 1", num)num * 4 print("num * 4",num)num 3 num % 2 print("num%2",num)num ** 2 print("num ** 2", num)num 9 num // 2 print("num // …

JavaScript 中常用事件

前言: 介绍了什么是事件以及原理,还有常用的事件及使用 **如果演示结果不好理解,可以复制代码到自己的电脑中运行,这样你们可以更好理解也可以研究出好玩的,研究出的话顺便发给我也玩玩🤭 文章目录 什么是事件原理鼠标…

针对工行的LockBit勒索软件攻击表明了全球金融系统对网络攻击的脆弱性

内容概要: 11月8日,工行一家美国子公司被勒索软件入侵导致美国国债交易业务瘫痪,暴露了全球金融系统易受网络攻击的脆弱性。LockBit勒索软件集团声称对工行的攻击负责。工行是世界上资产规模最大的银行,管理着5.7万亿美元。这一网…

轻松提升软件性能:快速学习和使用Memcached

目录 1、前言 2、Memcached的简介 3、Memcached的安装与配置 4、Memcached的数据结构 5、Memcached的常用命令 6、Memcached的高级特性 7、Memcached在系统中如何使用 8、结语 1、前言 Memcached是一个广泛用于提升软件性能的开源内存缓存系统。它可以有效地减少对数据…

代码随想Day55 | 392.判断子序列、115.不同的子序列

392.判断子序列 第一种思路是双指针&#xff0c;详细代码如下&#xff1a; class Solution { public:bool isSubsequence(string s, string t) {//双指针if(s.empty()&&t.empty()) return true;int i0,j0;while(i<t.size()){if(s[j]t[i]) j;if(js.size()) return t…

MySQL触发器的创建、查看、删除、存储过程与触发器的区别等

MySQL触发器 1、什么是触发器2、创建触发器3、查看所有的触发器4、删除触发器5、常见的触发器案例6、存储过程与触发器的区别 1、什么是触发器 简单点来说触发器就是一个特殊的存储过程&#xff0c;不过存储过程需要手动调用&#xff0c;而触发器自动调用。 一张图来简单说明…

GPT编程(1)八分类图像数据集转换为二分类

一个核心问题就是要将这八类数据图片全部重命名&#xff0c;尝试了一步到位 有一个图像数据集&#xff0c;有八个类别amusement,anger,awe,contentment,disgust, excitement, fear,sadness的图片&#xff0c;每张图片被命名为“类别数字”。采用遍历的方式&#xff0c;按顺序阅…

架构设计的核心:从多个维度理论分析

文章目录 一、如何实现高内聚低耦合的架构1、确定边界2、内聚的分类3、耦合的分类4、如何实现高内聚低耦合&#xff08;1&#xff09;耦合关注点&#xff08;2&#xff09;低耦合原则&#xff08;3&#xff09;高内聚原则 二、如何实现可扩展性的架构1、扩展性&#xff1a;核心…

OpenHarmony之系统调用

背景 对于运行L0系统的硬件一般是mcu&#xff0c;资源有限&#xff0c;L0系统没有区分内核态和用户态&#xff0c;所有的代码都在内核态运行&#xff0c;所以不需要系统调用 L2系统用的是Linux内核&#xff0c;所以系统调用跟Linux Kernel的是一样的。 所以我们主要来看看L1系…

构建基础wlan网络 hcia无线

实验 旁挂组网 二层网络 ac为 dhcp的服务器给ap地址 s1给sta的ip地址 DHCP 业务为直接转发 实验步骤 第一步 poe 开启 poe en 开启 第二步 有线连接 vlan的配置 s1 vlan batch 100 101 连接的端口 port link-type trunk port trunk allow-pass …

阶段十-分布式-nginx服务器

一、Nginx简介 Nginx 是高性能的 HTTP 和反向代理的服务器&#xff0c;处理高并发能力是十分强大的&#xff0c;能经受高负载的考验,有报告表明能支持高达 50,000 个并发连接数。tomcat并发数量理论值是500&#xff0c;实际也就300左右。 1.2 正向代理 正向代理代理的是客户…

文心一言 VS 讯飞星火 VS chatgpt (170)-- 算法导论13.2 3题

三、用go语言&#xff0c;设在图 13-2 左边一棵树中&#xff0c;a、b和c 分别为子树a、β和γ中的任意结点。当结点 x 左旋之后&#xff0c;a、b和c 的深度会如何变化&#xff1f; 文心一言&#xff1a; 在二叉树中&#xff0c;左旋操作是改变节点的子节点顺序。原本的子节点…

高精度定位赛道爆发前夜 谁在强势崛起?|高工微报告

伴随着以NOA为代表的高阶智驾功能加速渗透&#xff0c;高精度定位赛道正进入快速增长通道。 整体技术链路上&#xff0c;高精度定位为高阶智驾的刚需&#xff1a;在“重地图、轻感知”阶段&#xff0c;其结合高精地图发挥作用&#xff1b;在“轻地图、重感知”阶段&#xff0c…

JavaScript编程进阶 – 迭代器

JavaScript编程进阶 – 迭代器 JavaScript Programming Advanced - Iterators By JacksonML 在JavaScript语言中&#xff0c;迭代器是对象(Object), 它事先定义好了一个序列&#xff0c;并在其终止时有可能地&#xff08;潜在地&#xff09;返回值。 本文简要介绍迭代器对象如…

收入支出记录,对需要的账目明细进行颜色标记

面对繁杂的账单和财务数据&#xff0c;你是否曾为记账而感到苦恼&#xff1f;别担心&#xff0c;我们为你带来了一款全新的记账软件——晨曦记账本&#xff0c;这不仅仅是一个简单的记账工具&#xff0c;更是你财务管理的得力助手。 所需工具&#xff1a; 一个【晨曦记账本】…