音视频技术开发周刊 | 305

news2025/1/11 7:05:45

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

d47b829cc8bba61ff63cf3574cd988d8.png

大神回归学界:何恺明宣布加入 MIT

「作为一位 FAIR 研究科学家,我将于 2024 年加入麻省理工学院(MIT)电气工程与计算机科学系 EECS 担任教职。」

AI 领域的著名学者,ResNet 发明人何恺明,最近在个人网站上宣布即将回归学界了。

3649493fe23d6cb142466814a175c3c7.png

Meta新开源模型AudioCraft炸场!文本自动生成音乐

8月3日,全球社交、科技巨头Meta(Facebook、Instagram等母公司)宣布开源文本生成音乐模型Audiocraft。据悉,Audiocraft是一个混合模型,由MusicGen、AudioGen和EnCodec组合而成。仅用文本就能生成鸟叫、汽车喇叭声、脚步等背景音频,或更复杂的音乐,适用于游戏开发、社交、视频配音等业务场景。

从「生成式AI」转化为「生产力」,亚马逊云科技划出重点

凭借过去数年的客户需求洞察和技术积累,亚马逊云科技将大量的 AI 能力集成到了简单易用的产品之中,希望以最简洁的方式将技术进步输送到各行各业。在这场技术盛会上,亚马逊云科技一口气推出了七项生成式 AI 新功能。

人类创造的数据太贵了!开发者悄悄使用AI合成数据训练模型

现在,开发者都在悄悄使用AI生成的数据来训练AI模型。原因就是——人类创造的数据,实在是太贵了!

在以往,大多数AI模型都是靠人类的数据训练的,但现在,越来越多的公司(包括OpenAI、微软,以及Cohere这样的初创公司)都开始使用这种AI生成的「合成数据」,或者在努力搞清如何使用AI生成的数据了。

报告:数见潮流,洞见未来——发现内容行业新机遇

中国内容应用生态覆盖用户规模稳步增长,结构性变化呈现视频形态规模与粘性双增长,深度信息内容消费增加,进而影响企业层面品牌认知与种草转化,同时,AIGC变革生产力,内容产业生态多元化入局+平台赋能纵深,内容资产成为企业核心资产之一,内容运营是必选项。

c388fc9f306e3a7d8d8b5b2935090910.png

如何设计一颗AI芯片?来自Meta的实践!

机器学习(ML)已经在在线活动中变得无处不在。近年来,这些模型的规模和复杂性大幅增长,这有助于提高预测的准确性和有效性。然而,与此同时,这种增长给用于大规模训练和推理这些模型的硬件平台带来了巨大挑战。总拥有成本(TCO)是在数据中心将模型投入生产的主要制约因素之一,而功率是这些平台TCO的重要组成部分。因此,单位TCO的性能(以及每瓦的性能)已成为针对机器学习的所有硬件平台的重要衡量标准。

三雄并立的MCU市场

微控制器(Microcontroller Unit,MCU)是一类集成了中央处理器、内存、输入输出接口和定时器等功能的微型计算机芯片。自20世纪70年代问世以来,MCU技术在各个领域取得了巨大成功,并在当今数字化时代发挥着至关重要的作用。惊人的是,一个小小的微控制器却占据着处理器市场的80%以上份额!随着世界各地的半导体企业都参与到MCU技术的研发和生产中,MCU市场呈现多元化、竞争激烈的格局。

6663fa29698034d2c15a2adfa0235b0c.jpeg

自动驾驶企业摆脱高精地图依赖的情况下,SLAM算法在行车过程中还有什么意义?

这篇文章由多个知乎高赞回答整理而成,希望对关注自动驾驶领域SLAM算法应用的读者有所帮助。

动态环境下竟然能在嵌入式系统上实现实时语义RGB-D SLAM?

大多数现有的视觉SLAM方法严重依赖于静态世界假设,在动态环境中很容易失效。本文提出了一个动态环境下的实时语义RGB-D SLAM系统,该系统能够检测已知和未知的运动物体。为了减少计算成本,其只对关键帧进行语义分割以去除已知的动态对象,并保持静态映射以实现稳健的摄像机跟踪。此外,文章还提出了一个有效的几何模块,通过将深度图像聚类到几个区域,并通过它们的重投影误差来识别动态区域,从而检测未知的运动物体。

动态视觉SLAM的亿点点思考

动态环境下的视觉SLAM一直都是研究的重点和难点,但最近动态SLAM的paper越来越少,感觉主要原因是动态SLAM的框架已经固化,很难做出大的创新。现有的模板基本就是使用目标检测或者语义分割网络剔除动态特征点,然后用几何一致性做进一步的验证。笔者最近也在思考突破口,所以打算深入分析一下目前的主流方案,希望能够寻找到灵感。

68eae9c41bff29a4600afe697966e867.png

F-LIC:基于FPGA的细粒度管道的学习型图像压缩

最近,学习图像压缩(LIC)在压缩比和重建图像质量方面都表现出了卓越的能力。通过采用变异自动编码器框架,LIC 可以超越最新传统编码标准 VVC 的内部预测。为了加快编码速度,大多数 LIC 框架都在 GPU 上使用浮点运算。然而,如果编码和解码在不同的平台上进行,浮点运算结果在不同硬件平台上的不匹配会导致解码错误。因此,非常需要采用定点运算的 LIC 。

这篇论文给出了 8 位定点量化 LIC 的 FPGA 设计。不同于现有的 FPGA 加速器,该文提出了一种细粒度流水线结构,以实现较高的 DSP 效率。此外,还开发了级联 DSP 和跳零解卷功能,以提高硬件性能。

CVPR 2023 | 屏幕图像超分中的B样条纹理系数估计

随着多媒体应用的快速发展,屏幕内容图像(SCI)已在人们日常生活中频繁出现。但是显示设备和SCI之间经常发生分辨率不匹配,并且,SCI有着边缘薄而锐利等特点,与自然图像很不同。然而,大多数超分辨率方法是应用于自然图像的。因此,本文提出了一种针对SCI的超分辨率方法。本文提出了利用INR连续表示SCI的B样条纹理系数估计器(BTC),从低分辨率(LR)图像中预测B样条曲线的系数、节点和膨胀参数。然后,将查询点的坐标投影到2维B样条表示的空间中,并将其馈送到MLP。利用B样条基函数的正约束和紧支撑性,在SCI的不连续处减少了下冲/过冲带来的失真。

378f2adf81e594c169d7b65b7af67298.jpeg

Zoom正式支持AV1了!

当地时间7月28日的Zoom更新,官方发布的Release notes中的增强功能部分显示,“为了提供更高质量的视频而不增加带宽使用量,Zoom正在推出一种新的视频编解码器给免费账户使用”。现在Windows,macOS,Linux,Android,iOS端的Zoom都已经支持AV1这个“下一代编码器”。

https://support.zoom.us/hc/en-us/articles/17763841523213-Release-notes-for-July-24-2023   

BILIVVC编码器首次亮相MSU国际视频编码器大赛并获得多项好成绩

BILIVVC在1fps和5fps档位的YUV-SSIM指标下均获得了第三名的成绩。BILIVVC编码器的性能在众多参赛编码器中名列前茅。

BILIVVC编码器在H266内核的基础上,实现了VVC标准支持的绝大多数编码工具,同时对这些编码工具进行了大量优化,相较于参考代码的实现方式而言,各个工具在BILIVVC上的性能表现更为高效。

基于AI和NPU的Codec变革——VPU与NPU的协同创新

在这个快速变化的数字媒体时代,Codec技术在视频和音频处理中扮演着至关重要的角色。AI的崛起为Codec带来了前所未有的机遇和挑战,同时VPU与NPU的发展与协同创新,使得Codec能够更好地适应复杂的场景和需求,并实现更高水平的图像和声音处理能力。

LiveVideoStackCon2022北京站邀请到了中心微电子多媒体技术总监的孔德辉老师,从多个角度探讨AI和NPU对Codec的影响,包括算法优化、性能提升、能效改进等方面。深入了解基于AI和NPU的Codec变革的关键因素和潜在机会,进一步推动数字媒体领域的创新和发展。

2173cf23c9a82e2561c6efccf7bd27cb.png

Streaming Media East 2023 | About VVC

VVC(Versatile Video Codec)是基于 HEVC 的混合视频编码,通过完善现有的技术和增加一系列在 HEVC 及过去的编解码器中所没有的工具,它的性能相较 HEVC 在主客观上分别提升了 30% 和 40+%。VVC 面向 8k、360°、HDR 等一系列场景,这也是它被命名为多功能视频编解码器的原因。

VVC在云端和浏览器播放中的应用

通用视频编码(VVC)是由ITU-T和ISO/IEC联合开发的最新国际视频编码标准。虽然VVC具备广泛的功能集,可应用于多种领域,但相较其前身高效视频编码(HEVC),VVC在保持相同主观视频质量的前提下,可显著降低约50%的比特率。标准化工作于2020年7月完成后,已开始许多活动,以便将VVC集成到实际应用中。

这篇论文展示了如何在流媒体应用中实现使用VVC的实际工作流程。我们展示了弗劳恩霍夫(Fraunhofer)VVenC VVC编码器如何被应用于Bitmovin的基于云的编码解决方案。同时详细介绍了VVC如何影响实际决策,如选择最佳比特率阶梯,以及与其他编码器相比的成本和性能对比。最后,演示了弗劳恩霍夫VVdeC解码器如何与WebAssembly结合,实现在浏览器中实时播放VVC视频的可能性。

https://dl.acm.org/doi/10.1145/3510450.3517305

cad60b85457d8d8a9e98934503e47f88.png

苹果空间音频新专利 | 为可穿戴设备用户提供空间音频导航系统

近日,美国专利商标局正式授予苹果一项与空间音频导航相关的专利,该专利将在未来的AirPods、智能眼镜和更轻量级的Vision Pro上使用。该系统通过双耳音频设备播放指向性音频,为用户提供导航提示,帮助他们找到穿过商场、其他场所或城市公园的路。该系统还可以为车辆驾驶员提供音频导航。

Interspeech2023 | 跨语言语音识别中基于联合语音表征学习的音素到词转码器

跨语言语音识别(Cross-lingual Speech Recognition)的目标是利用高资源语言的发音信息,应用于低资源语言,提升低资源语言语音识别性能。全球共有7000多种语言,其中大部分语言的标注数据严重不足。为了应对低资源语音识别的挑战,跨语言语音识别成为了一种有效的解决方案。新近研究表明,基于无监督预训练技术,通过在可用语言的标注和无标注数据上进行大规模训练,可以构建一个通用的语音表示模型,并通过微调将其迁移到目标低资源语言上,取得了显著的成果。

学术简讯 | CN-Celeb-AV: 多场景视听多模态数据集发布

近日,清华大学语音和语言技术团队联合北京邮电大学发布了中国明星多场景音视频多模态数据集 (CN-Celeb-AV),供音视频多模态身份识别 (AVPR) 等领域的研究者使用。本数据集包含来自1,136名中国明星,超过419,000个视频片段,涵盖11种不同的场景,并提供了完备模态和非完备模态两套标准评测集。

通话降噪算法在手机和IOT设备上的应用和挑战

随着电子产品的升级换代,用户对通话质量的要求也越来越高。通话降噪算法对通话质量起到了关键核心的作用。计算资源的提升使得深度学习模型在便携式的低功耗芯片上面跑起来了,器件成本降低让IoT设备开始使用骨导传感器,,那怎么样才能将深度学习和传统算法结合?怎么样充分利用好骨导传感器?怎么样将客观测试的结果转化为真实的用户体验?这也是新时期通话算法面临的新的挑战。LiveVideoStackCon 2022北京站邀请到了王林章老师,为我们分享通话降噪算法在手机和IOT设备上的应用和挑战。 

3fb3d19981d6fc704ed14b0f1ab58801.png

第15种XR视频模式—3.5D矩形视频模式

今年(2023年),随着Apple Vision Pro的发布,视频透视(VST)有了标杆性产品。根据VST本身的价值,我预测未来市场上将会新增3种融合现实视频模式。3.5D矩形视频模式,可透视3D全景视频模式,BR/MR虚实拼接模式模式。 

苹果Vision Pro中文开发教程汇总(第3期)

本文包含了探索空间计算的Quick Look 、将SwiftUI带到下一个维度、 适用于空间计算的Safari等7个视频教程。

微软AR/VR专利分享改进的显示基板和背板基板的Micro-LED显示器件

由于分辨率,尺寸,效率,以及耐烧屏方面的优势,Micro-LED正在成为AR/VR头显厂商关注的一个重要领域。实际上,微软同样有所关注,并已申请了名为“Micro-led display”的专利。

fae7ec0e822e6b1bb26113875665f35c.png

半导体工艺控制设备行业研究:国产化率不足5%,替代空间大

半导体工艺控制设备主要包括“面向晶圆制造的前道检测”和“面向先进封装的中道检测”。传统的集成电路工艺主要分为前道和后道,随着集成电路行业的不断发展进步,后道封装 技术向晶圆级封装发展,从而衍生出先进封装工艺。

815dc40afa4c34d9a8902917c8b4690e.png

OpenAI首席科学家最新访谈:对模型创业两点建议、安全与对齐、Transformer够好吗?

OpenAI首席科学家Ilya Sutskever最近和他的朋友Sven Strohband进行了一次简短的对话。访谈中主要提及了以下几个问题:对深度学习的信仰、对AGI的畅想,Transformer够不够好,让人震惊的涌现能力,安全和对齐,以及对模型创业者的两点建议。

直播+X——直播行业新趋势

人类对感受与体验的不断追求,趋势音视频技术迅猛发展,音视频服务以前所未有之势被各行业强烈需要。如今,直播已然是一个所有人耳熟能详的名词,直播业务和生态,以及关键支撑技术,都在持续演进和迭代,生机勃勃。本次LiveVideoStackCon 2023上海站邀请到华为云陆振宇为大家分享如何在直播行业让“老树长新芽”。

对话云从姜迅:大模型不是企业、国与国之间的竞争,可能是人类命运共同体的钥匙

如今,人机协同操作系统的定位也一直延续到了大模型时代。姜迅表示,虽然公司内部没有明确的‘最高战略’的提法,但对这件事情的重视度已经非常高了,我们不用‘最’这个词,用优先级来说,它确实是一个非常高的优先级。

反观国内大模型的发展,大部分企业仍停留在追热点阶段,并没有实质性进展。那云从是否也在追热点?姜迅给出了否定的答案。他表示,我们还在研究我们的人机协同操作系统,在GPT技术之上,人机协同操作系统的智商会越来越高,它不仅会增加其上限,还能降低成本,这能在很大程度上让该系统更好地服务客户,竞争优势也会增加。

b476db6075643bc745a6223bbdd15181.png

LiveVideoStackCon 2023 深圳站 已启动

LiveVideoStackCon 2023 深圳站音视频技术大会以「沉浸·新视界」为主题。经过近十年的快速发展,多媒体生态正在向精致优化发展,更注重细节、成本,内卷和出海成为压力输出口。一方面,在现有市场及业务竞争仍旧相当激烈的环境下,企业开始更多关注于如何降低成本、追求更高的利润,以及面向用户提供更优质的服务与体验;另一方面,对于不断涌现的更多新的技术、场景,逐步探索并利用其创造更多的业务、产品与商业价值是各企业持续关注的目标。

本次深圳站,我们拟邀请几十位来自海内外的音视频领域的专家聚集一堂,与你共同分享他们的专业见解。

29c35f5d7e88296b05f8326f75df9eb9.png

f96f05e1c57347cf78a7a20524fc80b0.jpeg

点击阅读原文 

跳转LiveVideoStackCon 2023 深圳站 官网,了解更多信息

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/845094.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LeetCode 130. 被围绕的区域

题目链接:130. 被围绕的区域 题目描述 给你一个 m x n 的矩阵 board ,由若干字符 ‘X’ 和 ‘O’ ,找到所有被 ‘X’ 围绕的区域,并将这些区域里所有的 ‘O’ 用 ‘X’ 填充。 示例1: 输入:board [[“…

论文阅读 RRNet: A Hybrid Detector for Object Detection in Drone-captured Images

文章目录 RRNet: A Hybrid Detector for Object Detection in Drone-captured ImagesAbstract1. Introduction2. Related work3. AdaResampling4. Re-Regression Net4.1. Coarse detector4.2. Re-Regression 5. Experiments5.1. Data augmentation5.2. Network details5.3. Tra…

线性代数(二) 矩阵及其运算

前言 行列式det(A) 其实表示的只是一个值 ∣ a b c d ∣ a d − b c \begin{vmatrix} a & b\\ c & d\end{vmatrix} ad -bc ​ac​bd​ ​ad−bc,其基本变化是基于这个值是不变。而矩阵表示的是一个数表。 定义 矩阵与线性变换的关系 即得 ( a 11 a 12…

(el-switch)操作:Element-plus 中 Switch 将默认值修改为 “true“ 与 “false“(字符串)来控制开关

Ⅰ、Element-plus 提供的 Switch 开关组件与想要目标情况的对比: 1、Element-plus 提供 Switch 组件情况: 其一、Element-ui 自提供的 Switch 代码情况为(示例的代码): // Element-plus 自提供的代码: // 此时是使用了 ts 语言环…

英语使用场景口语

HOTEL ENGLISH hotel motel inn b&b Process 1.booking a room can i reserve a room? reservation do you have and singles? double room standard room deluxe room presidential suite do you have a pick-up service? 2.checking in where is the recept…

C++物理引擎Box2D的下载,编译,VS2013配置环境

文章目录 网站和下载地址编译工具:编译box2dhelloworld测试网站和下载地址 https://box2d.org/ 下载地址 https://hub.nuaa.cf/erincatto/box2d/tags 编译工具: 1.VS2013 2.cmake 下载地址 https://cmake.org/ 编译box2d 下载box2d源码2.4.0,解压。在box2d-2.4.0目录下…

手机便签内容不见了怎么恢复正常?

在日常生活和工作中,很多人都需要随手记录事情,例如家庭琐事、孩子相关的事情、指定时间需要完成的工作任务、会议安排等。当我们需要随时随地记录事情的时候,手机便签应用就是非常不多的选择,我们直接打开手机上的便签APP就可以新…

浏览器无法连接网络问题

问题描述 电脑其他程序都能正常联网,但是所有的浏览器都无法联网,同时外部网站都能ping通 问题诊断 查看电脑Internet连接的问题报告显示:该设备或资源(Web 代理)未设置为接受端口"7890"上的连接。 解决方案 经过检查发现不是IP地址…

QT自带PDF库的使用

QT自带PDF库可以方便的打开PDF文件,并将文件解析为QImage,相比网上提供的开源库,QT自带PDF库使用更方便,也更加可靠,然而,QT自带PDF库的使用却不同于其他通用库的使用,具备一定的技巧。 1. 安装…

Namecheap 便宜域名注册使用,直接购买

FREENOM免费域名不能注册了,现在只能自己动手注册便宜的域名,前面我们也记录了不能注册FREENOM免费域名不能注册怎么办,不能注册FREENOM免费域名,怎么办,这里是解决方案! 注册6元域名。 现在我们又多了一个…

机器学习深度学习——文本预处理

👨‍🎓作者简介:一位即将上大四,正专攻机器学习的保研er 🌌上期文章:机器学习&&深度学习——序列模型(NLP启动!) 📚订阅专栏:机器学习&am…

Blazor前后端框架Known-V1.2.11

V1.2.11 Known是基于C#和Blazor开发的前后端分离快速开发框架,开箱即用,跨平台,一处代码,多处运行。 Gitee: https://gitee.com/known/KnownGithub:https://github.com/known/Known 概述 基于C#和Blazo…

运维作业—5

一.基于 CentOS 7 构建 LVS-DR 群集 1.配置LVS 2.第一台real server(192.168.100.139:80) 手工在RS端绑定VIP 手工在RS端抑制ARP响应 3.第二台real server(192.168.100.140:80) 安装arptables并启动 使用arptables实现抑制 测试…

网卡内部的 DMA

前言 MCU、SOC 内部通常带有 DMA 控制器,要想使用 DMA 通常需要如下操作 选择通道配置传输方向(内存到外设、内存到内存、外设到内存)设置源地址、目的地址(内存地址、外设地址)设置源地址、目的地址是否自增设置位宽…

【Spring Cloud 】基于微服务架构的智慧工地监管平台源码带APP

智慧工地监管平台是一种利用物联网、云计算、大数据等技术手段实现工地信息化管理的解决方案。它通过数据采集、分析和应用,在实时监控、风险预警、资源调度等方面为工地管理者提供了全方位的支持,提高了工地管理的效率和质量。智慧监管平台还基于“云端…

Detector定位算法在FPGA中的实现——section1 原理推导

关于算法在FPGA中的实现,本次利用业余的时间推出一个系列章节,专门记录从算法的推导、Matlab的实现、FPGA的移植开发与仿真做一次完整的FPGA算法开发,在此做一下相关的记录和总结,做到温故知新。 这里以Detector在Global Coordina…

C++11 新特性 ---- 模板的优化

C11 模板机制:① 函数模板② 类模板模板的使用:① 范围:模板的声明或定义只能在全局或类范围进行,不可以在局部范围(如函数)② 目的:为了能够编写与类型无关的代码函数模板:- 格式:t…

Glass指纹识别工具,多线程Web指纹识别工具-Chunsou

Glass指纹识别工具,多线程Web指纹识别工具-Chunsou。 Glass指纹识别工具 Glass一款针对资产列表的快速指纹识别工具,通过调用Fofa/ZoomEye/Shodan/360等api接口快速查询资产信息并识别重点资产的指纹,也可针对IP/IP段或资产列表进行快速的指…

chrome插件开发实例05-拦截页面请求

目录 功能 演示 源代码下载 manifest.json devtools.html devtools.js background.js 功能 拦截任意打开页面的请求信息,包括:URL,参数,请求方式method, 返回status,返回体大小,返回原始内容 演示 源…

【工程实践】解决Synonyms无法下载词向量文件

1.前言 使用EDA(Easy Data Augmentation)做数据增强时,需要借助Synonyms库,完成同义词的提取。 Synonyms 是一个中文近义词工具包,它可用于如文本对齐、推荐算法、相似度计算、语义偏移、关键字提取、概念提取、自动摘要、搜索引擎等很多自然…