音视频技术开发周刊 | 273

news2024/11/28 18:59:23

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。


4fcbdfb101959800373459f01076cf14.jpeg

「紧急通知」LiveVideoStackCon 2022 音视频技术大会北京站改期
各位LVSer们:
因疫情影响,北京近期不再允许举办大型线下活动,我们无奈且抱歉的通知大家LiveVideoStackCon 2022音视频技术大会北京站大会将暂停举办,延期至2023年第一季度召开,具体时间待疫情稳定允许后再另行通知。我们感谢所有为此次大会付出时间和努力的伙伴们,相见是肯定的,非常情况下,好事更多磨吧!因此给大家带来的不便,我们深表歉意。

LiveVideoStack会务组

2022年11月24日

97282ae3ffd5f7d5c8ff7c36606a1a80.jpeg

流媒体服务新手入门教程01--什么是流媒体服务及m7s介绍
流媒体是指采用流式传输的方式传播多媒体文件。比如现在常见的直播应用抖音、快手以及视频网站,它们的背后都是流媒体服务支撑着。
https://juejin.cn/post/6988659336457240590

一看就懂的 OpenGL 基础概念(3):各种 O 之 VBO、EBO、VAO丨音视频基础
在前面的文章里,我们介绍了 OpenGL 在图形渲染应用中的角色,OpenGL 的渲染架构、状态机、渲染管线,以及 OpenGL 要在设备上实现渲染的桥梁 EDL 等内容,接下来我们来介绍一下在 OpenGL 开发中帮助我们提升渲染性能的几种数据对象。

一种自适应边缘增强的颜色插值处理器的VLSI实现
这篇文章介绍了一种面向实时视频应用的、基于自适应边缘增强的去马赛克模块的VLSI实现,在保持低复杂度的同时,提高了图像质量。

使用 OpenCV 和 Python 在直播中模糊人脸
本文将学习如何使用 OpenCV 和 Python 在直播中模糊人脸。这将是一个非常有趣的博客,让我们开始吧!

FFmpeg filter浅析--下篇
在之前的两篇文章中,我们熟悉了FFmpeg filter的基本概念,命令行用法和关键结构体、API使用流程,本篇文章我们在之前的Demo演示工程中通过调用libavfilter相关API来实现drawgrid filter效果。

音视频开发之旅(39)- 高斯模糊实现与优化
我们在平时开发中模糊是非常常用的技能,在android中有java的开源方案,也有RenderScript方案,今天我们来学习实践通过OpenGL如何实现高斯模糊。

d04b8b3d0c7319af162e6f12d118cbf5.jpeg

语音前处理技术在会议场景中的应用及挑战
随着在线会议的普及,用户已经不再满足于能听到,而是要有更为极致的听感体验,如何能够在复杂多变的应用场景中依旧保证声音清晰流畅是对会议系统的极大挑战。

INTERSPEECH 2022|FS-CANet: 基于全带子带交叉注意力机制的语音增强
本文提出了一个全带-子带交叉注意模块来交互融合全局信息和局部信息,并将其应用于FullSubNet,提出了新的语音增强方法FS-CANet。通过FS-CANet,我们在全带-子带语音增强模型内有效交互融合全带与子带信息,在降低参数量的情况下进一步提升了原有语音增强模型在复杂声学环境下的降噪性能。

流式语音识别的大厦已经落成,天空中只漂浮着两朵乌云
在本文中,我们发现了解决尖峰漂移还有一种新的视角:那就是“ 数据 ”。深度学习的奥秘,绝大部分隐藏在数据中,我们深信:模型的潜能上限不在于模型结构/训练技巧,而在于数据。

苹果AirPods Max新专利 | 用于隐私的骨传导换能器
近日,美国专利和商标局正式授予苹果一项专利,该专利与保护隐私的骨传导换能器有关。更具体地说,该专利涵盖了一种在苹果AirPods Max等无线头戴式耳机上执行的方法。

Dirac Virtuo音频解决方案概览
Dirac Virtuo通过精确的声音定位,打造一个宽敞、自然的声景,超越用户音响系统的物理限制,以实现具有空间感的沉浸式声音体验。

ff2080505292480d622c0b5029ee4a94.png


被“白嫖”拖垮的开源维护者,缺的从来就不只是钱......
在开源领域,有一个存在很久但始终难以解决的问题——开源维护者全力维护开源项目,却没有稳定资金来源,而“用爱发电”注定难以为继,各种开源项目开始 Bug 频出。对此,很多人呼吁要对开源维护者提供资助,但这真的能彻底解决问题吗?

BEV常见的开源算法系列一 | BEV空间的生成
本篇将从BEV空间的生成算法开始,介绍BEV算法的发展历史,并且重点介绍基于Transformer的BEV空间生成算法。这些算法开创性地使用Transformer更高效,更精确地生成BEV空间。

声纹识别开源工具 ASV-Subtools
今天我分享的主要有5个部分的内容,分别是背景介绍、工具介绍、实验结果、Subtools工程化、总结与展望。其中Subtools工程化是我这次报告的一个重点。

这个懂中文的 AI 高手,画出的高山明月太惊艳!中英双语 AltDiffusion 模型已开源
日前,智源研究院大模型研究团队开源最新双语 AltDiffusion 模型,为中文世界带来专业级 AI 文图创作的强劲动力。AltDiffusion 和 AltCLIP 模型均为多语言模型,中英双语为第一阶段工作,代码与模型已开源。

开源大盘点 | 各国车牌识别开源数据集汇总
本文整理了11个车牌检测识别相关的开源数据集资源,一起来看看吧。

605aef76aca8b6dca99175cc0d9e6023.jpeg

CVPR 2022 | CLIP-NeRF: 文字-图像驱动的 NeRF 操作
本文提出了 CLIP-NeRF,一种用于神经辐射场的多模态 3D 对象操作方法。通过利用最近的对比语言-图像预训练 (CLIP) 模型的联合语言-图像嵌入空间提出了一个统一的框架,允许使用短文本提示或示例图像以用户友好的方式操作 NeRF。

数字图像处理:边缘检测
在之前的文章中,我介绍了傅里叶变换,这次我将介绍另一种图像处理方法,边缘检测。在openCV中,有很多函数可以让我们找到图像的边缘,在这篇文章中,我将挑选出比较有代表性的Sobal算子和Laplacian算子进行介绍。

12个常用的图像数据增强技术总结
本文总结了图像增强常用的一些方法,并附相关实现代码。图像本身的变化将有助于模型对未见数据的泛化,从而不会对数据进行过拟合。

深度学习在图像处理中的应用一览
计算机视觉的底层,图像处理,根本上讲是基于一定假设条件下的信号重建。这个重建不是3-D结构重建,是指恢复信号的原始信息,比如去噪声。

淘宝拍立淘iOS相册架构设计小结
这篇文章从系统权限、API 调用、架构设计等角度,生动演示了一个设计友好、模块独立、易拓展以及用户体验优秀的相册是如何开发出来的。除此之外,作者针对各种小细节也做了优化和解析,使得功能实现更加的丰满。


f89a686bca07a822e4fd794ad6542896.jpeg

【RTSCon 2022】实时通信与价值赋能
初雪将至,万众期待的一年一度RTSCon再次来袭,本次RTSCon 2022由RTS社区和LiveVideoStack社区联合出品。本次大会主题围绕“实时通信与价值赋能”开展,届时我们为大家准备了业内大咖主题演讲以及圆桌会议两个模块,欢迎报名参会收看。

⏰ 时间:2022年12月3日 9:00-19:00
🌏 地点:线上免费直播


70625304b73d0e6872ddecc9029de967.jpeg

入门必读系列(七)Batch Size对神经网络训练的影响
这篇文章非常全面细致地介绍了Batch Size的相关问题。结合一些理论知识,通过大量实验,文章探讨了Batch Size的大小对模型性能的影响、如何影响以及如何缩小影响等有关内容。

差分卷积在计算机视觉中的应用
文章主要介绍由Oulu大学主导的几个差分卷积(Difference Convolution)工作及其在图像、视频领域中的应用。

首个目标检测扩散模型,比Faster R-CNN、DETR好,从随机框中直接检测
近日,来自香港大学的罗平团队、腾讯 AI Lab 的研究者联合提出一种新框架 DiffusionDet,将扩散模型应用于目标检测。据了解,还没有研究可以成功地将扩散模型应用于目标检测,可以说这是第一个采用扩散模型进行目标检测的工作。

三维点云深度学习技术综述
点云学习因其在计算机视觉、自动驾驶、机器人等领域的广泛应用而受到越来越多的关注。本文是对<Deep Learning for 3D Point Clouds:A Survey>的解读,欢迎大家一起进行技术交流。

NeurIPS 2022 | 姿态估计也开始玩最优传输分配了
NeurIPS 2022 的一篇工作,思想很简单,也非常契合我一直以来关于 Pose 和 Detection 大一统的思路,在此做一下简单的记录与分享。

8eaf70aed21c04a6f4a06634ebae4b97.png

像背单词一样搞定机器学习关键概念!机器学习通关(5)
“如何高效学习机器学习关键概念?”机器学习网红Chris Albon博士的小抄表可以帮到你。他总结了近300个机器学习概念,并彩笔手绘,制作了这份精美的小抄。

像背单词一样搞定机器学习关键概念!机器学习通关(6)
“如何高效学习机器学习关键概念?”机器学习网红Chris Albon博士的小抄表可以帮到你。他总结了近300个机器学习概念,并彩笔手绘,制作了这份精美的小抄。

机器学习特征选择方法总结
在本文中,我将介绍如何使用 python 减少 kaggle Mushroom Classification 数据集中的特性数量。本文中使用的所有代码在 kaggle 和我的 github 帐号上都有。

不拽术语,如何通俗地讲解机器学习?
我决定写一篇酝酿已久的文章,对那些想了解机器学习的人做一个简单的介绍。不涉及高级原理,只用简单的语言来谈现实世界的问题和实际的解决方案。不管你是一名程序员还是管理者,都能看懂。那我们开始吧!

万字解读首篇「人脸复原」综述!南大、中山、澳国立、帝国理工等联合发布
最近,来自南京大学、澳大利亚国立大学、中山大学、帝国理工学院和腾讯的研究者们全面回顾并总结了基于深度学习的人脸复原技术的研究进展,对人脸复原方法进行了分类,讨论了网络架构、损失函数和基准数据集,并对现有SOTA方法进行了系统性性能评测。

用PS的照片申请理赔,保险公司能过吗?——基于人工智能的影像管理在智能理赔中的实践
如何做好影像资料的自动识别、真假判定等成为保险公司降本增效、风险防范的重要课题。本文就保险行业的影像资料技术和应用给出探讨。

fe918e7200d719ad9e8cb557223f5d00.png

最全自动驾驶数据集分享系列六 | 定位与地图数据集
目前关于自动驾驶数据集你想知道的,应该都在这里了,这是「整数智能」自动驾驶数据集八大系列分享之系列六:定位与地图数据集,共包括7个数据集。

五万字读懂汽车线控制动系统(BBW)
介绍线控制动是怎么回事,分析线控制动技术类型、结构和优缺点及研究现状,阐述其功能特点和工作原理。简述在当前新形势下线控制动系统面临的主要需求和未来发展趋势。

实现自动驾驶的车路协同规划决策障碍和挑战是什么?
要想解释清楚这个问题,必须要先对车辆协同自动驾驶的技术架构有基本统一的认识。概括起来讲就是车-路-云-图-网四个方面发挥的作用拆解,四者之间的联系还要考虑信息的传输,也就是网端。

全景环视系统:自动泊车之AVM算法框架
作者在工作中搭建了一套AVM算法框架,有一些效果还不错的demo。撰写本文,主要是想将AVM算法框架中每个算子讲述清楚,与大家共同进步。本博文的风格为理论与实践结合,含有部分代码,适合有一些计算机视觉基础的同学。

BEV和单目图像车道线检测方法总结
本文主要对主流的车道线检测(包括BEV视角和图像视角)方法进行总结。由于基于深度学习的方法性能远超传统方法,所以本文只总结了基于学习的方法。

4D毫米波成像雷达在智能汽车中的应用研究
新一代4D毫米波成像雷达不仅可实现4D点云输出,还可以使用神经网络技术,根据呈现的点云图像信息,对道路的使用者和障碍物进行目标检测及分类。

f3a2227eace87fb7fd44f93b9bbc3af3.jpeg

VR负面影响专题(下)
抑制沉浸式内容传播的一个主要原因是 VR 体验引起的不适感。在 VR 体验中,会引发一种与虚拟场景的视觉运动相对应的自我运动感觉。在本文中,运动由 360° 视频视觉诱导,并用 GVS 设备刺激前庭。

高通发布第一代骁龙AR2平台,旨在变革AR眼镜
2022骁龙峰会期间,高通技术公司推出第一代骁龙AR2平台,该平台提供开创性AR技术,将助力打造新一代功能强大的轻薄AR智能眼镜。

啥是AR?啥是VR?如果西游路上有AR,结局会……
混知公众号以漫画的形式普及AR、VR知识,十分生动有趣。

元宇宙的前世今生,业内大佬带你一遍过!
本篇文章讲述了元宇宙从业者从(1)元宇宙是什么(2)元宇宙需要的要素以及(3)元宇宙如何步入主流社会的观点,带你清晰地认识元宇宙的当下存在的问题以及未来发展的趋势。


阅读推荐

程序员上手 Rust 2年后感悟:它的确强大,但想要取代C还远着呢
接触 Rust 开发快两年了。我觉得,回顾下自己在这个过程中的一些感想和汲取的经验教训,应该会很有趣。

“我让 AI 来处理我 24 小时的音频信息——这会是未来吗?”
当 AI 逐渐融入我们的生活,你是否设想过,我们的未来会如何发展?会像许多科幻电影和赛博朋克类小说中说的那样,让 AI 管理和安排我们的日常?

2022年,中国汽车行业“打脸”报告
距离2023年已经不到50天了,对于一贯喜欢立flag的车企来说,也到了该交作业的时候。事实上,2022年可能是过去十年中黑天鹅最多的一年。所以对于车企来说,今年完不成KPI是常态,完成才是意外。

自动驾驶十年风云:寒冬过后,曙光初现
完全无人驾驶何时商业落地虽然没有统一共识,但路径中形成的技术能力正进入大规模商业应用的前夜,诱因则是中国智能电动汽车销量激增带来的高阶辅助驾驶商用需求。对于怀揣自动驾驶梦想的创业者们来说,曙光已经出现。


课程推荐

efa66cebf516a6555ff2395fd4b6fca0.jpeg

轻松掌握WebAssembly视频播放器——LiveVideoStack与李超联合打造

  1. 紧抓多媒体生态趋势,将浏览器、WebAssembly和Rust等热点结合

  2. 熟知播放器工作原理,为实现商业化H.264/H.265播放器打下坚实基础

  3. 课程包含图文、代码、视频,降低学习门槛

  4. 李超精准讲解,及时详细解答

识别上图二维码点击上图立即订阅

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/41779.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何向瑞芯微平台添加驱动

如何向瑞芯微平台添加驱动驱动配置驱动文件放置配置相应的编译选项与设备树结合设备树配置以avafpga视频驱动为例&#xff1a;驱动配置 驱动文件放置 为了保证驱动文件能够被系统正确识别编译&#xff0c;需要将驱动文件的源文件avafpga.c放在./kernel/drivers/media/i2c/下 …

外观专利申请定要注意哪些因素呢?

问题一&#xff1a;申请外观专利需要提交哪些申请材料呢&#xff1f; 1、外观专利请求书&#xff1b; 2、外观设计七视图的照片或者设计图&#xff1b; 3、申请人的身份证明材料&#xff1b; 4、外观设计的简要说明材料。 问题二&#xff1a;外观专利申请定要注意哪些因素…

Automatic Online Calibration of Cameras and Lasers 论文翻译

目录题目AbstractI. INTRODUCTIONII. SENSOR PROCESSINGA. Image processingB. Laser processingIII. MISCALIBRATION DETECTIONIV. AUTOMATIC CALIBRATION TRACKINGV. EXPERIMENTAL RESULTSVI. CONCLUSION题目 Automatic Online Calibration of Cameras and Lasers 下载地址&…

C++ Reference: Standard C++ Library reference: Containers: list: list: size

C官网参考链接&#xff1a;https://cplusplus.com/reference/list/list/size/ 公有成员函数 <list> std::list::size C98 size_type size() const; C11 size_type size() const noexcept; 返回大小 返回列表&#xff08;list&#xff09;容器中的元素个数。 形参 没有…

Python tkinter -- 第18章 画布控件之图像(image)

18.2.16 create_image(position, **options) 在画布的指定位置创建一个图片对象。这里的图片对象是gif&#xff0c;png&#xff0c;pgm和ppm。 &#xff08;1&#xff09;position&#xff1a;图片的坐标(x,y)。 &#xff08;2&#xff09;**options&#xff1a;图片选项 选项…

IO流~字节流

字节流 IO流分类 按照数据的流向&#xff1a;输入流&#xff1a;读数据\输出流&#xff1a;写数据按照数据类型来分 字节流&#xff1a;字节输入流&#xff1b;字节输出流字符流&#xff1a;字符输入流&#xff1b;字符输出流 一般来说&#xff0c;IO流的分类是按照数据类型…

触发器,寄存器,三态输出电路

目录 一&#xff1a;触发器 二&#xff1a;寄存器&#xff08;register&#xff09; 缓冲寄存器 三态输出电路&#xff08;只看标红的即可&#xff09;数据总线上很常用 考试会问你触发器&#xff0c;寄存器&#xff0c;存储器是什么关系你知道就行。这个简答题在存储器笔…

基于Java+SpringMvc+Vue求职招聘系统详细设计实现

博主介绍&#xff1a;✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取联系&#x1f345;精彩专栏推荐订阅&#x1f447;&#x1f…

Java项目:ssm药品管理系统

作者主页&#xff1a;源码空间站2022 简介&#xff1a;Java领域优质创作者、Java项目、学习资料、技术互助 文末获取源码 项目介绍 该项目是前后台的医药管理系统&#xff08;写在了一个web项目里&#xff09;&#xff0c; 简单明了&#xff0c;界面高端大气&#xff0c;共6张…

图的基本表示方法

一、图的基本表示方法 由G(V,E)G (V,E)G(V,E)由下列要素构成&#xff1a; 一组节点:V1,⋯nV 1,\cdots nV1,⋯n一组边E⊆VVE \subseteq V \times VE⊆VV 边(i,j)∈E(i,j) \in E(i,j)∈E 连接了节点i和ji和ji和j i和ji和ji和j被称为相邻节点节点的度&#xff1a;相邻节点的数…

Neo4J入门笔记

1.安装以及启动 Neo4J作为图数据库标准的一个实现&#xff0c;其功能还是非常强大的功能&#xff0c;并支持Cypher查询。目前其提供了3种版本&#xff1a; 桌面版社区版企业版 Neo4J其实现是基于Java实现的&#xff0c;所以JDK的安装是必须的&#xff0c;启动的方式官方文档…

细胞穿膜肽MPG,Mpa-GALFLGFLGAAGSTMGA-OH

嵌合肽家族&#xff0c;来源HIV gp41和猴病毒40T抗原NLS融合序列的一个疏水区 编号: 205074中文名称: 细胞穿膜肽MPG单字母: Mpa-GALFLGFLGAAGSTMGA-OH三字母: Mpa-Gly-Ala-Leu-Phe-Leu-Gly-Phe-Leu-Gly-Ala-Ala-Gly-Ser-Thr-Met-Gly-Ala-COOH氨基酸个数: 17分子式: C73H113O21…

C++入门基础06:简单语句与顺序结构、选择结构if与switch、循环语句、跳转语句、异常处理

C入门基础06&#xff1a;简单语句与顺序结构、选择结构if与switch、循环语句、跳转语句、异常处理 1、简单语句与顺序结构&#xff1a; #include <iostream> //系统定义头文件一般是尖括号 #include<fstream> #include<string> using namespace std;int ma…

资本-劳动力错配指数计算、金融错配指标两大维度指标(内附代码)

一、资本错配和劳动力错配指数计算 1、数据来源&#xff1a;各省级统计年鉴/中国统计年鉴、 2、时间跨度&#xff1a;2000-2019年 3、区域范围&#xff1a;31省市自治区 4、指标说明&#xff1a; 资源的稀缺性决定了经济学研究的一个基本问题就是资源配置&#xff0c;如…

找出你的高价值潜在用户 - 通过归因分析实现用户画像和精准营销

在之前的博客文章 为什么你的用户转化率不高&#xff1f;--新媒体运营转化效果渠道归因分析中&#xff0c;我们讲到 新媒体运营用户转化相关的指标以及目标追踪&#xff0c;以及相关的渠道归因分析。在本篇文章中&#xff0c;我们一起来看看&#xff0c;如何通过 Kyligence Zen…

数据结构:二叉树

目录 树 二叉树 堆 以大堆为例代码实现 功能预览 初始化 销毁 打印 插入数据 删除数据 建堆 获取栈顶元素 获取数组中的元素个数 判空 堆排序 TopK问题 二叉树链式结构的实现 功能预览 二叉树遍历 求节点的总个数 求叶子节点的个数 求树的深度 求第k层的…

零入门容器云网络-5:同一宿主机上的两个网络命名空间通信方案

已发表的技术专栏&#xff08;订阅即可观看所有专栏&#xff09; 0  grpc-go、protobuf、multus-cni 技术专栏 总入口 1  grpc-go 源码剖析与实战  文章目录 2  Protobuf介绍与实战 图文专栏  文章目录 3  multus-cni   文章目录(k8s多网络实现方案) 4  gr…

Android 虚拟分区详解(一) 参考资料推荐

文章目录0. 导读1. Android 官方 VAB 文档1.1 公开文档1.2 半公开文档2. Device Mapper 文档2.1 device mapper 文档2.2 dmsetup 工具2.3 COW 介绍3. Android 源码4. 参考资料汇总5. 后续计划6. 其它Android Virtual A/B 系统简称 VAB&#xff0c;我在这一系列里面又将其称为虚…

【LeetCode每日一题:813. 最大平均值和的分组~~~前缀和+递归+记忆化搜索】

题目描述 给定数组 nums 和一个整数 k 。我们将给定的数组 nums 分成 最多 k 个相邻的非空子数组 。 分数 由每个子数组内的平均值的总和构成。 注意我们必须使用 nums 数组中的每一个数进行分组&#xff0c;并且分数不一定需要是整数。 返回我们所能得到的最大 分数 是多少…

前端面试整理

Js 1. Localstorage、sessionStorage、cookie、session的区别 &#xff08;1&#xff09;web storage和cookie的区别&#xff1a; Cookie(不设置过期时间) sessionStorage WebStorage的目的是克服由cookie所带来的一些限制&#xff0c;当数据需要被严格控制在客户端时&…