音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

「紧急通知」LiveVideoStackCon 2022 音视频技术大会北京站改期
各位LVSer们：
因疫情影响，北京近期不再允许举办大型线下活动，我们无奈且抱歉的通知大家LiveVideoStackCon 2022音视频技术大会北京站大会将暂停举办，延期至2023年第一季度召开，具体时间待疫情稳定允许后再另行通知。我们感谢所有为此次大会付出时间和努力的伙伴们，相见是肯定的，非常情况下，好事更多磨吧！因此给大家带来的不便，我们深表歉意。

LiveVideoStack会务组

2022年11月24日

流媒体服务新手入门教程01--什么是流媒体服务及m7s介绍
流媒体是指采用流式传输的方式传播多媒体文件。比如现在常见的直播应用抖音、快手以及视频网站，它们的背后都是流媒体服务支撑着。
https://juejin.cn/post/6988659336457240590

一看就懂的 OpenGL 基础概念（3）：各种 O 之 VBO、EBO、VAO丨音视频基础
在前面的文章里，我们介绍了 OpenGL 在图形渲染应用中的角色，OpenGL 的渲染架构、状态机、渲染管线，以及 OpenGL 要在设备上实现渲染的桥梁 EDL 等内容，接下来我们来介绍一下在 OpenGL 开发中帮助我们提升渲染性能的几种数据对象。

一种自适应边缘增强的颜色插值处理器的VLSI实现
这篇文章介绍了一种面向实时视频应用的、基于自适应边缘增强的去马赛克模块的VLSI实现，在保持低复杂度的同时，提高了图像质量。

使用 OpenCV 和 Python 在直播中模糊人脸
本文将学习如何使用 OpenCV 和 Python 在直播中模糊人脸。这将是一个非常有趣的博客，让我们开始吧！

FFmpeg filter浅析--下篇
在之前的两篇文章中，我们熟悉了FFmpeg filter的基本概念，命令行用法和关键结构体、API使用流程，本篇文章我们在之前的Demo演示工程中通过调用libavfilter相关API来实现drawgrid filter效果。

音视频开发之旅（39)- 高斯模糊实现与优化
我们在平时开发中模糊是非常常用的技能，在android中有java的开源方案，也有RenderScript方案，今天我们来学习实践通过OpenGL如何实现高斯模糊。

语音前处理技术在会议场景中的应用及挑战
随着在线会议的普及，用户已经不再满足于能听到，而是要有更为极致的听感体验，如何能够在复杂多变的应用场景中依旧保证声音清晰流畅是对会议系统的极大挑战。

INTERSPEECH 2022｜FS-CANet: 基于全带子带交叉注意力机制的语音增强
本文提出了一个全带-子带交叉注意模块来交互融合全局信息和局部信息，并将其应用于FullSubNet，提出了新的语音增强方法FS-CANet。通过FS-CANet，我们在全带-子带语音增强模型内有效交互融合全带与子带信息，在降低参数量的情况下进一步提升了原有语音增强模型在复杂声学环境下的降噪性能。

流式语音识别的大厦已经落成，天空中只漂浮着两朵乌云
在本文中，我们发现了解决尖峰漂移还有一种新的视角：那就是“ 数据 ”。深度学习的奥秘，绝大部分隐藏在数据中，我们深信：模型的潜能上限不在于模型结构/训练技巧，而在于数据。

苹果AirPods Max新专利 | 用于隐私的骨传导换能器
近日，美国专利和商标局正式授予苹果一项专利，该专利与保护隐私的骨传导换能器有关。更具体地说，该专利涵盖了一种在苹果AirPods Max等无线头戴式耳机上执行的方法。

Dirac Virtuo音频解决方案概览
Dirac Virtuo通过精确的声音定位，打造一个宽敞、自然的声景，超越用户音响系统的物理限制，以实现具有空间感的沉浸式声音体验。

被“白嫖”拖垮的开源维护者，缺的从来就不只是钱......
在开源领域，有一个存在很久但始终难以解决的问题——开源维护者全力维护开源项目，却没有稳定资金来源，而“用爱发电”注定难以为继，各种开源项目开始 Bug 频出。对此，很多人呼吁要对开源维护者提供资助，但这真的能彻底解决问题吗？

BEV常见的开源算法系列一 | BEV空间的生成
本篇将从BEV空间的生成算法开始，介绍BEV算法的发展历史，并且重点介绍基于Transformer的BEV空间生成算法。这些算法开创性地使用Transformer更高效，更精确地生成BEV空间。

声纹识别开源工具 ASV-Subtools
今天我分享的主要有5个部分的内容，分别是背景介绍、工具介绍、实验结果、Subtools工程化、总结与展望。其中Subtools工程化是我这次报告的一个重点。

这个懂中文的 AI 高手，画出的高山明月太惊艳！中英双语 AltDiffusion 模型已开源
日前，智源研究院大模型研究团队开源最新双语 AltDiffusion 模型，为中文世界带来专业级 AI 文图创作的强劲动力。AltDiffusion 和 AltCLIP 模型均为多语言模型，中英双语为第一阶段工作，代码与模型已开源。

开源大盘点 | 各国车牌识别开源数据集汇总
本文整理了11个车牌检测识别相关的开源数据集资源，一起来看看吧。

CVPR 2022 | CLIP-NeRF: 文字-图像驱动的 NeRF 操作
本文提出了 CLIP-NeRF，一种用于神经辐射场的多模态 3D 对象操作方法。通过利用最近的对比语言-图像预训练 (CLIP) 模型的联合语言-图像嵌入空间提出了一个统一的框架，允许使用短文本提示或示例图像以用户友好的方式操作 NeRF。

数字图像处理：边缘检测
在之前的文章中，我介绍了傅里叶变换，这次我将介绍另一种图像处理方法，边缘检测。在openCV中，有很多函数可以让我们找到图像的边缘，在这篇文章中，我将挑选出比较有代表性的Sobal算子和Laplacian算子进行介绍。

12个常用的图像数据增强技术总结
本文总结了图像增强常用的一些方法，并附相关实现代码。图像本身的变化将有助于模型对未见数据的泛化，从而不会对数据进行过拟合。

深度学习在图像处理中的应用一览
计算机视觉的底层，图像处理，根本上讲是基于一定假设条件下的信号重建。这个重建不是3-D结构重建，是指恢复信号的原始信息，比如去噪声。

淘宝拍立淘iOS相册架构设计小结
这篇文章从系统权限、API 调用、架构设计等角度，生动演示了一个设计友好、模块独立、易拓展以及用户体验优秀的相册是如何开发出来的。除此之外，作者针对各种小细节也做了优化和解析，使得功能实现更加的丰满。

【RTSCon 2022】实时通信与价值赋能
初雪将至，万众期待的一年一度RTSCon再次来袭，本次RTSCon 2022由RTS社区和LiveVideoStack社区联合出品。本次大会主题围绕“实时通信与价值赋能”开展，届时我们为大家准备了业内大咖主题演讲以及圆桌会议两个模块，欢迎报名参会收看。

⏰ 时间：2022年12月3日 9:00-19:00
🌏 地点：线上免费直播

入门必读系列（七）Batch Size对神经网络训练的影响
这篇文章非常全面细致地介绍了Batch Size的相关问题。结合一些理论知识，通过大量实验，文章探讨了Batch Size的大小对模型性能的影响、如何影响以及如何缩小影响等有关内容。

差分卷积在计算机视觉中的应用
文章主要介绍由Oulu大学主导的几个差分卷积（Difference Convolution）工作及其在图像、视频领域中的应用。

首个目标检测扩散模型，比Faster R-CNN、DETR好，从随机框中直接检测
近日，来自香港大学的罗平团队、腾讯 AI Lab 的研究者联合提出一种新框架 DiffusionDet，将扩散模型应用于目标检测。据了解，还没有研究可以成功地将扩散模型应用于目标检测，可以说这是第一个采用扩散模型进行目标检测的工作。

三维点云深度学习技术综述
点云学习因其在计算机视觉、自动驾驶、机器人等领域的广泛应用而受到越来越多的关注。本文是对<Deep Learning for 3D Point Clouds：A Survey>的解读，欢迎大家一起进行技术交流。

NeurIPS 2022 | 姿态估计也开始玩最优传输分配了
NeurIPS 2022 的一篇工作，思想很简单，也非常契合我一直以来关于 Pose 和 Detection 大一统的思路，在此做一下简单的记录与分享。

像背单词一样搞定机器学习关键概念！机器学习通关（5）
“如何高效学习机器学习关键概念？”机器学习网红Chris Albon博士的小抄表可以帮到你。他总结了近300个机器学习概念，并彩笔手绘，制作了这份精美的小抄。

像背单词一样搞定机器学习关键概念！机器学习通关（6）
“如何高效学习机器学习关键概念？”机器学习网红Chris Albon博士的小抄表可以帮到你。他总结了近300个机器学习概念，并彩笔手绘，制作了这份精美的小抄。

机器学习特征选择方法总结
在本文中，我将介绍如何使用 python 减少 kaggle Mushroom Classification 数据集中的特性数量。本文中使用的所有代码在 kaggle 和我的 github 帐号上都有。

不拽术语，如何通俗地讲解机器学习？
我决定写一篇酝酿已久的文章，对那些想了解机器学习的人做一个简单的介绍。不涉及高级原理，只用简单的语言来谈现实世界的问题和实际的解决方案。不管你是一名程序员还是管理者，都能看懂。那我们开始吧！

万字解读首篇「人脸复原」综述！南大、中山、澳国立、帝国理工等联合发布
最近，来自南京大学、澳大利亚国立大学、中山大学、帝国理工学院和腾讯的研究者们全面回顾并总结了基于深度学习的人脸复原技术的研究进展，对人脸复原方法进行了分类，讨论了网络架构、损失函数和基准数据集，并对现有SOTA方法进行了系统性性能评测。

用PS的照片申请理赔，保险公司能过吗？——基于人工智能的影像管理在智能理赔中的实践
如何做好影像资料的自动识别、真假判定等成为保险公司降本增效、风险防范的重要课题。本文就保险行业的影像资料技术和应用给出探讨。

最全自动驾驶数据集分享系列六 | 定位与地图数据集
目前关于自动驾驶数据集你想知道的，应该都在这里了，这是「整数智能」自动驾驶数据集八大系列分享之系列六：定位与地图数据集，共包括7个数据集。

五万字读懂汽车线控制动系统（BBW)
介绍线控制动是怎么回事，分析线控制动技术类型、结构和优缺点及研究现状，阐述其功能特点和工作原理。简述在当前新形势下线控制动系统面临的主要需求和未来发展趋势。

实现自动驾驶的车路协同规划决策障碍和挑战是什么？
要想解释清楚这个问题，必须要先对车辆协同自动驾驶的技术架构有基本统一的认识。概括起来讲就是车-路-云-图-网四个方面发挥的作用拆解，四者之间的联系还要考虑信息的传输，也就是网端。

全景环视系统：自动泊车之AVM算法框架
作者在工作中搭建了一套AVM算法框架，有一些效果还不错的demo。撰写本文，主要是想将AVM算法框架中每个算子讲述清楚，与大家共同进步。本博文的风格为理论与实践结合，含有部分代码，适合有一些计算机视觉基础的同学。

BEV和单目图像车道线检测方法总结
本文主要对主流的车道线检测（包括BEV视角和图像视角）方法进行总结。由于基于深度学习的方法性能远超传统方法，所以本文只总结了基于学习的方法。

4D毫米波成像雷达在智能汽车中的应用研究
新一代4D毫米波成像雷达不仅可实现4D点云输出，还可以使用神经网络技术，根据呈现的点云图像信息，对道路的使用者和障碍物进行目标检测及分类。

VR负面影响专题（下）
抑制沉浸式内容传播的一个主要原因是 VR 体验引起的不适感。在 VR 体验中，会引发一种与虚拟场景的视觉运动相对应的自我运动感觉。在本文中，运动由 360° 视频视觉诱导，并用 GVS 设备刺激前庭。

高通发布第一代骁龙AR2平台，旨在变革AR眼镜
2022骁龙峰会期间，高通技术公司推出第一代骁龙AR2平台，该平台提供开创性AR技术，将助力打造新一代功能强大的轻薄AR智能眼镜。

啥是AR？啥是VR？如果西游路上有AR，结局会……
混知公众号以漫画的形式普及AR、VR知识，十分生动有趣。

元宇宙的前世今生，业内大佬带你一遍过！
本篇文章讲述了元宇宙从业者从（1）元宇宙是什么（2）元宇宙需要的要素以及（3）元宇宙如何步入主流社会的观点，带你清晰地认识元宇宙的当下存在的问题以及未来发展的趋势。

阅读推荐

程序员上手 Rust 2年后感悟：它的确强大，但想要取代C还远着呢
接触 Rust 开发快两年了。我觉得，回顾下自己在这个过程中的一些感想和汲取的经验教训，应该会很有趣。

“我让 AI 来处理我 24 小时的音频信息——这会是未来吗？”
当 AI 逐渐融入我们的生活，你是否设想过，我们的未来会如何发展？会像许多科幻电影和赛博朋克类小说中说的那样，让 AI 管理和安排我们的日常？

2022年，中国汽车行业“打脸”报告
距离2023年已经不到50天了，对于一贯喜欢立flag的车企来说，也到了该交作业的时候。事实上，2022年可能是过去十年中黑天鹅最多的一年。所以对于车企来说，今年完不成KPI是常态，完成才是意外。

自动驾驶十年风云：寒冬过后，曙光初现
完全无人驾驶何时商业落地虽然没有统一共识，但路径中形成的技术能力正进入大规模商业应用的前夜，诱因则是中国智能电动汽车销量激增带来的高阶辅助驾驶商用需求。对于怀揣自动驾驶梦想的创业者们来说，曙光已经出现。

课程推荐