音视频技术开发周刊

音视频技术开发周刊 | 297

news2026/2/13 10:11:07

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

Geenee AR为品牌商和零售商提供虚拟试穿应用

这意味着Geenee AR的虚拟试穿解决方案能够与品牌商现有的销售渠道无缝集成。

谁说苹果掉队了？WWDC上只字未提AI，却已低调入场大模型

尽管苹果没有在 WWDC 上谈论AI 大模型，但他们介绍了一些基于 AI 的新功能，如改进iPhone 的自动更正功能，当你按下空格键时，它可以完成一个单词或整个句子。该功能基于使用 Transformer 语言模型的 ML 程序，使自动更正比以往任何时候都更加准确，而 Transformer 是支持 ChatGPT 的重要技术之一。

用于开源项目的 ChatGPT 驱动的代码审查器机器人

ChatGPT可以审查代码了：作者利用开源的ChatGPT制作的代码审查机器人，可以进行代码审查，并提供有关代码质量、安全性和最佳实践方面的反馈。

https://www.cncf.io/blog/2023/06/06/a-chatgpt-powered-code-reviewer-bot-for-open-source-projects/

使用 SQuId 评估TTS模型

文章评估了TTS的系统表现。作者介绍了一种名为“ManyEars”的自动评估框架，该框架可以同时处理多个声学和语言特征，并使用机器学习算法来生成客观的质量评估指标。他们还提出了一种基于GAN（生成对抗网络）的数据增强方法，以帮助改善TTS模型的性能。

https://ai.googleblog.com/2023/06/evaluating-speech-synthesis-in-many.html

视觉字幕：使用大语言模型通过动态视觉效果增强视频会议

本文介绍了一个新的视觉字幕生成模型，该模型使用大语言模型训练，自动生成对图像的描述。该模型在未来可能会被用于诸如辅助无障碍输入、图像搜索和自动图像描述等领域。

https://ai.googleblog.com/2023/06/visual-captions-using-large-language.html、

高翔博士分享：单目SLAM在移动端应用的实现难点有哪些？

华为手机的"超光谱摄像头"

英伟达发布Neuralangelo，借助神经网络将2D视频转换为更精细的3D结构

Neuralangelo可以生成雕塑的具有复杂细节和纹理的3D结构。然后，创意专业人士可以将这些3D对象导入设计应用程序，进一步编辑它们以用于艺术、视频游戏开发、机器人和工业数字孪生等应用。

要能力、要稳定也要降本——百度多媒体技术回顾

多媒体技术生态进入到存量市场，客户既要又要还要成为常态。如何将能力、质量与稳定性、成本不断优化，就是各个多媒体技术平台的必修课。本文以百度智能视频云为例，纵览了其在RTC、边缘计算、视频编码等关键能力与用户体验和成本优化的经验。

如何正确选择恰当的传声器？

音视频问题汇总--如何兼容实时音视频加密？

音频格式--PCM介绍

基于语音识别的弱监督联合学习

具体来说，该方法使用一个中央服务器来协调各个客户端的模型更新。服务器首先从未标记的数据中提取出尽可能多的信息，并将其与客户端提供的少量标记数据结合起来训练一个初始模型。然后将该模型下发给各个客户端，并根据客户端反馈的准确率和数据分布情况来调整模型参数。最终，所有客户端的模型会被合并，形成一个全局模型。

https://www.amazon.science/blog/federated-learning-with-weak-supervision-for-speech-recognition

深度视频预编码

本文提出了一个深度视频预编码框架，其核心预编码组件包括一个级联结构的降尺度神经网络，在视频编码期间、传输之前操作。

百度视频质量评测的实践之路

LiveVideoStackCon 2022北京站邀请来自百度的王伟老师为大家介绍百度视频质量评测的发展之路。

苹果封神头显Vision Pro竟暗藏「脑机接口」！苹果前员工疯狂揭秘读心操控

其实，这是苹果通过算法来监视你的眼睛行为，并实时重新设计UI，以创建更多这种预期的瞳孔反应，从而创建个人大脑的生物反馈。这就是通过眼睛实现的初级「脑机接口」。

一文读懂苹果 Vision Pro：最好最贵的头显，重新定义下一代计算

与过去所有的 VR/AR 平台相比，Vision Pro 的出现开创了一个新的纪元。从人机交互，到硬件规格，再到操作系统、生态，以及数据隐私，苹果重新定义了头戴式设备的标准。

专访瑞声科技应用软件开发总监陆其明：当一名老兵决定重新上路

从互联网公司到智能终端解决方案公司，陆其明的这次转变可能难以被人理解。但经济大环境的影响和个人的技术困境还是让他义无反顾地走向一个未知的世界。正如黄仁勋日前所言，“撤退”对聪明人来说并不容易。然而，战略性的撤退、牺牲、决定放弃什么是成功非常关键的核心。

2023LiveVideoStackCon上海站已进入全价期

2023年SRT InterOp Plugfest亮点

在2023年的SRT InterOp Plugfest中，Haivision和YouTube合作展示了使用SRT技术进行视频传输的高互操作性。这证明了SRT协议在实现不同设备和平台之间高效视频传输方面的能力。通过这些展示，人们看到了各种开发人员如何利用SRT协议来使视频传输过程变得更加可靠和高效，并提供了与其他视频流媒体解决方案无法匹敌的优势。

https://www.haivision.com/blog/all/highlights-2023-srt-interop-plugfest-with-youtube/

强化学习驱动的低延迟视频传输

LiveVideoStackCon2022北京站邀请了来自北京邮电大学的周安福教授，为我们分享关于使用强化学习方法进行低延迟视频传输的相关研究成果。

面向流媒体的确定时延传输：从QUIC出发，走向未来

LiveVideoStackCon2022北京站邀请了清华大学的马川为我们介绍QUIC协议的诞生、目前的拓展成果以及未来的发展方向。