音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

微软炸通Windows与ChatGPT全家桶！人手一个Copilot，AI宇宙降临

三位OpenAI掌舵人亲自撰文：我们应该如何治理超级智能？

OpenAI 的三位联合创始人——CEO Sam Altman、总裁 Greg Brockman、首席科学家 Ilya Sutskever 共同撰文探讨了如何治理超级智能（superintelligence）的问题。他们认为，现在是开始思考超级智能治理的好时机了--未来的人工智能系统甚至比AGI的能力还要大。

InstructPix2Pix: 用于图像编辑的动态扩散模型

本文提出了一种协作扩散模型，无需重新训练已有的单模态扩散模型便可实现多模态的人脸合成与编辑。这个方法在图像质量和条件一致性方面表现出优越性。

FreestyleNet：自由式布局到图像生成

本文提出了一个基于diffusion model的框架，即FreestyleNet，其可以从给定的布局（layout）生成包含丰富语义的图像。

天琴实验室发布三项开源大模型加速版本

天琴实验室MUSELight大模型推理加速引擎已在HuggingFace公开发布三个lyra系列模型的加速版本，具体可关注HuggingFace主页：TMElyralab。

生成式 AI 与版权法

当下的主要问题集中在使用版权作品作为训练数据是否侵犯版权，以及人工智能程序的输出是否侵犯使用图像的衍生作品。

生成式AI，可以设计芯片了

百闻不如一试，目前PaLM 2已经在谷歌的Bard平台上线开放公测，因此作者也尝试使用Bard去体会了一把PaLM 2生成Verilog代码的能力。

AIGC新玩法：任意模态输入、任意模态输出

使用AI技术，帮助听力障碍者更好地生活

英特尔宣布了帮助听力损失者的新技术，其中包括一种可以实时转录语音的AI系统。系统内置于名为 SoundWatch 的应用程序中，该应用程序使用机器学习算法来检测和识别声音，它还可以为火警或门铃等重要噪音提供警报。此外，英特尔还开发了一款新的无线耳塞原型，可以帮助用户在嘈杂的环境中更好地听到对话。这些新技术有可能大大改善听力损失者的生活质量。

https://www.intel.com/content/www/us/en/newsroom/news/intel-brings-more-tech-people-with-hearing-loss.html#gs.ykq823

LIveVideoStackCon2023上海站九折期优惠进行中

https://sh2023.livevideostack.cn/tickets

电脑屏幕上的奇怪波纹究竟是什么？

连续可变码率的非对称增益深度图像压缩

本文提出了一个连续码率可调的深度学习图像编码框架，即非对称增益变分自动编码器（AG-VAE）。AG-VAE利用一对增益单元在一个单一的模型中实现离散可变码率，其额外的运算量可以忽略不计。然后，通过使用指数插值的方式，在不影响性能的情况下实现连续可变适应。

用于联合视频和图像视觉变换器的稀疏视频管

介绍了一种新的视频分析方法，称为Sparse Video Tubes (SVT)，可用于联合视频和语音处理任务。该方法使用深度学习模型来自动检测人类行为，并在视频中提取出相应的运动物体轨迹。使用此技术，可以更准确地识别和跟踪人类行为。而且，这种技术对于机器学习算法的计算量要求较低，能够处理更大规模的视频数据集。

https://ai.googleblog.com/2023/05/sparse-video-tubes-for-joint-video-and.html

媒体传输协议的演进与未来

LiveVideoStackCon 2022北京站邀请到快手传输算法负责人周超，结合快手在媒体传输上的优化与实践，基于快手KTP、KLP、LAS等协议和标准，为我们介绍了媒体传输协议的演进与面临的挑战；还分享了最新的媒体传输标准CMTP，探索未来更多可能。

海量视频处理的应对和算法实践

LiveVideoStackCon 2022 北京站邀请到沐曦AI解决方案总监——虞新阳，为大家梳理视频处理的需求及介绍沐曦应对视频处理场景的GPU产品等。

车载音响系统主观音效的客观量化

神经编码技术可以提高音频数据恢复效率

本文介绍了一项使用神经编码技术来提高音频数据恢复效率的研究。与传统的音频编码器相比，DARE 编码器产生的编码语音数据更加稀疏和冗余，这使得丢失的音频数据包可以更有效地恢复。通过实验，研究人员发现，DARE编码器和基于神经网络的解码器组合能够在不损失音频质量的情况下，显著提高音频数据恢复的效率。这项研究对音频数据传输和存储方面有着重要的应用价值，可以帮助提高音频数据的可靠性和安全性。

https://www.amazon.science/blog/neural-encoding-enables-more-efficient-recovery-of-lost-audio-packets

NVIDIA 视频编解码器 SDK 加速了新的视频创建和流媒体功能

介绍了NVIDIA Video Codec SDK的最新功能，该SDK是一组用于视频编解码的API，其中包括实时视频编码、快速GPU加速转码以及基于AI的视频增强。此外，该SDK还支持使用CUDA进行硬件加速的视频渲染和处理，可以帮助开发人员提高视频编辑和流媒体应用程序的性能和效率。

https://developer.nvidia.com/blog/new-video-creation-and-streaming-features-accelerated-by-the-nvidia-video-codec-sdk/

ffplay 播放器源代码分析

ffplay 是 FFMpeg 自带的播放器，使用了 ffmpeg 解码库和用于视频渲染显示的 sdl 库，也是业界播放器最初参考的设计标准。本文对 ffplay 源码进行分析，试图用更基础而系统的方法，来尝试解开播放器的音视频同步，以及播放/暂停、快进/后退的控制原理。

音视频编解码--多媒体格式系列开篇

DeepRS：用于实时视频通信的基于深度学习的网络自适应 FEC

---提出了一种新的 FEC 算法 DeepRS，它利用深度神经网络预测网络丢包，动态调整冗余率，显着提高 FEC 方案的效率。DeepRS应用 RS 编码算法对视频块进行编码，并提出了一种基于长短期记忆（LSTM）网络的丢包预测方法。在总冗余率固定的情况下，DeepRS 的恢复率比对比算法高 70%，并且 DeepRS 可以在任何网络动态下实现自适应 FEC 冗余。

ChatGPT浪潮下，看中国大语言模型产业发展

本篇报告将着重分析“ChatGPT的成功之路”、“中国类ChatGPT产业发展趋势”、“ChatGPT应用场景与生态建设”、“ChatGPT浪潮下的‘危’与‘机’”四个问题。

Microsoft Mesh：改变人们在现代工作场所的互动方式

微软推出新技术 Microsoft Mesh，旨在通过混合现实、虚拟现实和增强现实等技术，改变人们之间互动和协作的方式。Microsoft Mesh 将提供一个跨平台的生态系统，允许用户在不同设备上共享虚拟空间，并进行实时协作。文章还介绍了一些具体应用场景，比如在远程办公、教育、社交娱乐、医疗等领域中使用 Microsoft Mesh 可以带来很多便利和创新。

https://techcommunity.microsoft.com/t5/microsoft-teams-blog/microsoft-mesh-transforming-how-people-come-together-in-the/ba-p/3824898

实时互动下视频 QoE 端到端轻量化网络建模

LiveVideoStackCon 2022北京站邀请到郑林儒老师为我们介绍视频体验数据库的建立、视频画质评估建模及其端上轻量优化。

流媒体不关心共享账号——一切都取决于定价

作者提出了一个有趣的观点：流媒体服务商其实并不太在乎共享账号，因为他们更关心的是价格。文章指出，共享账号可能会导致一些潜在的收入损失，但相对于流媒体服务的总收入来说，这个影响并不大。相反，如果流媒体服务定价太高，用户就会更倾向于共享他们的账号和密码。因此，作者建议，流媒体服务商应该更关注定价策略，以便提供具有吸引力的价格，从而减少用户共享密码的动机。

https://www.streamingmedia.com/Articles/Post/Blog/Streamers-Dont-Care-About-Password-Sharing---It-All-Comes-Down-to-Pricing-158768.aspx