音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

AI艺术在北京798，展望人工智能与环境的未来

本文很有意思的提出了个假设，通过人工智能和艺术家协作与实践产生环绕地球的叙事，去开启置身于AI时代与生态之中的想象。在这种协作中，如何重新想象我们共同生存的环境？如何通过这种协作对我们的生存环境甚至我们自身产生新的认识？如何去探讨二者共同的存在基础，真菌、地质、大气、天空、海洋······我们在这种共同生命体持续演化的模糊边界进行思考，在其间不断提出新的视角和问题，这正是盖娅与赛博格之间所创造的新的审美形式和想象空间。

AlphaDev突破十年算法瓶颈登上Nature，GPT-4紧随其后两步破解

这篇经纬创投的文章中指出，近日，谷歌旗下DeepMind团队的人工智能项目AlphaDev研发出一种全新的数据排序方法，凭借一己之力提升排序算法的速度约70%，同时，对于哈希(Hash)算法，也找到了速度提高30%的办法。十多年来，C++排序库首次更改。这项最新的研究也登上了Nature。

坐不住的热心网友，尝试通过引导ChatGPT证明实力。仅仅一天时间，GPT-4在对话引导下，就能够通过两步获得和AlphaDev几乎相同的思路发现。让网友不禁感叹：大家还是低估了GPT-4。

‍LeCun世界模型出场！Meta震撼发布首个「类人」模型，理解世界后补全半张图，自监督学习众望所归‍

Meta震撼发布了一个「类人」的人工智能模型 I-JEPA，它可以比现有模型更准确地分析和完成缺失的图像。

即使是如今最先进的AI系统，也始终无法突破一些关键限制。为了突破这层桎梏，Meta的首席AI科学家Yann LeCun提出了一种新的架构。

他的愿景是，创造出一个机器，让它能够学习世界如何运作的内部模型，这样它就可以更快速地学习，为完成复杂任务做出计划，并且随时应对不熟悉的新情况。

今天Meta推出的图像联合嵌入预测架构I-JEPA模型，是史上第一个基于LeCun世界模型愿景关键部分的AI模型。

I-JEPA就是通过创建外部世界的内部模型来学习。在补全图像的过程中，它比较的是图像的抽象表征，而不是比较像素本身。在多个计算机视觉任务上，I-JEPA都表现出了强大的性能，并且比其他广泛使用的CV模型计算效率高得多。

ChatGPT重磅更新！价格打“骨折”，新增API函数调用，上下文飙升4倍

OpenAI 对 GPT 系列发布了重大更新，其中最核心的是 API 新增函数调用（Function calling）能力。

在这次更新中，OpenAI 重点介绍了函数调用：开发者不用手动选择函数，只需要模型描述需要用到的函数，何时调用哪个函数都是模型根据提示词自己决定的，与 GPT-4 调用插件的机制一样。

这些模型已经进行了微调，可以检测到何时需要调用函数，也可以生成符合函数签名的 JSON 响应。换句话说，函数调用使得开发者能够更可靠地从模型中获取结构化数据。

Transformer六周年：当年连NeurIPS Oral都没拿到，8位作者已创办数家AI独角兽

本文中，有的人加入 OpenAI，有的人成立创业公司，也有的坚守谷歌 AI。当年正是他们共同开启了今天的 AI 大发展时代。

英伟达 RTX 4060 显卡本月推出

英伟达官网显示，RTX 4060 将在 6 月 29 日推出。RTX 4060 于上月和 RTX 4060 Ti 一同发布，原定于 7 月推出。这款显卡的国行价格定价 2399 元起。

RTX 4060 显卡在开启 RTX 40 系列显卡独有的帧生成技术后，性能是 RTX 3060 的 1.7 倍，关闭帧生成技术后性能是 RTX 3060 的 1.2 倍。

哔哩哔哩大规模AI模型推理实践

本文介绍，哔哩哔哩通过自研InferX推理框架+Triton模型服务部署，显著提升了计算资源使用效率，降低资源成本，保证服务响应时间和稳定，同时降低了ai服务开发部署成本，更快捷地支持各类型业务落地。

文本直生成音乐，Meta新开源模型MusicGen炸场！

6月13日，Meta（Facebook、Instagram等母公司）宣布开源了一款新的语言模型MusicGen，用户通过文本可直接生成音乐。

除了使用文本生成音乐之外，MusicGen还支持用户上传示例音乐，以增强音乐生成的准确性。例如，一首欢快的电子舞曲，带有切分音鼓、轻快的铺垫和强烈音乐波峰。然后再上传一首类似的歌曲《I Can't Stop》，点击生成即可。

体验了一下MusicGen，简单易用功能强大，资源消耗却很小。生成的音乐基本符合文本提示，音质通透、音频稳定、音峰抖动强烈等。总之，高音甜、中音准、低音稳，适合制作摇滚、舞曲、古典、流行、怀旧等背景音乐。

ChatGPT当债券分析师！金融科技巨头发布BondGPT，服务10万亿美元市场！

近日，全球金融科技领导者Broadridge（纽交所代码：BR）子公司LTX宣布，通过GPT-4打造了BondGPT，主要用于债券市场帮助客户回答各种与债券相关的问题，增强10.3 万亿美元的美国公司债券市场的流动和价格发现。目前，BondGPT已经投入使用。

据悉，为了增强ChatGPT的输出准确性和满足金融业务场景需求，LTX将Liquidity Cloud中的实时债券数据，输入到GPT-4大语言模型中，帮助金融机构、对冲基金等简化债券投资流程以及提供投资组合建议。

例如，有哪些收益率在5—8%之间的汽车债券，2030年后到期？；在过去30天的时间，哪些电信债券收益最高？；近5年，哪些零售企业的债券收益最高？；我有100万美元资金，想投资5年，有哪些高收益的债券选择？

1530亿晶体管芯片发布，AMD正式叫板英伟达

在AMD的发布会上，最受人关注的毫无疑问是公司的Instinct MI 300系列。因为在英伟达GPU把持的AI时代，大家希望AMD的这系列芯片能成为万亿芯片巨头的最强竞争者。而从Lisa提供的参数看来，MI 300系列的新芯片拥有极强的竞争力。

“人工智能是塑造下一代计算的决定性技术，也是 AMD 最大的战略增长机会。”Lisa Su强调。

使用Superb AI的套件和 NVIDIA TAO工具包创建高质量的计算机视觉应用程序

这篇文章演示了如何使用 Superb AI Suite 准备与 TAO Toolkit 兼容的高质量计算机视觉数据集。介绍了下载数据集、在Suite上新建项目、通过Suite SDK上传数据到项目、使用Superb AI的Auto-Label能力快速标注数据集、导出标注数据集、搭建TAO Toolkit的过程配置使用数据。

https://developer.nvidia.com/blog/create-high-quality-computer-vision-applications-with-superb-ai-suite-and-nvidia-tao-toolkit/

Text2NeRF：文本驱动的基于神经辐射场的三维场景生成

本文提出了 Text2NeRF 模型，一种通过组合 NeRF 的预训练的文生图扩散模型得到的文本驱动的三维场景生成框架。具体来说，本文的主要贡献有：

提出了一个文本驱动的真实感三维场景生成框架，该框架将扩散模型与NeRF表征相结合，支持从各种自然语言提示中零样本生成各种室内/室外场景；

引入PIU策略，逐步为3D场景生成具有视图一致性的新内容，并构建支撑集，在逐视图更新过程中为NeRF模型提供多视角约束；

采用深度损失来实现深度感知的 NeRF 优化，并引入两阶段的深度对齐策略来消除不同视角中估计的深度偏差。

图像与矩阵的关系

本文中讲到，数字图像是由许多像素（Pixel）组成，犹如肉身是由细胞构成的一样。当我们通过Photoshop等软件调节视觉元素的时候，本质上就是在调节像素。我们进行的每一步操作，最终会影响到所有像素或者某个特定区域的像素。所以在调整图像时，并不是改变整个图像的参数，而是在调节每个像素的参数。

如果要探究图像背后的奥秘，就会发现视频，图像，像素，分辨率，fps这些与图像形成息息相关的要素的尽头是线性代数。没错，就是你现在学的那个线性代数！可以通过此文了解一下与图像相关的一些概念。

视频编码格式和封装格式有什么关系？相机常见的编码格式有哪些？

看完本文，你将会知道两大问题：1.视频解码格式和封装格式的关系是什么？2.相机领域常见的编码格式有哪些？

视觉字幕：使用大型语言模型通过动态视觉效果增强视频会议

视频会议的最新进展通过实时字幕和噪声消除等功能显着改善了远程视频通信。然而，在各种情况下，动态视觉增强有助于更好地传达复杂和细微的信息。例如，在讨论在日本餐厅点什么时，您的朋友可以分享视觉效果，帮助您更有信心点“寿喜烧”。或者在谈论您最近去旧金山的家庭旅行时，您可能想展示一张您个人相册中的照片。

在ACM CHI 2023上展示的 “视觉字幕：通过即时视觉增强语言交流”中，介绍了一种使用语言提示通过实时视觉增强同步视频交流的系统。微调了一个大型语言模型，以使用为此目的策划的数据集在开放式词汇对话中主动建议相关的视觉效果。将 Visual Captions 开源为ARChat项目的一部分，该项目旨在通过实时转录快速构建增强通信的原型。

https://aigoogleblog.com/2023/06/visual-captions-using-large-language.html

新 Mac Studio 和 Mac Pro 最多可外接 8 台 4K 显示器

在新的支持文件中，苹果介绍了新 Mac Studio 和 Mac Pro 的外接显示器情况：有了 M2 Ultra，两款 Mac 最多都可以外接 8 台 60Hz 4K 显示器。

新 Mac Studio 有 1 个 HDMI 2.1 端口、新 Mac Pro 有 2 个 HDMI 2.1 端口，用户可以通过扩展这些端口，外接 60Hz 的 8K 显示器或者 240Hz 的 4K 显示器；M2 Ultra 芯片最多支持外接 6 台 Pro Display XDR。

M1 Ultra 芯片的 Mac Studio 最多可外接 5 个显示器。

基于机器学习的语音编解码器 Lyra

Lyra是一种基于机器学习的语音编解码器，通过引入预测方差正则化来降低对异常值的敏感性，从而提高性能。Lyra使用自回归模型WaveNet进行过程建模，并通过输入噪声抑制来显着提高性能。Lyra的实验表明其质量与双倍速率运行的传统编解码器相似或更好，并且适用于低速率视频通话和消费类设备。

元尺度的实时音频：REAL-TIME AUDIO AT META SCALE

本文介绍了元尺度上处理最困难的音频挑战方法，并深入探讨音频的可靠性，确保音频实际工作。最后将展望未来和 RTC 中最令人兴奋的领域之一，即元宇宙中的大型群组通话。

在开始大型沉浸式通话之前，首先要保证得到了正确的基本要素。通话中过长的延时会降低交互性，导致参与者频繁地重复确认通话内容，这不是自然的对话。许多呼叫通过低带宽连接进行，即使最好的 WiFi 网络也会出现拥塞，因此 robust packet loss（指数据通信中对丢包（packet loss）具有鲁棒性或健壮性的特性或算法）也是很重要的一个因素。为避免背景噪音和自己的声音回响，需要全双工、高品质的声学生态消除和非平稳的噪音抑制。全波段立体音频的提供使用户离实现高质量体验的目标更近一步。这一目标的下一步是实现身临其境的音频体验，如特殊音频，这是创造身临其境魔力的关键。

音频格式--MP3格式介绍

本文介绍了涵盖多种音视频文件和编码格式，包括但不限于MP4、AVI、MKV、H.264、AAC、MP3等。通过深入了解这些常见的音视频文件和编码格式，用户可以更好地理解它们在视频传输和存储中的应用，从而更好地应对实际的应用场景和问题。同时，这些知识也可以帮助用户更好地理解和掌握音视频开发基础，提升用户对于音视频的质量。

深度学习在声源定位中的应用

本文指出，通常情况下，SSL被简化为对源的到达方向（DoA）的估计，即它专注于方位角和仰角的估计，而不估计到麦克风阵列的距离。SSL具有许多实际应用，例如，例如声源分离、自动语音识别（ASR）、语音增强和房间声学分析等。

WebRTC 支持已合并到 OBS 中 (discuss-webrtc)

https://groups.google.com/g/discuss-webrtc/c/tNPuUiT2bTs/m/bLth7DlsAAAJ

平行云——开启通往元宇宙的通道

本文认为，元宇宙是平行于真实世界的虚拟世界，是新一代互联网。具有真三维、可交互、可沉浸特性的XR，是构建元宇宙的终极数字媒体形态。如何打破XR终端设备与XR内容之间的紧耦合，实现任意平台、任意终端的线上访问，Cloud XR是其必由之路，从而开启通往元宇宙的通道。平行云是国际领先的Cloud XR的理念倡导者和技术先行者，致力于为行业伙伴和开发者提供低代码、开箱即用、高效部署的Cloud XR PaaS平台产品。已在全球范围内已吸引近千家企业用户，数万名独立开发者，产品及解决方案成熟应用于教育培训、数字孪生、医疗康复、虚拟直播、数字人、云活动、云游戏等场景。

IoT 如何改变可持续发展元宇宙的游戏规则

本文中的一项观点认为，虚拟宇宙可以说是当今可用的数字化转型最深刻的成果，它以一种非常基本的方式依赖于数据。因此，在过去 30 年的所有技术进步中，正是那些以数据为中心的技术才能实现元宇宙。尽管这里隐含着重要的广度和深度，但事实证明物联网 (IoT) 不仅是最具颠覆性的进步，而且是实现元宇宙最关键的进步。

https://techcommunity.microsoft.com/t5/green-tech-blog/how-iot-is-a-game-changer-for-the-sustainability-metaverse/ba-p/3291430

AI芯片行业专题报告：国产AI芯片的创业裂变

报告认为，释放算力的价值对国家整体经济发展将发挥推动作用。计算力指数每提高 1 点，数字经济和 GDP 将分别增长 3.5‰和 1.8‰。可见，国家计算力指数越高，对经济的拉动作用越强。在业界，人工智能的应用产生了很多需求，其中最直接的赛道是企业数字化转型。据 IDC 统计，全球范围内，企业在人工智能（AI）市场的技术投资从 2019 年的 612.4 亿美元增长至 2021 年的 924.0 亿美元，预计到 2022 年（同比）将增长 26.6%至 1,170.0 亿美元，并有望到 2025 年突破 2,000 亿美元，增幅高于企业数字化转型（DX）支出整体增幅。

2023 年媒体技术融资状况

作者的观点认为，企业资金和投资的公式通常如下所示：确定问题，并通过有利可图的解决方案、优秀的团队和巨大的增长潜力来解决它。但在媒体技术领域，大多数公司都在反对其他一些东西：将客户转移到SaaS模式，并赢得想要在内部构建一切的媒体公司。鉴于这些固有的挑战，对于该行业的公司来说，投资在哪些领域看起来是一个好主意？

虽然在过去几年中，数十亿美元投入到内容开发中，这引起了大家的注意，但在幕后，一系列视频技术供应商和工程师正在构建用于交付这些内容的基础设施。这种基础设施不仅被老派媒体公司使用，也被Netflix和下一代媒体公司等颠覆者使用。

根据标普全球市场财智的数据，科技、媒体和电信的风险投资（VC）融资占融资轮次总价值的比例从 41 年的 2019% 上升到 45 年的 2022%。娱乐业被认为在经济低迷时期比其他行业更具弹性。那么，获得资金需要什么？业务基础、增长率、技术和健全的商业模式。

https://www.sreamingmedia.com/Articles/Editorial/Featured-Articles/The-State-of-Media-Technology-Financing-2023-158121.aspx