音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

ChatGPT神器Code Interpreter终于开放，到底怎么用？这里有一份保姆级教程

Code Interpreter 已经正式开放。

上海世界AI大会：MidJourney名字的来源是庄子？

MidjourneyCEO大卫·霍尔兹在2023世界人工智能大会上发言，认为AI将成为创造和想象力的新的载体和引擎。通过AI，我们有可能放大整个人类种族的原始想象力。针对公司的名字Midjouney，霍尔兹表明它来自于道教著作《庄周》中的中道概念，他认为中国古典文学带来了很多最美丽的，最深沉的思想。

生成式AI时代的AI Infra—从DevOps->MLOps->LLMOps

这篇文章想要从AI Infra的角度出发，从更宏观的角度看Generative AI对AI Infra生态产生的变化，本文不局限于LLM，文中提到的LLM泛指一切Generative AI或者Foundation Models。

华为大模型登Nature正刊！比传统方法预测天气，快1万倍

盘古气象大模型或使人类得以重新审视气象预报模型的未来。

CIS制造工艺回顾与展望

CMOS图像传感器由于能够集成到具有高图像质量的智能手机中，因而正经历着巨大的增长。图像传感器发展的主要贡献之一是其制造工艺的创新。这篇文章详细回顾了CMOS图像传感器的不同制造工艺及其对智能手机图像质量的影响。讨论了使用硅通孔和Cu-Cu混合键合等技术制造CMOS图像传感器及其实验结果。

卖一颗芯片亏 23 万，自动驾驶芯片创业有多难

国内车载芯片创业公司黑芝麻智能向港交所递交上市申请材料，计划在港股主板挂牌。黑芝麻智能是仅有的两家实现量产上车的国产大算力芯片公司之一，其量产节奏和出货量仅次于地平线。

通过诱导和限制表示的等变单视角姿态预测

该研究探讨了计算机视觉中的一个基本问题，即如何从二维图像中学习关于三维世界的信息。研究人员提出了一种理想的神经网络架构，该架构利用物体在三维空间中的旋转和平移特性，对新的图像进行预测。然而，将SO(3)的等变性应用于二维输入是具有挑战性的。为了解决这个问题，研究人员引入了SO(2)-等变性约束，并利用SO(2)在SO(3)上诱导和限制的表示来构建满足几何一致性约束的架构。

https://arxiv.org/abs/2307.03704

香港科技大学提出视角不变的场景图循环检测方法：迈向场景感知的机器视觉

针对室内场景中的视觉SLAM，这篇论文提出了一种基于增量生成场景图的回环检测方法。它综合考虑宏观视图拓扑、微观视图拓扑和语义实例的占有率，找出正确的对应关系。使用手持RGB-D序列进行的实验表明，该方法能够准确地检测出变化剧烈的视点中的环路。它在观察具有相似拓扑和外观的对象时保持了高精度。

从神经辐射场中移除物体

神经辐射场(NeRFs)是一种能够合成新视图的场景表示方法。现有的 NeRF 编辑框架很难实现这种指定物体的移除。本文提出一个框架，可以从 RGB-D 序列创建的 NeRF 表示中删除对象。NeRF inapinting 的方法利用了最近在 2D 图像 inpainting 方面的工作，并由用户提供的 mask 作为指导。该算法通过基于置信度的视图选择过程，选择使用哪些 inpainted 2D 图像来创建 NeRF，使生成的 NeRF 是 3D 一致的。本文所提出的NeRF编辑方法对以多视图一致的方式生成修复是有效的，并在一个全新的数据集上验证了所提出的方法。

图像压缩对视觉识别的鲁棒性分析

这篇文章的发现有助于在资源和带宽有限的情况下为用户部署视觉识别。在未来的工作中，希望探索在互联网规模的数据集上训练视觉识别模型时，本文的发现可以用于减少 I/O 绑定延迟。特别是，探索直接在潜在压缩图像表示上训练识别模型，而不是通过通常的 RGB 表示。

室内场景的凸分解（Convex Decomposition）

这篇文章关于三维图形的分割和重建。该研究描述了一种将复杂、杂乱的室内场景解析为简化的凸结构的方法。该团队使用简单的凸多边形作为基本元素来对场景结构进行抽象。利用学习到的回归过程，从RGBD输入中将场景解析为固定数量的凸多边形，并可选择使用分割信息来改善分解结果。

https://arxiv.org/abs/2307.04246

你不知道的分光测色仪结构

通过颜色的测量工具（统称为测色仪）可以轻松地得到被测物体在不同光源及各种条件下的色度数，甚至光谱曲线；有利于进行色彩的管理、控制及研发，方便不同厂家间的色彩交流和沟通；可以避免人为或环境因素造成的色彩判断偏差；无论室内室外，都可以做到更精准、客观地评判色彩。

音视频工具--Onvif设备管理器

ONVIF 设备管理器 (ODM) 是一款免费的开源软件实用程序，旨在管理符合 ONVIF 标准的网络视频设备，例如 IP 摄像机、视频编码器和网络录像机 (NVR)。ONVIF 代表开放网络视频接口论坛，是基于 IP 的物理安全产品的全球标准化倡议，旨在促进不同制造商设备之间的互操作性。

直播道具高可用建设

根据2022年第四季度的财报数据显示，B站在跨年晚会期间的直播人气峰值达到了3.3亿。直播业务对于B站来说是一个重要的增长点，而道具投喂（赠送礼物，后面统称为道具投喂，礼物统称为道具）在直播业务中扮演着重要的角色。在这篇文章中，介绍了如何确保直播道具相关系统的高可用性，以实现99.99%的稳定性目标。文章将分为三个部分，分别是道具面板，道具投喂和多活。

Meta最新开源图形库IGL，star近2k，支持游戏开发、3D建模

IGL 是一个可直接调用 GPU 的跨平台图形库，通过底层跨平台接口封装了常见的 GPU 功能。Meta 称 IGL 的特性包括：跨平台兼容、高性能渲染、易于使用的 API、可扩展、完全开源、可用于任何项目，并且没有任何许可限制。

“Hey Siri”要成为历史了。

今年 6 月，iOS 17 发布开发者版本，其中一个很有意思的改动是“Hey Siri”将没有“Hey”了——用户仅需说“Siri”就能唤醒语音助手。但就是这么一个简单的变化，却愁坏一大堆程序员。从去年年末消息放出到现在将近半年，iOS 依然没有正式更新该功能。拿走一个“Hey”，对语音助手来说有多难？

达摩院FunASR离线文件转写SDK发布，完成工业落地“最后一公里”

FunASR是由达摩院语音实验室开源的一款语音识别基础框架，集成了语音端点检测、语音识别、标点断句等领域的工业级别模型，吸引了众多开发者参与体验和开发。

语音合成中的Lora，插件式speaker开发

语音合成中的Lora，插件式speaker开发，语音克隆的未来。

苹果Vision Pro中文开发教程汇总

这篇文章介绍了将Unity VR应用带入完全沉浸式空间、开始构建空间计算应用等7个教程。

手持移动设备上凝视估计及其交互应用的全面综述

近年来，我们见证了越来越多的手持移动设备上采用凝视作为单一或辅助交互方式的互动系统。这一趋势是由这些设备的增强计算能力、更高分辨率和相机容量以及先进的机器学习技术（尤其是深度学习）所带来的凝视估计精度的提高驱动的。这篇文章旨在通过呈现一个端到端的综合视角来实现这一目标，从凝视捕捉传感器、凝视估计工作流程、深度学习技术到凝视交互应用的全面综述。

https://dl.acm.org/doi/10.1145/3606947

谷歌还能撑得起XR的野心吗？

苹果推出了有着划时代意义的Vision Pro，科技圈为此兴奋不已。Vision Pro公布数日后，谷歌CEO桑达尔·皮查伊（Sundar Pichai）在一次采访中还表达过对Vision Pro的看法：“我对这项技术的潜力感到兴奋。”

但几周后却传来谷歌停止开发AR眼镜项目“Iris”的消息，回想近些年谷歌在AR方面的投入，令人唏嘘。

EPIQ 2020 | SHVC based HTTP Adaptive Streaming over QUIC

这篇文章研究了QUIC和HTTP/2对ABR算法性能的影响。此外，提出了一种有效的方法，结合了传统的视频流传输方法（基于非可扩展视频编码格式）和一种重传技术，以利用可扩展视频编码格式进行自适应视频流传输。实验结果表明，在丢包和重传的情况下，QUIC从这种方法中获得了显著的好处。与HTTP/2相比，它提高了平均视频质量，并提供了更平滑的自适应行为。最后，本文证明了最初针对非可扩展视频编解码器设计的方法在可扩展视频（如可扩展高效视频编码，SHVC）上也能有效地工作。

B站“横竖”都要

被短视频“冲击”一年后，中长视频能否如愿“逆天改命”？

对话中科深智成维忠：数字人的关键是交互，交互的关键是大模型

成维忠一直相信，人是未来 3D 交互的重中之重，而这种与“人”的交互，则必须通过 AI 和大模型来完成。

LiveVideoStackCon 2023 上海站日程发布

LiveVideoStackCon 2023 上海站音视频技术大会以「沉浸·新视界」为主题，除了探索音视频技术在不同场景下的融合与发展外，还增添了游戏、AIGC和数字化行业案例等新鲜火爆的话题。在这里，你可以感受到多媒体生态内的头部公司、顶级玩家对行业当前发展趋势、瓶颈挑战，与对未来规划的深入解读。

我们将邀请60余位顶级讲师聚集一堂，与你共同分享他们的专业见解。这是一个与业内顶尖专家进行深入交流的绝佳机会，你将有机会亲自与他们面对面，从他们丰富的经验中获得宝贵的技术心得。