音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

日程揭晓！速览深圳站大会专题议程详解

LiveVideoStackCon 2023 音视频技术大会深圳站，保持着往届强大的讲师阵容以及高水准的演讲质量。两天的参会时间，您可以快速了解音视频大咖前瞻的思想、把握音视频技术发展的最新动向、深入学习技术内容和工程化方面的一手实践。现在，深圳站大会日程正式揭晓，一起来看看您所关注的演讲都出现在哪些时段吧！
●时间：2023年11月24日-25日
●地点：深圳圣淘沙酒店（翡翠店）
●咨询：13520771810（微信同号）了解详情。
●官方链接：https://sz2023.livevideostack.com/topics

「专题速递」数据驱动赋能、赛事直播优化、RTC技术、低延时传输引擎、多媒体处理框架、GPU加速

在【抖音背后的体验增长实战揭秘】专题中，我们将深入解析抖音背后的体验增长实践，结合抖音拥有的亿级日活跃用户所沉淀的经验，剖析在大规模用户背景下如何实现降本增效。

扫描二维码，免费报名火山专场演讲。

首个人体动捕基模型面世！SMPLer-X：横扫七大榜单｜NeurIPS 2023

想要快速制作角色动画，但是没有动捕设备？快来试试SMPLer-X！

吴恩达加入图灵三巨头混战，炮轰Sam Altman：AI监管「不会管不如不管」，LeCun转赞

针对「AI末日论」引发的大佬们关于AI监管的口水战，吴恩达下场力挺LeCun：「不合格的监管不如不要监管」！

用童话训练AI模型，微软找到了探索生成模型参数的新切入点

即便大语言模型的参数规模日渐增长，其模型中的参数到底是如何发挥作用的还是让人难以琢磨，直接对大模型进行分析又费钱费力。针对这种情况，微软的两位研究员想到了一个绝佳的切入点，用生成简练但是又涵盖各种常见逻辑和语法的童话故事来作为模型的生成任务，这样做能在减少模型的学习负担的同时，保留模型对逻辑和语法的学习能力，进而用小模型来分析参数发挥的作用。这种方法可能会开创一条新的研究道路。

港大等发布GraphGPT：1/50微调参数，准确率提升10倍！无需超长token，LLM也能读懂图结构

GraphGPT框架将图结构模型和大语言模型进行参数对齐，利用双阶段图指令微调范式提高模型对图结构的理解能力和适应性，再整合ChatGPT提高逐步推理能力，实现了更快的推理速度和更高的图任务预测准确率。

8张3090，1天压缩万亿参数大模型！3.2TB骤降至160GB，压缩率高达20倍

最近，来自ISTA的研究人员提出了一种全新的模型量化方法QMoE，可以将1.6万亿个参数的SwitchTransformer压缩到160GB以下（每个参数0.8位），且精度损失很小。

多模态大模型幻觉降低30%！中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟

最近，来自中科大等机构的研究人员提出了首个多模态修正架构「啄木鸟」，可有效解决MLLM输出幻觉的问题。

基于Transformer和注意力的可解释核苷酸语言模型，用于pegRNA优化设计

核苷酸语言模型用于预测 pegRNA 的效率和设计优化。

SupSLAM：使用SuperPoint用于无人机的鲁棒视觉惯性 SLAM 系统

近年来，使用机器学习技术进行特征提取的现代基于特征的 SLAM受到越来越多的关注，并有望在几乎所有机器人工作环境中超越传统方法。这种方法利用经过训练的网络来学习关键点，从而增强视觉SLAM数据关联的鲁棒性。

港中文新发布|超逼真！基于隐式结构扩散的超逼真人像生成！

HyperHuman，用于生成高度逼真和多样化布局的野外人类图像。

中科院自动化所和图森联合开源FSD V2：通过虚拟体素改进的全稀疏三维物体检测

基于LiDAR的全稀疏架构引起了越来越多的关注。FSDv1作为代表性的工作在效能和效率方面表现出色，尽管具有复杂的结构和手工设计。在本文中，我们介绍了FSDv2，这是FSDv1的升级版本，旨在简化以前的FSDv1，同时消除其手工设计的实例级表示引入的归纳偏差，从而提高更好的通用适用性。为此，我们引入了虚拟体素的概念，取代了FSDv1中基于聚类的实例分割。虚拟体素不仅解决了全稀疏检测器中臭名昭著的中心特征缺失问题，还赋予了框架更加优雅和简化的方法。

Quest 3，差强人意

Meta Quest 3 的包装盒非常小，仅有 Quest 2 的一半左右。包装尺寸为 22.1 x 21.5 x 12.6 cm，达 1.44 kg。

主攻AR细分赛道，元霓Xrany X1背后的产品与技术思考

元霓Xrany X1 AR智能眼镜套装从硬件设计到软件适配，都从文旅展陈场景的实际应用出发，考虑场景的规模化发展和运营，满足游客在体验过程中的智慧化沉浸式体验。

开发者探索用Quest 3+PC渲染改善MR情景的虚拟屏幕显示效果

屏幕可以非常逼真地照亮附近的表面，以及图像能够反射到桌面之上。另外，虚拟屏幕的全彩透视效果相当不错。

行业观察 | AI时代下，半导体“芯”核心——光芯片

本期继续推出系列内容，介绍半导体产业链中的技术、代表性企业、发展趋势和热点，并继续探索半导体产业中的知识产权和科创板问题。

苹果M3芯片，深度解读

苹果公司本周发布了新一代 M 系列 Apple Silicon 处理器，并随之推出了新一代 MacBook Pro，为新处理器发布的繁忙月份画上句号。

谷歌官宣：安卓全面支持RISC-V

Google 显著推进了让 Android 在使用 RISC-V 指令集架构的 CPU 上运行的努力。

全球最强长文本大模型，一次可读35万汉字：Baichuan2-192K上线

国内大模型创业公司，正在技术前沿创造新的记录。10 月 30 日，百川智能正式发布 Baichuan2-192K 长窗口大模型，将大语言模型（LLM）上下文窗口的长度一举提升到了192K token。

声波控制原子空位可增强通信技术，为量子计算提供新的控制机制

声波控制原子空位可增强通信技术，为量子计算提供新的控制机制。

研究人员揭示了极性反铁磁体中巨大的波动增强声子磁矩

声子是晶格振动的集体激发，是固体中最常见也最重要的准粒子之一。通常声子被认为不具备磁矩，但如果其能获得与电子相当的磁矩，则将为基础磁学研究和自旋器件设计提供全新可能。近日，南京大学物理学院张琦、温锦生、孙建与中科院物理所万源合作攻关，在声子磁性研究领域取得重要进展。通过光谱学手段，研究团队发现了反铁磁体系Fe2Mo3O8中巨大的声子磁矩，并且首次观测到自旋涨落对声子磁矩的增强，高达600%，相应声子磁矩达到0.68 玻尔磁子（μB），已接近电子磁矩量级。

FFmpeg直播能力更新计划与新版本发布

客户端作为直接面向用户大众的接口，随着技术的发展进化与时俱进，实现更好的服务是十分必要的。FFmpeg作为最受欢迎的视频和图像处理开源软件，被相关行业的大量用户青睐，而随着HEVC标准的发布到广泛使用，相信国内很多网络流媒体从业者都在长期关注FFmpeg FLV支持HEVC的官方更新。LiveVideoStackCon 2023 上海站邀请了来自快手的音视频首席架构师刘歧，为大家带来他关于FFmpeg 直播能力的更新计划。

「专题速递」数据驱动赋能、赛事直播优化、RTC技术、低延时传输引擎、多媒体处理框架、GPU加速

随着全行业视频化的演进，营销、知识、商业和空间的交互体验正在被重塑。这种变化不仅仅是一种抽象的趋势，更是关系到用户留存和业务增长的关键因素。面对这样的挑战，一个关键的问题摆在我们面前：如何寻找到体验、成本与增长之间的平衡之道？