音视频技术开发周刊

音视频技术开发周刊 | 294

news2026/2/12 12:48:49

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

五问「ChatGPT+医学影像」：新一代的 AI 能否成为放射科医生的一把利器？

在医学等专业性较强的领域内，ChatGPT的表现还不够好，如果想将ChatGPT应用到医学影像之中，多模态学习必不可少。医学领域中目前存在很多的图像、音频、文本等不同种类的数据，必须利用多模态学习将其进行结合，才能应用在临床工作中。

SAP与微软合作，通过ChatGPT简化招聘流程

通过此次合作，SAP将微软的多项类ChatGPT功能集成在人力资源解决方案SAP Success Factors中，通过自然语言就能生成职位描述、面试问题等，加速人才招聘流程。

谷歌通过强化学习来优化电子商务推荐系统

传统的推荐系统往往只关注单一目标，如点击率或购买率，而MORL则可以同时考虑多个目标，例如用户满意度、收益和转化率等。通过对这些目标进行综合权衡，谷歌团队的推荐系统可以更加准确地预测用户的偏好并提供更有针对性的推荐。

https://ai.googleblog.com/2023/05/using-reinforcement-learning-for.html

LLM Accelerator：使用参考文本无损加速大语言模型推理

由于大模型的参数量巨大、推理成本高，因此如何在大规模部署大模型的过程中降低成本、减小延迟是一个关键课题。针对此问题，微软亚洲研究院的研究员们提出了一种使用参考文本无损加速大语言模型推理的方法 LLM Accelerator，在大模型典型的应用场景中可以取得两到三倍的加速。

ChatGPT之父舌战国会山！OpenAI欲与政府联手，权力通天

北京制定通用人工智能创新措施，这21项值得关注

一种高效模拟大型室内声学的方法

室内声学建模和仿真的一个挑战是准确模拟一个房间内全部频率范围内的声学性能。这篇文章讨论了在 COMSOL Multiphysics® 软件中对室内声学进行建模的一种混合方法，就是将多种方法的结果集成到一个模型中，来提高准确性并确保方法的可行性。接下来，我们来看看如何做到这一点。

音频品鉴与歌唱评价——音频内容理解实践

本次LiveVideoStackCon 2022 北京站邀请到腾讯音乐天琴实验室高级研究员——江益靓，为大家介绍全民K歌的多维度评价技术和深度歌唱评价技术的实践，以及优质内容挖掘中使用的音频品鉴系统。

为什么我们能判断声音的远近 - 初始时间延迟差的作用

本文以初始时间延迟差为例，来介绍应该如何设计对应的听力测试，探究其在双耳距离感知中的作用。

SMPTE Motion Imaging Journal 2023 | COTS实用媒体处理平台构建案例

为了在商用非专用硬件上使用来自不同供应商的元素构成可扩展的基于软件的广播系统，并避免在设施和云中的锁定，需要采用混合多云方法。作为一个案例研究，本文构建了一个可扩展的边缘平台，用于转码、人工智能（AI）推理和其他视频和音频处理。多架构、容器化应用程序使用 Kubernetes 进行部署和管理。

使用FFmpeg模拟视频播放列表的实时流

本文展示了如何使用FFmpeg生成一个m3u8播放列表文件以及相关的ts媒体文件，并通过本地服务器将其提供给客户端进行播放。此外，文中还讨论了一些常见问题和解决方案，例如如何处理不同分辨率的视频、如何支持HTTPS等等。

https://www.mux.com/blog/simulate-a-live-stream-of-a-video-playlist-with-ffmpeg

SRT 技术是如何改变现场视频直播的？

据2023年的HAIVISION的广播转型报告显示：SRT已经成为互联网直播视频传输最常用的流媒体协议。2023年，SRT联盟成立六周年，成员超600人。

https://www.haivision.com/blog/broadcast-video/live-video-evolves-with-srt-technology-and-the-internet/

2023年4月云服务行业动态及热点研究月报

本报告是基于对2023年4月份的数据中心、基础云、SaaS和行业云等赛道动态的调查整理而成。

BITMOVIN | 容器格式通用指南

容器格式是一种将多个数据流嵌入到单个文件中的方式，常用于在线视频、下载电影或使用流媒体服务中。常见的容器格式包括MP4、MKV、AVI和MOV等。本文从基本的专业术语到各种容器文件类型（包括MP4、CMAF、MPEG-TS、Matroska）都作了详细介绍。

MSU 视频编解码器比较 2022

这是MSU 的十七个年度视频编解码器比较。

http://www.compression.ru/video/codec_comparison/2022/cloud_report.html

如何将视频的转码速度提升100倍？

本文介绍了如何通过使用多个编码器（Encoder）和多个服务器来实现视频转码的加速，以及如何使用分布式计算框架来划分和并行处理任务。同时，它还提到了一些优化技巧，例如调整编码器参数和使用更高效的编码格式等等，以进一步提高转码速度。

https://www.mux.com/blog/how-to-transcode-video-100x-faster-or-a-gordian-knot-cut

音视频编解码--数字图像系列

消息称苹果对发布AR/MR头显已准备充分

立讯独家代工、Sony独供MicroOLED、台积电独供处理器......

2023CSIG多媒体技术大会将在5月18-5月20日举行

LIveVideoStackCon2023上海站九折期优惠进行中

https://sh2023.livevideostack.cn/tickets

Instruct-NeRF2NeRF: 引导并编辑NeRF

本文提出了一种通过文本来编辑 NeRF 场景的方法。给定一个 NeRF 场景及用于重建它的多视角图像，本方法利用图像条件扩散模型InstructPix2Pix对输入图像进行迭代编辑，并同时优化底层场景，从而得到一个符合编辑指令的优化 3D 场景。

NeRF如何帮助我重新想象世界

为了训练NERF，作者收集了大量真实世界中的图像和深度数据，并使用它们来生成训练样本。然后，作者使用NVIDIA的Triton Inference Server将经过训练的NERF模型部署到云服务器上，以便将其应用于新的图像和视频。

https://developer.nvidia.com/blog/how-nerfs-helped-me-re-imagine-the-world/

为什么目前落地的主流SLAM技术很少用神经网络进行特征提取？

ICRA 2023 同济&港科大开源：高精度、实时的端到端法向量估计方法

同济大学MIAS group与香港科技大学IADC近期发表的 ICRA 2023论文《D2NT: A High-Performing Depth-to-Normal Translator》提出高精度、实时的端到端法向量估计方法，性能超越现有 SoTA 算法，为现实场景下法向量数据集提供新的标定范式。相关代码已开源。

ICLR 2017｜PIXELCNN++：通过离散逻辑混合似然和其他修改改进 PIXELCNN

PixelCNN 是一个强大的模型，因为这些条件的函数形式非常灵活。除了图像建模，PixelCNN 还被扩展到音频、视频、文本建模。本文对 PixelCNN 基本模型进行了大量修改，以简化其结构并提高其性能。

OpenGL Shader 编程基础-绘制基础图形