音视频技术开发周刊 | 295

news2024/12/22 19:45:57

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

196da72417633c8aaff8451e21976b5f.png

微软炸通Windows与ChatGPT全家桶!人手一个Copilot,AI宇宙降临

三位OpenAI掌舵人亲自撰文:我们应该如何治理超级智能?

OpenAI 的三位联合创始人——CEO Sam Altman、总裁 Greg Brockman、首席科学家 Ilya Sutskever 共同撰文探讨了如何治理超级智能(superintelligence)的问题。他们认为,现在是开始思考超级智能治理的好时机了--未来的人工智能系统甚至比AGI的能力还要大。 

InstructPix2Pix: 用于图像编辑的动态扩散模型

本文提出了一种协作扩散模型,无需重新训练已有的单模态扩散模型便可实现多模态的人脸合成与编辑。这个方法在图像质量和条件一致性方面表现出优越性。

FreestyleNet:自由式布局到图像生成

本文提出了一个基于diffusion model的框架,即FreestyleNet,其可以从给定的布局(layout)生成包含丰富语义的图像。

天琴实验室发布三项开源大模型加速版本

天琴实验室MUSELight大模型推理加速引擎已在HuggingFace公开发布三个lyra系列模型的加速版本,具体可关注HuggingFace主页:TMElyralab。

22ddc5f0ccc0e10ac44a239efdc6b796.png

生成式 AI 与版权法

当下的主要问题集中在使用版权作品作为训练数据是否侵犯版权,以及人工智能程序的输出是否侵犯使用图像的衍生作品。

生成式AI,可以设计芯片了

百闻不如一试,目前PaLM 2已经在谷歌的Bard平台上线开放公测,因此作者也尝试使用Bard去体会了一把PaLM 2生成Verilog代码的能力。

AIGC新玩法:任意模态输入、任意模态输出

使用AI技术,帮助听力障碍者更好地生活

英特尔宣布了帮助听力损失者的新技术,其中包括一种可以实时转录语音的AI系统。系统内置于名为 SoundWatch 的应用程序中,该应用程序使用机器学习算法来检测和识别声音,它还可以为火警或门铃等重要噪音提供警报。此外,英特尔还开发了一款新的无线耳塞原型,可以帮助用户在嘈杂的环境中更好地听到对话。这些新技术有可能大大改善听力损失者的生活质量。

https://www.intel.com/content/www/us/en/newsroom/news/intel-brings-more-tech-people-with-hearing-loss.html#gs.ykq823

b4b50952f14eea080734b215ae1f5132.png

LIveVideoStackCon2023上海站九折期优惠进行中

https://sh2023.livevideostack.cn/tickets

3dca0f09378a51dfcd10964c2a66e867.png

电脑屏幕上的奇怪波纹究竟是什么? 

连续可变码率的非对称增益深度图像压缩

本文提出了一个连续码率可调的深度学习图像编码框架,即非对称增益变分自动编码器(AG-VAE)。AG-VAE利用一对增益单元在一个单一的模型中实现离散可变码率,其额外的运算量可以忽略不计。然后,通过使用指数插值的方式,在不影响性能的情况下实现连续可变适应。

43a733d97a81c2e1bc7390267c13c5d7.png

用于联合视频和图像视觉变换器的稀疏视频管

介绍了一种新的视频分析方法,称为Sparse Video Tubes (SVT),可用于联合视频和语音处理任务。该方法使用深度学习模型来自动检测人类行为,并在视频中提取出相应的运动物体轨迹。使用此技术,可以更准确地识别和跟踪人类行为。而且,这种技术对于机器学习算法的计算量要求较低,能够处理更大规模的视频数据集。

https://ai.googleblog.com/2023/05/sparse-video-tubes-for-joint-video-and.html

媒体传输协议的演进与未来

LiveVideoStackCon 2022北京站邀请到快手传输算法负责人周超,结合快手在媒体传输上的优化与实践,基于快手KTP、KLP、LAS等协议和标准,为我们介绍了媒体传输协议的演进与面临的挑战;还分享了最新的媒体传输标准CMTP,探索未来更多可能。

海量视频处理的应对和算法实践

LiveVideoStackCon 2022 北京站邀请到沐曦AI解决方案总监——虞新阳,为大家梳理视频处理的需求及介绍沐曦应对视频处理场景的GPU产品等。

08041dd909aebab3c4426129352904d7.png

车载音响系统主观音效的客观量化

本文提出了一个连续码率可调的深度学习图像编码框架,即非对称增益变分自动编码器(AG-VAE)。AG-VAE利用一对增益单元在一个单一的模型中实现离散可变码率,其额外的运算量可以忽略不计。然后,通过使用指数插值的方式,在不影响性能的情况下实现连续可变适应。

神经编码技术可以提高音频数据恢复效率

本文介绍了一项使用神经编码技术来提高音频数据恢复效率的研究。与传统的音频编码器相比,DARE 编码器产生的编码语音数据更加稀疏和冗余,这使得丢失的音频数据包可以更有效地恢复。通过实验,研究人员发现,DARE编码器和基于神经网络的解码器组合能够在不损失音频质量的情况下,显著提高音频数据恢复的效率。这项研究对音频数据传输和存储方面有着重要的应用价值,可以帮助提高音频数据的可靠性和安全性。

https://www.amazon.science/blog/neural-encoding-enables-more-efficient-recovery-of-lost-audio-packets

4e640344eb3cdf68670b013e0ee214dd.png

NVIDIA 视频编解码器 SDK 加速了新的视频创建和流媒体功能

介绍了NVIDIA Video Codec SDK的最新功能,该SDK是一组用于视频编解码的API,其中包括实时视频编码、快速GPU加速转码以及基于AI的视频增强。此外,该SDK还支持使用CUDA进行硬件加速的视频渲染和处理,可以帮助开发人员提高视频编辑和流媒体应用程序的性能和效率。

https://developer.nvidia.com/blog/new-video-creation-and-streaming-features-accelerated-by-the-nvidia-video-codec-sdk/

ffplay 播放器源代码分析

ffplay 是 FFMpeg 自带的播放器,使用了 ffmpeg 解码库和用于视频渲染显示的 sdl 库,也是业界播放器最初参考的设计标准。本文对 ffplay 源码进行分析,试图用更基础而系统的方法,来尝试解开播放器的音视频同步,以及播放/暂停、快进/后退的控制原理。

音视频编解码--多媒体格式系列开篇

183208b2afe538efea37f21ae812ad03.png

DeepRS:用于实时视频通信的基于深度学习的网络自适应 FEC 

---提出了一种新的 FEC 算法 DeepRS,它利用深度神经网络预测网络丢包,动态调整冗余率,显着提高 FEC 方案的效率。DeepRS应用 RS 编码算法对视频块进行编码,并提出了一种基于长短期记忆(LSTM)网络的丢包预测方法。在总冗余率固定的情况下,DeepRS 的恢复率比对比算法高 70%,并且 DeepRS 可以在任何网络动态下实现自适应 FEC 冗余。

a1c21bdfc13d80805c7660e01f8c2f00.png

ChatGPT浪潮下,看中国大语言模型产业发展

本篇报告将着重分析“ChatGPT的成功之路”、“中国类ChatGPT产业发展趋势”、“ChatGPT应用场景与生态建设”、“ChatGPT浪潮下的‘危’与‘机’”四个问题。

85ca831a51244bc18c874dc6a4e31a66.png

Microsoft Mesh:改变人们在现代工作场所的互动方式 

微软推出新技术 Microsoft Mesh,旨在通过混合现实、虚拟现实和增强现实等技术,改变人们之间互动和协作的方式。Microsoft Mesh 将提供一个跨平台的生态系统,允许用户在不同设备上共享虚拟空间,并进行实时协作。文章还介绍了一些具体应用场景,比如在远程办公、教育、社交娱乐、医疗等领域中使用 Microsoft Mesh 可以带来很多便利和创新。

https://techcommunity.microsoft.com/t5/microsoft-teams-blog/microsoft-mesh-transforming-how-people-come-together-in-the/ba-p/3824898

c5276971f79a8b66cd3ce1b7aa10b767.png

实时互动下视频 QoE 端到端轻量化网络建模

LiveVideoStackCon 2022北京站邀请到郑林儒老师为我们介绍视频体验数据库的建立、视频画质评估建模及其端上轻量优化。

4d3d844512908fabf8bbffc1056dc29a.png

流媒体不关心共享账号——一切都取决于定价 

作者提出了一个有趣的观点:流媒体服务商其实并不太在乎共享账号,因为他们更关心的是价格。文章指出,共享账号可能会导致一些潜在的收入损失,但相对于流媒体服务的总收入来说,这个影响并不大。相反,如果流媒体服务定价太高,用户就会更倾向于共享他们的账号和密码。因此,作者建议,流媒体服务商应该更关注定价策略,以便提供具有吸引力的价格,从而减少用户共享密码的动机。

https://www.streamingmedia.com/Articles/Post/Blog/Streamers-Dont-Care-About-Password-Sharing---It-All-Comes-Down-to-Pricing-158768.aspx



e12ed564944a342c285fd88c8c7835dc.png

扫描图中二维码或点击“阅读原文 

查看更多LiveVideoStackCon 2023上海站精彩话题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/582322.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《Opencv3编程入门》学习笔记—第一章

《Opencv3编程入门》学习笔记 记录一下在学习《Opencv3编程入门》这本书时遇到的问题或重要的知识点。 第一章 邂逅opencv 参考推荐软件版本:visual studio2010 opencv2.4.9 visual studio安装教程: https://blog.csdn.net/qq_45768871/article/details/1081788…

LeetCode链表题(中等)剖析

文章目录 💐文章导读💐1.合并零之间的结点解题思路 💐2.链表中最大孪生和解题思路 💐3.链表的随机节点解题思路 💐4.复杂链表的复制解题思路 💐5.两辆交换两表中的节点解题思路 💐文章导读 &…

【深圳触觉智能技术分享】RK3568 RK809电量计电池调试

本文基于IDO-SBC3568主板介绍说明PMIC RK809电量计的调试方法。 IDO-SBC3568-V1是一款基于RK3568的工控主板,采用22nm先进工艺制程,四核A55 CPU,主频高达2.0GHz,支持高达8GB高速LPDDR4,1T算力NPU ,4K H.26…

如何在Allegro软件中快速复制走线和过孔?

在PCB设计过程中,快速而准确复制走线和过孔是提高设计效率和减少重复工作的关键所在,因此很多工程师会选择使用Allegro来复制走线和过孔,因为Allegro是一款功能强大且灵活的PCB设计软件,提供了多种工具和功能,自然包括…

springboot+java汽车配件销售业绩管理系统 J2EE平台技术

汽车配件销售类企业近年来得到长足发展,在市场份额不断扩大同时,如何更好地管理企业现有销售项目资源成为摆在该类企业面前的重要课题之一。本次打算开发的springboot汽车配件销售业绩管理系统的开发过程引用 J2EE平台技术,该平台中所包含的JDBC、JNDI等组件,规定访问数据库的形…

swagger页面 doc.html出不来,swagger-ui/index.html能出来

swagger页面 doc.html出不来,swagger-ui/index.html能出来。前前后后折腾了很久,jar包冲突,jar包版本,添加路径啥的都弄了,就是出不来。 后来全局搜索“doc.html”页面发现能出来的项目能搜到这个页面: 定…

大数据测试基础概念和工具

下方查看历史精选文章 重磅发布 - 自动化框架基础指南pdfv1.1大数据测试过程、策略及挑战 测试框架原理,构建成功的基石 在自动化测试工作之前,你应该知道的10条建议 在自动化测试中,重要的不是工具 大数据已经成为当今的热门话题&#xff0c…

提高客户转介绍率的7个方法,让你的客户成为你的推广大使!

都知道“客户转介绍”,是一种非常有效的商业推广方式。通过客户的口碑传播,我们能够吸引更多潜在客户,并建立起长久稳固的合作关系。 可以说,这种开拓客户的方法:耗时少、成功率高、成本低、客户较优质,称…

掌握Lazada、Shopee店铺运营的黄金法则:测评自养号技巧

在Lazada、Shopee这个东南亚最大的电商平台上,要想成功运营你的店铺并不容易。然而,如果你掌握了以下这些黄金法则,并有效地运用测评自养号的策略,你的店铺就有可能大幅提升销售并在竞争中脱颖而出。 1. 理解你的市场 首先&…

九耶丨阁瑞钛伦特-springmvc(三)

SpringMVC作为一种流行的Java Web框架,是基于Spring之上的。它提供了强大的MVC(Model-View-Controller)架构,能够快速地实现Java Web开发,高效地与数据交互。如何使用SpringMVC成为开发人员的首要问题。要了解SpringMV…

边缘计算盒子都有哪些规格?一文带你了解边缘计算云服务器 ECS

上一次我们详细讲述了,在日常生活中我们能够随时随地看到的“白色盒子”是边缘服务器 ECS,包括边缘服务器 ECS 具体的用途是什么,也为大家逐一进行了科普。 感兴趣的小伙伴欢迎阅读以往文章: 什么是边缘计算盒子?边缘计…

用代码拔高你对整型提升与unsigned,signed的理解

🤩本文作者:大家好,我是paperjie,感谢你阅读本文,欢迎一建三连哦。 🥰内容专栏:这里是《C语言》专栏,笔者用重金(时间和精力)打造,基础知识一网打尽,希望可以…

Linux下通过 rm -f 删除大量文件时报错:Argument list too long

Linux下通过 rm -f 删除大量的小文件时出现类似如下错误信息: -bash: /bin/rm: Argument list too long 如下图所示: 问题原因 如果待删除文件中包含的小文件数量过多,通常是由于受到 shell 参数个数限制所致。 这个是Linux系统存在的限制&…

若依源码解析:代码生成ruoyi-generator

文章目录 摘要代码生成器的使用数据库连接配置数据库表设计代码生成器配置修改mybatis别名配置,增加对com.cyl包名的识别修改mybatis的mapper扫描包路径 代码生成代码输出模板配置 代码生成器原理模板引擎:Velocity使用Velocity模板引擎的一般流程模板语…

前端技术搭建贪吃蛇小游戏(内含源码)

The sand accumulates to form a pagoda ✨ 写在前面✨ 功能介绍✨ 页面搭建✨ 样式设置✨ 逻辑部分 ✨ 写在前面 上周我们实通过前端基础实现了井字游戏,今天还是继续按照我们原定的节奏来带领大家完成一个贪吃蛇游戏,功能也比较简单简单,也…

第四章 Text

目录 TextFontsGlyphsFont TypesThe Font DictionaryEncodings Text StateFont and SizeRendering Mode Drawing TextPositioning TextWhat’s Next Text 在本章中,您将学习如何在页面上绘制文本。 绘图文本是 PDF 图形中最复杂的部分,但它也是帮助 PDF…

【Netty】Netty中的超时处理与心跳机制(十九)

文章目录 前言一、超时监测二、IdleStateHandler类三、ReadTimeoutHandler类四、WriteTimeoutHandler类五、实现心跳机制5.1. 定义心跳处理器5.2. 定义 ChannelInitializer5.3. 编写服务器5.4. 测试 结语 前言 回顾Netty系列文章: Netty 概述(一&#…

太坑了,盘点BeanUtils.copyProperties的11个小坑

我们日常开发中,经常涉及到DO、DTO、VO对象属性拷贝赋值,很容易想到org.springframework.beans.BeanUtils的copyProperties 。它会自动通过反射机制获取源对象和目标对象的属性,并将对应的属性值进行复制。可以减少手动编写属性复制代码的工作…

“游蛇”大规模邮件攻击针对中国用户

近半年黑客团伙频频对我国实施攻击活动。研究人员发现,“游蛇”黑产团伙自2022年下半年开始至今,针对中国用户发起了大规模电子邮件攻击活动。 黑客使用电子邮件在内的多种传播方式。 该团伙利用钓鱼邮件、伪造的电子票据下载站、虚假应用程序下载站、…

eclipse固件库生成的操作流程

一.方法介绍 有时候我们需要将某个功能模块封装成一个库,只留出接口供别人使用,那么就需要打包处理,eclipse是如何操作的呢?本文仅仅讨论我所知道的两种方式,倘若还有更简便的方法也非常欢迎网友补充。 1.在已有的工…