音视频技术开发周刊 | 297

news2024/12/24 2:06:43

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

b266316d44629adf17084863ed1de0ab.png

Geenee AR为品牌商和零售商提供虚拟试穿应用

这意味着Geenee AR的虚拟试穿解决方案能够与品牌商现有的销售渠道无缝集成。

谁说苹果掉队了?WWDC上只字未提AI,却已低调入场大模型

尽管苹果没有在 WWDC 上谈论AI 大模型,但他们介绍了一些基于 AI 的新功能,如改进iPhone 的自动更正功能,当你按下空格键时,它可以完成一个单词或整个句子。该功能基于使用 Transformer 语言模型的 ML 程序,使自动更正比以往任何时候都更加准确,而 Transformer 是支持 ChatGPT 的重要技术之一。

d58fb5ab946a67262cfc73cc25799f95.png

用于开源项目的 ChatGPT 驱动的代码审查器机器人

ChatGPT可以审查代码了:作者利用开源的ChatGPT制作的代码审查机器人,可以进行代码审查,并提供有关代码质量、安全性和最佳实践方面的反馈。

https://www.cncf.io/blog/2023/06/06/a-chatgpt-powered-code-reviewer-bot-for-open-source-projects/ 

使用 SQuId 评估TTS模型

文章评估了TTS的系统表现。作者介绍了一种名为“ManyEars”的自动评估框架,该框架可以同时处理多个声学和语言特征,并使用机器学习算法来生成客观的质量评估指标。他们还提出了一种基于GAN(生成对抗网络)的数据增强方法,以帮助改善TTS模型的性能。 

https://ai.googleblog.com/2023/06/evaluating-speech-synthesis-in-many.html

视觉字幕:使用大语言模型通过动态视觉效果增强视频会议

本文介绍了一个新的视觉字幕生成模型,该模型使用大语言模型训练,自动生成对图像的描述。该模型在未来可能会被用于诸如辅助无障碍输入、图像搜索和自动图像描述等领域。

https://ai.googleblog.com/2023/06/visual-captions-using-large-language.html、

 d864cedbb0a209ddfb848fcc235e000d.jpeg

高翔博士分享:单目SLAM在移动端应用的实现难点有哪些? 

华为手机的"超光谱摄像头"

英伟达发布Neuralangelo,借助神经网络将2D视频转换为更精细的3D结构

Neuralangelo可以生成雕塑的具有复杂细节和纹理的3D结构。然后,创意专业人士可以将这些3D对象导入设计应用程序,进一步编辑它们以用于艺术、视频游戏开发、机器人和工业数字孪生等应用。

f1cbaf841d2b88d53a230b2265853978.png

要能力、要稳定也要降本——百度多媒体技术回顾

多媒体技术生态进入到存量市场,客户既要又要还要成为常态。如何将能力、质量与稳定性、成本不断优化,就是各个多媒体技术平台的必修课。本文以百度智能视频云为例,纵览了其在RTC、边缘计算、视频编码等关键能力与用户体验和成本优化的经验。 

11188d4e86582ee145b7552709d3961d.png

如何正确选择恰当的传声器? 

音视频问题汇总--如何兼容实时音视频加密?

音频格式--PCM介绍

基于语音识别的弱监督联合学习

具体来说,该方法使用一个中央服务器来协调各个客户端的模型更新。服务器首先从未标记的数据中提取出尽可能多的信息,并将其与客户端提供的少量标记数据结合起来训练一个初始模型。然后将该模型下发给各个客户端,并根据客户端反馈的准确率和数据分布情况来调整模型参数。最终,所有客户端的模型会被合并,形成一个全局模型。

https://www.amazon.science/blog/federated-learning-with-weak-supervision-for-speech-recognition

b363b5e63cd9affa32bfea4c3c8b5ef2.png

深度视频预编码

本文提出了一个深度视频预编码框架,其核心预编码组件包括一个级联结构的降尺度神经网络,在视频编码期间、传输之前操作。

百度视频质量评测的实践之路

LiveVideoStackCon 2022北京站邀请来自百度的王伟老师为大家介绍百度视频质量评测的发展之路 。

 54e656424702875705d00ab63b5ed881.png

苹果封神头显Vision Pro竟暗藏「脑机接口」!苹果前员工疯狂揭秘读心操控

其实,这是苹果通过算法来监视你的眼睛行为,并实时重新设计UI,以创建更多这种预期的瞳孔反应,从而创建个人大脑的生物反馈。这就是通过眼睛实现的初级「脑机接口」。 

87f5e32e0fa383a57238a646124278a8.png

一文读懂苹果 Vision Pro:最好最贵的头显,重新定义下一代计算

与过去所有的 VR/AR 平台相比,Vision Pro 的出现开创了一个新的纪元。从人机交互,到硬件规格,再到操作系统、生态,以及数据隐私,苹果重新定义了头戴式设备的标准。

30b1e90ff14592e70e74fdb1a1992f6a.png

专访瑞声科技应用软件开发总监陆其明:当一名老兵决定重新上路

从互联网公司到智能终端解决方案公司,陆其明的这次转变可能难以被人理解。但经济大环境的影响和个人的技术困境还是让他义无反顾地走向一个未知的世界。正如黄仁勋日前所言,“撤退”对聪明人来说并不容易。然而,战略性的撤退、牺牲、决定放弃什么是成功非常关键的核心。 

7f9a80235f4c7fdbb1254a82e4257182.png

2023LiveVideoStackCon上海站已进入全价期

bf4cdd23563394b18c6251619c778b62.png

2023年SRT InterOp Plugfest亮点

在2023年的SRT InterOp Plugfest中,Haivision和YouTube合作展示了使用SRT技术进行视频传输的高互操作性。这证明了SRT协议在实现不同设备和平台之间高效视频传输方面的能力。通过这些展示,人们看到了各种开发人员如何利用SRT协议来使视频传输过程变得更加可靠和高效,并提供了与其他视频流媒体解决方案无法匹敌的优势。

https://www.haivision.com/blog/all/highlights-2023-srt-interop-plugfest-with-youtube/

强化学习驱动的低延迟视频传输

LiveVideoStackCon2022北京站邀请了来自北京邮电大学的周安福教授,为我们分享关于使用强化学习方法进行低延迟视频传输的相关研究成果 。

面向流媒体的确定时延传输:从QUIC出发,走向未来

LiveVideoStackCon2022北京站邀请了清华大学的马川为我们介绍QUIC协议的诞生、目前的拓展成果以及未来的发展方向 。

3652aad5e920a8c43489db4b4218b40a.png

流媒体应如何利用预测分析来提高留存率

预测分析的好处:了解用户的偏好、行为和需求,提供更个性化的内容和服务;通过对数据进行深入分析和建模(包括使用机器学习算法、数据挖掘工具和AI等技术)提高留存率,增加收入。

https://www.streamingmedia.com/Articles/Post/Blog/How-Streaming-Platforms-Can-Harness-Predictive-Analytics-for-Better-Retention-158980.aspx


8d487c9ae86c72f6f5c630be531e754a.png

扫描图中二维码或点击“阅读原文 

查看更多LiveVideoStackCon 2023上海站精彩话题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/636133.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

macbook pro存储空间不足怎么办? MacBook Pro怎么优化或清理Mac磁盘空间?

MacBook Pro用久了之后都会堆积很多残留文件或缓存垃圾,久经之下MacBook Pro磁盘空间将会面临不够用的情况。 macbook pro存储空间不足怎么办?macbook pro笔记本中的存储空间不足,想要优化一下,该怎么优化呢? 这时候…

【电路】电路与电子技术基础 课堂笔记 第8章 负反馈放大电路

反馈放大电路有很多好处,可以增加放大电路的输入电阻,使输出电流京可能稳定,保证输出电压随负载变化波动较小,减小电路元件参数变化对电路性能的影响等。 反馈放大电路分为正反馈和负反馈放大电路。 8.1 反馈的基本概念 8.1.1 反…

在(Linux)ubuntu下通过GTK调用libvlc开发视频播放器

一、项目介绍 本项目实现了一个基于GTK和libvlc的视频播放器。使用GTK创建GUI界面,使用libvlc播放视频。用户可以通过选择视频文件,然后启动播放器来观看视频。 二、VLC介绍 VLC是一款自由、开放源代码的跨平台媒体播放器,支持播放几乎所有常见的音频和视频格式。最初于20…

STM32管脚模拟协议驱动双路16位DAC芯片TM8211

STM32管脚模拟协议驱动双路16位DAC芯片TM8211 TM8211是一款国产的低成本双路16位DAC驱动芯片,可以应用于普通数模转换领域及音频转换领域等。这里介绍STM32 HAL库驱动TM8211的逻辑,时序和代码。 TM8211的功能特性为: TM8211的内部电路功能框图为&…

一个人最大的愚蠢,就是 “习惯性反驳”

作者| Mr.K 编辑| Emma 来源| 技术领导力(ID:jishulingdaoli) 每个人都有“反驳的义务”,这是全球顶级咨询公司麦肯锡,对所有员工的行为要求,即对于自己不认同的看法和意见,明确表示出自己的想法并提出反驳。麦肯锡认…

揭秘报表新玩法!标配插件不再单调,手把手教你如何在浏览器中引入柱形图插件。

摘要:本文由葡萄城技术团队于CSDN原创并首发。转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具、解决方案和服务,赋能开发者。 前言 图表作为一款用于可视化数据的工具,可以帮助我们更好的分析和理解数…

【Rust日报】2023-06-10

nt-apiset: 一个用于 WindowsAPI API Set Map文件 的 Rust 解析器 我的bootloader程序项目的下一个构建块已经准备好了!Nt-apiset 是用 Rust 编写的用于 Windows10及更高版本的 API Set Map 文件的解析器。 API Set是名称以“ API-”或“ ext-”开头的 PE 可执行文件…

【MySQL】View 视图用法及作用

文章目录 1. 视图概述1.1 为什么使用视图?1.2 视图的理解 2. 创建视图2.1 创建单表视图2.2 创建多表联合视图2.3 基于视图创建视图 3. 查看视图4. 更新视图的数据4.1 一般情况4.2 不可更新的视图 5. 删除视图6. 总结6.1 视图优点6.2 视图缺点 1. 视图概述 1.1 为什么…

STL之优先级队列(堆)的模拟实现与仿函数(8千字长文详解!)

STL之优先级队列(堆)的模拟实现与仿函数 文章目录 STL之优先级队列(堆)的模拟实现与仿函数优先级队列的概念priority_queue的接口介绍优先级队列的构造函数 priority_queue模拟实现类成员构造函数向下调整算法——正常实现 push向…

正负10V电压输入±电流输出伺服阀控制器

10V、4~20mA模拟指令输入伺服阀放大器是一种控制元件,用于控制液压系统中的比例阀或伺服阀。它主要由三个部分组成:比例阀或伺服阀、放大器。 比例阀或伺服阀是控制流量或压力的元件,它的输出信号通常是电压或电流。放大器用于将实际值转换为…

微信小程序开发uni-app-8分钟上手开发

本篇文章uni-app微信小程序开发-8分钟上手开发 -首先到微信小程序官网登录/注册微信小程序 微信小程序官网 uni-app 微信小程序 注册微信小程序 这里要注意: 激活邮箱之后,选择主体类型为 “个人类型”,并按要求登记主体信息。主体信息提…

一种直流转交流的代码实现 - through FFT

# show how to use FFT, filtered DC signal and return back to SampleValue-time zone. # the basic concept is coming from ChatGPT. # Write in python language. # # created by twicave. # Jun09,2023 # import numpy as np import matplotlib.pyplot as plt# 定义正弦信…

【C# 10 和 .NET 6】构建和使用 Web 服务(第16章)

Building and Consuming Web Services 构建和使用 Web 服务 本章介绍如何使用 ASP.NET Core Web API 构建 Web 服务(也称为 HTTP 或 REST 服务),以及如何使用 HTTP 客户端使用 Web 服务,这些客户端可以是任何其他类型的 .NET 应用…

Qt信号和槽

一、定义 信号与槽(Signal & Slot)是 Qt 编程的基础,也是 Qt 的一大创新。因为有了信号与槽的编程机制,在 Qt 中处理界面各个组件的交互操作时变得更加直观和简单。 信号(Signal)就是在特定情况下被发…

基于SpringBoot+vue的毕业生信息招聘平台设计和实现

博主介绍: 大家好,我是一名在Java圈混迹十余年的程序员,精通Java编程语言,同时也熟练掌握微信小程序、Python和Android等技术,能够为大家提供全方位的技术支持和交流。 我擅长在JavaWeb、SSH、SSM、SpringBoot等框架下…

淘宝618每日一猜答案6月12日 源氏木语获得多少个奖项?

淘宝6月12日每日一猜答案是什么?,接下来也会给大家来介绍一下6月12日淘宝大赢家每日一猜的答案。 淘宝每日一猜6月12日答案分享 活动问题:源氏木语获得多少个奖项? 活动答案:【15】 注意是阿拉伯数字! …

20230612 set1打卡

哈希表理论基础 242.有效的字母异位词 349. 两个数组的交集 202. 快乐数 1. 两数之和

FPGA驱动FT601实现USB3.0相机 OV5640视频采集 提供2套工程源码和QT上位机源码

目录 1、前言2、FT601芯片解读和时序分析FT601功能和硬件电路FT601读时序解读FT601写时序解读 3、我这儿的 FT601 USB3.0通信方案4、vivado工程1--彩条视频采集传输详细设计框图及其原理vivado工程解读 5、vivado工程2--OV5640视频采集传输详细设计框图及其原理vivado工程解读 …

【几分醉意赠书活动 - 04期】 | 《C++、Linux、算法等系列众书》

个人主页: 几分醉意的CSDN博客主页_传送门 个人主页: 陈老板的CSDN博客主页_传送门 赠书活动 | 第四期 本期好书推荐:《C、Linux、算法等系列众书》 粉丝福利:书籍赠送:共计送出30本 参与方式:关注公众号&a…

【MySQL 数据查询】: 基本、分组、排序、聚合、分页、条件查询详解

前言 ✨欢迎来到小K的MySQL专栏,本节将为大家带来MySQL数据查询的讲解(基本、分组、排序、聚合、分页、条件查询) 目录 前言一、基本查询二、条件查询三、聚合函数(统计函数)四、分组查询五、排序查询五、分页查询六、总结 一、基本查询 MySQ…