音视频技术开发周刊 | 298

news2025/1/16 16:07:44

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

cdc1f1583af676c7adebf1005415ae61.png

AI艺术在北京798,展望人工智能与环境的未来

本文很有意思的提出了个假设,通过人工智能和艺术家协作与实践产生环绕地球的叙事,去开启置身于AI时代与生态之中的想象。在这种协作中,如何重新想象我们共同生存的环境?如何通过这种协作对我们的生存环境甚至我们自身产生新的认识?如何去探讨二者共同的存在基础,真菌、地质、大气、天空、海洋······我们在这种共同生命体持续演化的模糊边界进行思考,在其间不断提出新的视角和问题,这正是盖娅与赛博格之间所创造的新的审美形式和想象空间。

AlphaDev突破十年算法瓶颈登上Nature,GPT-4紧随其后两步破解 

这篇经纬创投的文章中指出,近日,谷歌旗下DeepMind团队的人工智能项目AlphaDev研发出一种全新的数据排序方法,凭借一己之力提升排序算法的速度约70%,同时,对于哈希(Hash)算法,也找到了速度提高30%的办法。十多年来,C++排序库首次更改。这项最新的研究也登上了Nature。

坐不住的热心网友,尝试通过引导ChatGPT证明实力。仅仅一天时间,GPT-4在对话引导下,就能够通过两步获得和AlphaDev几乎相同的思路发现。让网友不禁感叹:大家还是低估了GPT-4。

‍LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归‍

Meta震撼发布了一个「类人」的人工智能模型 I-JEPA,它可以比现有模型更准确地分析和完成缺失的图像。

即使是如今最先进的AI系统,也始终无法突破一些关键限制。为了突破这层桎梏,Meta的首席AI科学家Yann LeCun提出了一种新的架构。

他的愿景是,创造出一个机器,让它能够学习世界如何运作的内部模型,这样它就可以更快速地学习,为完成复杂任务做出计划,并且随时应对不熟悉的新情况。

今天Meta推出的图像联合嵌入预测架构I-JEPA模型,是史上第一个基于LeCun世界模型愿景关键部分的AI模型。

I-JEPA就是通过创建外部世界的内部模型来学习。在补全图像的过程中,它比较的是图像的抽象表征,而不是比较像素本身。在多个计算机视觉任务上,I-JEPA都表现出了强大的性能,并且比其他广泛使用的CV模型计算效率高得多。

ChatGPT重磅更新!价格打“骨折”,新增API函数调用,上下文飙升4倍

OpenAI 对 GPT 系列发布了重大更新,其中最核心的是 API 新增函数调用(Function calling)能力。

在这次更新中,OpenAI 重点介绍了函数调用:开发者不用手动选择函数,只需要模型描述需要用到的函数,何时调用哪个函数都是模型根据提示词自己决定的,与 GPT-4 调用插件的机制一样。

这些模型已经进行了微调,可以检测到何时需要调用函数,也可以生成符合函数签名的 JSON 响应。换句话说,函数调用使得开发者能够更可靠地从模型中获取结构化数据。

Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽

本文中,有的人加入 OpenAI,有的人成立创业公司,也有的坚守谷歌 AI。当年正是他们共同开启了今天的 AI 大发展时代。

英伟达 RTX 4060 显卡本月推出

英伟达官网显示,RTX 4060 将在 6 月 29 日推出。RTX 4060 于上月和 RTX 4060 Ti 一同发布,原定于 7 月推出。这款显卡的国行价格定价 2399 元起。

RTX 4060 显卡在开启 RTX 40 系列显卡独有的帧生成技术后,性能是 RTX 3060 的 1.7 倍,关闭帧生成技术后性能是 RTX 3060 的 1.2 倍。

哔哩哔哩大规模AI模型推理实践

本文介绍,哔哩哔哩通过自研InferX推理框架+Triton模型服务部署,显著提升了计算资源使用效率,降低资源成本,保证服务响应时间和稳定,同时降低了ai服务开发部署成本,更快捷地支持各类型业务落地。

806897d61bcfdf94df08e5d6a59f5851.png

文本直生成音乐,Meta新开源模型MusicGen炸场!

6月13日,Meta(Facebook、Instagram等母公司)宣布开源了一款新的语言模型MusicGen,用户通过文本可直接生成音乐。

除了使用文本生成音乐之外,MusicGen还支持用户上传示例音乐,以增强音乐生成的准确性。例如,一首欢快的电子舞曲,带有切分音鼓、轻快的铺垫和强烈音乐波峰。然后再上传一首类似的歌曲《I Can't Stop》,点击生成即可。

体验了一下MusicGen,简单易用功能强大,资源消耗却很小。生成的音乐基本符合文本提示,音质通透、音频稳定、音峰抖动强烈等。总之,高音甜、中音准、低音稳,适合制作摇滚、舞曲、古典、流行、怀旧等背景音乐。

ChatGPT当债券分析师!金融科技巨头发布BondGPT,服务10万亿美元市场!

近日,全球金融科技领导者Broadridge(纽交所代码:BR)子公司LTX宣布,通过GPT-4打造了BondGPT,主要用于债券市场帮助客户回答各种与债券相关的问题,增强10.3 万亿美元的美国公司债券市场的流动和价格发现。目前,BondGPT已经投入使用。

据悉,为了增强ChatGPT的输出准确性和满足金融业务场景需求,LTX将Liquidity Cloud中的实时债券数据,输入到GPT-4大语言模型中,帮助金融机构、对冲基金等简化债券投资流程以及提供投资组合建议。

例如,有哪些收益率在5—8%之间的汽车债券,2030年后到期?;在过去30天的时间,哪些电信债券收益最高?;近5年,哪些零售企业的债券收益最高?;我有100万美元资金,想投资5年,有哪些高收益的债券选择?

ef61472ee569259e83d852582c3d7ef5.png

1530亿晶体管芯片发布,AMD正式叫板英伟达

在AMD的发布会上,最受人关注的毫无疑问是公司的Instinct MI 300系列。因为在英伟达GPU把持的AI时代,大家希望AMD的这系列芯片能成为万亿芯片巨头的最强竞争者。而从Lisa提供的参数看来,MI 300系列的新芯片拥有极强的竞争力。

“人工智能是塑造下一代计算的决定性技术,也是 AMD 最大的战略增长机会。”Lisa Su强调。

 bfbaa92299cc2901dbad137ca0b1ce9a.jpeg

使用Superb AI的套件和 NVIDIA TAO工具包创建高质量的计算机视觉应用程序

这篇文章演示了如何使用 Superb AI Suite 准备与 TAO Toolkit 兼容的高质量计算机视觉数据集。介绍了下载数据集、在Suite上新建项目、通过Suite SDK上传数据到项目、使用Superb AI的Auto-Label能力快速标注数据集、导出标注数据集、搭建TAO Toolkit的过程配置使用数据。 

https://developer.nvidia.com/blog/create-high-quality-computer-vision-applications-with-superb-ai-suite-and-nvidia-tao-toolkit/

1bf5918652647ae7f84b7791c541ee68.png

Text2NeRF:文本驱动的基于神经辐射场的三维场景生成

本文提出了 Text2NeRF 模型,一种通过组合 NeRF 的预训练的文生图扩散模型得到的文本驱动的三维场景生成框架。具体来说,本文的主要贡献有:

提出了一个文本驱动的真实感三维场景生成框架,该框架将扩散模型与NeRF表征相结合,支持从各种自然语言提示中零样本生成各种室内/室外场景;

引入PIU策略,逐步为3D场景生成具有视图一致性的新内容,并构建支撑集,在逐视图更新过程中为NeRF模型提供多视角约束;

采用深度损失来实现深度感知的 NeRF 优化,并引入两阶段的深度对齐策略来消除不同视角中估计的深度偏差。

图像与矩阵的关系

本文中讲到,数字图像是由许多像素(Pixel)组成,犹如肉身是由细胞构成的一样。当我们通过Photoshop等软件调节视觉元素的时候,本质上就是在调节像素。我们进行的每一步操作,最终会影响到所有像素或者某个特定区域的像素。所以在调整图像时,并不是改变整个图像的参数,而是在调节每个像素的参数。

如果要探究图像背后的奥秘,就会发现视频,图像,像素,分辨率,fps这些与图像形成息息相关的要素的尽头是线性代数。没错,就是你现在学的那个线性代数!可以通过此文了解一下与图像相关的一些概念。

acb290b3ee73e9df82451d1ca664dce4.png

视频编码格式和封装格式有什么关系?相机常见的编码格式有哪些?

看完本文,你将会知道两大问题:1.视频解码格式和封装格式的关系是什么?2.相机领域常见的编码格式有哪些?

视觉字幕:使用大型语言模型通过动态视觉效果增强视频会议

视频会议的最新进展通过实时字幕和噪声消除等功能显着改善了远程视频通信。然而,在各种情况下,动态视觉增强有助于更好地传达复杂和细微的信息。例如,在讨论在日本餐厅点什么时,您的朋友可以分享视觉效果,帮助您更有信心点“寿喜烧”。或者在谈论您最近去旧金山的家庭旅行时,您可能想展示一张您个人相册中的照片。

在ACM CHI 2023上展示的 “视觉字幕:通过即时视觉增强语言交流”中,介绍了一种使用语言提示通过实时视觉增强同步视频交流的系统。微调了一个大型语言模型,以使用为此目的策划的数据集在开放式词汇对话中主动建议相关的视觉效果。将 Visual Captions 开源为ARChat项目的一部分,该项目旨在通过实时转录快速构建增强通信的原型。

https://aigoogleblog.com/2023/06/visual-captions-using-large-language.html

新 Mac Studio 和 Mac Pro 最多可外接 8 台 4K 显示器

在新的支持文件中,苹果介绍了新 Mac Studio 和 Mac Pro 的外接显示器情况:有了 M2 Ultra,两款 Mac 最多都可以外接 8 台 60Hz 4K 显示器。

新 Mac Studio 有 1 个 HDMI 2.1 端口、新 Mac Pro 有 2 个 HDMI 2.1 端口,用户可以通过扩展这些端口,外接 60Hz 的 8K 显示器或者 240Hz 的 4K 显示器;M2 Ultra 芯片最多支持外接 6 台 Pro Display XDR。

M1 Ultra 芯片的 Mac Studio 最多可外接 5 个显示器。

c6b684a893c811994da02d73a47345da.png

基于机器学习的语音编解码器 Lyra

Lyra是一种基于机器学习的语音编解码器,通过引入预测方差正则化来降低对异常值的敏感性,从而提高性能。Lyra使用自回归模型WaveNet进行过程建模,并通过输入噪声抑制来显着提高性能。Lyra的实验表明其质量与双倍速率运行的传统编解码器相似或更好,并且适用于低速率视频通话和消费类设备。

元尺度的实时音频:REAL-TIME AUDIO AT META SCALE

本文介绍了元尺度上处理最困难的音频挑战方法,并深入探讨音频的可靠性,确保音频实际工作。最后将展望未来和 RTC 中最令人兴奋的领域之一,即元宇宙中的大型群组通话。

在开始大型沉浸式通话之前,首先要保证得到了正确的基本要素。通话中过长的延时会降低交互性,导致参与者频繁地重复确认通话内容,这不是自然的对话。许多呼叫通过低带宽连接进行,即使最好的 WiFi 网络也会出现拥塞,因此 robust packet loss(指数据通信中对丢包(packet loss)具有鲁棒性或健壮性的特性或算法)也是很重要的一个因素。为避免背景噪音和自己的声音回响,需要全双工、高品质的声学生态消除和非平稳的噪音抑制。全波段立体音频的提供使用户离实现高质量体验的目标更近一步。这一目标的下一步是实现身临其境的音频体验,如特殊音频,这是创造身临其境魔力的关键。

音频格式--MP3格式介绍

本文介绍了涵盖多种音视频文件和编码格式,包括但不限于MP4、AVI、MKV、H.264、AAC、MP3等。通过深入了解这些常见的音视频文件和编码格式,用户可以更好地理解它们在视频传输和存储中的应用,从而更好地应对实际的应用场景和问题。同时,这些知识也可以帮助用户更好地理解和掌握音视频开发基础,提升用户对于音视频的质量。

深度学习在声源定位中的应用

本文指出,通常情况下,SSL被简化为对源的到达方向(DoA)的估计,即它专注于方位角和仰角的估计,而不估计到麦克风阵列的距离。SSL具有许多实际应用,例如,例如声源分离、自动语音识别(ASR)、语音增强和房间声学分析等。

2469a9da236f60c4be616e6e14e4093c.png

WebRTC 支持已合并到 OBS 中 (discuss-webrtc)

https://groups.google.com/g/discuss-webrtc/c/tNPuUiT2bTs/m/bLth7DlsAAAJ

6f68d28f16d08456060c598a98e331b9.png

平行云——开启通往元宇宙的通道

本文认为,元宇宙是平行于真实世界的虚拟世界,是新一代互联网。具有真三维、可交互、可沉浸特性的XR,是构建元宇宙的终极数字媒体形态。如何打破XR终端设备与XR内容之间的紧耦合,实现任意平台、任意终端的线上访问,Cloud XR是其必由之路,从而开启通往元宇宙的通道。平行云是国际领先的Cloud XR的理念倡导者和技术先行者,致力于为行业伙伴和开发者提供低代码、开箱即用、高效部署的Cloud XR PaaS平台产品。已在全球范围内已吸引近千家企业用户,数万名独立开发者,产品及解决方案成熟应用于教育培训、数字孪生、医疗康复、虚拟直播、数字人、云活动、云游戏等场景。

IoT 如何改变可持续发展元宇宙的游戏规则

本文中的一项观点认为,虚拟宇宙可以说是当今可用的数字化转型最深刻的成果,它以一种非常基本的方式依赖于数据。因此,在过去 30 年的所有技术进步中,正是那些以数据为中心的技术才能实现元宇宙。尽管这里隐含着重要的广度和深度,但事实证明物联网 (IoT) 不仅是最具颠覆性的进步,而且是实现元宇宙最关键的进步。

https://techcommunity.microsoft.com/t5/green-tech-blog/how-iot-is-a-game-changer-for-the-sustainability-metaverse/ba-p/3291430

7dec7d1ac506dba239a9708de2ece00d.png

AI芯片行业专题报告:国产AI芯片的创业裂变

报告认为,释放算力的价值对国家整体经济发展将发挥推动作用。计算力指数每提高 1 点,数字经济和 GDP 将分别增长 3.5‰和 1.8‰。可见,国家计算力指数越高, 对经济的拉动作用越强。在业界,人工智能的应用产生了很多需求,其中最直接 的赛道是企业数字化转型。据 IDC 统计,全球范围内,企业在人工智能(AI)市场的技术投资从 2019 年的 612.4 亿美元增长至 2021 年的 924.0 亿美元,预计到 2022 年(同比)将增长 26.6%至 1,170.0 亿美元,并有望到 2025 年突破 2,000 亿美元,增幅高于企业数字化转型(DX)支出整体增幅。

2043d38adc90122d27ead1e738d605fe.png

2023 年媒体技术融资状况

作者的观点认为,企业资金和投资的公式通常如下所示:确定问题,并通过有利可图的解决方案、优秀的团队和巨大的增长潜力来解决它。但在媒体技术领域,大多数公司都在反对其他一些东西:将客户转移到SaaS模式,并赢得想要在内部构建一切的媒体公司。鉴于这些固有的挑战,对于该行业的公司来说,投资在哪些领域看起来是一个好主意?

虽然在过去几年中,数十亿美元投入到内容开发中,这引起了大家的注意,但在幕后,一系列视频技术供应商和工程师正在构建用于交付这些内容的基础设施。这种基础设施不仅被老派媒体公司使用,也被Netflix和下一代媒体公司等颠覆者使用。

根据标普全球市场财智的数据,科技、媒体和电信的风险投资 (VC) 融资占融资轮次总价值的比例从 41 年的 2019% 上升到 45 年的 2022%。娱乐业被认为在经济低迷时期比其他行业更具弹性。那么,获得资金需要什么?业务基础、增长率、技术和健全的商业模式。

https://www.sreamingmedia.com/Articles/Editorial/Featured-Articles/The-State-of-Media-Technology-Financing-2023-158121.aspx

9fe323e46f42573d4100570810745ebc.png

2023LiveVideoStackCon上海站已进入全价期

eb98d2ded962261110421eda4cc6a63f.png

扫描图中二维码或点击“阅读原文 

查看更多LiveVideoStackCon 2023上海站精彩话题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/664599.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【事故致因】HFACS模型各层级中因素的具体含义及内容归纳

HFACS模型各层级中因素的具体含义及内容归纳 1 HFACS(2000版本)中英文结构图2 定义3 结构组成4 各层级因素及内容4.1 不安全行为4.2 不安全行为的前提条件4.3 不安全监督4.4 组织影响 5 HFACS框架的使用 1 HFACS(2000版本)中英文结构图 英文版本(论文首次提出原图&…

接口测试基础知识(使用 Fiddler 抓包、使用 Postman 发起请求、Postman汉化教程)

文章目录 一、 什么是接口二、接口测试的流程三、设计接口测试测试用例常见的点四、使用 Fiddler 进行抓包1. 一个重要设置2. 进行抓包 五、使用 Postman 发起 GET 请求1. 通过API文档得到调用信息2. 通过 Postman 构造 GET 请求 六、使用 Postman 发起 POST 请求1. 得到接口调…

机器学习——朴素贝叶斯(手动代码实现)

朴素的我,决定朴素地徒手实现贝叶斯算法! 摒弃sklearn 这个体贴善解人意把一切都打包封装好的妈妈 再见了sklearn 妈妈 我要自己手动实现 哪怕前方困难重重 哪怕我此刻还在发牢骚 但我还是要说,撒哟娜拉sklearn妈 看了知乎阿婆主的分析&#…

在 Maya、ZBrush 和 Substance 3D 中创建女枪手(P2)

今天瑞云渲染小编给大家带来了Ivan Lim 的Female Gunslinger 项目的细目,讨论了他在 Think Tank 的教育过程,并解释了他为什么选择虚幻引擎来呈现这个角色。这篇接着上篇继续拓扑UV、灯光材质、渲染等方面的分享 头发 我开始用一个块来处理头发&#xf…

看看人家那高并发秒杀系统,那叫一个优雅

618,大家剁手了么? 说起618,就不得不提其中较为复杂的秒杀环节了。虽说秒杀只是一个促销活动,但对技术要求不低。 秒杀作为618、双十一等电商活动不可缺少的一环,是一个非常典型的活动场景。秒杀场景的业务特点是限时…

并发知识学习

aqs中有2个队列,一个是同步队列,另外一个是条件队列简单记住:独占没有朋友,所以是null。共享就有朋友,所以是固定的node对象。nextWaiter就是表示节点的模式,在条件队列中指向下一个节点。 一个想要去获取锁…

车载测试范例,如何进行ADAS执行器性能测测试?

概述 执行器性能分为横向性能和纵向性能,横向性能主要指方向盘转向的响应性能,纵向主要包括油门加速性能及刹车减速性能。其中横向性能在ADAS中涉及的功能包括LKA、LDW,跟纵向加/减速性能相关的功能主要是ACC(自适应巡航&#xf…

C++数据结构【树状数组】

​ 树状数组 什么是树状数组?树状数组和线段树的区别 树状数组的结构什么是lowbitlowbit如何计算代码实现:补充知识——&,|,^运算&|^注意: 树状数组的基本操作单点修改while循环版代码for循环版代码 单点查询区…

pytest生成 junit-xml 测试报告

pytest 生成junit-xml 测试报告,那么生成的xml报告有什么用呢?可以集合一些持续集成工具(如jenkins…等)方便查看报告。 junit-xml 测试报告 命令行参数有2个跟 junit-xml 报告相关的参数 --junit-xmlpath create junit-xm…

2023年软件测试——精选金融银行面试真题

1、P2P你们也测试后台管理吗?个人芝麻信用积分是调取哪里的资料? 测试后台管理: 后台也测,但是我主要测试前台,我的关注点是前台,后台只是拿来用,能配合前台正常走完流程就行。 后台主要对前…

Linux线程同步(下)

文章目录 1. POSIX信号量2. 基于环形队列的生产消费模型2.1 代码实现2.1.1 构造函数和析构函数2.1.2 生产和消费2.1.3 测试 3. 线程池3.1 成员变量3.2 构造和析构3.3 push和pop3.4 启动线程池3.5 测试 4. 将线程池改成单例模式5. STL、智能指针和线程安全6. 其他常见的各种锁6.…

聊聊测试驱动开发

这是鼎叔的第六十四篇原创文章。行业大牛和刚毕业的小白,都可以进来聊聊。 欢迎关注本专栏和微信公众号《敏捷测试转型》,星标收藏,大量原创思考文章陆续推出。 本文观点参考自Lasse Koskela,他是《测试驱动开发的艺术》的作者。…

软件测试之【单元测试、系统测试、集成测试】

一、单元测试的概念 单元测试(Unit Testing)是对软件基本组成单元进行的测试,如函数(function或procedure)或一个类的方法(method)。当然这里的基本单元不仅仅指的是一个函数或者方法&#xff0…

揭秘跨部门沟通的秘密武器:让不归你管的人主动配合你的绝妙方法!

跨部门沟通,Edge对此有点胆怯:“我们自己内部进度,怎么着都好管。都是自己人,目标一致。可涉及跨部门合作,管起来就困难。人家又不归我们管,不可控因素太多了。如果在合作的过程中,出现啥问题&a…

docker 镜像结构原理

目录 参考文档:第八篇:Docker镜像结构原理_Linux运维开发的技术博客_51CTO博客 1、基础镜像 base base 镜像有两层含义: 为什么我们的镜像文件比一般的软件小一些呢? 二、镜像的分层结构 问什么 Docker 镜像要采用这种分层结…

org.yaml.snakeyaml.parser.ParserException: while parsing a block mapping

一、yml解析异常问题 今天启动某开源项目时,碰到一个问题org.yaml.snakeyaml.parser.ParserException: while parsing a block mapping 。 二、解决 2.1 修改项目目录下缩进格式 在项目下的nacos目录中application-common.yml 文件中修改缩进格式,每…

15个最好的性能测试工具(软件测试工程师必备)

在软件测试日常工作中,大家接触得比较多的性能测试工具有LoadRunner和Jmeter,这里整理了web应用程序性能和负载压力能力的最广泛使用的性能测试工具的综合列表。 这些负载测试工具将确保您的应用程序在高峰流量和极端压力条件下的性能。 该列表包括开源…

Spring Security OAuth2.0(五)-----OAuth2实现自定义统一认证登录页/自定义授权页/基于mysql存储数据

本次实例涉及三个项目 核心项目工程unify_authorization_server(认证授权登录) 资源服务器项目unify_resource_server 测试项目是前面几篇写的项目 这里没有改动直接用来测试实例项目 (一)unify_authorization_server pom相关依赖 我采用的是spring-bo…

Ngnix网站服务

Ngnix网站服务 Ngnix网站服务 一、Ngnix服务基础:1.Ngnix的基本概述:2.简述Nginx和Apache的差异:3.Nginx和Apache的优点:4.应用场景:5.扩展: 二、编译安装Ngnix服务:1.编译安装:2.常…

基于matlab使用自校准来适应阵列不确定性(附源码)

一、前言 此示例显示了基于约束优化过程的自校准过程。利用机会来源同时估计阵列形状的不确定性和来源方向。此示例需要优化工具箱。 理论上,可以设计一个完美的均匀线性阵列(ULA)来执行各种处理,例如波束成形或到达方向估计。通常…