音视频技术开发周刊 | 292

news2025/4/16 7:33:23

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

bcfc2e236e2287d3d12555758f1284ac.png

谷歌将 AI 芯片团队并入云计算部门 追赶微软和亚马逊

OpenAI推出的ChatGPT获得一定成功,微软是OpenAI的重要投资者,它将ChatGPT植入必应搜索,威胁到谷歌搜索地位。谷歌将会整合旗下两个AI研发实验室DeepMind和谷歌Brain,以增强公司AI部门实力。

几行代码,GPT-3变ChatGPT!吴恩达高徒、华人CEO震撼发布Lamini引擎

Lamini的开发团队表示,你需要的只是几行代码,就可以用托管数据生成器俩训练自己的LLM,包括权重和其他所有的内容。此外,你也可以使用开源的LLM,用Lamini库对生成的数据进行微调。以及访问完整的LLM训练模块,使用从LoRa等速度优化,到虚拟私有云 (VPC) 部署等企业功能。 

「AI教父」万字采访实录:AI航行的方向藏着巨大的冰山

被誉为「深度学习教父」的 Geoffrey Hinton 是深度神经网络技术的奠基人之一,对人工智能的发展做出了重要贡献,曾获得过计算机领域的最高荣誉「图灵奖」。在 2023 年 3 月初的一场采访上,Geoffrey Hinton 曾就 AI 的发展做了详细的解读,完整地阐述了他对大语言模型的看法和忧虑。

Stability AI连扔两个王炸:首个开源RLHF模型,DeepFloyd IF像素级出图

一位Youtube主播对Stable Vicuna进行了实测,Stable Vicuna在每一次测试中,都击败了前任王者Vicuna。

ICLR 2023 | 负责任的人工智能,守护机器学习的进阶思考

负责任的人工智能方向的三篇研究工作:分别拓展了差分隐私深度学习效率的边界、时序图的可解释性研究以及预训练语言模型在文本生成中的安全性。

后GPT时代,多模态是最大的机会

吴恩达联手OpenAI上线免费课程:一个半小时学会ChatGPT Prompt工程

https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers/ 

哈工大自然语言处理研究所公开《ChatGPT调研报告》

2023年3月6日,哈工大自然语言处理研究所师生联合撰写出《ChatGPT调研报告》,对“大模型”技术进行了系统的介绍。5月4日,研究所决定将该报告公开,以期听取同行意见,并随着“大模型”技术的发展,持续对报告进行更新。

27b1a4a770037598be34a220ce7147aa.png

Glean:大模型时代的企业内入口级产品,最了解员工的“AI同事”

Glean 是企业搜索和知识管理平台,因为充分利用自身积累的企业数据,积极拥抱 LLM 受到关注。Glean 与 100+ SaaS 应用相连接,用户可以跨应用搜索企业数据,并且针对不同用户个性化生成答案和结果。如果说 ChatGPT 是互联网的新入口,Glean 则有望成为针对企业场景的入口级产品——所有 SaaS 应用的第一界面、所有员工的 AI 助手。

用ChatGPT直播带货!Firework发布全球首个直播购物GPT

视频技术服务平台Firework,宣布推出首个用于视频直播服务的类ChatGPT生成式AI产品,以帮助播主提升商业化转化率和客户体验。据悉,美国著名连锁超市The Fresh Market将成为该产品的首批用户,将其用于视频直播、网络销售等。

苹果 Siri 团队内幕曝光:挣扎、斗争、重组

AIGC产品井喷时,地处加州一隅的苹果却仿佛是一个没有被 AI 打扰的世界。

最新英伟达图形学研究推动生成式人工智能(generative AI)进入下一阶段

英伟达将在SIGGRAPH(计算机图形学年度最重要的会议)上公布约20篇研究论文,未来的研究将需要集合跨学科的知识和技术,以推动生成式AI的发展并探索新的前沿。

https://blogs.nvidia.com/blog/2023/05/02/graphics-research-advances-generative-ai-next-frontier/

2023LiveVideoStackCon 上海站专题评审团招募中

如果您在本专业领域有1-3年的工作/研究经验,又热衷于技术交流,欢迎您申报本次上海站评审团,点击题目或正文链接参与报名。

9fea753269ca0e64f319d999fa451eb6.png

Dav1d解码器最新版本1.2.0的更新内容总结

用户可以从更高效、更稳定的AV1解码体验中受益;开发者则可以利用Dav1d的开源代码进行二次开发和改进。

https://jbkempf.com/blog/2023/dav1d-1.2.0/

使用更快的AV1编码器改进视频通话

本文介绍了Chrome浏览器中AV1编解码器的新功能和优势,对于关注网络视频体验的用户和开发人员来说都是非常有用的信息。

https://developer.chrome.com/blog/av1/

OBS Studio 29.1 经历5个测试版后今天正式发布,它具有AV1和HEVC RTMP流支持

现在,所有主要厂商都广泛支持GPU加速的AV1视频编码,基于CPU的AV1编码也在不断提高性能,OBS Studio 29.1增加了支持,能够通过RTMP将AV1和HEVC流传到YouTube。增强型RTMP v1扩展了RTMP协议,以支持较新的AV1和HEVC/H.265编解码器,并在协议中支HDR,但HDR还不支持作为OBS Studio新功能的一部分。这种AV1/HEVC流媒体的YouTube集成目前也被视为测试版。对于流媒体来说,这比H.264要好得多!

https://github.com/obsproject/obs-studio/releases/tag/29.1.0

cf8a05dfb76affdfe902036223257b6e.png

AI 3D创作来了?“抢饭碗”成真

生成式AI仅仅依靠一张图片或者输入关键文字就能转化成3D模型,这种惊人的创作很快就让人对这个领域产生了一连串的畅想:AI 3D创作真的要来了吗?内容创作者的饭碗还稳吗?以上将从VR内容制作的两个重要环节:建模与渲染进行分析。

2acecf2556a541e60fdae8c5ca26fc91.png

高精地图生成技术大揭秘

目前学术界和工业界(尤其自动驾驶公司)均开始研究HD地图生成,也有一些公开的学术数据集以及非常多的学术工作,此外各家自动驾驶公司也在AIDAY上公开分享技术方案。从这些公开信息来看,也观察到了一些行业趋势,例如在线建图、图像BEV感知、点图融合以及车道线矢量拓扑建模等。本文将对相关的学术工作和自动驾驶公司的技术方案进行解读,以及谈谈个人的一些思考。

这两球的颜色是一样的?不,我不信!

为文本到图像的 diffusion 模型添加条件控制

本文提出一种神经网络结构 ControlNet,用来控制预训练的大型扩散模型,并使其支持额外的输入条件。此外,训练  ControlNet 与微调扩散模型一样快,并且模型可以在个人设备上进行训练。如果有强大的计算集群,该模型可以扩展到大量数据。此外,Stable diffusion 等大型扩散模型可以用 ControlNet 增强,以实现边缘图、分割图、关键点等条件输入。

cf53a273ea05122c9687447489e761b2.png

全球数字科技十大趋势、科研实力对比与人才分布

阿里研究院、智谱AI联合发布了《2023全球数字科技技术发展研究报告》。报告基于AMiner科技情报平台的数据,利用文献计量方法,为数字科技研究前沿“画像”,揭示创新活跃程度,在系统、客观的分析方法基础上,总结2023全球数字科技十大趋势。

63e220011751ecbd4852a22e697342e1.png

只有这个爆款社交应用,中国无法复制,为什么?

Discord可能是非常少有的,在美国已经超过百亿美金体量而在中国没有模仿者跑通的 2C 互联网平台级应用。背后的原因,涉及到天时地利人和等多种因素,包括互联网趋势的变化、国内外游戏行业生态差异、社交软件市场差异等等。

音视频通讯QoS技术及其演进

本文从更宏观、更宽泛的角度介绍了QoS的概念和分类,从音视频通讯QoS领域的常用技术到架构的演进过程做了简单汇总。随着音视频通讯新场景的不断涌现,更实时,更高清变得越来越重要,相关技术也会往这个方向倾斜,同时基于大数据分析的QoS相关技术应用将会逐渐渗透。

低延迟流式语音识别技术在人机语音交互场景中的实践

美团语音交互部针对交互场景下的低延迟语音识别需求,提出了一种全新的低出字延迟流式语音识别方案。本方法将降低延迟问题转换成一个知识蒸馏过程,极大地简化了延迟优化的难度,仅通过一个正则项损失函数就使得模型在训练过程中自动降低出字延迟。

b3887b94befcce002e82a2591b9dc11f.png

新技术让手机摄像头成为高分辨率显微镜

新加坡研究人员开发出世界上最小的LED(发光二极管),可以将现有手机摄像头转换为高分辨率显微镜。新LED小于光的波长,用于制造世界上最小的全息显微镜,为手机等日常设备中的现有相机仅通过修改硅芯片和软件即可转换为显微镜铺平了道路。

动效素材极速交付:腾讯PAG动效组件技术揭秘

为了降低或消除动画相关的研发成本,腾讯内部历时 5 年研发了一套 PAG 动画工作流的解决方案,能够一键将 AE 动画内容导出并应用到几乎所有的主流平台。LiveVideoStackCon 2022北京站邀请到了腾讯媒资产品中心副总监陈仁健,为大家系统地分享在产品需求的驱动下,PAG遇到的技术挑战和实践经验细节。

音视频码流工具汇总

作者分享了7个在平时开发过程中经常会用到音视频分析工具,可以收藏。

VAT轻量级动画技术

Vertex Animation Texture 顶点动画贴图即VAT,顾名思义是一种将动画烘焙到贴图的技术,该技术能够充分利用图片格式并行存储动画所需数据。

大淘宝技术斩获NTIRE 2023视频质量评价比赛冠军

近日,CVPR NTIRE 2023 比赛结果公布,来自大淘宝音视频技术团队的同学组成「TB-VQA」队伍,从37支队伍中脱颖而出,拿下该比赛(唯一赛道)冠军。大淘宝分享了此次的夺冠方案。

0796525172ea5965e14c172fd7fcf9de.png

得物直播低延迟探索

直播延迟问题涉及的因素较多,包括推流端和播放端的缓存设置、传输协议、GOP控制等方面。为了解决延迟问题,在实际开发中,为了达到更好的用户体验,我们需要对这些因素进行综合考虑和优化,在不断的实践和实验中寻找最佳方案,通过综合使用这些技术方案,可以更好地提高直播平台的实时性和观看体验。

6ddd3a882c211eab45cd4c52edd33de3.jpeg

Google AI团队开发出ISOR,可通过在室内环境中收集数据来改善机器人在户外环境中的行动能力

本文详细说明了ISOR方法的工作原理,该方法使用室内模拟器和基于视觉的位置估计器来捕获机器人在室内和户外环境中的移动数据。最后,作者提供了一些实际案例,展示了ISOR方法在机器人导航和物体识别等方面的应用。

https://ai.googleblog.com/2023/05/indoorsim-to-outdoorreal-learning-to.html

Github 3k+!南科大 VIP Lab 近期开源 Track-Anything | SAM + VOS: 一键视频标注

本文主要介绍了一个新的计算机视觉算法模型Track Anything Model, TAM。该模型的设计灵感来自于已经受到广泛关注的Segment Anything Model, SAM,SAM 是一种在图像分割方面表现出色的模型。然而,SAM 在视频中的分割性能一般表现较差。因此,本文提出了一种基于交互式设计的新模型TAM,旨在实现视频中的高性能交互式跟踪和分割。

6f8490adeb4380c3369fcf6f2bcc8b2e.png

如何在十分钟内部署Fastly的下一代WAF

文章介绍了如何在不到10分钟内部署Fastly的下一代Web应用程序防火墙(WAF)。作者提供了一个简单易懂的步骤指南,帮助读者快速部署Fastly的WAF。这些步骤包括创建Fastly账户、配置服务、设置防火墙规则以及测试WAF。文章还提到了Fastly的Dashboard,它提供了实时的安全事件报告和可视化数据,使用户可以更好地了解其网络安全状况。

https://www.fastly.com/blog/how-to-deploy-fastlys-next-gen-waf-in-less-than-10-minutes

bf803e0b9870abb1d54cfc89bbd5758a.png

Streaming Media East 2023

文章介绍了VVC在在线视频领域的应用和发展趋势。在即将举行的Streaming Media East 2023上,圆桌“Ready for Action”将探讨VVC的应用和优势,并为参与者提供有关如何利用VVC优化其在线视频业务的实用建议。

https://www.streamingmedia.com/Articles/News/Online-Video-News/Jan-Ozer-Talks-VVC-Ready-for-Action-Workshop-Coming-Up-at-Streaming-Media-East-2023-158436.aspx


b8f35ce828fcba5b606c92a0b7bd9aca.png

LiveVideoStackCon 2023上海讲师招募中

LiveVideoStackCon是每个人的舞台,如果你在团队、公司中独当一面,在某一领域或技术拥有多年实践,并热衷于技术交流,欢迎申请成为LiveVideoStackCon的讲师。请提交演讲内容至邮箱:speaker@livevideostack.com。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/501572.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【16】SCI易中期刊推荐——计算机 | 人工智能领域(中科院2区)

💖💖>>>加勒比海带,QQ2479200884<<<💖💖 🍀🍀>>>【YOLO魔法搭配&论文投稿咨询】<<<🍀🍀 ✨✨>>>学习交流 | 温澜潮生 | 合作共赢 | 共同进步<<<✨✨ 📚📚>>>人工智能 | 计算机视觉…

【IO】零拷贝、mmap、sendfile

文章目录 前言一、普通IO二、mmap三、sendfile1. Linux2.1的sendfile2. Linux2.4的sendfile 四、总结与扩展1. 结论2. 解释、扩展 参考 前言 概念&#xff1a; 没有发生CPU拷贝数据&#xff0c;都是DMA&#xff08;直接内存访问&#xff09;拷贝 优势&#xff1a; 减少内核态…

《算经》中的百钱买百鸡问题,你会做吗?试下看看(39)

小朋友们好&#xff0c;大朋友们好&#xff01; 我是猫妹&#xff0c;一名爱上Python编程的小学生。 欢迎和猫妹一起&#xff0c;趣味学Python。 今日主题 你知道我国历史上有个王朝叫北魏吗&#xff1f; 北魏&#xff08;386年—534年&#xff09;&#xff0c;南北朝时期北…

HashMap 简述

文章目录 前言一、HashMap的数据结构二、HashMap存储数据的大致过程1 哈希值2 什么是哈希冲突?3 为何有两种数据结构? 三、HashMap常用知识总结 前言 HashMap 是开发中常用的一种数据结构,通常用做返回值,计算比对等,会经常用到; 一、HashMap的数据结构 jdk8之后,数据结构是…

时至今日,Pascal系列Turbo Pascal 5.0依旧是我心中永远的神

从DOS时代到Windows时代&#xff0c;从桌面应用到Web应用&#xff0c;每一个时代都有它特定的编程工具 在我看来&#xff0c;DOS时代的编程语言&#xff0c;Pascal必占一席之地。 尤其是Turbo Pascal系列的最后一个版本——Turbo Pascal 5.0&#xff0c;更是我心目中永不褪色的…

nginx企业级高性能配置优化

一、基础配置优化 1、CPU亲和性优化 1.1、推荐直接将配置项设置成auto (worker_cpu_affinity)&#xff0c;即采用了Nginx推荐的CPU绑核策略方式。 1.2、手动绑定&#xff0c;将worker线程数量与CPU核心数一一绑定方式设置&#xff0c;设置成auto Nginx会自动识别并按照推荐策略…

New Bing 全面开放?我看未必

前段时间大家应该都被ChatGPT刷屏了&#xff0c;其实就回答来说New Bing 才是最厉害的&#xff0c;因为它底层使用了ChatGPT 并且可以支持联网查询数据&#xff0c;回答中还能支持看到出处&#xff0c;方便确认其真实性。 New Bing 是微软基于 OpenAI ChatGPT 技术开发的新一代…

vue3项目搭建

一、安装 vue3.0 脚手架 &#xff08;1&#xff09;node安装&#xff08;前端开发环境&#xff09; 打开node官网:https://nodejs.org/zh-cn/ 下载node并安装&#xff08;安装vue3建议node在10.0版本以上&#xff09;。 输入node -v可显示node版本 &#xff08;2&#xff09;…

使用思维链(Chain-of-thoughts)提示在大型语言模型中引出推理

语言模型(LM)在NLP领域的发展速度非常快&#xff0c;特别是在大型语言模型(LLM)方面&#xff1a;当语言模型具有大量参数或权重/系数时&#xff0c;它们被称为“大型”。这些“大型”语言模型拥有处理和理解大量自然语言数据的能力。 LLM被用于一系列自然语言任务&#xff0c;…

【Java EE】-Servlet(三) MessageWall

作者&#xff1a;学Java的冬瓜 博客主页&#xff1a;☀冬瓜的主页&#x1f319; 专栏&#xff1a;【JavaEE】 分享: 寂寞会发慌&#xff0c;孤独是饱满的。——史铁生《命若琴弦》 主要内容&#xff1a;前后端交互接口协商&#xff0c;约定好&#xff0c;使用什么数据格式传输&…

变现 起航篇! 手把手交你用chatgpt快速生成视频!

Chatgpt 很多同学都用的非常熟练了&#xff0c;但是都停留在文字阶段&#xff0c;有没有更好玩的用法&#xff0c;可以深度的利用chatgpt做一些事情呢&#xff1f; 今天菜哥就找一个方法可以快速利用chatgpt制作视频&#xff0c;整个过程大概3分钟&#xff0c;非常有趣&#xf…

浪涌保护器的工作类型及其应用

所有电路系统中的电气设备都需要浪涌保护器的保护支持。这主要取决于器件的内部电路如何能够处理电压波动。如果器件出现输入电压波动&#xff0c;则会导致器件损坏&#xff0c;因为电源电压的波动可能对器件有害。在本文中&#xff0c;我们将了解什么是浪涌保护器&#xff0c;…

【源码+个人总结】Spring 的 三级缓存 解决 循环依赖

Spring可以通过以下方法来避免循环依赖&#xff1a; 构造函数注入&#xff1a;使用构造函数注入来注入依赖项&#xff0c;这是一种比较安全的方式&#xff0c;因为在对象创建时就会注入依赖项&#xff0c;可以避免循环依赖。 Setter方法注入&#xff1a;使用Setter方法注入依赖…

云开发谁是卧底线下小游戏发牌助手微信小程序源码

源码下载&#xff1a;https://download.csdn.net/download/m0_66047725/87614365 云开发谁是卧底线下小游戏源码&#xff0c;发牌助手微信小程序源码。 “谁是卧底OL”是一个非常有趣&#xff0c;风靡全国的比拼语言表述能力、知识面与想象力的游戏。 谁是卧底OL是一款由开发…

Notepad++下载安装NppFTP插件

文章目录 一、Notepad内下载安装NppFTP插件1.打开Notepad——插件——插件管理2.找到NppFTP插件——点击安装3.安装完成 二、直接下载安装NppFTP插件1.网盘下载2.将下载好的NppFTP插件放入到Notepad\plugins的插件目录下3.重启Notepad 三、Notepad下载总结 一、Notepad内下载安…

【刷题】142. 环形链表 II

142. 环形链表 II 一、题目描述二、示例三、实现3.1 方法13.2 方法2 142. 环形链表 II 一、题目描述 给定一个链表的头节点 head &#xff0c;返回链表开始入环的第一个节点。 如果链表无环&#xff0c;则返回 null。 如果链表中有某个节点&#xff0c;可以通过连续跟踪 nex…

前端学习 - 淼哥学Vue

如何判断数据是否受Vue管理&#xff0c;数据&#xff08;对象&#xff0c;数组&#xff0c;字符串等&#xff09;能否响应式更新&#xff1f; 即查看数据是否有对应get/set方法&#xff0c;数组没有对应get/set方法&#xff0c;故操作数组要通过其封装好的变更方法 变更方法 …

js高级知识汇总一

目录 1.怎么理解闭包&#xff1f; 2.闭包的作用&#xff1f; 3.闭包可能引起的问题&#xff1f; 4.变量提升 5.函数动态参数 6.剩余参数 ...&#xff08;实际开发中提倡使用&#xff09; 7.展开运算符 8.箭头函数 9.解构赋值&#xff08;数组、对象&#xff09; 10 创…

一文总结动态规划

动态规划 一、背包问题1 问题定义2 问题分类3 解题模板01背包最值问题剩余背包问题 4 例题分析LeetCode1049.最后一块石头的重量II 二、区间动态规划1 解题模板2 例题分析牛客.石子合并 总结与分析 一、背包问题 1 问题定义 如何确定一个题目是否可以用背包问题解决 背包问题…

给儿童使用护眼台灯怎么样选择更好?专家建议孩子买台灯

随着娃越长越大&#xff0c;虽然还在读幼儿园&#xff0c;但平时免不了要写写画画&#xff0c;之前一直在这个桌子上&#xff0c;台灯是一个赠送的LED货色&#xff0c;那个频闪啊&#xff0c;于是趁着当地商场活动先入了张学习桌椅&#xff0c;至于台灯嘛当然要选个好的了&…