音视频技术开发周刊 | 316

news2025/1/11 23:35:03

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

9abc6b7d6017e667863c9ba7d8d00964.png

日程揭晓!速览深圳站大会专题议程详解

LiveVideoStackCon 2023 音视频技术大会深圳站,保持着往届强大的讲师阵容以及高水准的演讲质量。两天的参会时间,您可以快速了解音视频大咖前瞻的思想、把握音视频技术发展的最新动向、深入学习技术内容和工程化方面的一手实践。现在,深圳站大会日程正式揭晓,一起来看看您所关注的演讲都出现在哪些时段吧!

●时间:2023年11月24日-25日
●地点:深圳圣淘沙酒店(翡翠店)
●咨询:13520771810(微信同号)了解详情。
●官方链接:https://sz2023.livevideostack.com/topics

e93181b9a2d83367c4d136c53dec9cc9.jpeg

LiveVideoStack多媒体技术调研定量收集倒计时两

在过去两个月中,我们致力于收集和分析定量数据与定性数据,以深入了解音视频行业的最新动态和反馈。通过音视频技术人员的支持,得以在音视频市场中捕获独特且具有深度的洞察。
扫描下方图片二维码,参与其中,抽奖深圳大会门票!期待与您共同探索和创造音视频行业的更多可能性!

3a2c2e6f5df6e5f33c325aadf72de46e.png

5deb5c793f5fac899b0ea73b6aecc1f3.png

PyTorch大更新,编译代码速度暴增35倍!视觉模型一键部署,头显Quest 3可用

最近,在Pytorch发布会上,发布移动端Pytorch解决方案ExecuTorch,实现在移动端设备上大范围地部署AI工具,并推出最新版本Pytorch2.1,推理速度大幅提升。

AI Agent,启动!复旦NLP团队发86页长文综述,智能体社会近在眼前

近日,一篇探讨基于LLM的Agent综述论文在X上火了!仔细一看,论文署名中甚至一度还有米哈游。

自动驾驶数据不用愁!港中文等发布MagicDrive:日夜、雨晴、多视角全覆盖,人、物位置随意变更

MagicDrive可以细粒度生成高保真、多相机街景,可以随意变换天气、光照条件以及人物位置,海量自动驾驶数据触手可及!

麦肯锡发布生成式AI报告,预测2030可达人类水平

麦肯锡AI报告发布,生成式AI进步飞快,经济效益巨大,未来不可小觑。

56361d706a8d38234fdb528860e44cd3.png

碾压GPT-4,微软最强AutoGen爆火!多个智能体协作,编码速度飙升4倍,GitHub狂揽10k星

AI智能体热度,只增不减。发布仅2周,微软、PSU和华盛顿大学等团队开发的智能体AutoGen瞬间登顶GitHub热榜,狂揽10k星。

打造ChatGPT平替,成本暴降95%!OpenAI硬核更新下月发布,视觉API要来

为了吸引更多开发者,OpenAI正在计划一波重大更新,并且让构建ChatGPT应用的成本降低多达20倍!

超低训练成本文生图模型PixArt来了,效果媲美MJ,只需SD 10%训练时间

当前,最先进的文本到图像(T2I)模型需要大量的训练成本(例如,数百万个 GPU 小时),这严重阻碍了 AIGC 社区的基础创新,同时增加了二氧化碳排放。

d048ae140624c94350e2c8148f10ada1.png

CMU等发布最简单的行走机器人:具有一个驱动器和两个刚体的双足机器人

卡内基和伊利诺伊大学香槟分校联合发布最简单的行走机器人:具有一个驱动器和两个刚体的双足机器人。

TRO 2023|iSimLoc:利用虚拟图像对未看到的环境进行视觉全局定位

相机由于体积小、重量轻、功耗低且成本低,是无人机超视距操作的一种有吸引力的设备。但是,目前最先进的视觉定位算法在匹配视觉数据方面存在困难,尤其是在照明或视角产生显著变化时。本文提出了iSimLoc,这是一种基于学习的全局重定位方法,对外观和视角的变化具有鲁棒性。iSimLoc的场景识别网络学习到的特征可以用来匹配查询图像和不同视觉风格域和视角的参考图像。此外,我们的分层全局重定位模块以粗细粒度的方式进行搜索,使iSimLoc可以进行快速精确的姿态估计。

ICRA 2023| 基于点平面图的高效视觉惯性导航

在许多应用中,如微型飞行器物流、增强现实等,相对于全局先验地图进行准确、实时的全局位姿估计是必不可少的。假设一个纯稀疏的三维点地图可以提供环境的无结构表示,那么生成一个点-平面先验地图可以进一步建模环境拓扑结构,并为准确定位提供全局约束。

1bf4df74355b833a25de9b5109641c78.png

挣钱越来越难后,游戏引擎厂商们选择加入虚拟世界

在游戏开发者们铺天盖地的声讨中,Unity首席执行官John Riccitiello选择退场。

雷鸟X2抢先解读:一款前沿技术密集集成的真AR眼镜

雷鸟创新将于深圳举办其首场新品发布会,届时将公布高端AR眼镜产品雷鸟X2。基于目前已知信息,雷鸟X2是一款性能怪兽级眼镜产品:双目全彩Micro-LED、高通XR2芯片、1600万摄像头等,而这一系列模组将集成在一个小型的眼镜形态中。

Meta Quest 3现已发售!解锁高保真级别的输入、交互和动作捕捉功能

Meta Quest 3已于2023年10月10日正式发布,在Meta Connect 2023大会上,Meta宣布了一系列Presence Platform功能的升级,这些功能将支持Meta下一代头显的输入、交互和动作捕捉。以上功能的升级将影响高保真级别的上半身跟踪,带来更自然、反应更灵敏的交互(如微手势),以及逼真的腿部动作等。

06266c475658a20c555d9d2213fd23a2.png

浅析中国半导体产业的挑战与出路

近几年,半导体领域的“你追我赶”已成为世界强国博弈的主战场。近期华为发布的Mate60 Pro搭载的国产麒麟芯片9000s,实现了较高程度的自主可控和国产化,权威媒体认为是美国对华为4年技术封锁后的重大突破,也代表着中国距离欧美芯片最先进技术仅剩5年左右的差距。

ASML是绝对的霸主,纳米压印的影响近乎零

近来,因为佳能发布了号称可以生产2nm的新一代纳米压印光刻机,引起了大家对其与ASML竞争的广泛讨论。

CXL开启高性能计算的新纪元

随着科学研究和工业生产对数据处理能力的需求不断攀升,高性能计算(HPC)已成为推动这些领域进步的重要力量。在这样的背景下,计算机技术尤其是互连技术的进步显得尤为关键。Compute Express Link(CXL)作为新一代的高速互连技术,因其在带宽、延迟和扩展性方面的优势,正展现出在HPC领域的广泛应用潜力,有可能彻底改变数据中心和加速器之间的通信方式,从而推动HPC领域的革命性进步。

b5d640c392f5a80a5c911b5db22f1288.png

端到端语音识别中的建模单元

端到端语音识别中不同的建模单元有着不同的应用场景,本文对中英文常用的一些建模方式以及如何生成对应的标签进行总结,希望对大家有所帮助。

开源上新|FunASR英文离线文件转写软件包发布

FunASR是由阿里巴巴智能计算研究院语音实验室开源的语音识别框架,集成了语音端点检测、语音识别、标点预测等领域的工业级模型的训练和部署。

人工智能工具利用心音检测瓣膜性心脏病

当医生通过听诊器倾听患者心脏时,他们会听到心脏瓣膜在打开和关闭时发出的独特扑通声,以此来检测瓣膜泄漏、卡住或滑出位置时发出的细微杂音。

初创公司使用AI技术 演员可以使用本人的声音生成指定语音

近日,一名配音演员Ciccy Jones创办了AI初创公司Morpheme,旨在利用 AI“重塑”从动画片到游戏的配音、拟音方式。

25a8d1fee2b594e0d1d9ae258442920b.png

打造沉浸式专业音视频体验

我们的生活被专业的音视频设备所包围。从零售广告中的数字标牌,到现场活动中的麦克风和大屏幕显示;从体育赛事的现场直播到行业的实时监控....。需要在不牺牲视频质量、延迟或控制的情况下进行成本效益设计。AMD 平台可快速适应新兴音视频技术的要求,可通过 AV-over-IP 的方式,采用无损压缩或者深压缩方式进行高质量音视频传输,并在成本优化的器件中集成支持最新 AI/ML 技术的多媒体流水线。

从零开始的stable diffusion

stable diffusion真的是横空出世,开启了AIGC的元年。不知你是否有和我一样的困惑,这AI工具好像并不是那么听话?

基于多模态的视频高能点提取技术

当用户在浏览B站时,首页所呈现的视频内容以卡片形式依序展示,这些视频卡片的封面大多数是与视频相关的静态图像。在制作视频时,up 主通常会选取视频中的某一帧并加上较为醒目的文案来制作封面;而电影和记录片则倾向于选择具有代表性的精彩帧画面作为封面展示。这种策略通过简洁、直观的封面设计,让用户在页面浏览的时候能迅速捕捉到视频的主题。

5732e99def558ac835513afaaa440200.png

“好的编解码IP一定是不断打磨出来的”—— 对话北格逻辑研发总监周毅华

在音视频编解码领域,以H.264/H.265为代表的深压缩编解码算法一直占据着行业的主流。随着视频编解码的需求增多,浅压缩算法逐渐得到了重视。JPEG 2000曾获认为是未来取代JPEG的下一代图像压缩标准相较于主流的潜压缩JPEG来说,JPEG 2000压缩比更高,体积更小,并能同时支持有损/无损两种压缩方式。

亮风台唐荣兴:从业二十年,通讯、协作的“变”与“不变”

从03年左右开发PocketPC上软件电话SIPPhone算起,到现在AR眼镜上的AR协作软件,刚好二十年。

“完美的汽车音频体验就像坐在小型音乐厅”——对话赛因芯微CEO吴健

上次,我们聊到了专业音视频领域Pro AV的发展,而作为音视频的半壁江山,“听”的力量绝不对不容小觑,好的音频体验可以让听者更有“沉浸感”,实现身临其境的效果。本次,我们对话了专注于音频领域的赛因铸声场,创始人吴健从1999年开始从事音乐技术工作,2000年为中国摇滚音乐家崔健设计了现场录音系统,完成话筒信号分裂机和放大器的研发,崔健使用至今。如今,他们将关注放在汽车座舱声学的处理,希望能够创造完美的声学体验。以下,是LiveVideoStack与赛因芯微的对话,希望对你有所帮助。

点击阅读原文 

跳转LiveVideoStackCon 2023 深圳站 官网,了解更多信息

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1128111.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

河南工业大学人工智能与大数据学院学子在第三届“火焰杯”软件测试开发选拔赛中 取得佳绩

近日,第三届“火焰杯”软件测试开发选拔赛落下帷幕,我校人工智能与大数据学院选派的多名参赛选手在王雪涛老师的指导下,经过激烈的角逐,取得优异成绩。其中,何鸿彬,贾文聪获得决赛二等奖,王静宇…

【PyTorch】深度学习实践 01 Overview

人工智能概述 课程前置知识 线性代数 概率论 (不要有路径依赖,遇到不会的就现学)Python基础 人工智能 问题分类 人工智能,实际上就是利用计算机来代替人脑进行智能工作,计算机所要实现的智能可以分为两大部分&am…

腾讯待办是不是停了?能准时提醒待办事项的APP

有不少网友会使用“腾讯待办”小程序来记录待办的事情,并且设置提醒时间,进行任务管理。不过有不少网友最近在使用腾讯待办小程序的时候,看到了“业务关停通知”的弹窗,想问一下,腾讯待办是不是停了?确实如…

JS多选答题时,选项互斥时的情况

在做答题类的项目时,应该会比较常见多选题选相互斥的问题,例如: 你喜欢什么颜色?()A、红色B、紫色C、蓝色D、灰色E、均无如该题,当选择选项E时,明显与其他选项互斥。这个时候经常会…

《作为一名编程新手,如何提升编程能力》

互联网行业是一个充满挑战且内卷比较严重的行业,程序员如何让自己在行业内一直保持竞争力,其实就是需要通过不断的学习提升自己,那么对于一个刚刚入门的新手,如何快速的提升自己呢?本文就和大家交流下入门级程序员想要…

Vue中linq的应用及语句示例

一、运行npm install linq 二、引入linq(在你需要用到的组件中引入) var Enumerable require(linq); linq并不需要在main.js中import和Vue.use(linq) 三、linq的具体应用 (1)linq.js 的方法解析说明(但是在不同的…

【Python】机器学习-K-近邻(KNN)算法【文末送书】

目录 一 . K-近邻算法(KNN)概述 二、KNN算法实现 三、 MATLAB实现 四、 实战 一 . K-近邻算法(KNN)概述 K-近邻算法(KNN)是一种基本的分类算法,它通过计算数据点之间的距离来进行分类。在…

RDD算子操作(基本算子和常见算子)

目录 一、基本算子 1.map算子 2.flatMap算子 3.filter算子 4.foreach算子 5.saveAsTextFile算子 6.redueceByKey算子 二、常用Transformation算子 1.mapValues算子 2.groupBy算子 3.distinct算子 4.union算子 5.join算子 6.intersection算子 7.glom算子 8.groupByKey算…

阿里巴巴中国站item_search_img按图搜索1688商品(拍立淘) API 返回值说明

1. 商品API:提供了搜索、详情、评价等与商品相关的接口,可以通过关键词搜索商品,获取商品详情、销量等信息。 2. 店铺API:提供了店铺信息、店铺内商品等接口,可以查询店铺的基本信息、主营类目、评分等,还可…

常用封装工具类

文章目录 前言一、保留指定小数位二、获取bean三、假分页计算四、星期计算五、经纬度计算距离 前言 一、保留指定小数位 import org.apache.commons.lang3.StringUtils; import java.math.BigDecimal;public class OffSetPointUtil {/*** 保留指定小数位数** param value 原始…

【AI视野·今日Sound 声学论文速览 第二十八期】Wed, 18 Oct 2023

AI视野今日CS.Sound 声学论文速览 Wed, 18 Oct 2023 Totally 12 papers 👉上期速览✈更多精彩请移步主页 Daily Sound Papers Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles Authors Fernando L pez, Jordi Luque, Carlos Segura, Pablo…

当数据库遇上深度学习:AI DataLoader 助力因子管理模型训练全流程

深度学习模型有能力自动发现变量之间的关系,而这些关系通常是不可见的,这使得深度学习可以挖掘新的因子和规律,为量化投资策略提供更多可能性。在传统的量化策略开发流程中,通常会使用 Python 或第三方工具生成因子,并…

什么是电源高压测试标准?如何测试?测试时要注意什么?

电源高压测试也叫电源耐压测试,是为了检测电源产品绝缘结构是否能够承受电力系统的内部过电压,进而防止安全事故的发生。不同技术规格的产品,高压测试的标准也不同。对于一般设备来说,以两倍于被测物的工作电压再加1000V作为测试的…

访问控制1

文章目录 主要内容一.ServiceAccount1.示例:在一个名为acctests的namespace中,创建一个名为udbs的serviceAccount代码如下(示例): 2.解释 二.Role和ClusterRole1.在名为test的namespace中创建一个名为test-role的角色,以及创建一个…

vue3+ts父子组件以及单页面刷新的方法

父子组件刷新页面: 父组件定义函数reset,子组件props接收 示例一: 父组件 //ts删减部分: import { deleteCompanyById, findAllCompanys } from /api/company import { usePureFetch } from /nexus/useFetch import type Compa…

2023 | 组蛋白乳酸化如何影响免疫、自噬最新发现!

乳 酸 乳酸是人体循环系统最丰富的代谢产物之一。乳酸由糖酵解的终产物丙酮酸盐通过乳酸脱氢酶(LDH)产生。有氧条件下,丙酮酸盐可以穿梭进入线粒体,以促进生物合成途径和ATP产生。当氧气不足时,丙酮酸转化为乳酸&…

asp.net文档管理系统VS开发sqlserver数据库web结构c#编程Microsoft Visual Studio

一、源码特点 asp.net文档管理系统是一套完善的web设计管理系统,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为vs2010,数据库为sqlserver2008,使用c#语言开发 asp.net文档管理系统 二、功能介绍 (1…

如何系列 如何玩转远程调用之OpenFegin+SpringBoot(非Cloud)

文章目录 简介原生Fegin示例基础契约日志重试编码器/解码器自定义解码器 请求拦截器响应拦截器表单文件上传支持错误解码器断路器指标metrics客户端 配合SpringBoot(阶段一)配合SpringBoot(阶段二)1.EnableLakerFeignClients2.Lak…

spring cloud Eureka集群模式搭建(IDEA中运行)《一》

spring cloud Eureka集群模式搭建(IDEA中运行) 新建springboot 工程工程整体目录配置文件IDEA中部署以jar包形式启动总结 新建springboot 工程 新建一个springboot 工程,命名为:eureka_server。 其中pom.xml文件为: …

Mask Free VIS笔记(CVPR2023 不需要mask标注的实例分割)

paper: Mask-Free Video Instance Segmentation github 一般模型学instance segmentation都是要有mask标注的, 不过mask标注既耗时又枯燥,所以paper中仅用目标框的标注来实现实例分割。 主要针对视频的实例分割。 之前也有box-supervised实例分割&…