音视频技术开发周刊 | 306

news2024/10/5 9:09:04

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

d209dad83951c929fb35ce711deff569.png

人工智能研究人员声称,通过Zoom音频检测击键的准确率为93%

通过记录按键并训练深度学习模型,三位研究人员声称,基于单个按键的声音特征,他们在解释远程按键方面的准确率达到了90%以上。

https://arstechnica.com/gadgets/2023/08/type-softly-researchers-can-guess-keystrokes-by-sound-with-93-accuracy/

GitHub 1.1万星,模拟软件开发流程,开源框架MetaGPT爆火

随着大型语言模型(LLM)的日渐成熟,利用其构建 AI 智能体成为一个新的研究方向。已有研究使用 LLM 驱动多智能体自主完成了一些任务。然而,现有研究主要集中在简单任务上,缺乏对复杂任务的探索。这主要是因为大型语言模型存在「幻觉」问题,特别是当多个智能体相互作用时,幻觉会进一步被放大,以至于无法用于复杂任务。最近,一个名为「MetaGPT」的开源框架尝试解决这个问题。

对话Sam Altman与Greg Brockman:初心和过去,信念和现在,责任和未来

近日,硅谷著名投资人Reid Hoffman和Aria Finger联手对Sam Altman和Greg Brockman进行了一场访谈,访谈涉及到主题有:OpenAI的使命,人工智能对教育、医疗等行业的变革性影响,人工智能如何面对监管,OpenAI成功的关键,未来的发展畅想。 

cd426fb5fe7d38db3a978bc59a0aaf97.png

麦肯锡:ChatGPT等生成式AI加速,美国30%工作时间将实现自动化

全球顶级咨询调查机构麦肯锡发布了《生成式AI与美国未来工作》的深度调查报告,详细分析了生成式AI对美国劳动力市场的影响。

AI日报|ChatGPT更聪明了;为什么苹果不主动在AI领域炫技?

此前有消息称,OpenAI 购买了 AI.com,以便将其重定向到 ChatGPT 网页界面,这引起了一阵骚动。

OpenAI CEO亲自示范!自定义指令上手攻略,调教专属定制化AI助手

OpenAI推出了ChatGPT的自定义指令功能后,似乎没有收到用户们的热情回应,Altman本人都下场亲自教大家使用。

NeRF与三维重建相关

本文对室外神经辐射场使用深度先验进行了全面的研究和评估,涵盖了常见的深度传感技术和大多数应用方式。

b0992e62a62bef624f5976ba7595f649.png

ICASSP 2023说话人识别方向论文合集(二)

本文是 ICASSP 2023说话人识别方向论文合集系列第二期,整理了 Speaker Verification 后16篇和 Speaker Diarization 部分的17篇。

基于AI和NPU的Codec变革——VPU与NPU的协同创新

在这个快速变化的数字媒体时代,Codec技术在视频和音频处理中扮演着至关重要的角色。AI的崛起为Codec带来了前所未有的机遇和挑战,同时VPU与NPU的发展与协同创新,使得Codec能够更好地适应复杂的场景和需求。

面对算力瓶颈,如何利用CPU解决全链路智能编码?

英特尔是半导体行业和计算创新领域的全球领先厂商。与合作伙伴一起,英特尔推动了人工智能、5G、智能边缘等转折性技术的创新和应用突破,驱动智能互联世界。

业内首次!快手直播盛夏巅峰之夜应用全链路4K+HDR直播技术

2023快手直播盛夏巅峰之夜近期在上海举行,在4小时的直播中,快手首次采用了全链路4K+HDR直播技术,实现了从清晰度到光影色彩的全面提升,为观众呈现了一场极致的视觉盛宴,这也是该项技术在业内大型直播活动中的首次应用。

eda8d9cae90dad1697e321c9919b297c.png

MediaUni——面向未来的流媒体传输网络设计与实践

本文从应用对流媒体传输网络的要求、MediaUni定位与系统架构、MediaUni技术剖析、基于MediaUni的应用落地和流媒体传输网络的未来5个方面展开介绍。

超低延时直播技术的前世今生

据中国互联网络信息中心发布的《中国互联网络发展状况统计报告》显示,截止到 2022 年 6 月我国网络直播用户规模达到了 7.16 亿,占网民整体的 68.1% 。

华为参与制定标准,无线短距通讯“卷王”来了

一年一度的华为HDC(开发者大会)如约而至,带来了万众瞩目的HarmonyOS 4.0,盘古大模型、方舟引擎等一系列前沿技术,也亮相新一代无线短距通信技术:星闪 NearLink。

a36a35ca3e0d582d23c098b5ba13fa00.png

自动驾驶与GNSS之恋

GNSS是所有卫星导航定位系统的总称,凡是可以通过捕获跟踪其卫星信号实现定位的系统,均可纳入GNSS系统的范围。GNSS信号是广播式,即只要你能收到信号,就可以实现定位,不需要用户和卫星进行交互,即理论上来说,GNSS系统的用户容量是无限的。

目前主流车企都使用的哪些车机芯片和智能驾驶芯片?

目前市面关于自动驾驶行泊一体的解决方案基本都用到多颗SoC的策略,常见组合包括低算力TDA4 * 2方案、TDA4 + 3J3方案、高算力Orin * 2(*4)方案、MDC610 * 2方案等等,多颗SoC是如何联合工作的是个很有意思的问题,今天拿TI的双TDA4方案做一下解读,其中的思路可以帮助理解其它多SoC方案。

9192d57b185bfb8016905885315b85ac.png

大有可为的模拟芯片

模拟芯片负责处理连续的模拟信号。半导体市场主要包括集成电路(即芯片)、分立器件、光电子器件、传感器等四大类产品,其中集成电路市场占比最大。

00b27d5ebe475dd3e7cac6b62c0bbda1.png

Pro Tools现已免费提供MPEG-H制作插件

Fraunhofer IIS的MPEG-H制作插件现已免费提供给Pro Tools Ultimate客户。前不久,Fraunhofer IIS宣布与Avid建立战略合作伙伴关系。Avid为Pro Tools Ultimate客户提供MPEG-H制作功能,代表着合作关系愈加深入,从而为音频创作开启无限创意可能。

https://www.audioblog.iis.fraunhofer.com/cn/mpegh-pro-tools

1d2a994fc69857dba802ebdbd0b92bf0.png

音频编解码学习--MDCT 学习

在音频编解码中,MDCT变换是一个非常重要的基础概念,它在MP3和OGG介绍中都有涉及到。MDCT变换是一种数学变换,它将时域信号转换为频域信号,这对于音频编解码来说非常关键。

b1f22c2e368137977b3d1942ac3f03e9.png

Spectral sensor及其在手机领域的应用

Spectral sensor可以说是多光谱成像的一个变种。多光谱成像一般是用在食品、工业检测,以及地球遥感成像领域。

CVPR 2023 Tutorial Talk | 走向统一的视觉理解界面

如果我们对计算机视觉模型进行类似的预测,现在我们正在应对不同类型的图像级任务,如图像分类、图像描述,以及像素级任务图像分割等。实际上我们感兴趣的是,如何遵循类似语言模型的发展路径,进行统一,并增进计算机视觉模型的人类-AI 交互。

3d7d7da44bd0733159179bb649a04747.png

告别VR噩梦!Meta Reality Labs破解虚拟痛点,重塑全新VR世界

在SIGGRAPH 2023大会上,来自Meta Reality Labs的两个原型机让我们看到了「未来的一瞥」。

显示技术专家Karl谈Vision Pro:用虚拟屏替代物理屏是荒谬想法

近眼显示技术专家卡尔·古塔格(Karl Guttag)对苹果Vision Pro的分析。

CVPR 2023教程 | 多模态智能体-链接大模型

在 Linjie Li 的演讲中,她回答了多模态智能体中的重要问题之一:如何用大模型将多模态智能体串联起来。

33fb2bd7fabd7f3d49c5ba8228f2571b.png

全球半导体行业格局与演变趋势

过去五年里,芯片制造行业发生了重大变化,例如英特尔将桂冠输给了两个相对较新的竞争者——三星和台积电。

NVIDIA使扩展现实流更具可扩展性,可定制给企业和开发人员

各行各业的组织都在使用扩展现实(XR)来重新设计工作流程并提高生产力,无论是沉浸式培训还是协作式设计。

https://blogs.nvidia.com/blog/2023/08/08/cloudxr-suite-simplifies-enterprise-streaming/

d7e20edd6e462c7f31f3d645632d37de.png

室温超导:一个反复上演 “狼来了” 的研究领域

一队韩国学者发布两篇论文,宣布物理学领域重大突破,世界震动之余又将信将疑。一些同行试图通过重复实验或计算验证可行性,也有一些学者提醒公众别激动得太早。如今复现实验有了新进展 —— 整体不乐观,不过出现了积极的证据 —— 学界还在疑惑,资本市场已被点燃。

专访腾讯技术专家张贤国:十余年视频编码老兵,对技术仍保有敬畏之心

Vision Pro的发布,点燃了空间计算新时代的热潮。作为腾讯云架构平台部香农实验室(以下简称香农实验室)的技术负责人,张贤国向我们分享了香农实验室在视频编解码和空间媒体处理能力的最新进展与布局。

对话咔嚓剪辑金邦飞 | 如果把我的人生类比成播放器去开发与设计...

至今,多媒体的发展史大约有40年的时间,这40年里, 一代代技术人不断投身于多媒体事业的汪洋。LiveVideoStack此次采访金邦飞——深耕该领域的技术老兵。关注多媒体技术标杆的时代故事。

d3d9e95c599883ab3b79c5b372405e8d.png

LiveVideoStackCon 2023 深圳站 已启动

LiveVideoStackCon 2023 深圳站音视频技术大会以「沉浸·新视界」为主题。经过近十年的快速发展,多媒体生态正在向精致优化发展,更注重细节、成本,内卷和出海成为压力输出口。一方面,在现有市场及业务竞争仍旧相当激烈的环境下,企业开始更多关注于如何降低成本、追求更高的利润,以及面向用户提供更优质的服务与体验;另一方面,对于不断涌现的更多新的技术、场景,逐步探索并利用其创造更多的业务、产品与商业价值是各企业持续关注的目标。本次深圳站,我们拟邀请几十位来自海内外的音视频领域的专家聚集一堂,与你共同分享他们的专业见解。(点此查看大会讲师名单,更多精彩敬请期待)。

4bf8e0a9e76d2851eaa981dc3762e203.png

d2e7f8c6fb8b07ac4464ab72899e9877.png

点击阅读原文 

跳转LiveVideoStackCon 2023 深圳站 官网,了解更多信息

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/883120.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

前后端分离------后端创建笔记(11)用户删除

B站视频:30-用户删除&结束语_哔哩哔哩_bilibili 1、现在我们要做一个删除的功能 1.1 首先做一个删除的功能接口,第一步先来到后端,做一个删除的接口 2、删除我们用Delete请求 3、方法名我给他改一下 3.1这里给他调一下删除方法&#xf…

【Vue-Router】导航守卫

前置守卫 main.ts import { createApp } from vue import App from ./App.vue import {router} from ./router // import 引入 import ElementPlus from element-plus import element-plus/dist/index.css const app createApp(App) app.use(router) // use 注入 ElementPlu…

《算法竞赛·快冲300题》每日一题:“圆内的最短距离”

《算法竞赛快冲300题》将于2024年出版,是《算法竞赛》的辅助练习册。 所有题目放在自建的OJ New Online Judge。 用C/C、Java、Python三种语言给出代码,以中低档题为主,适合入门、进阶。 文章目录 题目描述题解C代码Java代码Python代码 “ 圆…

第五章 Opencv图像处理框架实战 5-10 文档扫描OCR识别

一、整体流程演示 上一篇我们进行了银行卡数字识别,这次我们利用opnecv等基础图像处理方法实现文档扫描OCR识别,该项目可以对任何一个文档,识别扫描出该文档上所有的文字信息。 为了方便后续程序运行,大家可以在Run->Edit Configuration中配置相关参数,选择相应编译器…

使用PostgreSQL构建强大的Web应用程序:最佳实践和建议

PostgreSQL是一个功能强大的开源关系型数据库,它拥有广泛的用户群和活跃的开发社区。越来越多的Web应用选择PostgreSQL作为数据库 backend。如何充分利用PostgreSQL的特性来构建健壮、高性能的Web应用?本文将给出一些最佳实践和建议。 一、选择合适的PostgreSQL数据类型 Pos…

CentOS系统环境搭建(三)——Centos7安装DockerDocker Compose

centos系统环境搭建专栏🔗点击跳转 Centos7安装Docker&Docker Compose 使用 yum 安装Docker 内核 [rootVM-4-17-centos ~]# uname -r 3.10.0-1160.88.1.el7.x86_64Docker 要求 CentOS 系统的内核版本高于 3.10 更新 yum yum update安装需要的软件包&#x…

Kubernetes Pod控制器

Pod控制器及其功用 Pod控制器,又称之为工作负载(workload),是用于实现管理pod的中间层,确保pod资源符合预期的状态,pod的资源出现故障时,会尝试进行重启,当根据重启策略无效&#xf…

Field injection is not recommended

文章目录 1. 引言2. 不推荐使用Autowired的原因3. Spring提供了三种主要的依赖注入方式3.1. 构造函数注入(Constructor Injection)3.2. Setter方法注入(Setter Injection)3.3. 字段注入(Field Injection) 4…

并发编程系列-CompletableFuture

利用多线程来提升性能,实质上是将顺序执行的操作转化为并行执行。仔细观察后,你还会发现在顺序转并行的过程中,一定会牵扯到异步化。举个例子,现在下面这段示例代码是按顺序执行的,为了优化性能,我们需要将…

管家婆软件被删除了怎样恢复?

一、使用了云服务器 使用了云服务器,数据不会丢失,只需要重新安装就好了。 1、如果使用的是B/S架构的,比如ERP等,我们可以直接把网址复制到浏览器,访问即可。 2、如果使用的是C/S架构的,比如辉煌2&#x…

每天一道leetcode:剑指 Offer 34. 二叉树中和为某一值的路径(中等图论深度优先遍历递归)

今日份题目: 给你二叉树的根节点 root 和一个整数目标和 targetSum ,找出所有 从根节点到叶子节点 路径总和等于给定目标和的路径。 叶子节点 是指没有子节点的节点。 示例1 输入:root [5,4,8,11,null,13,4,7,2,null,null,5,1], targetSu…

三维直方图

三维直方图更直观,借助matlab的bar3,可以绘制三维直方图。 clc; clearvars; cimread(lena.jpg); width 0.8; %默认值是0.8,根据需要修改。 % hbar3(c,width,r); hbar3(c); set(h,EdgeColor,r) % set(h,facecolor,b) % set(h(1),facecolor…

提速 40%,融云基于 QUIC 深度优化通信协议

8 月 17 日(本周四),融云直播课从排查问题到预警风险,社交产品如何更好保障体验、留住用户?欢迎点击报名~ 各分位(P99、P95、P50)连接速度提升 30%~50%;关注【融云全球互联网通信云】…

macOS CLion 使用 bits/stdc++.h

macOS 下 CLion 使用 bits/stdc.h 头文件 terminal运行 brew install gccCLion里配置 -D CMAKE_CXX_COMPILER/usr/local/bin/g-11

Microsoft ISA服务器配置及日志分析

Microsoft ISA 分析器工具,可分析 Microsoft ISA 服务器(或 Forefront 威胁管理网关服务器)的日志并生成安全和流量报告。支持来自 Microsoft ISA 服务器组件的以下日志: 数据包过滤器ISA 服务器防火墙服务ISA 服务器网络代理服务…

【0基础学爬虫】爬虫基础之网络请求库的使用

大数据时代,各行各业对数据采集的需求日益增多,网络爬虫的运用也更为广泛,越来越多的人开始学习网络爬虫这项技术,K哥爬虫此前已经推出不少爬虫进阶、逆向相关文章,为实现从易到难全方位覆盖,特设【0基础学…

Qt5开发环境-银河麒麟V10ARM平台

目录 前言1.源码下载2.编译安装2.1 安装依赖2.2 编译2.3 遇到的问题2.4 安装 3.编译qtwebengine3.1 安装依赖库3.2 编译3.3 遇到的问题3.4 安装 4.配置开发环境5.测试6.程序无法输入中文的问题总结 前言 近期因参与开发的某个软件需要适配银河麒麟v10arm 平台,于是…

算法与数据结构(五)--二叉树入门

符号表的增删查操作,随着元素个数N的增多,其耗时也是线性增多的,时间复杂度都是O(n),为了提高运算效率,我们学习树这种数据结构。 目录 一.树的基本定义 二.树的相关术语 三.二叉树的基本定义 四.二叉树的链表实现…

mysql-5.5.62-win32安装与使用

1.为啥是这个版本而不是当前最新的8.0? 因为我要用32位。目前mysql支持win32的版本最新只到5.7.33。 首先,到官网MySQL :: MySQL Downloads 然后选 选一个自己喜欢的版本就好。我这里是如标题版本。下载32位的zip。然后回来解压。 完了创建系统环境变…

【boost网络库从青铜到王者】第三篇:asio网络编程中的buffer缓存数据结构

文章目录 1、关于buffer数据结构1.1、简单概括一下,我们可以用buffer() 函数生成我们要用的缓存存储数据。1.2、但是这太复杂了,可以直接用buffer函数转化为send需要的参数类型:1.3、output_buf可以直接传递给该send接口。我们也可以将数组转化为send接受…