音视频技术开发周刊 | 302

news2024/11/26 6:20:19

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

45484d0fe04f897cf4a5d30a66479172.png

ChatGPT神器Code Interpreter终于开放,到底怎么用?这里有一份保姆级教程

Code Interpreter 已经正式开放。

上海世界AI大会:MidJourney名字的来源是庄子?

MidjourneyCEO大卫·霍尔兹在2023世界人工智能大会上发言,认为AI将成为创造和想象力的新的载体和引擎。通过AI,我们有可能放大整个人类种族的原始想象力。针对公司的名字Midjouney,霍尔兹表明它来自于道教著作《庄周》中的中道概念,他认为中国古典文学带来了很多最美丽的,最深沉的思想。

0967347cf64c2e9add9c8792680eae78.png

生成式AI时代的AI Infra—从DevOps->MLOps->LLMOps

这篇文章想要从AI Infra的角度出发,从更宏观的角度看Generative AI对AI Infra生态产生的变化,本文不局限于LLM,文中提到的LLM泛指一切Generative AI或者Foundation Models。

华为大模型登Nature正刊!比传统方法预测天气,快1万倍

盘古气象大模型或使人类得以重新审视气象预报模型的未来。

ff27756e207806e575b2213f0f478707.png

CIS制造工艺回顾与展望

CMOS图像传感器由于能够集成到具有高图像质量的智能手机中,因而正经历着巨大的增长。图像传感器发展的主要贡献之一是其制造工艺的创新。这篇文章详细回顾了CMOS图像传感器的不同制造工艺及其对智能手机图像质量的影响。讨论了使用硅通孔和Cu-Cu混合键合等技术制造CMOS图像传感器及其实验结果。

卖一颗芯片亏 23 万,自动驾驶芯片创业有多难

国内车载芯片创业公司黑芝麻智能向港交所递交上市申请材料,计划在港股主板挂牌。黑芝麻智能是仅有的两家实现量产上车的国产大算力芯片公司之一,其量产节奏和出货量仅次于地平线。

e7d2695c8edeaa737b248dd788d2c6ba.jpeg

通过诱导和限制表示的等变单视角姿态预测

该研究探讨了计算机视觉中的一个基本问题,即如何从二维图像中学习关于三维世界的信息。研究人员提出了一种理想的神经网络架构,该架构利用物体在三维空间中的旋转和平移特性,对新的图像进行预测。然而,将SO(3)的等变性应用于二维输入是具有挑战性的。为了解决这个问题,研究人员引入了SO(2)-等变性约束,并利用SO(2)在SO(3)上诱导和限制的表示来构建满足几何一致性约束的架构。

https://arxiv.org/abs/2307.03704

香港科技大学提出视角不变的场景图循环检测方法:迈向场景感知的机器视觉

针对室内场景中的视觉SLAM,这篇论文提出了一种基于增量生成场景图的回环检测方法。它综合考虑宏观视图拓扑、微观视图拓扑和语义实例的占有率,找出正确的对应关系。使用手持RGB-D序列进行的实验表明,该方法能够准确地检测出变化剧烈的视点中的环路。它在观察具有相似拓扑和外观的对象时保持了高精度。

09e16d918b8e9620a17937edce387aa4.png

从神经辐射场中移除物体

神经辐射场(NeRFs)是一种能够合成新视图的场景表示方法。现有的 NeRF 编辑框架很难实现这种指定物体的移除。本文提出一个框架,可以从 RGB-D 序列创建的 NeRF 表示中删除对象。NeRF inapinting 的方法利用了最近在 2D 图像 inpainting 方面的工作,并由用户提供的 mask 作为指导。该算法通过基于置信度的视图选择过程,选择使用哪些 inpainted 2D 图像来创建 NeRF,使生成的 NeRF 是 3D 一致的。本文所提出的NeRF编辑方法对以多视图一致的方式生成修复是有效的,并在一个全新的数据集上验证了所提出的方法。

图像压缩对视觉识别的鲁棒性分析

这篇文章的发现有助于在资源和带宽有限的情况下为用户部署视觉识别。在未来的工作中,希望探索在互联网规模的数据集上训练视觉识别模型时,本文的发现可以用于减少 I/O 绑定延迟。特别是,探索直接在潜在压缩图像表示上训练识别模型,而不是通过通常的 RGB 表示。

室内场景的凸分解(Convex Decomposition)

这篇文章关于三维图形的分割和重建。该研究描述了一种将复杂、杂乱的室内场景解析为简化的凸结构的方法。该团队使用简单的凸多边形作为基本元素来对场景结构进行抽象。利用学习到的回归过程,从RGBD输入中将场景解析为固定数量的凸多边形,并可选择使用分割信息来改善分解结果。

https://arxiv.org/abs/2307.04246

你不知道的分光测色仪结构

通过颜色的测量工具(统称为测色仪)可以轻松地得到被测物体在不同光源及各种条件下的色度数,甚至光谱曲线;有利于进行色彩的管理、控制及研发,方便不同厂家间的色彩交流和沟通;可以避免人为或环境因素造成的色彩判断偏差;无论室内室外,都可以做到更精准、客观地评判色彩。

688f9cddfbc35c95797e6f4d665b35cb.png

音视频工具--Onvif设备管理器

ONVIF 设备管理器 (ODM) 是一款免费的开源软件实用程序,旨在管理符合 ONVIF 标准的网络视频设备,例如 IP 摄像机、视频编码器和网络录像机 (NVR)。ONVIF 代表开放网络视频接口论坛,是基于 IP 的物理安全产品的全球标准化倡议,旨在促进不同制造商设备之间的互操作性。

直播道具高可用建设

根据2022年第四季度的财报数据显示,B站在跨年晚会期间的直播人气峰值达到了3.3亿。直播业务对于B站来说是一个重要的增长点,而道具投喂(赠送礼物,后面统称为道具投喂,礼物统称为道具)在直播业务中扮演着重要的角色。在这篇文章中,介绍了如何确保直播道具相关系统的高可用性,以实现99.99%的稳定性目标。文章将分为三个部分,分别是道具面板,道具投喂和多活。

f2c0485b61bfcf2d64bf161a9bb97915.png

Meta最新开源图形库IGL,star近2k,支持游戏开发、3D建模

IGL 是一个可直接调用 GPU 的跨平台图形库,通过底层跨平台接口封装了常见的 GPU 功能。Meta 称 IGL 的特性包括:跨平台兼容、高性能渲染、易于使用的 API、可扩展、完全开源、可用于任何项目,并且没有任何许可限制。

e8ab224ed60711dd92c2fd055fa10656.png

“Hey Siri”要成为历史了。

今年 6 月,iOS 17 发布开发者版本,其中一个很有意思的改动是“Hey Siri”将没有“Hey”了——用户仅需说“Siri”就能唤醒语音助手。但就是这么一个简单的变化,却愁坏一大堆程序员。从去年年末消息放出到现在将近半年,iOS 依然没有正式更新该功能。拿走一个“Hey”,对语音助手来说有多难?

达摩院FunASR离线文件转写SDK发布,完成工业落地“最后一公里”

FunASR是由达摩院语音实验室开源的一款语音识别基础框架,集成了语音端点检测、语音识别、标点断句等领域的工业级别模型,吸引了众多开发者参与体验和开发。

语音合成中的Lora,插件式speaker开发

语音合成中的Lora,插件式speaker开发,语音克隆的未来。

a3f0f17653e235400be81a15b7976fcd.png

苹果Vision Pro中文开发教程汇总

这篇文章介绍了将Unity VR应用带入完全沉浸式空间、开始构建空间计算应用等7个教程。

手持移动设备上凝视估计及其交互应用的全面综述

近年来,我们见证了越来越多的手持移动设备上采用凝视作为单一或辅助交互方式的互动系统。这一趋势是由这些设备的增强计算能力、更高分辨率和相机容量以及先进的机器学习技术(尤其是深度学习)所带来的凝视估计精度的提高驱动的。这篇文章旨在通过呈现一个端到端的综合视角来实现这一目标,从凝视捕捉传感器、凝视估计工作流程、深度学习技术到凝视交互应用的全面综述。

https://dl.acm.org/doi/10.1145/3606947

谷歌还能撑得起XR的野心吗?

苹果推出了有着划时代意义的Vision Pro,科技圈为此兴奋不已。Vision Pro公布数日后,谷歌CEO桑达尔·皮查伊(Sundar Pichai)在一次采访中还表达过对Vision Pro的看法:“我对这项技术的潜力感到兴奋。” 

但几周后却传来谷歌停止开发AR眼镜项目“Iris”的消息,回想近些年谷歌在AR方面的投入,令人唏嘘。

14a0f7917d5f38e3fb8f98f5d00e4abf.png

EPIQ 2020 | SHVC based HTTP Adaptive Streaming over QUIC

这篇文章研究了QUIC和HTTP/2对ABR算法性能的影响。此外,提出了一种有效的方法,结合了传统的视频流传输方法(基于非可扩展视频编码格式)和一种重传技术,以利用可扩展视频编码格式进行自适应视频流传输。实验结果表明,在丢包和重传的情况下,QUIC从这种方法中获得了显著的好处。与HTTP/2相比,它提高了平均视频质量,并提供了更平滑的自适应行为。最后,本文证明了最初针对非可扩展视频编解码器设计的方法在可扩展视频(如可扩展高效视频编码,SHVC)上也能有效地工作。

e58a8e73c8ff1a5b673f9d1de69f1759.png

B站“横竖”都要

被短视频“冲击”一年后,中长视频能否如愿“逆天改命”?

867f810cbc3f24f0717e0345e6eaa9bc.png

对话中科深智成维忠:数字人的关键是交互,交互的关键是大模型

成维忠一直相信,人是未来 3D 交互的重中之重,而这种与“人”的交互,则必须通过 AI 和大模型来完成。

5fe6bc9195e3d9c22b83bf984cc7d514.png

LiveVideoStackCon 2023 上海站日程发布

LiveVideoStackCon 2023 上海站音视频技术大会以「沉浸·新视界」为主题,除了探索音视频技术在不同场景下的融合与发展外,还增添了游戏、AIGC和数字化行业案例等新鲜火爆的话题。在这里,你可以感受到多媒体生态内的头部公司、顶级玩家对行业当前发展趋势、瓶颈挑战,与对未来规划的深入解读。

我们将邀请60余位顶级讲师聚集一堂,与你共同分享他们的专业见解。这是一个与业内顶尖专家进行深入交流的绝佳机会,你将有机会亲自与他们面对面,从他们丰富的经验中获得宝贵的技术心得。

28d249c2b0c304f3f076cce4e4033928.png

扫描图中二维码或点击“阅读原文 

查看更多LveVideoStackCon 2023上海站精彩话题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/764768.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Fedproto:原型聚合的联邦学习框架

题目:FedProto: Federated Prototype Learning across Heterogeneous Clients 网址:http://arxiv.org/abs/2105.00243 目录 前言 什么是原型? Fedproto框架 fedproto settings Fedproto算法 优化目标 全局聚合 局部更新 伪代码 前言…

抖音seo源码搭建,抖音矩阵系统源码分发,抖音矩阵账号管理

前言: 抖音seo源码,抖音矩阵系统源码搭建,抖音矩阵同步分发。抖音seo源码部署是需要对接到这些正规接口再来做开发的,目前账号矩阵程序开发的功能,围绕一键管理多个账号,做到定时投放,关键词自动…

[Linux笔记]vim基础

vim本身不是像vs那样什么都能做的ide,只是单纯的编辑器。 命令行输入vim 文件名,会以vim打开文件。 若当前路径下尚无该名称的文件,则会在保存退出时创建该文件。 在vim中操作,尽量不要用鼠标及其滚轮操作,而只用键盘…

tql!AD域渗透信息收集可视化工具

工具介绍 adalanche是一款ad域中的ACL可视化及利用工具,和BloodHound功能类似,能方便域渗透人员快速发现域中的弱点;有开源版和商业两个版本。 关注【Hack分享吧】公众号,回复关键字【230709】获取下载链接 相比于BloodHound工具…

nest.js 添加 swagger 响应数据文档

基本使用 通常情况下,在 nest.js 的 swagger 页面文档中的响应数据文档默认如下 此时要为这个控制器添加响应数据文档的话,只需要先声明 数据的类型,然后通过ApiResponse 装饰器添加到该控制器上即可,举例说明 todo.entity.ts …

DP1044 CAN FD 待机模式总线收发器替代TJA1044

5V 供电,IO 口兼容 3.3V,5Mbps,CAN FD 待机模式总线收发器DP1044是一款应用于 CAN 协议控制器和物理总线之间的接口芯片,可应用于卡车、公交、小汽车、工业控制等领域,支持 5Mbps 灵活数据速率(Flexible Da…

新零售商城系统开发流程,新零售商城系统的前景如何?

近10年来,新零售商城系统火爆的原因在于移动互联网普及、个性化需求的增加、优化用户体验、数据驱动的营销和线上线下融合。新零售商城系统是基于互联网技术的商城平台,通过线上线下融合、数据分析和个性化推荐等功能,为零售商提供全方位的销…

N!Weblogic CVE-2023-21839 RCE

项目简介 Weblogic CVE-2023-21839/CVE-2023-21931/CVE-2023-21979 一键检测工具,这是来自长亭xray的代码,该漏洞扫描已集成到新版本xray中。 关注【Hack分享吧】公众号,回复关键字【230708】获取下载链接 无需任何Java依赖,构造…

【C语言】unsigned 与 signed 详解

1. 基本概念 整数在存储单元中都是以补码形式存储的,存储单元中的第 1 个二进制位代表符号。整型变量的值的范围包括负数到正数。 但是在实际应用中,有的数据的范围常常只有正值(如学号、年龄等),为了充分利用变量的值…

网盘工具alist在Windows中使用教程

alist 软件同时支持 http 协议和 WebDAV 协议,并且支持很多网盘种类,这样就给我们留下了很多可玩的空间,比如: 实现网盘本地化访问关联本地的播放器,以实现很好的播放效果多端文件互传,比如将阿里云盘的文…

GO语言slice

slice: data lencap 以及存取的元素是可以安全读写的 Slice 扩容。 1,预估: 2,预估容量后*字节数 所需的内存 3,各种语言从OS上提前申请内存,匹配GO规则的内存

nosql——Redis,Mongodb

目录 一、redis 1、 string类型数据的命令操作 2、 list类型数据的命令操作 3、 hash类型数据的命令操作 4、Keys相关的命令操作 二、mongodb 1. 创建一个数据库 名字grade 2. 数据库中创建一个集合名字 class 3. 集合中插入若干数据 文档格式如下 4. 查找 5. 增加、…

配置jenkins 服务器与目标服务器自动化部署

在配置完远程构建后可以通过添加post-build step 执行shell脚本的方式将包传到远程服务器等一系列操作。 通过scp传输打包好的项目到目标服务器 按照链接 方式配置免密操作,需要注意的是要在jenkins 用户目录下配置生成私钥密钥,配置jenkins 的免密&…

SQL数据库(设置模式、数据库操作、表操作、列操作、SQL索引/约束、SQL数据类型、SQL函数、常见问题)

目录 SQL数据库 设置模式 SET NAMES utf-8 set sql_safe_updates1 数据库操作 CREATE DATABASE databaseName(创建数据库) USE databaseName(选择数据库) DROP DATABASE databaseName(删除数据库) …

一种集成低损耗二极管的SiC沟槽MOSFET,用于提高开关性能

标题:A Low-Loss Diode Integrated SiC Trench MOSFET for Improving Switching Performance 阅读日期:2023.7.17 研究了什么 该研究提出并通过数值模拟对一种集成低损耗二极管(LLD-ATMOS)的硅碳化物(SiC&#xff09…

【SSCMS 内容管理系统】环境配置篇

SSCMS 内容管理系统基于微软 .NET Core 平台开发,用于创建在 Windows、Linux、Mac 以及 Docker 上运行的 Web 应用程序和服务。 具有”跨平台、分布式部署“、”网站群与多服务器发布“、”良好的扩展性与二次开发“ 等特点。 MySqlSSCMS系统(V6版本&am…

初识react

初识react 第一步就给我出个问题版本太低 https://www.cnblogs.com/gslgb/p/16585233.html https://blog.csdn.net/xiangshiyufengzhong/article/details/124193898 第二个问题 便利生成dom 需要绑定key 不要总想着加冒号这不是vue 第三个问题 我p标签包裹 MapList组件 MapLis…

一致性哈希算法总结

title: 一致性哈希算法总结 date: 2023-05-22 11:25:13 tags: 算法 categories:数据结构与算法 cover: https://cover.png feature: false 1. 背景 假设,我们有三台缓存服务器,用于缓存图片,我们为这三台缓存服务器编号为 0 号、1 号、2 号…

使用Vue + el-form + rules实现图书信息录入功能实战

前言 上节回顾 转眼2023年已经过去一半了,我咋记得2022年刚过去呢,有时候在前端打版本的时候我还不小心写成2022啥啥啥呢,写完才发现自己自己写错了,应该是2023,真是时光一去不复回,往事只能回味啊。 上…

基于FPGA的视频接口之SDI编码

简介 SDI接口是一种“数字分量串行接口”,对于详细解释,可以在Google下SDI,我就不当网络的搬运工了,划重点的是,SDI常见的分为3种模式,即SD-SDI、HD-SDI和3G-SDI,以及升级版12G-SDI。 SD-SDI很少有人用,我怀疑可能是640x512的说法,270Mb/s的数据传输量 HD-SDI最常遇到…