音视频技术开发周刊 | 324

news2024/9/28 11:24:59

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

a65db3afb4e70bf4a2b3a8c4c74fd74f.png

467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4

今天,Mistral AI公布了Mixtral 8x7B的技术细节,不仅性能强劲,而且推理速度更快!还有更强型号的Mistral-medium也已开启内测,性能直追GPT-4。 

8x7B开源MoE击败Llama 2逼近GPT-4!欧版OpenAI震惊AI界,22人公司半年估值20亿

前几日,一条MoE的磁力链接引爆AI圈。刚刚出炉的基准测试中,8*7B的小模型直接碾压了Llama 2 70B!网友直呼这是初创公司版的超级英雄故事,要赶超GPT-4只是时间问题了。有趣的是,创始人姓氏的首字母恰好组成了「L.L.M.」。

深度学习大牛权威预测2024年AI行业热点,盘点开源AI趋势!

AI社区大佬Sebastian总结了2023年全年AI行业的热点和问题,针对开源社区和AI研究的热点问题给出了自己读到的解读和发展建议,精彩内容千万不能错过。

将Transformer用于扩散模型,AI 生成视频达到照片级真实感

在视频生成场景中,用 Transformer 做扩散模型的去噪骨干已经被李飞飞等研究者证明行得通。这可算得上是 Transformer 在视频生成领域取得的一项重大成功。

98e532266a9de78594ce07618b0a90a4.png

随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力

本文介绍了一个名为Alph-CLIP的框架,它在原始的接受RGB三通道输入的CLIP模型的上额外增加了一个alpha通道。在千万量级的RGBA-region的图像文本对上进行训练后,Alpha-CLIP可以在保证CLIP原始感知能力的前提下,关注到任意指定区域。通过替换原始CLIP的应用场景,Alpha-CLIP在图像识别、视觉-语言大模型、2D乃至3D生成领域都展现出强大作用。

一套参数,狂揽160个SOTA!厦大等重磅开源「视觉感知基础模型」APE

由厦门大学等机构提出的全新视觉感知基础模型APE,只需一个模型外加一套参数,就能在160个测试集上取得当前SOTA或极具竞争力的结果。而且训练和推理代码以及模型权重全部开源,无需微调,开箱即用。

矩阵模拟!Transformer大模型3D可视化,GPT-3、Nano-GPT每一层清晰可见

Transformer大模型工作原理究竟是什么样的?一位软件工程师打开了大模型的矩阵世界。

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

开源模型正展现着它们蓬勃的生命力,不仅数量激增,性能更是愈发优秀。图灵奖获得者 Yann LeCun 也发出了这样的感叹:「开源人工智能模型正走在超越专有模型的路上。

AI新范式下,阿里云视频云大模型算法实践

在AI技术发展如火如荼的当下,大模型的运用与实践在各行各业以千姿百态的形式展开。音视频技术在多场景、多行业的应用中,对于智能化和效果性能的体验优化有较为极致的要求。如何运用好人工智能提升算法能力,解决多场景业务中的具体问题,需要创新地探索大模型技术及其应用方式。LiveVideoStackCon2023深圳站邀请到阿里云智能高级算法专家刘国栋,为我们介绍阿里云视频云的大模型算法实践。 

8eb978cc08b29a7c28dd1ef4aae4ef49.png

TUM、Snap开源! 基于扩散先验,生成高质量室内场景!

SceneTex,该方法使用深度到图像的扩散先验来有效地为室内场景生成高质量和风格一致的纹理。与以前的方法不同,SceneTex在没有精确的几何和风格线索的情况下,迭代地将2D视图变形到网格表面或蒸馏扩散潜在特征,将纹理合成任务描述为RGB空间中的优化问题,其中风格和几何一致性得到了适当的反映。

UIUC斯坦福等开源!解决因为各种遮挡导致的跟踪失败问题!

TrackDLO算法从一系列RGB-D图像中估计可变形线性物体(DLO)在遮挡情况下的形状。TrackDLO是仅依赖视觉信息的实时算法。它不需要来自物理建模、仿真、视觉标记或接触的外部状态信息作为输入。

详解|3D Gaussian Splatting:实时的神经场渲染

辐射场方法改变了多张照片或视频主导的场景新视角合成。Gaussian Splatting引入了三个关键元素,在保持有竞争力的训练时间的同时实现最先进的视觉质量,重要的是允许在1080p分辨率下实现高质量的实时(≥30 fps)的新视图合成。

f0502536b9a04740732da36e791d2402.png

FBEC2023 | ARknovv联合创始人阮郑福:AI助力AR创造性探索

FBEC2023未来商业生态链接大会暨第八届金陀螺奖于2023年12月8日在深圳福田大中华喜来登酒店6楼盛大召开,本次大会由广东省游戏产业协会、深圳市互联网文化市场协会指导,陀螺科技主办,中国光谷、游戏陀螺、VR陀螺、陀螺财经、陀螺电竞联合主办。

联想正式发布ThinkVision裸眼3D显示器;HTC VIVE与NuEyes为视障人群推出可穿戴XR解决方案

近日,在以“因思而变 智领未来”为主题的联想ThinkVision和ThinkCentre20周年纪念活动上,联想正式发布业内首款27英寸4K裸眼3D显示器——联想ThinkVision 27 3D。

利用Gaussian Splatting,Meta为Codec Avatar实现头部的高保真重照明

自出世以来便迅速吸引了业界的关注,3D Gaussian Splatting的主要优点是在保证高重建质量的同时支持传统光栅化,而且优化速度快速。自2019年正式公开介绍旨在创建图片真实感虚拟数字人的Codec Avatar项目以来,Meta就一直在积极探索各种优化方式。在日前公布的一项研究中,团队已经开始利用Gaussian Splatting来提升Avatar的逼真程度,主要涉及重照明。

c7cbc1514b177897d4b389423f72e147.png

ASML的困境:High NA太难了

近年来,光刻技术的“下一件大事”是高数值孔径极紫外(IE high-NA EUV),这是 ASML 光刻工具技术开发的下一个革命性步骤。High-NA 的宣传目标是降低工艺复杂性并能够扩展到 2nm 以上。在ASML看来,这将降低复杂性可以降低成本。

详解AWS Graviton4

在最近的亚马逊 AWS re:Invent 2023 上,该公司推出了第四代定制内部服务器处理器——Graviton4。该芯片由以色列 Annapurna Labs 开发,采用最新的 Arm Neoverse IP 以及主要旨在扩展和加速器连接改进的定制 IP。 

WLCSP晶圆级芯片封装技术

WLCSP(Wafer Level Chip Scale Packaging)即晶圆级芯片封装方式,不同于传统的芯片封装方式(先切割再封测,而封装后至少增加原芯片20%的体积),此种最新技术是先在整片晶圆上进行封装和测试,然后才切割成一个个的IC颗粒,因此封装后的体积即等同IC裸晶的原尺寸。WLCSP的封装方式,不仅明显地缩小内存模块尺寸,而符合行动装置对于机体空间的高密度需求;另一方面在效能的表现上,更提升了数据传输的速度与稳定性。

694fc4398cbc55d75d8c83844e01ffdd.png

I3C下一代接口技术

I2C与SPI历来是嵌入式设备领域的主流接口技术,特别是在成像传感器等设备的连接中。这些接口以其简易的实施和广泛的采用而闻名,但随着技术的深入发展和应用的专业化,它们在关键特性和性能上的局限性逐渐显现,这可能对高密度和精密度的系统设计构成挑战。

让3D编辑像PS一样简单!GaussianEditor:在几分钟内完成3D场景增删改!

3D 编辑在游戏和虚拟现实等领域中发挥着至关重要的作用,然而之前的 3D 编辑苦于耗时间长以及可控性差等问题,很难应用到实际场景。近日,南洋理工大学联合清华和商汤提出了一种全新的 3D 编辑算法 GaussianEditor,首次实现了在 2-7 分钟完成对 3D 场景可控的多样化的编辑,全面超越了之前的 3D 编辑工作。

c1940abdc34ce1fa1c67f099c695efb8.png

SHCST2023 音频生成主题分享

本期分享卢恒老师在第三届SpeechHome语音技术研讨会的音频生成主题报告的内容《语音AIGC技术进展--音频技术在喜马拉雅的研发和落地应用》。

用于语言和方言识别的多语言语音模型的自监督自适应预训练

经过预训练的基于transformer的语音模型在对自动语音识别和口语识别(SLID)等各种下游任务进行微调时表现出惊人的性能。然而,域不匹配的问题仍然是该领域的一个挑战,其中预训练数据的域可能与用于微调的下游标记数据的域不同。在SLID等多语言任务中,预先训练的语音模型可能不支持下游任务中的所有语言。为了应对这一挑战,我们提出了自监督自适应预训练(SAPT),以使预训练模型适应下游任务的目标领域和语言。我们将SAPT应用于XLSR-128模型,并研究这种方法对SLID任务的有效性。

https://arxiv.org/abs/2312.07338

仅需30秒完美复刻任何人的声音 - 最强AI音频11Labs

ElevenLabs 简称11Labs ,在TTS(文字转音频)这个领域,当之无愧的“最强”。

如何使用更少的投入在研发阶段进行高级噪声源识别?

如今,法规和指令已对制造产品产生的噪声进行了多年管制;室外机械有最大的噪声级,电动汽车有最小的噪声级。

8b196efac135067712506edd450bda85.png

音视频问题汇总--非零frame_num值导致的一个绿屏问题

本周收到这样一个反馈的问题:我们的测试小姐姐通过自研RTSP客户端拉流过程时发现了一个较为困扰的问题。她注意到,在操作一款特定型号的IPC设备时,每次拉流都会出现首帧绿屏的情况。这个异常状况出现的频率和持续性都让人无法忽视,它在很大程度上影响了使用者的体验。

RTC技术|弹幕互动玩法方案&低延时传输引擎的体验优化

随着互联网技术的不断发展,直播不再只是主播的独角戏,而是一个充满实时互动的娱乐生态系统,其中直播弹幕互动玩法作为一种创新的方式正风靡直播平台。火山引擎融合云游戏服务的强大算力和RTC的先进音视频能力,助力抖音快速增量并拓展直播创新玩法。LiveVideoStackCon 2023 深圳站邀请了火山引擎的郭健,为大家分享弹幕互动玩法背后的探索和实践历程。

1d575a8de787d945c3df2995a9b496ba.png

谷歌的自研芯片帝国

12月6日,谷歌官宣了了全新的多模态大模型 Gemini,包含了三个版本,根据谷歌的基准测试结果,其中的 Gemini Ultra 版本在许多测试中都表现出了“最先进的性能”,甚至在大部分测试中完全击败了 OpenAI 的 GPT-4。

据外媒报道,华为首家海外工厂已经确定落地法国!!!华为自研手机芯片的艰辛历程!!!

12月12日消息,据外媒报道,华为法国公司表示,华为首家海外工厂已经确定落地法国,预计2025年底投产! 

微软小模型击败大模型:27亿参数,手机就能跑

上个月,微软 CEO 纳德拉在 Ignite 大会上宣布自研小尺寸模型 Phi-2 将完全开源,在常识推理、语言理解和逻辑推理方面的性能显著改进。

39ba4c88080d4d866d063879f066e6cd.png

重磅首发|2024音视频技术发展报告(文末附下载)

11月24日,在LiveVideoStackCon 2023深圳站大会上,我们与腾讯云音视频联合首发《2024音视频技术发展报告》。报告通过300+音视频开发者调研,40+专家一线访谈,下沉8大细分技术领域进行全面解读,涵盖音视频编解码/AI编码/多媒体处理框架/媒体传输协议/超低延迟技术/虚拟现实/AIGC/出海等领域,深入洞察音视频技术现状和未来发展趋势。 

点击阅读原文

跳转报告下载链接

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1323484.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java精品项目源码新基于协同过滤算法的旅游推荐系统(编号V69)

Java精品项目源码新基于协同过滤算法的旅游推荐系统(编号V69) 大家好,小辰今天给大家介绍一个基于协同过滤算法的旅游推荐系统

java参数校验

引入依赖 <!--参数效验--><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-validation</artifactId></dependency><!--Length参数效验--><dependency><groupId>org.hib…

Golang(壹)

爱情不需要华丽的言语&#xff0c;只需要默默的行动。 简介 应用领域&#xff1a; 下载vscode 使用vscode Go下载 - Go语言中文网 - Golang中文社区 下载sdk 解压到文件中&#xff0c;打开sdk解压文件 穿插dos操作系统知识点&#xff1a; 测试go语言环境 看到vscode 的目录结…

[Win10系统] Win10 任务栏软件图标显示为空白 | 解决方案

文章目录 [Win10系统] Win10 任务栏软件图标显示为空白 | 解决方案前言产生错误的原因解决方案方法一&#xff1a;手动操作方法二&#xff1a;自动操作 总结 [Win10系统] Win10 任务栏软件图标显示为空白 | 解决方案 前言 有时候&#xff0c;我们在使用 Windows 10 系统时&…

深度学习环境配置------windows系统(GPU)------Pytorch

深度学习环境配置------windows系统&#xff08;GPU&#xff09;------Pytorch 准备工作明确操作系统明确显卡系列 CUDA和Cudnn下载与安装1.下载2.安装 环境配置过程1.安装Anacoda2.配置环境1&#xff09;创建一个新的虚拟环境2&#xff09;pytorch相关库的安装 2.安装VScode1&…

图片去除背景,无水印下载的六大免费平台!

随着人工智能技术的不断进步&#xff0c;越来越多的应用场景开始利用人工智能技术来提升用户体验。其中&#xff0c;AI去除图片背景是一项非常实用的功能。AIGCer尝试了多个平台&#xff0c;排除了很多有水印&#xff0c;需要付费&#xff0c;去除效果差等平台&#xff0c;为大…

[Verilog] 设计方法和设计流程

主页&#xff1a; 元存储博客 文章目录 1. 设计方法2. 设计流程 3 Vivado软件设计流程总结 1. 设计方法 Verilog 的设计多采用自上而下的设计方法&#xff08;top-down&#xff09;。设计流程是指从一个项目开始从项目需求分析&#xff0c;架构设计&#xff0c;功能验证&#…

Re解析(正则表达式解析)

正则表达式基础 元字符 B站教学视频&#xff1a; 正则表达式元字符基本使用 量词 贪婪匹配和惰性匹配 惰性匹配如下两张图&#xff0c;而 .* 就表示贪婪匹配&#xff0c;即尽可能多的匹配到符合的字符串&#xff0c;如果使用贪婪匹配&#xff0c;那么结果就是图中的情况三 p…

vue-springboot+java导师选择分配双选管理系统 0spy6

.2.3功能需求 本导师选择管理系统是为了提高用户查阅信息的效率和管理人员管理信息的工作效率&#xff0c;可以快速存储大量数据&#xff0c;还有信息检索功能&#xff0c;这大大的满足了学生、导师和管理员这三者的需求。操作简单易懂&#xff0c;合理分析各个模块的功能&…

凤凰架构之事务处理

目录 本地事务全局事务共享事务分布式事务可靠消息队列TCC事务SAGA事务 本地事务 本地事务是最基础的一种事务解决方案&#xff0c;只适用于单个服务使用单个数据源的场景。从应用角度看&#xff0c;它是直接依赖于数据源本身提供的事务能力来工作的&#xff0c;在程序代码层面…

石器时代H5小游戏架设教程

本文讲解石器时代 H5 之恐龙宝贝架设教程&#xff0c;想研究 H5 游戏如何实现&#xff0c;那请跟着此次教程学习在拥有小游戏源码的情况下该如何搭建起来 开始架设 1. 架设条件 石器时代架设需要准备&#xff1a; 一台linux 服务器&#xff0c;建议 CentOs 7.6 版本&#xf…

2023 英特尔On技术创新大会直播 |AI科技创新的引路者

英特尔大会 前言英特尔人工智能英特尔创新技术基于英特尔架构的科学计算总结 前言 英特尔技术创新大会是一个令人激动和启发的盛会。在这次大会上&#xff0c;我有幸观看了许多令人瞩目的科技创新和前沿技术的展示。这些展示不仅展示了英特尔作为科技巨头的实力&#xff0c;更…

告诉你playwright 不使用with sync_playwright() as编写脚本的新方法

大家都知道playwright代码的标准写法是&#xff1a; with sync_playwright() as p:browser p.chromium.launch(channel"chrome", headlessFalse)page browser.new_page()page.goto("http://www.baidu.com")print(page.title())browser.close() with sy…

Vue - 组件注册及其原理

1 Vue组件注册 Vue中注册组件的方式有两种&#xff1a;全局注册和局部注册。 2 局部注册 import HelloWorld from xxx/xxx export default {components: {HelloWorld} }3 全局注册 3.1 全局组件挂载 示例一&#xff1a; /** src/main.js */ // 表格动态列组件 import Dyn…

mysql 22day 对表格的增删改查、对数据的增删改查、对内容进行操作

目录 mysql 配置文件授权 远程链接 &#xff08;grant&#xff09;数据库操作创建库&#xff08;create&#xff09;切换数据库&#xff08;use&#xff09;查看当前所在库 表操作创建一张员工表查看表结构修改表名称增加字段修改字段名&#xff08;ALTER &#xff09;修改字段…

Floyd求最短路(Floyd算法)

参考&#xff1a;约会怎么走到目的地最近呢&#xff1f;一文讲清所有最短路算法问题-CSDN博客 有4个城市8条路&#xff0c;公路上的数字表示这条公路的长短&#xff0c;并且路是单向的&#xff0c;现在要求我们求出任意两个城市之间的最短路程&#xff0c;也就是求任意两个点之…

MIT18.06线性代数 笔记1

文章目录 方程组的几何解释矩阵消元乘法和逆矩阵A的LU分解转置-置换-向量空间R列空间和零空间求解Ax0主变量 特解求解Axb可解性和解的结构线性相关性、基、维数四个基本子空间矩阵空间、秩1矩阵和小世界图图和网络复习一 方程组的几何解释 线性组合&#xff1a; 找到合适的x和…

GitHub 如何修改 Fork from

如果你的仓库上面是 Fork from 的话&#xff0c;我们有什么办法能够取消掉这个 Fork from&#xff1f; 解决办法 GitHub 上面没有让你取消掉 Fork 的办法。 如果进入设置&#xff0c;在可见设置中也没有办法修改仓库的可见设置选项。 唯一的解决办法就是对你需要修改的仓库先…

透视数据:数据可视化工具的多重场景应用

数据可视化工具已经成为了许多领域中的重要利器&#xff0c;它们在各种场景下发挥着重要作用。下面我就以可视化从业者的角度简单谈谈数据可视化工具在不同场景下的应用&#xff1a; 企业数据分析与决策支持 在企业层面&#xff0c;数据可视化工具被广泛应用于数据分析和决策…

蓝牙键盘怎么连接电脑?正确操作步骤分享!

“由于我经常需要用到电脑&#xff0c;为了方便&#xff0c;我新买了一个蓝牙键盘&#xff0c;但是我不知道应该如何把这个蓝牙键盘连接上电脑&#xff0c;有没有朋友可以分享方法呀&#xff1f;” 在数字化时代&#xff0c;蓝牙设备已经成为了我们生活中不可或缺的一部分。其中…