音视频技术开发周刊 | 296

news2024/12/24 3:09:47

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

cec3cb28dd211ca765764139d2ee8749.png

22字声明、近400名专家签署、AI教父Hinton与OpenAI CEO领头预警:AI可能灭绝人类!

这份声明一经发布,便迅速得到了多伦多大学计算机科学荣誉教授、“AI教父” Geoffrey Hinton,图灵奖得主 Yoshua Bengio,Google Deepmind CEO Demis Hassabis,OpenAI CEO Sam Altman,以及中国科学院自动化研究所类脑认知智能实验室主任、教授曾毅等近 400 位学术界、产业界、高校专家的支持。

Niantic发布首个混合现实AI虚拟助手体验Wol,用户能够和它进行有意义的对话

Wol是一个猫头鹰形象的AI助手,也正是具备了人工智能能力,Wol能够和玩家一起就虚拟场景中的植物、生物等其他内容进行有意义的对话。在某种意义上,这种体验也可以被看作是一种教育学习的场景。BTW,它是由Pokemon GO开发商Niantic推出的。

评估文生图的人类偏好

自动评估文生图内容的人类偏好,对于指导文生图模型的训练和微调有重大意义。

使用生成式AI改进极端多标签分类

极端多标签分类是指在一个问题中有大量的标签需要预测(例如新闻推荐和商品推荐)的场景。作者提出了一种生成式多标签分类模型(简称GMCL),该模型使用变分自编码器和贝叶斯逻辑回归相结合的方式进行标签预测。结果表明,在性能方面GMCL优于传统的机器学习算法,并且具有更好的泛化能力。

https://www.amazon.science/blog/using-generative-ai-to-improve-extreme-multilabel-classification

Nvidia定制化语音AI提高电信行业客户体验

文章介绍了Nvidia的定制化语音AI解决方案的特点和优势,包括高精度语音识别、多语言支持、高可靠性、快速部署等等。

https://developer.nvidia.com/blog/enhancing-customer-experience-in-telecom-with-nvidia-customized-speech-ai/

dbf0c18657d10c35e89b9a303ff405c9.png

人人能打造类ChatGPT“对话搜索引擎”,Vectara获得2亿元融资

Vectara提供了类ChatGPT对话式服务,用户可以将PDF、Word、PPT、RTF等文件数据上传至Vectara平台中,构建数据搜索引擎。目前,Vectara已经全面开放,注册即可使用。

开源地址:https://github.com/vectara/vectara-answer

你可以用 Twilio 和 Langchain Prompt Templates 生成一个篮球短信聊天机器人

这个机器人可以回答用户关于篮球比赛的问题,并提供有关球员、比分和比赛时间等方面的信息。同时,你也可以跟它互动。

https://www.twilio.com/blog/basketball-sms-chatbot-with-langchain-prompt-templates

973255796500e7ba7cd5858b68cdc802.png

英伟达市值破万亿美元,GPU龙头的称霸之路

对于英伟达乃至整个芯片产业来说,5月30日都是一个值得被铭记的日子。因为乘着这波ChatGPT带来的芯片热潮,英伟达市值首度突破一万亿美元。

未来十年的芯片路线图

e3e4724a7b6845bb4c20cfd2f9bda0fa.png

打造音视频极致消费体验

LiveVideoStackCon 2022北京站邀请到快手播放技术中心负责人苍鹏为我们分享快手如何打造极致的音视频消费体验。 

哔哩哔哩视频云画质与窄带高清AI落地实践

LiveVideoStackCon 2022 北京站邀请了Bilibili云端多媒体平台的成超老师,为我们分享Bilibili在急速发展过程中基于视频业务上总结的一些先进的经验和想法 。

直播互动开放技术探索之路

本文主要介绍Bilibili直播技术团队在互动开放生态演进道路上的经验与思考。 

音视频问题汇总--SDP和编码参数

b8065104ed924534e74324a8389c4106.png

在声学仿真中如何简化边界条件设置 

在开发新产品或新功能时,首先需要了解其功能特性。当借助数值仿真来预测性能时,必须非常详细地构建关键组件、设置测试和边界条件,才能保证预测的可靠性和准确性。然而,大多数工程师更倾向于将精力集中在关键组件,而不是“无关”的边界条件。COMSOL Multiphysics 声学模块中内置的阻抗边界条件可以帮助工程师实现这一点。

使用 Laravel Tall Stack 和 Twilio 可编程语音构建一个简单的呼叫中心

本文介绍了如何使用Twilio可编程语音API和Laravel TALL堆栈构建一个简单的呼叫中心。文章中详细介绍了如何使用Tailwind CSS和Alpine.js创建呼叫中心的前端部分。使用Livewire,可以在不刷新页面的情况下更新UI,并实现动态呼叫控制和状态显示等功能。

https://www.twilio.com/blog/build-simple-call-center-laravel-tall-stack-twilio-programmable-voice

6d24e42c926a488b4a9eedda5937fff9.png

扩散视频自编码器:通过解纠缠视频编码实现具有时序一致的人脸视频编辑

本文提出了一种基于扩散自编码器的新型人脸视频编辑框架,该框架可以成功地提取分解的特征:来自给定视频的身份(identity)和运动(motion)。这种建模允许通过简单地朝着希望的方向操纵时间不变的特征来编辑视频,同时保留时序上的一致性。

85b252fa34cde97ed9f7aacb0aad3f72.png

MR 眼镜的「曲面」设计,难倒了无所不能的苹果

为了探究第一代苹果头显难产的缘由,The information 作者 Wayne Ma 采访了多个前苹果头显团队成员、制造商和产业链人士,分析了当下苹果头显制造的主要难点。

5f4dd70a1abc25878e0c54a893fb5352.png

6 月 6 日,WWDC23 码住你时间

本届活动将在北京时间 6 月 6 日凌晨 1 点开始,届时外界关注已久的苹果第一代头显设备即将发布。网友也在放出的活动预告中找到了「隐藏彩蛋」:「VR headset unveiled at WWDC」,翻译为「VR 头显将在 WWDC 揭晓」。

ac2584ada412aad681a422ff717c52bf.jpeg

三维重建 3D reconstruction 有哪些实用算法?

0e5acfcb1458ea1e9b4944186cbc7a72.png

Meta Quest 3:苹果头显的最大竞争对手

https://www.bloomberg.com/news/newsletters/2023-05-28/meta-quest-3-real-life-hands-on-how-it-compares-to-apple-mixed-reality-headset-li7h3suy

触觉反馈手环:打开虚拟现实感知的钥匙 

科研人员提出了一种新颖的多感官方法,设计一种可穿戴的触觉手环,它在手腕周围提供连续的径向挤压力,加上分布式振动提示,以传达手和指尖预期的感觉、力和瞬变。与仅视觉反馈相比,在手腕处包含连续挤压提示有可能增强用户的触觉体验,带来更完整、沉浸的虚拟现实体验。

https://onlinelibrary.wiley.com/doi/10.1002/aisy.202200303

50499ec607071eefff5d49c620b3ba1c.png

使用 Microvisor 架构实现面向未来的、无供应商锁定的 IoT 连接

作者认为,许多IoT设备在硬件和软件方面都存在锁定问题,这会带来一系列问题,例如缺乏灵活性、安全风险以及高昂的成本。因此,作者提出了使用微观处理器架构来解决这些问题的方法。

https://www.twilio.com/blog/achieving-no-iot-vendor-lockin-with-a-microvisor-architecture

d1125ea54bc106521d21d6a142cc9a5a.png

Tambur:将 streaming codes 应用视频会议场景进行丢包恢复

突发丢包在实际中经常出现,可以通过一类新理论FEC方案称为 “流码”(streaming codes,是 convolutional codes 的一类)来更好地恢复丢包,该方案能够显著减少冗余来实现对突发丢包的恢复。



d8d702eafb1e3bc82ac42deeb1745bd8.png

扫描图中二维码或点击“阅读原文 

查看更多LiveVideoStackCon 2023上海站精彩话题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/610472.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于zookeeper的kafka中间件

一、Zookeeper 概述 1、Zookeeper 定义 Zookeeper是一个开源的分布式的,为分布式框架提供协调服务的Apache项目。 2、Zookeeper 工作机制 Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理…

昨天,小灰做了人生的第一次直播!

熟悉小灰的朋友们都知道,小灰是一个非常腼腆的人。虽然我比较擅长写东西,但完全不擅长口头表达,在公开场合讲话很容易紧张。 因此,对于网上直播,小灰在以前完全不敢想象。 但是,人终究需要成长的。就在昨天…

Disco Diffusion 快速入门

Disco Diffusion 快速入门 简介快速开始进阶使用修改prompt给定指导图像修改基础参数运行参数设置运行建议模型设置参数详情 简介 Disco Diffusion(DD)是一个CLIP指导的AI图像生成技术,简单来说,Diffusion是一个对图像不断去噪的…

路径规划 | 图解RRT-Connect算法(附ROS C++/Python/Matlab仿真)

目录 0 专栏介绍1 RRT-Connect基本原理2 RRT-Connect vs. RRT3 ROS C算法实现4 Python算法实现5 Matlab算法实现 0 专栏介绍 🔥附C/Python/Matlab全套代码🔥课程设计、毕业设计、创新竞赛必备!详细介绍全局规划(图搜索、采样法、智能算法等)…

chatgpt赋能python:Python实现奇数位偶数位互换的方法

Python实现奇数位偶数位互换的方法 Python是一种高级的、面向对象的编程语言,在当今的编程领域中具有广泛的应用。它被用于数据分析、机器学习、Web开发等众多领域,其简洁的语法和强大的库被开发者们广泛使用。本文将介绍Python中奇数位偶数位互换的方法…

驱动开发:内核实现SSDT挂钩与摘钩

在前面的文章《驱动开发:内核解析PE结构导出表》中我们封装了两个函数KernelMapFile()函数可用来读取内核文件,GetAddressFromFunction()函数可用来在导出表中寻找指定函数的导出地址,本章将以此为基础实现对特定SSDT函数的Hook挂钩操作&…

【Django 网页Web开发】07. 快捷的表单生成 Form与MoudleForm(保姆级图文)

目录 注意 正规写法是 ModelForm,下面文章我多实现效果url.py新建3个html文件数据库连接model.py 数据表1. 原始方法view.pytestOrgion.html 2. Form方法view.pytestForm.html 3. MoudleForm方法给字段设置样式面向对象的思路,批量添加样式错误信息的显示…

ASIC-WORLD Verilog(10)编写测试脚本Testbench的艺术

写在前面 在自己准备写一些简单的verilog教程之前,参考了许多资料----Asic-World网站的这套verilog教程即是其一。这套教程写得极好,奈何没有中文,在下只好斗胆翻译过来(加了自己的理解)分享给大家。 这是网站原文&…

干货!来自北大、KAUST、斯坦福、达摩院的大模型前沿动态:表格推理、代码生成、MiniGPT-4、生成式推理...

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! ChatGPT的发布使得国内外众多的研究机构掀起了一股AI热潮,而这也进一步推动了人们对大语言模型的深入研究。2023年4月26日,AI TIME举办的大模型专场四活动邀请了阿里巴巴达摩院NLP研究员…

在 IDEA 中配置 JavaFX 11

因为从 Java8/openjdk 之后,javafx 从 jdk 中移除,如果进行 JavaFX 开发需要在 module 中添加 lib,并对 IDE 进行配置,确保 jdk 可以与 javafx 正常调用。 javafx 下载路径,主页网址:https://openjfx.io/ …

开发实践|程序员是如何刷抖音、玩快手、看头条进行赚米的?

欢迎关注「全栈工程师修炼指南」公众号 点击 👇 下方卡片 即可关注我哟! 设为「星标⭐」每天带你 基础入门 到 进阶实践 再到 放弃学习! “ 花开堪折直须折,莫待无花空折枝。 ” 作者主页:[ https://www.weiyigeek.top ] 博客&…

【计算机组成原理与体系结构】数据的表示与运算

目录 一、进位计数制 二、信息编码 三、定点数数据表示 四、校验码 五、定点数补码加减运算 六、标志位的生成 七、定点数的移位运算 八、定点数的乘除运算 九、浮点数的表示 十、浮点数的运算 一、进位计数制 整数部分: 二进制、八进制、十六进制 --…

穿越认知峡谷

十年前,2013 年的这个时候,“互联网思维”在国内大火。我没有认真研究过这件事的来龙去脉,不过印象里 2012 年底《罗辑思维》视频栏目的开播,以及差不多同时小米手机的爆发,对“互联网思维”的大流行应该是起了重要的推…

【ABAP】数据类型(一)「数据类型概要及分类」

💂作者简介: THUNDER王,一名热爱财税和SAP ABAP编程以及热爱分享的博主。目前于江西师范大学本科在读,同时任汉硕云(广东)科技有限公司ABAP开发顾问。在学习工作中,我通常使用偏后端的开发语言A…

Nginx正则表达式、location、rewrite

目录 一、常用的Nginx正则表达式 二:localtion 1、location 分类 2、 location 常用的匹配规则 3、location 优先级 4、 location 示例 5、优先级总结 6、实际网站使用中,至少有三个匹配规则定义 (1)第一个必选规则 &…

深入理解设计原则之接口隔离原则(ISP)【软件架构设计】

系列文章目录 C高性能优化编程系列 深入理解软件架构设计系列 深入理解设计模式系列 高级C并发线程编程 LSP:接口隔离原则 系列文章目录1、接口隔离原则的定义和解读2、案例解读3、如何判断一个接口是否符合接口隔离原则?小结 1、接口隔离原则的定义和…

CVPR 2023 医学图像分割论文大盘点

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>【医学图像分割】微信交流群 被催了很久,CVer 正式开启 CVPR 2023 论文大盘点系列!Amusi 一共搜集了13篇医学图像分割论文,这应该是目前各…

HTML 5中的文件处理之FileAPI

在众多HTML5规范中,有一部分规范是跟文件处理有关的,在早期的浏览器技术中,处理小量字符串是js最擅 长的处理之一。但文件处理,尤其是二进制文件处理,一直是个空白。在一些情况下,我们不得不通过Flash/Acti…

GPT国内的一些产品真的比国外的差吗?(篇幅较长,请收藏)

关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 计算机视觉研究院专栏 作者:Edison_G 本次讨论的话题仅限于计算机视觉研究院个人观点,若有说的不对的地方勿喷,有…

k8s之docker-扩展知识(八)

一.Docker的应用场景 Web 应用的自动化打包和发布。 自动化测试和持续集成、发布。 在服务型环境中部署和调整数据库或其他的后台应用。 从头编译或者扩展现有的 OpenShift 或 Cloud Foundry 平台来搭建自己的 PaaS 环境。 二.Docker 的优点 Docker 是一个用于开发&#…