音视频技术开发周刊 | 308

news2025/1/26 15:39:07

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

4eef0191fdb3cce6f132922568998887.png

OpenAI首席科学家最新访谈:对模型创业两点建议、安全与对齐、Transformer够好吗?

OpenAI首席科学家Ilya Sutskever最近和他的朋友Sven Strohband进行了一次简短的对话。访谈中主要提及了以下几个问题:对深度学习的信仰、对AGI的畅想,Transformer够不够好,让人震惊的涌现能力,安全和对齐,以及对模型创业者的两点建议。

OpenAI突发更新!GPT-3.5正式开放「微调」,人人可打造专属ChatGPT|附最全官方指南

OpenAI正式开放GPT-3.5微调API,GPT-4版本也即将推出。这意味着,继插件「APP Store」大爆发后,所有人皆可以打造个性化的专属「类ChatGPT应用」。

AI机器识别突破登Nature封面,加速第四次工业革命,论文一作为浙大校友

HADAR技术攻克了机器夜间识别的难题,加速第四次工业革命!一夜之间,机器夜间识别的难题就被攻克了!一篇AI与热物理学结合帮助机器在夜间成像的文章登上了Nature的封面。

「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍

知识无法完全编入模型参数,学会搜索也是AI的必备技能!在大型语言模型(LLM)的加持下,与视觉结合的多模态任务,如图像描述、视觉问答(VQA)和开放词汇目标识别(open-vocabulary object detection)等都取得了重大进展。

AI2发布全新的大语言模型预训练数据集:包含3万亿tokens的大规模文本数据集AI2 Dolma,开源免费商用数据集~

Allen Institute for AI简称AI2,是2014年成立的一个非营利性研究组织,其创办者是之前的微软联合创始人Paul G. Allen。目前该组织主导了几个非常大的项目,希望借助AI来推动科学、医学等领域的进步。

4131fdc64698f65c7f05089b3736a43b.png

用ChatGPT方式开发游戏:文本直接生成小游戏,StoryGames.AI来了!

知名无代码游戏开发平台buildbox正式发布,集成生成式AI的游戏开发平台StoryGames.AI。用户只需文本提示,5分钟左右就能生成一个10章节的视频小游戏。

AIGC已改变新闻业

AI技术的产生,为内容创作开拓了新的可能性,VR新闻、虚拟主播等新形态的内容形式接连产生,为内容表达提供了更为广阔的空间。

15B模型单项能力锤得过GPT3.5,开源SQLCoder已上岗

你知道的有关于代码编辑的大模型工具有哪些呢?推特用户 制作了下面这张图,为大家梳理代码大家庭的大部分成员。就在他发布了这张图后的两周内,又有三位新成员加入了这个大家庭,它们分别是 DeciCoder、OctoCoder 以及最新的成员 SQLCoder。

人工智能困境:如何安全、合乎道德地实施生成式人工智能工具

人工智能正以各种方式使用,从聊天机器人和虚拟助手到自动驾驶汽车,97%的企业主认为ChatGPT将有助于他们的业务。但对于任何新技术,人们都会担心安全和道德——人工智能也不例外。

https://www.cncf.io/blog/2023/08/21/an-ai-dilemma-how-to-implement-generative-ai-tools-safely-and-ethically/

d19cdf155f5f558b2f4d4f5194c3da11.png

两大科技巨头加持,它要做AR市场中的“英特尔”

Lumus 在 AR 眼镜光学行业深耕 23 年,现已准备好实现突破。到 2025 年,两大科技巨头将在其眼镜中采用 Lumus 的光学技术,以实现轻薄形态的一体式 AR 眼镜。

Meta AR/VR专利提出通过液晶偏振全息LCPH实现眼动追踪

对于眼动追踪,与将光源定位在用户视场的外围相比,视场内照明可以提供更高的追踪精度。例如,当光源位于用户的视场范围内时,捕获到眼睛所有注视角度的角膜闪烁的可能性更高。另外,在用户的视场内定位光源可以在光源的放置和分布方面提供更大的灵活性,从而使摄像头捕获的光量最大化,并降低光源输出光的强度和光源的功耗。

Quest开发者分享:通过MR功能提高用户下载率和留存率

Meta日前发布了《MR Developer Success Spotlight》,并介绍了《Cubism》和《TRIPP》通过整合Presence Platform的混合现实功能来提高用户下载率和留存率的成功案例。

998a5f7f5dc1e1b16950e32828ed2ddd.png

环视相机自标定(基于hough的车道线检测篇)

AVM环视系统自标定算法分为两个部分:1. 车道线检测 2. 相机外参自标定。其中相机外参自标定涉及到的原理和公式推导在Around View Camera Self Calibration一篇中已经详细介绍。这篇帖的主要内容是基于hough变换的传统车道线检测方法,包含基础的图像处理算法原理,以及调参的trick和策略。

超越传统驾驶模拟:地图先验引领MapNeRF技术

模拟摄像头传感器是自动驾驶中的一项关键任务。尽管神经辐射场在驾驶模拟中合成真实感视图方面表现出色,但它们仍然无法生成外推视图。本文提出将地图先验纳入神经辐射场中,以合成具有语义道路一致性的轨迹外驾驶视图。关键的想法是可以利用地图信息作为先验来指导具有不确定性的辐射场的训练。

动态SLAM方向全方面梳理

动态SLAM是在动态环境中进行定位和建图的算法。传统的SLAM通常基于静态刚体场景假设,即环境中的所有物体都是固定不动的。然而在实际应用中这种假设并不成立。例如,环境中车辆和行人可能会移动。

0c9dd539df082092a738ae660ad98895.png

音视频学习--DTMF代码走读

本文以WebRTC中代码进行代码层面的解读,以便能够更好地理解DTMF。

最佳直播视频CDN

本文中,探索市场上最好和最流行的CDN,并深入研究支持CDN的视频流平台,以及为什么这些可能是最简单、最灵活和最具成本效益的选项。

https://www.wowza.com/blog/best-cdns-live-streaming

浅谈混响及一些去混响方法

在封闭的空间中,当声源产生的声音经过反射物(墙壁、地面和室内装饰物等)多次反射叠加后会形成混响,如图1所示。在均匀介质声场中,声源到传声器的直达声传播时间最短,人们将在直达声之后 50-100 ms内被传声器接收到的反射声定义为早期混响,在直达声50-100 ms之后被传声器接收到的反射声定义为晚期混响。

80e352f9c9401d2d687f5f19f827b782.png

腾讯云V265/TXAV1直播场景下的编码优化和应用

随着视频直播不断向着超高清、低延时、高码率的方向发展, Apple Vision的出现又进一步拓展了对3D, 8K 120FPS的视频编码需求,视频的编码优化也变得越来越具有挑战性。LiveVideoStackCon 2023上海站邀请到腾讯云的姜骜杰老师分享腾讯云V265/TXAV1直播场景下的编码优化和应用,带领我们探索音视频技术的无限可能性。

华为云渲染实践

云计算与网络基础设施发展为云端渲染提供了更好的发展机会,华为云随之长期在自研图形渲染引擎、工业领域渲染和AI加速渲染三大方向进行云渲染方面的探索与研究。本次LiveVideoStackCon 2023上海站邀请了来自华为云的陈普,为大家分享云渲染在垂直场景的一些应用。

基于人眼感知质量的端云结合画质及带宽优化实践

随着小红书视频业务和短视频播放的规模化增长,如何有效地提升用户体验质量同时降低视频带宽成本成为一个重要的技术优化目标。LiveVideoStackCon 2023 上海站邀请到小红书的剑寒为大家分享小红书音视频架构算法团队开发的基于人眼感知质量的端云结合超分框架和画质及带宽优化相关实践。

WebRTC对OBS的鞭策

OBS版本30通过WHIP正式支持WebRTC。WebRTC HTTP摄取协议(WHIP)是一种针对实时流媒体应用而设计的新协议。WebRTC不包括标准的信号机制,因此不能像使用RTMP一样将随机客户端连接到给定的服务。截至上周,OBS 30 Beta已经可用。多年来,通过分支使用WebRTC和OBS已经成为可能,但现在终于正式发布了。

https://webrtchacks.com/webrtc-cracks-the-whip-on-obs/

27bac9f53331bfa76416747fd8cef1cb.png

如果大模型不可靠,那钉钉的解药是什么

最近两周,钉钉异常活跃,看点频频。从成为阿里集团独立业务的消息开始,到发布个人版,8 月 22 日钉钉又宣布推出 AI PaaS 及其最新的 AI 应用——数字员工。

晚点独家丨小红书电商全面加速:成立一级部门后,明确投入方向

《晚点 LatePost》独家获悉,小红书整合了电商业务与直播业务,组建了全新的交易部,成为与社区部、商业部平行的一级部门。此前,电商业务是归属于社区部之下的二级部门。

中美俄实验室同日复现常温超导晶体,美国超导股票盘前暴涨140%

中美俄的实验室同日复现出了LK-99超导晶体,美国超导股票AMSC盘前跳涨71%,最高涨幅150%.

1000亿GMV下,在抖音做团购的商家

据《晚点 LatePost》报道,抖音生活服务上半年的支付交易总额超过了1000亿元。而在去年,抖音生活服务的全年交易额接近900亿元,来势汹汹的抖音,用半年时间就超过了去年一年的成绩。

b2c406fb07d09c050ae7e0d3e888b2dc.png

沉浸新视界·「听」你所想,「见」所欲见

作为深耕线下的技术大会,我们坚信“百闻不如一见”。深圳站八折购票火热进行中,限时优惠截止至9月3日!同时,我们为在校学生争取了六折购票的特别福利(购买学生票,请联系小秘书,微信号:LVSgogo)。准备好了吗?和诸多资深的音视频技术者一起,去见未来。

c4d9d7005617bef190c81254d2faae55.png

LiveVideoStackCon 2023 深圳站 已启动

LiveVideoStackCon 2023 深圳站音视频技术大会以「沉浸·新视界」为主题。经过近十年的快速发展,多媒体生态正在向精致优化发展,更注重细节、成本,内卷和出海成为压力输出口。一方面,在现有市场及业务竞争仍旧相当激烈的环境下,企业开始更多关注于如何降低成本、追求更高的利润,以及面向用户提供更优质的服务与体验;另一方面,对于不断涌现的更多新的技术、场景,逐步探索并利用其创造更多的业务、产品与商业价值是各企业持续关注的目标。本次深圳站,我们拟邀请几十位来自海内外的音视频领域的专家聚集一堂,与你共同分享他们的专业见解。

e392d6e7376d706554e01d484454a414.png

点击阅读原文 

跳转LiveVideoStackCon 2023 深圳站 官网,了解更多信息

​​​

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/942232.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

算法设计 || 第6题:基于最小成本检索的分支界限算法求解15谜问题

用基于最小成本检索的分支界限算法求解15谜问题 要求利用成本估计函数C^(X), C^(X)为节点x排列中不在其目标位置上的牌的总张数(不包括空格牌)。 现定义空格牌的上下左右四种活动, 按四种活动分别生成其状态空间树,…

JVM,JRE和JDK的区别

JVM,JRE和JDK的区别 JVM(Java Virtual Machine,Java虚拟机)JREJRE目录结构 JDK JVM(Java Virtual Machine,Java虚拟机) Java程序的跨平台特性主要是指字节码文件可以在任何具有Java虚拟机的计算机或者电子设备上运行,Java虚拟机中…

Docsify的评论系统gitalk配置过程

💖 作者简介:大家好,我是Zeeland,开源建设者与全栈领域优质创作者。📝 CSDN主页:Zeeland🔥📣 我的博客:Zeeland📚 Github主页: Undertone0809 (Zeeland)&…

[元带你学: eMMC协议 31] eMMC Context(上下文) ID 详解 | eMMC 并行数据标识与隔离详解

依JEDEC eMMC及经验辛苦整理,原创保护,禁止转载。 专栏 《元带你学:eMMC协议》 内容摘要 全文 5000 字, 主要内容 eMMC 为什么要引入 Context? Context 是什么? 如何使用Context 上下文? Context 上下文配置怎么做? 上下文 ID 应用局限 系统层和芯片组对 Contex…

IEC 60068 环境测试介绍及其标准下载

IEC 60068 环境测试介绍及其标准下载 IEC 60068 标准由国际电工委员会 (IEC) 发布,是用于电工产品环境测试的国际标准。 IEC 60068 系列包含有关标准、环境测试程序和测试严重性的基本信息。 IEC 60068 环境测试 制定这一系列标准是为了在特定产品类型&#xff08…

这是一条求助贴(postman测试的时候一直是404)

看到这个问题是404的时候总感觉不该求助大家,404多常见一看就是简单的路径问题,我的好像不是,我把我的问题奉上。 首先我先给出我的url http://10.3.22.195:8080/escloud/rest/escloud_contentws/permissionStatistics/jc-haojl/sz 这是我…

Midjourney学习(一)prompt的基础

prompt目录 sd和mj的比较prompt组成风格表现风格时代描述表情色彩情绪环境 sd和mj的比较 自从去年9月份开始,sd就变得非常或火,跟它一起的还有一个midjourney。 他们就像是程序界的两种模式,sd是开源的,有更多的可能性更可控。但是…

Maven之hibernate-validator 高版本问题

hibernate-validator 高版本问题 hibernate-validator 的高版本(邮箱注解)依赖于高版本的 el-api,tomcat 8 的 el-api 是 3.0,满足需要。但是 tomcat 7 的 el-api 只有 2.2,不满足其要求。 解决办法有 2 种&#xff…

【Go 基础篇】深入探索:Go语言中的切片遍历与注意事项

嗨,Go语言学习者!在我们的编程旅程中,切片(Slice)是一个极其重要的工具。它可以帮助我们处理各种类型的数据,从而让我们的代码更加灵活和高效。本文将围绕Go语言中切片的遍历方法以及在遍历时需要注意的事项…

缺陷或负样本难以收集怎么办?使用生成式模型自动生成训练样本,image-to-image Stable diffusion

文章大纲 样本稀疏与对应的解决方案如何解决工业缺陷检测小样本问题参考1:AIDG(Artificial Intelligent Defect Generator)参考2:灵感来源 : Image-to-Image Diffusion Models参考文献与学习路径参考博文数据集算法缺陷检测库hugging face样本稀疏与对应的解决方案 1.数据层面…

网络服务第二次作业

[rootlocalhost ~]# vim /etc/httpd/conf.d/vhosts.conf <Virtualhost 192.168.101.200:80> #虚拟主机IP及端口 DocumentRoot /www/openlab #网页文件存放目录 ServerName www.openlab.com #服务器域名 </VirtualHost> …

java 桥接模式

桥接模式 桥接模式简介桥接模式的实现总结 桥接模式简介 桥接模式&#xff08;Bridge&#xff09;是将抽象部分与它的实现部分分离&#xff0c;使它们都可以独立地变化。它是一种对象结构型模式&#xff0c;又称为柄体(Handle and Body)模式或接口(Interfce)模式。 桥接模式基于…

C# VS调试技巧

一.按照条件调试步骤 ①在需要代码执行的行打断点 ②触发此断点&#xff0c;让代码执行到此处 ③鼠标滑至在断点处&#xff0c;点击设置 ④设置断点条件&#xff0c;如下图所示 二、多线程调试技巧 ①在需要代码执行的行打断点 ②触发此断点&#xff0c;让代码执行到此处…

微服务dubbo和nexus

微服务是一种软件开发架构风格&#xff0c;它将一个应用程序拆分成一组小型、独立的服务&#xff0c;每个服务都可以独立部署、管理和扩展。每个服务都可以通过轻量级的通信机制&#xff08;通常是 HTTP/REST 或消息队列&#xff09;相互通信。微服务架构追求高内聚、低耦合&am…

本地启动若依微服务版本

前置工作&#xff1a; 1.导入sql文件 2.安装完nacos 3.安装完redis 启动步骤&#xff1a; 1.开启nacos&#xff0c;在bin目录下 startup.cmd -m standalone 注意&#xff1a;在这之前要配置nacos持久化&#xff0c;修改conf/application.properties文件&#xff0c;增加支持…

打架斗殴监测识别算法 yolov8

打架斗殴监测识别算法采用yolov8先进的图像处理和机器学习算法框架模型&#xff0c;打架斗殴监测识别算法能够自动识别和分析出打架斗殴的行为特征。一旦系统检测到打架斗殴行为&#xff0c;将自动触发告警。YOLO的结构非常简单&#xff0c;就是单纯的卷积、池化最后加了两层全…

SpringBoot初级开发--加入ElasticSearch数据源(4)

ES就不用我说了吧&#xff0c;如果是安装的话可以参考我这边blog《Centos7.9安装ElasticSearch6》&#xff0c;安装好ES&#xff0c;接下来我们配置SpringBoot.在配置之前&#xff0c;先看看版本对应表。 1.修改POM文件的依赖 <!-- ES 默认对应springboot的版本 --><…

未来科技城携手加速科技 共建集成电路测试公共服务平台!

8月26日&#xff0c;2023未来产业发展大会在杭州未来科技城国际会议中心开幕&#xff01;会上&#xff0c;发布了未来科技城培育发展未来产业行动计划&#xff0c;启动了未来产业发展共同体&#xff0c;进行了未来产业公共服务平台签约仪式。未来科技城与加速科技签约共建集成电…

Linux枚举文件目录、获取文件属性

目录 1.枚举指定路径下的文件目录2.获取文件属性stat其他方式&#xff1a;Linux获取文件属性stat()、fstat()、lstat()函数实现stat属性代码 1.枚举指定路径下的文件目录 #include <stdio.h> #include <stdlib.h> #include <string.h> #include <dirent.…

java+springboot+mysql水电管理系统

项目介绍&#xff1a; 本系统为新版基于SpringBoot的水电管理系统&#xff1a; 使用javaspringbootmysql开发的水电费管理系统&#xff0c;系统包含超级管理员&#xff0c;系统管理员、用户角色&#xff0c;功能如下&#xff1a; 超级管理员&#xff1a;管理员管理、用户管理…