音视频技术开发周刊 | 310

news2025/1/15 17:19:32

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

c44f12eb61c6fa551fb61fcea08f846d.png

学术头条 | 基于网络科学的人工智能揭示基因信息如何利用单细胞塑造形体

近日,由清华大学脑与智能实验室复杂网络智能中心(CCNI)主任Carlo Vittorio Cannistraci教授与北京大学韩敬东教授共同指导的国际科学家团队在《先进科学》(Advanced Science)杂志上发表了一项研究。此项研究提出了一种人工智能算法,可以通过分析基因组信息恢复组织中单个细胞的三维空间结构。

ChatGPT的这项核心技术要被替代了?谷歌提出基于AI反馈的强化学习

近日,Google Research 的研究人员提出了基于 AI 反馈的强化学习(RLAIF),该技术可以产生人类水平的性能,为解决基于人类反馈的强化学习(RLHF)的可扩展性限制提供了一种潜在的解决方案。

RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平

ChatGPT横空出世后,RLHF成为研究人员关注的焦点。谷歌最新研究提出,不用人类标注,AI标注偏好后,也能取得与RLHF一样的效果。如果说,RLHF中的「人类」被取代,可行吗?谷歌团队的最新研究提出了,用大模型替代人类,进行偏好标注,也就是AI反馈强化学习(RLAIF)。

AI+认知行为疗法,治愈心灵的良药丨青源Workshop「AI+心理干预」观点集锦

当前,抑郁症、焦虑症等心理障碍成为社会关注的焦点,如何有效地缓解和治疗这些心理问题成为一个重要的研究方向。在这样的背景下,如何利用AI等先进技术手段来辅助心理疾病的治疗备受关注。例如,通过语音、脑部MRI辅助诊断器质性抑郁、通过多种语言模式的聊天机器人对患者的心理状况进行有效干预等,相关诊疗方案不一而足。本次「AI+心理」研讨会,相关技术专家和心理学专家共同探索人工智能技术在心理学领域的应用。

ba20518c25064e1952ed5f27c59c7603.png

GPT-4写代码不如ChatGPT,误用率高达62%!加州大学两位华人开源代码可靠性基准RobustAPI

代码能否跑起来的不是判断可靠性的标准,用语言模型写代码还需要考虑生产环境下的预期外输入。大型语言模型(LLM)在理解自然语言和生成程序代码方面展现出了非凡的性能,程序员们也开始在编码过程中使用Copilot工具辅助编程,或是要求LLM生成解决方案。经过几版迭代后,目前LLM生成的代码已经很少有语法错误了,也更贴合用户输入的文本、符合预期语义,但针对LLM代码生成的可靠性和鲁棒性仍然缺乏彻底的研究。

上海交大发布大模型双语编程评估基准CodeApex,机器真的开始挑战人类写代码了吗?

打造能自己写代码的机器,这是计算机科学和人工智能先锋者一直在追寻的目标。而随着 GPT 类大模型的快速发展,这样的目标正在从遥不可及开始变得近在咫尺。大语言模型 (Large Language Models) 的出现,让模型的编程能力越来越受到研究者的关注。在此态势下,上海交通大学 APEX 实验室推出了 CodeApex-- 一个专注于评估 LLMs 的编程理解和代码生成能力的双语基准数据集。

陶哲轩用大模型辅助解决数学问题:生成代码、编辑LaTeX公式都很好用

几个月来,数学家陶哲轩多次尝试使用 ChatGPT 辅助解决数学问题,并与大家分享他的试验结果。网友在围观的同时还会和陶哲轩进行一些交流,或者给出 ChatGPT 的使用技巧建议。今天,陶哲轩又尝试用 ChatGPT 生成可采用 LaTeX 表达式的程序代码,并最终得到了一段可用的 VSCode 代码。陶哲轩表示 ChatGPT 能够生成涉及正则表达式的复杂代码片段,并且很有效。

700 亿参数 LLaMA2 训练加速 195%,基础大模型最佳实践再升级

ChatGPT 引发的大模型热潮愈演愈烈,全球科技巨头和明星初创争相入局,打造以 AI 大模型为核心的竞争力和多样化商业使用需求。其中 LLaMA 系列模型,因良好的基础能力和开放生态,已积累了海量的用户和实际应用案例,成为无数开源模型后来者的模仿和竞争的标杆对象。但如何降低类 LLaMA2 大模型预训练成本,如何基于 LLaMA2 通过继续预训练和微调,低成本构建 AI 大模型实际应用,仍是 AIGC 相关企业面临的关键瓶颈。

57b94565cf77002fe98939d90c80a4d0.png

杀入「千元级」无线AR眼镜市场,仅重52g,INMO影目再秀新品

衍射光波导+Micro-LED,以其高透光率、高亮度、低功耗,以及随着规模化边际贡献更为显著的生产工艺等诸多优势,一直被视为下一阶段最有竞争力的AR眼镜光学和显示方案。据了解,Vuzix、OPPO、TCL、Dispelix、WaveOptics、中兴、小米等公司均展示了基于该方案的AR原型和产品。

为降低HoloLens成本、功耗、尺寸,微软专利提出低分辨率深度摄像头解决方案

于XR头显,基于立体图像对计算深度信息基于立体图像对存在挑战。例如,用于生成透视图像的立体图像通常使用高分辨率立体摄像头捕获,但高分辨率立体摄像头价格昂贵,同时会增加设备体积、重量和电池消耗。另外,使用高分辨率立体图像对计算深度信息的计算成本高,并会导致传递体验的延迟。

Meta AR/VR专利提出具有颜色校准操作的颜色调谐光学模块

人工现实设备主要依赖于准确的光学信息来为用户提供无缝和逼真的输出,所以光学模块具有严格的光学要求,而彩色滤光片等器件对利用接收和透射光的光学模块的复杂操作构成重大挑战。

色彩感知深颞背景双面消光系统

本文提出了一种基于神经网络的时间多背景制作系统,该系统结合了色度键控和 alpha 遮罩的有益功能。给定两个具有不同背景颜色的连续帧,单编码器双解码器网络使用基于色块的重叠混合方法预测前景色和 alpha 值。该系统能够处理不精确的背景、动态摄像机和动态前景,并且对前景色没有限制。将方法与使用基准数据集和演示器设置捕获的视频序列的最先进算法进行比较。结果验证了双背景输入优于通常应用的基于三图的方法。此外,拟议的演播室布景对演员友好,并产生高质量、时间一致的 alpha 和颜色估计,其中包括出色的色彩溢出补偿。

https://doi.org/10.1145/3587819.3590973

5c8da6a33aa6b725dab3622657120ef5.png

动态SLAM方向全方面梳理

动态SLAM是在动态环境中进行定位和建图的算法。传统的SLAM通常基于静态刚体场景假设,即环境中的所有物体都是固定不动的。然而在实际应用中这种假设并不成立。例如,环境中车辆和行人可能会移动。

点云地图技术突破:ITSC 2023发布动态点去除方案

机器人领域,点云已经成为一种必不可少的地图表示方式。从定位和全局路径规划等下游任务的角度来看,动态对象对应的点会对其性能产生不利影响。现有的点云动态点去除方法在对比评价和综合分析方面往往缺乏明确性。因此,本文提出了一个易于扩展的统一基准测试框架,用于评估地图中动态点的移除技术。它包括重构的最先进的方法和新的度量来分析这些方法的局限性。这使得研究者能够深入挖掘这些局限背后的深层原因。该基准使用多个不同传感器类型的数据集。所有与我们研究相关的代码和数据集都是公开的,可供进一步开发和利用。

香港科技大学发布!使用语义线和平面的多会话、轻量级Lidar SLAM

通过使用轻量级的线和平面图表示,而不是广泛使用的点云,提出了一个用于城市环境中的多段式的集中式LiDAR建图框架。所提出的框架以由粗到精的方式实现了一致性建图。全局位置识别通过关联Grassmannian流形上的线条和平面来实现,然后通过离群点剔除辅助的位姿图优化进行地图合并。然后还设计了一种新的光束法平差来提高直线和平面的局部一致性。在实验部分,使用公开和自收集的数据集来展示效率和有效性。实验结果表明,本文提出的LiDAR建图框架能够全局地融合多期地图,并对地图进行增量优化,适用于轻量级机器人定位。

fe5adc706c9162e8b9085393b92271be.png

最新迭代|FunASR离线文件转写软件包2.0

FunASR是由达摩院语音实验室开源的一款语音识别工具包,集成了语音端点检测、语音识别、标点预测等领域的工业级模型的训练和部署,吸引了众多开发者参与体验和开发。在7月初,FunASR社区发布了离线文件转写软件包,实现了高精度、高效率、高并发的长音频离线文件转写,并在8月份发布了支持流式语音识别软件包。

声学在复合材料损伤检测中的应用

随着科技的快速发展,单一材料已不能完全满足综合性要求,复合材料由于其强度高、质量轻、隔热性能好、设计性强等优点,正在实际工程中逐渐取代单质材料,广泛应用于航空航天、船舶、汽车、医疗 器械等领域。但是复合材料在实际生产和使用过程中难免会产生损伤或缺陷,继而产生安全隐患,因此需要一种有效的损伤监测手段,保证复合材料结构的安全性和可靠性。声学技术为评估复合材料结构的内部完整性提供了无损检测手段,可以在不损伤、不破坏被检对象的情况下,实现对目标内部或表面所发生损伤的检测,并对损伤的一些特性做出评估。目前用于损伤检测的两种主要声学方法是超声波检测(Ultrasonic Testing,UT)技术和声发射(Acoustic Emission,AE)检测技术。

更精确可靠的新声光成像技术

由德克萨斯大学阿灵顿分校(University of Texas at Arlington)数学助理教授Souvik Roy领导的一个多学科团队正在执行一项任务,即使用一种称为定量光声断层扫描(QPAT,quantitative photoacoustic tomography)的新技术来改进医学成像。

MediaBox,行业音视频数字化再加速

根据权威数据表明,65%的行业数字化信息来自视频,基于此,音视频技术对于行业数字化来说是至关重要的。今天我想借此机会向大家介绍一个重量级的客户端产品——MediaBox,它将致力于实现行业音视频数字化再加速.

0fc7f241d69d9bec60ae86f51ca80b0a.png

音视频学习--Video Fast Update

视频快速更新 (VFU) 是 H.323 视频会议协议的一项功能,允许在视频会议通话期间快速恢复丢失的视频帧。当视频帧在传输过程中丢失时,接收端点可以向发送端点发送视频快速更新请求。发送端点将尽快重传丢失的帧,从而使接收端点能够快速恢复并显示丢失的视频信息。这可以通过减少丢失帧对视频流的影响来帮助提高视频会议的整体质量。

音视频学习--音画同步

音视频封装是将音频和视频数据流打包成一个容器文件的过程。在封装过程中,音频和视频数据需要经过编码(例如AAC、MP3、H.264、H.265等)得到压缩后的二进制数据。这些压缩后的数据会按照特定的格式和规范被装载到FLV或MP4文件的对应位置。

拥抱云原生,下一代边缘计算云基础设施

对海量数据新的应用形态对低时延和分布式架构的需求,边缘计算将成为新一代边缘计算云基础设施,火山引擎覆盖了全国海量边缘节点,储备了上百T带宽,承载了视频直播、游戏娱乐、智慧交通、影视特效等多场景客户服务, LiveVideoStackCon 2023上海站邀请到火山引擎边缘云边缘计算架构师——郭少巍,为大家分享《拥抱云原生——下一代边缘计算云基础设施》。

我们距离下一个超高清时代还有多久?

低延迟的互动直播、连续上划的短视频、1080p的电影电视剧……在超高清视频轻而易得的当下,我们对于低清、卡顿视频的忍耐度越来越低。

融合开放,边缘云网助力企业全球数字化升级

围绕边缘云海量分布式节点和上百T的网络规模,结合边缘云快速发展期间遇到的各种问题和挑战。LiveVideoStack Con 2023上海站邀请到火山引擎边缘云网络产品研发负责人韩伟,为我们介绍火山引擎边缘云网的全球基础设施,融合开放的云网技术体系以及基于边缘网络延伸的全域联网加速方案。

dcc42e58dfe1a1da75513e2ff314792c.png

加速大模型产业落地,百度智能云千帆再升级

中信所、科技部新一代人工智能发展研究中心等机构联合发布的《中国人工智能大模型地图研究报告》显示,中国 10 亿参数规模以上的大模型数量为 79 个。上个月,赛迪顾问发布的《IT 2023》研究显示,截止 2023 年 7 月,我国现有大模型已经达到 130 个。

首批大模型通过备案,更激进的投入开始了

字节跳动、商汤、MiniMax、中科院、上海人工智能实验室等公司和机构也宣布其大模型已通过备案,将开始正式对外提供服务。

行业动态 | TCL明年首发杜比全景声FlexConnect新技术

杜比宣布了一项新的杜比全景声功能,可以将电视内置音响与房间里的其它无线扬声器配对。该技术的官方名称为Dolby Atmos FlexConnect,将于2024年首次在TCL电视上亮相。

连接千行百业 共话企业数字化转型的增长新机遇

在这个全行业加速迈入视频化的时代,音视频技术正成为越来越重要的纽带,推动万物相连相融。在这个过程中,腾讯云音视频连接越来越多的企业,助力加速数字化转型,找到新的增长点。

4c855ad8f6def1953a90ec1743ef6ff3.png

沉浸新视界·「听」你所想,「见」所欲见

作为深耕线下的技术大会,我们坚信“百闻不如一见”。深圳站购票火热进行中!同时,我们为在校学生争取了特别福利(购买学生票,请联系小秘书,微信号:LVSgogo)。准备好了吗?和诸多资深的音视频技术者一起,去见未来。

b81fb40b04b3fc5200a5c1b71f065a09.png

点击阅读原文 

跳转LiveVideoStackCon 2023 深圳站 官网,了解更多信息

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/998528.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

监听对象中属性变化(一个或多个属性、全部属性)

一、数据监听器 什么是数据监听器 数据监听器用于监听和响应任何属性和数据自动的变化,从而执行特定的操作。它的作用类似于vue中的watch侦听器。在小程序中,基本语法格式如下: Component({observers: {字段A,字段B: function(字…

计算机丢失msvcp140.dll是什么意思?msvcp140.dll丢失的解决方法

在使用计算机的过程中,我们可能会遇到各种奇葩的问题。其中,一个常见的问题是计算机提示丢失msvcp140.dll。这个文件是Microsoft Visual C 2015 Redistributable的一部分,通常用于支持一些软件(如游戏、办公软件等)的运…

遗忘因子递推最小二乘参数估计(FFRLS)

基于遗忘因子的最小二乘法电池参数辨识 最小二乘法是系统辨识中最常用的一种估算方法。为了克服最小二乘法存在”数据饱和”的问题,我们通常采用含有遗忘因子的递推最小二乘法(Forgetting Factor Recursive Least Square,FFRLS)算法进行电池模型的参数辨识。 1、二…

图片码二次渲染绕过

目录 一、环境 1、代码 2、文件处理方式 3、图片码的制作 二、绕过图片重构 1、可行性分析 2、数据比对 3、完成绕过 一、环境 以upload-labs靶场第十七关为例 1、代码 源码为&#xff1a; <?php include ../config.php; include ../head.php; include ../menu.…

管理类联考——数学——汇总篇——知识点突破——应用题——分段计费

👊 分段计费是指不同的范围对应着不同的计费方式,在实际中应用很广泛,比如电费,水费、邮费、个税、话费、出租车费、销售提成等等。解题思路的关键点有两个,一个是先计算每个分界点的值,确定所给的数值落入哪个范围;另外,对应选取正确的计费表达式,按照所给的标准进…

腾讯云CVM S5服务器性能测评和租用价格1年和五年

腾讯云服务器CVM五年时长&#xff0c;2核2G服务器5年1728元、2核4G1M带宽五年3550、4核8G服务器6437元五年&#xff0c;CVM标准型S5实例可选2核2G、2核4G和4核8M&#xff0c;公网带宽可1M、3M和5M&#xff0c;系统盘为50G高性能云硬盘&#xff0c;S5云服务器CPU采用Intel Xeon …

模电课设:用Multisim简单了解二极管

1 课设内容 1&#xff09;测试二极管伏安特性电路&#xff1b; 2&#xff09;二极管的整流电路及负载对输出电压和纹波的影响&#xff1b; 2 模型搭建 电路一&#xff1a;测试二极管伏安特性的电路如下图所示&#xff0c;结构十分简单&#xff0c;直流电源串联上二极管组成一…

windows10搭建llama大模型

背景 随着人工时代的到来及日渐成熟&#xff0c;大模型已慢慢普及&#xff0c;可以为开发与生活提供一定的帮助及提升工作及生产效率。所以在新的时代对于开发者来说需要主动拥抱变化&#xff0c;主动成长。 LLAMA介绍 llama全称&#xff1a;Large Language Model Meta…

c#中字段和属性的区别,委托和事件的区别

IDE眼里的字段和属性 class Test {public int age1 12;public int Age2 { get; set; } 18;public void Show(){Console.WriteLine(age1);Console.WriteLine(Age2);} }很多新人发现在类中定义变量时&#xff0c;有些人会在后面写上get,set。 这种写法定义出来的变量&#xf…

数据结构与算法-二叉搜索树红黑树

一&#xff1a;二叉搜索树 大家来看以下几个结构&#xff1a;下图中的 二叉搜索树又叫二叉查找树&#xff0c;二叉排序树&#xff1b; 它具有以下特点&#xff1a; 1.如果它的左子树不为空&#xff0c;则左子树上结点的值都小于根结点。 2.如果它的右子树不为空&#xff0c;则右…

动手学深度学习——Windows下的环境安装流程(一步一步安装,图文并配)

目录 环境安装官网步骤图文版安装Miniconda下载包含本书全部代码的压缩包使用conda创建虚拟&#xff08;运行&#xff09;环境使用conda创建虚拟环境并安装本书需要的软件激活之前创建的环境打开Jupyter记事本 环境安装 文章参考来源&#xff1a;http://t.csdn.cn/tu8V8 官网…

编程初学者指南(2023版):零基础小白如何学习编程-两万字详述

文章目录 1.写在前面1.1 为什么有这份指南1.2 指南里有什么1.3 关于软件协会1.4 面对人生&#x1f340; 对工作&#xff1a;越努力越幸运&#x1f340; 对感情&#xff1a;爱得厚重开阔&#x1f340; 对他人&#xff1a;保持尊重、友好、真诚和谦逊&#x1f340; 对生活&#x…

【论文解读】元学习:MAML

一、简介 元学习的目标是在各种学习任务上训练模型&#xff0c;这样它就可以只使用少量的训练样本来解决新任务。 论文所提出的算法训练获取较优模型的参数&#xff0c;使其易于微调&#xff0c;从而实现快速自适应。该算法与任何用梯度下降训练的模型兼容&#xff0c;适用于…

群辉 Synology NAS Docker 安装 RustDesk-server 自建服务器只要一个容器

from https://blog.zhjh.top/archives/M8nBI5tjcxQe31DhiXqxy 简介 之前按照网上的教程&#xff0c;rustdesk-server 需要安装两个容器&#xff0c;最近想升级下版本&#xff0c;发现有一个新镜像 rustdesk-server-s6 可以只安装一个容器。 The S6-overlay acts as a supervi…

【Proteus仿真】【STM32单片机】便携式血糖仪

文章目录 一、功能简介二、软件设计三、实验现象联系作者 一、功能简介 系统运行后&#xff0c;LCD1602显示开机界面信息&#xff0c;当按下K1键开始测量&#xff0c;步进电机运行启动针头采血&#xff0c;然后检测血糖值显示在屏幕上&#xff1b;如果血糖高于上限&#xff0c…

Upload-labs十六和十七关

目录 第十六关第十七关 第十六关 直接上传php文件判断限制方式&#xff1a; 同第十五关白名单限制 第十六关源码&#xff1a; 代码逻辑判断了后缀名、content-type&#xff0c;以及利用imagecreatefromgif判断是否为gif图片&#xff0c;最后再做了一次二次渲染 第71行检测…

计算机网络第四章——网络层(中)

提示&#xff1a;待到山花烂漫时&#xff0c;她在丛中笑。 文章目录 需要加头加尾&#xff0c;其中头部最重要的就是加了IP地址和MAC地址&#xff08;也就是逻辑地址和物理地址&#xff09;集线器物理层设备&#xff0c;交换机是物理链路层的设备&#xff0c;如上图路由器左边就…

Vue使用ts的枚举类型

vue项目中要使用ts的枚举类型需要为script标签的lang属性添加ts属性值 <script lang"ts" setup></script > 首先要声明一下&#xff08;我这里是声明了一个名称一个颜色&#xff09;&#xff1a; 接下来是页面中的标签使用&#xff08;用的是element表格…

Linux系统编程--IO系统调用

文章目录 一、I/O系统调用1.open() 打开文件1.1 所需基础知识1.2. open() 详解1.3 示例代码 2.read() 读取文件2.1.基础知识2.2.read() 详解2.3. 读入所有字节 3.write() 写文件3.1. 基础背景知识3.2.write() 详解3.3.示例代码3.4.注意点3.4.1.同步IO1. fsync() 和fdatasync()2…

MySQL高可用搭建方案之(MMM)

有的时候博客内容会有变动&#xff0c;首发博客是最新的&#xff0c;其他博客地址可能会未同步,认准https://blog.zysicyj.top 注意&#xff1a;这篇转载文章&#xff0c;非原创 首发博客地址 原文地址 前言 MySQL的高可用有很多种&#xff0c;有我们经常说的MMM架构、MHA架构、…