音视频技术开发周刊 | 294

news2024/12/28 4:50:32

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

ec0b5455e5086101f7dbbb7c18639573.png

五问「ChatGPT+医学影像」:新一代的 AI 能否成为放射科医生的一把利器?

在医学等专业性较强的领域内,ChatGPT的表现还不够好,如果想将ChatGPT应用到医学影像之中,多模态学习必不可少。医学领域中目前存在很多的图像、音频、文本等不同种类的数据,必须利用多模态学习将其进行结合,才能应用在临床工作中。

SAP与微软合作,通过ChatGPT简化招聘流程

通过此次合作,SAP将微软的多项类ChatGPT功能集成在人力资源解决方案SAP Success Factors中,通过自然语言就能生成职位描述、面试问题等,加速人才招聘流程。

谷歌通过强化学习来优化电子商务推荐系统 

传统的推荐系统往往只关注单一目标,如点击率或购买率,而MORL则可以同时考虑多个目标,例如用户满意度、收益和转化率等。通过对这些目标进行综合权衡,谷歌团队的推荐系统可以更加准确地预测用户的偏好并提供更有针对性的推荐。 

https://ai.googleblog.com/2023/05/using-reinforcement-learning-for.html

LLM Accelerator:使用参考文本无损加速大语言模型推理

由于大模型的参数量巨大、推理成本高,因此如何在大规模部署大模型的过程中降低成本、减小延迟是一个关键课题。针对此问题,微软亚洲研究院的研究员们提出了一种使用参考文本无损加速大语言模型推理的方法 LLM Accelerator,在大模型典型的应用场景中可以取得两到三倍的加速。

ChatGPT之父舌战国会山!OpenAI欲与政府联手,权力通天 

北京制定通用人工智能创新措施,这21项值得关注

9b57d3fb4c15c4a7e82f7986a7f389ee.png

一种高效模拟大型室内声学的方法 

室内声学建模和仿真的一个挑战是准确模拟一个房间内全部频率范围内的声学性能。这篇文章讨论了在 COMSOL Multiphysics® 软件中对室内声学进行建模的一种混合方法,就是将多种方法的结果集成到一个模型中,来提高准确性并确保方法的可行性。接下来,我们来看看如何做到这一点。

音频品鉴与歌唱评价——音频内容理解实践

本次LiveVideoStackCon 2022 北京站邀请到腾讯音乐天琴实验室高级研究员——江益靓,为大家介绍全民K歌的多维度评价技术和深度歌唱评价技术的实践,以及优质内容挖掘中使用的音频品鉴系统。

为什么我们能判断声音的远近 - 初始时间延迟差的作用

本文以初始时间延迟差为例,来介绍应该如何设计对应的听力测试,探究其在双耳距离感知中的作用。 

SMPTE Motion Imaging Journal 2023 | COTS实用媒体处理平台构建案例 

为了在商用非专用硬件上使用来自不同供应商的元素构成可扩展的基于软件的广播系统,并避免在设施和云中的锁定,需要采用混合多云方法。作为一个案例研究,本文构建了一个可扩展的边缘平台,用于转码、人工智能(AI)推理和其他视频和音频处理。多架构、容器化应用程序使用 Kubernetes 进行部署和管理。

40fc45788678c3cbbbfd21e859da03d8.png

使用FFmpeg模拟视频播放列表的实时流

本文展示了如何使用FFmpeg生成一个m3u8播放列表文件以及相关的ts媒体文件,并通过本地服务器将其提供给客户端进行播放。此外,文中还讨论了一些常见问题和解决方案,例如如何处理不同分辨率的视频、如何支持HTTPS等等。

https://www.mux.com/blog/simulate-a-live-stream-of-a-video-playlist-with-ffmpeg

053289a81903b159a0a46693662b29ad.png

SRT 技术是如何改变现场视频直播的?

据2023年的HAIVISION的广播转型报告显示:SRT已经成为互联网直播视频传输最常用的流媒体协议。2023年,SRT联盟成立六周年,成员超600人。

https://www.haivision.com/blog/broadcast-video/live-video-evolves-with-srt-technology-and-the-internet/

99214502f2aba247673f0d8afcb04822.png

2023年4月云服务行业动态及热点研究月报

本报告是基于对2023年4月份的数据中心、基础云、SaaS和行业云等赛道动态的调查整理而成。

101115152cdfa1fca8ddfdeee1a0b427.png

BITMOVIN | 容器格式通用指南

容器格式是一种将多个数据流嵌入到单个文件中的方式,常用于在线视频、下载电影或使用流媒体服务中。常见的容器格式包括MP4、MKV、AVI和MOV等。本文从基本的专业术语到各种容器文件类型(包括MP4、CMAF、MPEG-TS、Matroska)都作了详细介绍。

MSU 视频编解码器比较 2022

这是MSU 的十七个年度视频编解码器比较。

http://www.compression.ru/video/codec_comparison/2022/cloud_report.html

如何将视频的转码速度提升100倍?

本文介绍了如何通过使用多个编码器(Encoder)和多个服务器来实现视频转码的加速,以及如何使用分布式计算框架来划分和并行处理任务。同时,它还提到了一些优化技巧,例如调整编码器参数和使用更高效的编码格式等等,以进一步提高转码速度。 

https://www.mux.com/blog/how-to-transcode-video-100x-faster-or-a-gordian-knot-cut

音视频编解码--数字图像系列

6d2865922ca794cd6f3b4610c9f70dfc.png

消息称苹果对发布AR/MR头显已准备充分 

立讯独家代工、Sony独供MicroOLED、台积电独供处理器......

778d0ba2d008f1d7e6d029dadfd6d051.png

2023CSIG多媒体技术大会将在5月18-5月20日举行 

LIveVideoStackCon2023上海站九折期优惠进行中

https://sh2023.livevideostack.cn/tickets

aec67844a1aa30d663ad737801fad05b.jpeg

Instruct-NeRF2NeRF: 引导并编辑NeRF

本文提出了一种通过文本来编辑 NeRF 场景的方法。给定一个 NeRF 场景及用于重建它的多视角图像,本方法利用图像条件扩散模型InstructPix2Pix对输入图像进行迭代编辑,并同时优化底层场景,从而得到一个符合编辑指令的优化 3D 场景。

NeRF如何帮助我重新想象世界

为了训练NERF,作者收集了大量真实世界中的图像和深度数据,并使用它们来生成训练样本。然后,作者使用NVIDIA的Triton Inference Server将经过训练的NERF模型部署到云服务器上,以便将其应用于新的图像和视频。

https://developer.nvidia.com/blog/how-nerfs-helped-me-re-imagine-the-world/

为什么目前落地的主流SLAM技术很少用神经网络进行特征提取?

92ab882b3b29664323baca5abdb28366.png

ICRA 2023 同济&港科大开源:高精度、实时的端到端法向量估计方法 

同济大学MIAS group与香港科技大学IADC近期发表的 ICRA 2023论文 《D2NT: A High-Performing Depth-to-Normal Translator》提出高精度、实时的端到端法向量估计方法,性能超越现有 SoTA 算法,为现实场景下法向量数据集提供新的标定范式。相关代码已开源。

ICLR 2017|PIXELCNN++:通过离散逻辑混合似然和其他修改改进 PIXELCNN 

PixelCNN 是一个强大的模型,因为这些条件的函数形式非常灵活。除了图像建模,PixelCNN 还被扩展到音频、视频、文本建模。本文对 PixelCNN 基本模型进行了大量修改,以简化其结构并提高其性能。 

OpenGL Shader 编程基础-绘制基础图形



874dc10269f93a4f51c1e53b67799fdd.png

LiveVideoStackCon 2023上海讲师招募中

LiveVideoStackCon是每个人的舞台,如果你在团队、公司中独当一面,在某一领域或技术拥有多年实践,并热衷于技术交流,欢迎申请成为LiveVideoStackCon的讲师。请提交演讲内容至邮箱:speaker@livevideostack.com。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/553327.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux 防火墙 SNAT DNAT

SNAT原理与应用 SNAT 应用环境 局域网主机共享单个公网IP地址接入Internet (私有IP地址不能在Internet中正常路由) SNAT原理 修改数据包的源地址 SNAT可以认为是路由器NAT中的easy ip DNAT可以认为是路由器NAT中的 nat server SNAT将 内网源地址 转化为网…

【Vue2.0源码学习】虚拟DOM篇-Vue中的DOM-Diff

1. 前言 在上一篇文章介绍VNode的时候我们说了,VNode最大的用途就是在数据变化前后生成真实DOM对应的虚拟DOM节点,然后就可以对比新旧两份VNode,找出差异所在,然后更新有差异的DOM节点,最终达到以最少操作真实DOM更新…

FasterRCNN训练自己的数据集

2016年提出的Faster RCNN目标检测模型是深度学习现代目标检测算法的开山之作,也是第一个真正全流程都是神经网络的目标检测模型。 其主要步骤如下: 1,使用CNN对输入图片提取feature map. 2,对feature map上的每个点设计一套不同大…

Roboflow的使用

文章目录 前言一、使用labelimg标注数据集二、导入roboflow1.注册roboflow账户2.导入图片2.1 创建工作区workspace(非必须)2.2 创建项目 project2.3 导入 3、导出图片4、同一个数据集可以导出不同类型 前言 我自己也是一个小白不是很会,如果…

ASO优化之怎么做好关键词本地化覆盖

如果想要我们的应用走向国际化,被多个国家/地区使用,那么做好关键词本地化覆盖至关重要。我们可以主要针对中文和英文进行设置(准备两套元数据),这样能够迅速增加应用商店ASO关键词覆盖数量。 那么我们要在哪里设置&a…

小白也能懂的薛斯通道抄底指标以及公式(附源码)

什么是薛斯通道? 上个世纪70年代,美国人薛斯最早发明了薛斯通道。 他本人曾是研究火箭运行的。 薛斯通道包括两组通道指标,分别是长期大通道指标(100天)和短期小通道指标(10天)。 股价实际上是被…

Netflix 团队解决了 Linux 内核中的 FUSE 死锁

Laf 公众号已接入了 AI 绘画工具 Midjourney&#xff0c;可以让你轻松画出很多“大师”级的作品。同时还接入了 AI 聊天机器人&#xff0c;支持 GPT、Claude 以及 Laf 专有模型&#xff0c;可通过指令来随意切换模型。欢迎前来调戏&#x1f447; <<< 左右滑动见更多 &…

Go与神经网络:张量运算

0. 背景 2023年年初&#xff0c;我们很可能是见证了一次新工业革命的起点&#xff0c;也可能是见证了AGI(Artificial general intelligence&#xff0c;通用人工智能)[1]孕育的开始。ChatGPT应用以及后续GPT-4大模型的出现&#xff0c;其震撼程度远超当年AlphaGo战胜人类顶尖围…

微信小程序-页面跳转wxAPI

官方文档地址&#xff1a;https://developers.weixin.qq.com/miniprogram/dev/api/route/wx.navigateTo.html wx.navigateTo(Object object) 更改首页代码&#xff0c;添加一个按钮&#xff0c;绑定一个事件的点击&#xff1a; <!--index.wxml--> <text>首页</t…

《前端》HTML常用标签

文章目录 HTML导读HTML格式常用标签标题标签段落标签格式化标签超链接标签标签的几种形式 表格标签列表标签表单标签按钮标签无语义标签 ​&#x1f451;作者主页&#xff1a;Java冰激凌 &#x1f4d6;专栏链接&#xff1a;前端 HTML导读 html是超文本标记语言 一般直接运行在…

33从零开始学Java之方法的递归调用到底是怎么回事?

作者&#xff1a;孙玉昌&#xff0c;昵称【一一哥】&#xff0c;另外【壹壹哥】也是我哦 千锋教育高级教研员、CSDN博客专家、万粉博主、阿里云专家博主、掘金优质作者 前言 在之前的文章中&#xff0c;壹哥给大家讲解了方法的定义、调用及参数、返回值等内容&#xff0c;接下…

广告行业中那些趣事系列62:keybert在实际业务中的使用分享

导读&#xff1a;本文是“数据拾光者”专栏的第六十二篇文章&#xff0c;这个系列将介绍在广告行业中自然语言处理和推荐系统实践。本篇作为之前keybert的补充主要介绍了keybert在实际业务中的使用分享&#xff0c;对于希望在实际业务场景中使用keybert的小伙伴可能有帮助。 欢…

微信小程序-页面生命周期方法

在经过上一篇文章的介绍之后&#xff0c;我们知道了大体的生命周期在什么时候执行&#xff0c;这次主要是以代码的形式来展示一下具体的阶段执行什么生命周期方法。 首先我们编写一个代码可以从首页跳转到日志页面&#xff1a; <!--index.wxml--> <text>首页</t…

项目中excel表格中由合同内容--转换为验收清单的办法(python操作excel表格)

需求&#xff1a; 把合同内容--转换为验收清单的办法&#xff08;python操作excel表格&#xff09; 1.字段重新排序 2.选择需要的表格列 原始的表格内容&#xff1a; 需要的格式&#xff1a; 涉及的技术点&#xff1a; 1.读取原始表格“readexcel1.xlsx”内容&#xff0c;修改…

第十一章 Productions最佳实践 - 生产电子表格

文章目录 第十一章 Productions最佳实践 - 生产电子表格生产电子表格界面设计 第十一章 Productions最佳实践 - 生产电子表格 生产电子表格 维护一个电子表格是很有帮助的&#xff0c;它可以逐个应用程序地组织信息系统。作为一般准则&#xff0c;应该为每个提供传入或传出数…

# 性能诊断 JProfiler 工具使用

性能诊断 JProfiler 工具使用 JProfiler是一个重量级的JVM监控工具&#xff0c;提供对JVM精确监控&#xff0c;其中堆遍历、CPU剖析、线程剖析看成定位当前系统瓶颈的得力工具。可以统计压测过程中JVM的监控数据&#xff0c;定位性能问题。 官网地址&#xff1a;Java Profiler…

初识linux之网络基础概念

目录 一、网络发展 1. 独立模式 2. 网络互联 二、认识协议 1. 为什么要有协议 2. 什么是协议 三、网络协议初识 1. 协议分层 2. 协议分层的优点 3. 理解分层 4. OSI七层模型 4.1 概念 4.2 模型形式 4.3 各层的作用 5. TCP/IP五层&#xff08;或四层&#xff09…

书评 | 《深入理解高并发编程:JDK核心技术》

书评 | 《深入理解高并发编程&#xff1a;JDK核心技术》 作者简介 冰河&#xff1a;互联网资深技术专家、数据库技术专家、分布式与微服务架构专家&#xff1b;多年来一直致力于分布式系统架构、微服务、分布式数据库、分布式事务与大数据技术的研究&#xff0c;在高并发、高可…

MySQL高级篇——关联查询和子查询优化

导航&#xff1a; 【黑马Java笔记踩坑汇总】Java基础进阶JavaWebSSMSpringBoot瑞吉外卖SpringCloud黑马旅游谷粒商城学成在线设计模式牛客面试题 目录 1. 关联查询优化 1.0 优化方案 1.1 数据准备 1.2 左外连接&#xff1a;优先右表创建索引&#xff0c;连接字段类型要一致…

numpy-stl实战3D建模【Python】

想象一下&#xff0c;我们需要用 python 编程语言构建某个物体的三维模型&#xff0c;然后将其可视化&#xff0c;或者准备一个文件以便在 3D 打印机上打印。 有几个库可以解决这些问题。 让我们来看看&#xff0c;如何在 Python 中从点、边和图元构建 3D 模型。 如何执行基本的…