音视频技术开发周刊 | 301

news2024/9/24 17:18:54

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

810e6475e9cf501d5e8859ed1fb0d0a3.png

微软、谷歌、亚马逊,打响大模型时代的云战争

过去数月,云巨头们砸下真金白银,研发大模型、战略投资、自研 AI 芯片……大模型的时代方兴未艾,他们已经瞄准了新一代的 AI 软件客户。这篇文章围绕几大海外云巨头进行梳理,试图阐述“什么是今天云厂商们竞争的关键”。

北大开源首个中文法律大模型——ChatLaw

目前,ChatLaw法律大模型提供ChatLaw-13B、ChatLaw-33B和ChatLaw-Text2Vec三个版本,底座为姜子牙-13B、Anima-33B。使用了大量法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本来构造对话数据。

清华系面壁智能开源中文多模态大模型VisCPM 

VisCPM 是由面壁智能、清华大学 NLP 实验室和知乎联合开源在 OpenBMB 的多模态大模型系列,其中 VisCPM-Chat 模型支持中英双语的多模态对话能力,VisCPM-Paint 模型支持文到图生成能力,评测显示 VisCPM 在中文多模态开源模型中达到最佳水平。

Inflection融资13亿美元,总融资额仅次于OpenAI

北京时间6月29日晚,总部位于加州的人工智能初创公司Inflection宣布完成13亿美元的最新一轮融资,由微软、英伟达和三位亿万富翁(Reid Hoffman、Bill Gates和Eric Schmidt)牵头投资。据福布斯报道,Inflection的最新估值为40亿美元。本轮融资资金将用于支持Inflection自研的首款名为Pi的人工智能助手。

fef6ea86ebd0e412c41be967c8bc17e4.png

OpenAI到底做对了什么?

一个区区两三百人(在去年底推出ChatGPT时,OpenAI团队大约270人)的创业公司,何以在众多巨头逐鹿多年的AI竞技场一路披荆斩棘,摘得通用人工智能的圣杯?无论在硅谷,还是在国内,很多人都在问:为什么AGI这样史诗级的革命,背后的核心推手竟然是OpenAI这样的创业公司?OpenAI到底做对了什么?

抓住机遇,积极应对生成式人工智能挑战

但每一项的挑战和改变,必然也意味着新的机会。我们应找准定位,不断寻找探索挑战中蕴含的发展机遇。

DreamDiffusion:从脑电图信号生成高质量图像

这篇论文由清华大学国际研究生院、Tencent AI实验室等撰写,介绍一种可以直接从脑电图(EEG)信号中生成高质量的图像的方法,而无需先将思维转化为文本再生成图像。定量和定性结果证明了该方法作为实现“思维到图像”转换的重要一步,具有潜在的神经科学和计算机视觉应用的可行性。

https://arxiv.org/abs/2306.16934

陶哲轩转赞!ChatGPT自动证明重大突破

尽管许多人并不愿意承认,但是很可能,AI会在十年内赶超人类数学家。

3ac28a2a1ed910003691c5df605a4aa9.png

中科院团队用AI设计了一颗CPU

六月底,来自中科院的团队在预印本平台arxiv上发表了重磅论文《Pushing the Limits of Machine Design:Automated CPU Design with AI》(机器设计新突破:使用人工智能自动设计CPU),其中使用了人工智能的方法,成功地在5个小时内完成了一个基于RISC-V指令集的CPU的设计,而且该设计经过后端布局布线后已经成功流片点亮并且能运行Linux和Dhrystone。

芯片管制附加作用:除了设备限制出口外,中国人求职也受限制

这几天荷兰正式出台了限制半导体设备海外出口的法令,这样美国、日本和荷兰正式形成了针对中国半导体技术封锁的铁三角,考虑到这三个国家在半导体以及芯片领域的影响力和技术能力,可以说出口限制会极大程度影响到其他国家在半导体领域上的发展,这其中首当其冲的自然还是中国。

富士康们,抢攻芯片

越来越多的台系厂商近年来逐渐开始转型,寻求技术升级,以提供更高附加值的产品和服务,向上游芯片领域进击是他们的一大选择。

bce8d7b50e6b04903c2e9c632a53ab0f.jpeg

斯坦福大学吴佳俊:通过自然监督编码理解视觉世界

斯坦福大学助理教授吴佳俊带来了精彩的演讲 “通过自然监督编码理解视觉世界”(Understanding the Visual World Through Naturally Supervised Code)。此次演讲从二维图像拓展到三维世界,从人类和自然的先验知识中汲取灵感并应用至生成神经网络。

不“完美”的摄像头眼睛 :人类

想要做一个能够整体超过人眼的相机,首先我们需要分析眼睛到底是一个什么样水平的相机呢?

e6e5aafcd988d9f0f3618f7f0485f8f1.png

Magic123:使用2D和3D扩散先验从单张图像生成高质量的3D物体

这篇论文提出了Magic123,一种使用2D和3D先验的两阶段粗到精的方法,用于从单张未姿态化的图像中生成高质量的带纹理3D网格。在第一阶段,通过优化神经辐射场来生成粗略几何结构。在第二阶段,采用内存高效的可微网格表示,得到具有视觉吸引力纹理的高分辨率网格。

https://arxiv.org/abs/2306.17843

音视频学习--图像编辑开源库

这篇文章介绍了8种图像编辑的开源工具。

数十亿人用过的流行开源图像编解码器缺钱,停更

在 libjpeg-turbo 3.0.0 刚完成发布之际,项目的首席开发人员 DRC 就表示,由于资金短缺,其未来的功能开发或将受到限制,可能永远不会有 libjpeg-turbo 3.1 版本。

眼睛也分主次,你的大脑更“偏心”哪一只眼?

你知道吗,人的眼睛是分主副眼的,在专业术语上称为优势眼和非优势眼,或左 / 右利眼,就像左 / 右利手一样。

69462f60d15e30179b583a8b25e5b206.png

直播 RTM 推流在抖音的应用与优化

抖音评测实验室团队为抖音直播编码优化助力,支持直播各个场景开启B帧提高视频压缩效率,可以用于提升画质或者节省带宽成本。

PACC: RTC 下基于用户感知的拥塞控制

这篇论文中,作者针对 RTC 提出了基于感知的拥塞控制(PACC: Perception-Aware Congestion Control)。利用卷积神经网络(CNN),论文作者开发了一个质量评估模型来预测视频质量。借助于用户感知的变化趋势分析,PACC 将朝着更好的 QoE 方向去调整码率。

实时视觉通信的盲质量评价

用户产生的内容(如社交媒体,对话视频)通常没有高质量视频作为参考,必须在没有任何参考的情况下进行质量评价,也就是所谓的盲质量评价。

基于MEC的太赫兹无线网络辅助沉浸式VR视频流媒体:一种深度强化学习方法

这篇论文提出了一种最小化基于THz无线接入的MEC系统长期能耗的方法,通过联合优化视口渲染卸载和下行发射功率控制,为高质量沉浸式VR视频服务提供支持。

https://ieeexplore.ieee.org/document/9120235

a00ea3c576f464d1811c98ef055900dc.png

Interspeech2023 | DualVC—基于模型内蒸馏与混合预测编码的双模语音转换模型

西工大音频语音与语言处理研究组(ASLP@NPU)和网易伏羲合作论文“DualVC: Dual-mode Voice Conversion using Intra-model Knowledge Distillation and Hybrid Predictive Coding ”被语音研究顶级会议INTERSPEECH2023接收。该论文提出一种结合模型内蒸馏与混合预测编码的语音转换模型DualVC,能在一个模型中同时实现流式与整段推理(非流式)两种转换模式。

腾讯会议 AI 音频技术的价值外溢,用软件和服务为助听行业打开新格局

天籁实验室利用腾讯会议 AI 音频技术的积累,以公益的初心开拓新领域,用软件和远程验配服务,帮助助听设备厂商打通从助听器到测听、验配的闭环,为国内助听行业的发展打开了新格局。

用耳朵做选择|监听音箱的主观评估方法

监听音箱可以作为一套监听系统、一项制作任务、音频工程师/音乐制作人的声音基准,然而它在信号链中处于一个独特的位置。你所听到的它发出来的声音,要比音频路径的任何其他设备(比如音频处理器)受到更多的变量影响。

d6c7b278c9dd1dae54beda73d081e9c3.png

W3C 计划成立隐私标准工作组

W3C 计划成立隐私标准工作组,现开始筹备小组章程界定标准化范畴及工作模式。隐私工作组的任务是为各标准小组提供建议以避免和减轻 Web 技术相关隐私问题,对提升用户隐私的技术机制进行标准化,进而改善 Web 上的隐私。

489ec37040c6322d3f66b1b08a06ac83.png

Meta眼中的VR办公:确定的方向,不确定的时间

VR 是否会很快成为我们工作生活中常见的一部分还有待观察,但该技术在提升会议体验方面有很大潜力。

Google AR 眼镜项目 Iris 被砍,未来还是想做 AR 界的 Android!

尽管 Google 向 Project Iris 投入了数年的研发,但在今年稍早时候,其实就已经决定放弃了该项目。

0ef6a492354eeba51a64d75c5c342597.jpeg

开源编解码器 SVT-AV1发布1.6.0版本:性能提升三至四成

SVT-AV1编码器发布新版本,官方更新日志显示v1.6.0最大带来40%的速度提升。

https://gitlab.com/AOMediaCodec/SVT-AV1/-/releases/v1.6.0  

9cd3e8053c3393e5a3654f8b6a7b99a7.png

高通白皮书发布:混合 AI 是 AI 的未来

高通在白皮书中提到,随着生成式 AI 正以前所未有的速度发展以及计算需求的日益增长,AI 处理必须分布在云端和终端进行,才能实现 AI 的规模化扩展并发挥其最大潜能——正如传统计算从大型主机和瘦客户端演变为当前云端和边缘终端相结合的模式。与仅在云端进行处理不同,混合 AI 架构在云端和边缘终端之间分配并协调 AI 工作负载。

《从营销AIGC化到AIGC营销化》报告发布

7月2日上午,清华大学元宇宙文化实验室举办元宇宙在线沙龙“AIGC热潮与应用”。会议中,清华大学新闻与传播学院教授、元宇宙文化实验室主任、新媒体研究中心执行主任沈阳,对清华大学新闻与传播学院新媒体研究中心和华扬联众共同创作的报告《从营销AIGC化到AIGC营销化》进行了解读。

78ced0739a199d55899bbd1101d1a032.png

Coatue的年度预言:衰退与复兴并存的未来12个月

在今年,Coatue进一步指出衰退时代的来临,同时指出下一个科技超级周期的“突破”时刻:AI可能成为经济新的生命线。

什么是“审美茧房”?| 芒种观点

互联网与数字技术的发展破坏了传统审美实践赖以维系的媒介间性,通过不断挤压“反思”和“协商”在审美实践体系中的存在空间,消弭了文化公共性在审美实践中得以形成所必需的批判性距离,进而全面导致了大众品位的私人化,制造了“审美茧房”。

f9d5de517d4ec0af2052fe9f1c187b1f.png

LiveVideoStackCon 2023 上海站日程发布

LiveVideoStackCon 2023 上海站音视频技术大会以「沉浸·新视界」为主题,除了探索音视频技术在不同场景下的融合与发展外,还增添了游戏、AIGC和数字化行业案例等新鲜火爆的话题。在这里,你可以感受到多媒体生态内的头部公司、顶级玩家对行业当前发展趋势、瓶颈挑战,与对未来规划的深入解读。

我们将邀请60余位顶级讲师聚集一堂,与你共同分享他们的专业见解。这是一个与业内顶尖专家进行深入交流的绝佳机会,你将有机会亲自与他们面对面,从他们丰富的经验中获得宝贵的技术心得。

cd859d040ccb6920123b4c10dd9ae349.png

扫描图中二维码或点击“阅读原文 

查看更多LveVideoStackCon 2023上海站精彩话题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/739041.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ArcGIS Pro中的模型构建器演示

前言 ArcGIS Pro的模型构建器在功能上相较于大致没有什么改动,主要是界面上变得相对漂亮,流程中使用了一些半透明的效果,相较于arcmap中的模型构建器,可以说是颜值进化很大了。 实战 首先我们来看一下演示效果,怎么样,是不是很方便 先建立一个模型 对于模型构建器我一直…

java main 方法的理解

文章目录 理解命令行参数用法举例IDEA工具配置参数(了解) 理解 由于JVM需要调用类的main()方法,所以该方法的访问权限必须是public,又因为JVM在执行main()方法时不必创建对象,所以该方法必须是static的,该…

python爬虫_selenuim登录个人markdown博客站点

文章目录 ⭐前言⭐selelunim⭐博客站点💖 自动填充账号密码登录 ⭐结束 ⭐前言 大家好,我是yma16,本文分享python使用selenuim登录个人markdown博客站点。 该系列文章: python爬虫_基本数据类型 python爬虫_函数的使用 python爬虫…

接口中的默认方法和静态方法

接口中的默认方法和静态方法 接口中的默认方法 package cn.tedu.inter; //1.定义接口 public interface Inter1 {/*1.接口中默认方法的修饰符public可以省略*///2.定义接口中的默认方法public default void play(){System.out.println("我是接口中的默认方法,…

OSPFv2基础03_综合实验

目录 1.创建OSPF进程 2.创建OSPF区域 3.使能OSPF 4.创建虚连接(可选) 5.OSPF常用命令 6.实验配置步骤 7.实验效果 1.创建OSPF进程 OSPF是一个支持多进程的动态路由协议,OSPF多进程可以在同一台路由器上运行多个不同的OSPF进程&#x…

ES6基本知识点

目录 1.对象优化 1.1 新增API 1.2 object.assign方法的第一个参数是目标对象,后面的参数都是源对象 1.3 声明对象简写 1.4 对象的函数属性简写 1.5 对象拓展运算符 2.map和reduce 2.1 数组中新增的map和reduce方法 3 promise 3.1 promise封装异步操作 4.模…

C# PaddleInference OCR 验证码识别

说明 C# PaddleInference OCR 验证码识别 自己训练的模型,只针对测试图片类型,准确率99% 效果 项目 VS2022.net4.8OpenCvSharp4Sdcb.PaddleInference 测试图片 代码 using OpenCvSharp; using Sdcb.PaddleInference.Native; using Sdcb.PaddleInfer…

mac笔记本安装java环境以及idea设置

系列文章目录 文章目录 系列文章目录安装java环境一、安装jdk二、下载安装IntelliJ IDEA三、安装maven四、安装git五、安装tomcat六、安装appenv配置文件七、有关idea的设置1、快捷键设置2、新建类的命名3、字体的大小,有关菜单栏的大小4、框内的tab最多能有多少个窗…

【2 beego学习 - 项目导入与项目知识点】

0 项目导入 1 在英文路径下新建一个同名的项目,拷贝其他数据到这个文件 bee new 同名项目名 cd 同名项目名 go mod tidy go get -u -v github.com/astaxie/beego go get 同名项目名/models2 拷贝部分的项目文件到新目录 bee run 运行的其他错误,按照提示安装文件 1 后端获取…

微软MFC技术中的消息队列及消息处理

我是荔园微风,作为一名在IT界整整25年的老兵,今天来聊聊微软MFC技术中的消息队列及消息处理。 MFC应用程序中由Windows 系统以消息的形式发送给应用程序的窗口。窗口接收和处理消息之后,把控制返回给Windows。Windows系统在同一时间可显示多…

HashMap底层原理:数据结构+put()流程+2的n次方+死循环+数据覆盖问题

导航: 【Java笔记踩坑汇总】Java基础进阶JavaWebSSMSpringBoot瑞吉外卖SpringCloud黑马旅游谷粒商城学成在线MySQL高级篇设计模式常见面试题源码_vincewm的博客-CSDN博客 目录 一、底层 1.1 HashMap数据结构 1.2 扩容机制 1.3 put()流程 1.4 HashMap是如何计算…

电话号码的字母组合问题

解题思路: 当我第一眼看到这题的时候,我直接举出来一个列子“258”,直接套用多重for循环遍历可以罗列出来,但是根据数字组合的长度不能确定for循环的多少(除非把所有for循环个数情况都罗列一遍) 所以只能…

几种常用接口调用方式介绍

API,全称叫做Application Programming interface,也就是应用程序接口,API是一些预先定义的函数,我是学Java的,当我要使用这些函数的时候,便可以直接调用Java API,不用去访问源码,也不…

Linux设备驱动程序(四)——调试技术

文章目录 前言一、内核中的调试技术二、通过打印调试1、printk2、重定向控制台消息3、消息如何被记录4、开启及关闭消息5、速度限制6、打印设备编号 三、通过查询调试1、使用 /proc 文件系统①、在/proc中实现文件②、创建自己的 /proc 文件③、seq_file 接口 2、ioctl 方法 四…

Chatbot UI 和 ChatGLM2-6B 的集成

Chatbot UI 和 ChatGLM2-6B 的集成 0. 背景1. 部署 Chatbot UI2. 部署 ChatGLM2-6B3. 修改 ChatGLM2-6B 项目的 openai_api.py4. 修改 Chatbot UI 的配置5. 访问 Chatbot UI 0. 背景 尝试将 Chatbot UI 和 ChatGLM2-6B 的进行集成, ChatGLM2-6B 提供 API 服务&…

精确时钟同步协议ptp/IEEE-1588v2协议-------(2)主从时钟之间的消息交互与时钟同步过程

本文目录 1、主时钟和从时钟之间的消息交互流2、延时delay和偏移offset的计算2.1、延时delay的计算2.2、偏移offset的计算 主时钟和从时钟之间,通过sync, follow up, delay request, delay response这四条消息,完成时钟同步过程。PTP时钟同步系统能工作的…

word绘制横向表格

最近写小论文,表格太宽需要绘制横向表格,找了半天教程说的都不是很详细,我学习了一下决定自己写个教程。 我要在一和二之间创建一个横向表格。首先在一后面添加一个分节符号。布局->分隔符->分节负下一页。 再在二之前添加一个分节符号…

新耀东方|安全狗亮相2023第二届上海网络安全博览会

7月5日至7日,“新耀东方-2023第二届上海网络安全博览会暨高峰论坛”在上海顺利举办。此次大会由上海市信息网络安全管理协会、国家计算机网络应急技术处理协调中心上海分中心、(ISC)2上海分会、上海市普陀区科学技术委员会、上海市网络安全产业示范园共同主办。 作为…

左神算法之中级提升(2)

目录 [案例1】 【题目描述】 【思路解析1】 【思路解析2】 【代码实现】 【案例2】 【题目描述】 【思路解析】 【代码实现】 【案例3】 【题目描述】 【思路解析】 【代码实现】 【案例4】 【题目描述】今日头条2018面试题 第四题 【输入描述】 【思路解析】 【…

对于没有任何基础的初学者,云计算该怎样学习?

想学习任何一门专业技能,可以按下面这一套逻辑梳理! 1)了解基本内容 云计算这个技术是做什么的?适用哪些场景?有什么优点和缺点? 同时建议先找技术大纲,至少要学哪些技能点,可以网…