ChatGPT 向更多用户推出高级语音模式:支持 50 种语言;字节发布两款新视频生成大模型丨 RTE 开发者日报

news2024/12/25 0:37:53

在这里插入图片描述

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、OpenAI 发布类人 ChatGPT 语音助手:支持中文在内的 50 种语言

今天凌晨,OpenAI 宣布向更多 ChatGPT 付费用户推出「高级语音模式」(Advanced Voice Mode,简称 AVM )。

目前,OpenAI 提供了两种类型的语音对话 —— 标准语音和高级语音:

1)高级语音:目前正在向 Plus 和 Team 用户逐步推出。该功能使用 GPT-4o 的原生音频技术,能够实现更加自然的实时对话,并捕捉非语言线索(例如语速),还能作出情感化的回应。

Plus 和 Team 用户每天对高级语音的使用量有限制,包括语音输入和输出。企业版和教育版的用户将在下周开始获得该功能。

2)标准语音:适用于所有登录 ChatGPT 的用户,并可以通过 iOS、macOS 和 Android 应用使用。

标准语音通过多种模型生成响应,包括将语音转录为文本,再传递给模型进行回答。

尽管标准语音不像高级语音那样具备原生多模式功能,但它仍然使用 GPT-4o 和 GPT-4o mini。需要注意的是,标准语音中的每一次提示都会计入消息限制。

AVM 将在一周内逐步向所有 Plus 和 Team 用户推送。在等待期间,OpenAI 还增加了「自定义指令」、记忆功能、五种新语音和改进的口音支持,还可以用超过 50 种语言说「抱歉,我迟到了」,同时支持中文模式。

此外,ChatGPT 还新增了五种可供用户体验的语音:Arbor、Maple、Sol、 Spruce 和 Vale,加上之前的 Breeze、Juniper、Cove 和 Ember,ChatGPT 语音总数达到了九种,几乎赶上了谷歌 Gemini Live 的数量。

OpenAI 表示,自从 AVM 的有限 alpha 测试发布以来,已经进行了多项改进。据称 ChatGPT 的语音功能现在对口音的理解能力更强,且对话更加顺畅和迅速。

OpenAI 还将 ChatGPT 部分定制功能扩展到了 AVM,包括「自定义指令」,允许用户个性化 ChatGPT 的响应方式,以及「记忆功能」,让 ChatGPT 能够记住之前的对话以供以后参考。(@有新 Newin)

2、字节版 Sora 终于来了,一口气发布两款视频模型

字节跳动旗下的火山引擎在深圳办了一场 AI 创新巡展,一口气发布了两款视频生成大模型,正式宣告进军 AI 视频生成。这两款模型,一个名为 PixelDance,一个名为 Seaweed,不仅在审美、动幅上提升了一个 level,还破解了多主体互动和一致性难题。

豆包视频生成模型能够实现复杂的多主体互动。这意味着多个视频中的人物可以在不同镜头中自然地完成复杂的互动动作,人物的样貌、服装和细节在不同镜头的切换下仍然保持一致,接近真实拍摄的效果。

这种一致性得益于 DiT 架构(融合计算单元)的应用,使得视频生成在动态和运镜之间可以灵活切换,支持多种镜头语言,如变焦、环绕、平摇、缩放、目标跟随等。(@小互 AI)

3、OpenAI 发布 MMMLU 数据集:更广、更深评估 AI 模型,支持简体中文

OpenAI 在 Hugging Face 上发布了多语言大规模多任务语言理解(MMMLU)数据集,涵盖各种主题、学科领域和语言,旨在评估大型语言模型(LLMs)在各种任务中的性能,包括不同研究领域中的常识、推理、解决问题和理解能力。
MMMLU 数据集是涵盖范围广、考验深层认知的多语言数据集,支持简体中文等多样语言,可以进行跨语言的综合评估,弥补了 NLP 研究中代表性不足的语言模型的评估问题。(@极客日报)

4、腾讯 Robotics X 实验室人居环境机器人「5 号」正式亮相

在这里插入图片描述

腾讯 Robotics X 实验室今日在官方公众号发文,宣布该实验室最新研发成果人居环境机器人「5 号」(The Five,小五)正式亮相。

官方表示,小五作为腾讯 Robotics X 实验室最新一代机器人,集合了此前多代机器人研发的核心能力,融合了四腿轮足复合设计、大面积触觉皮肤、多指灵巧手以及安全人机物理交互等多项自研技术。( @APPSO)

5、VideoLingo——一键全自动视频翻译工具

VideoLingo 是一站式视频翻译本地化配音工具,旨在生成 Netflix 级别的高质量字幕,告别生硬机翻和多行字幕,并提供高质量的配音。通过直观的 Streamlit 网页界面,只需点击两下即可完成从视频链接到内嵌高质量双语字幕甚至带上配音的整个流程,轻松创建 Netflix 品质的本地化视频。(@机器之心 SOTA 模型)

02有态度的观点

1、谷歌 CEO 皮查伊:AI 不会取代程序员,反而会让更多人成为程序员

近年来,人工智能(AI)的飞速发展引发了广泛讨论,人们担心 AI 是否会取代人类的工作。艺术家和程序员尤其担心,因为 AI 似乎能够胜任这两项工作。然而,谷歌及其母公司 Alphabet 的 CEO 桑达尔・皮查伊(Sundar Pichai)认为,AI 不会取代程序员,相反,其将帮助更多人成为程序员。

皮查伊在卡内基梅隆大学的演讲中谈到了 AI 对编程工作的影响,他表示,AI 最有可能帮助人们,而不是取代他们。它可以帮助现有程序员专注于更高级的任务,而不是重复解决同样的问题。此外,皮查伊认为 AI 将降低编程的门槛,使更多人能够通过自然语言的方式进行编程,就像使用一种创意工具一样。

皮查伊还将 AI 能够在日常活动中为众多专业人士提供帮助的能力描述为看待人工智能的「正确视角」,他还称「人工智能」这个词不太恰当,容易让人产生比较的想法,其实不必如此。他认为一个更好的术语应该是「赋能智能」,并且他「打赌未来会有更多的人进行编程」。(@IT 之家)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

在这里插入图片描述

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2164437.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AutosarMCAL开发——基于EB MCU驱动

这里写目录标题 1.MCU模块的作用2.EB配置以及接口应用3.总结 1.MCU模块的作用 MCU模块主要分为三部分: McuGeneralConfiguration MCU通用配置(一般保持默认)McuHardwareResourceAllocationConf 硬件资源分配管理器(用于连接不同…

TEDxDUTH 使用 NocoBase 实现革新

作者:TEDxDUTH TEDxDUTH 是由德莫克里特大学的志愿者们组成的一个充满活力的团队。作为 TEDx 全球社区的一员,我们的使命简单而有力:传播能够激励和引发改变的思想。我们通过精心策划一系列活动,成功汇聚了众多思想家、创新家以及…

Module did not self-register: ‘drivelist.node‘报错解决

报错如下: node_modules/bindings/bindings.js:121throw e;^Error: Module did not self-register: xxxx/node_modules/drivelist/build/Release/drivelist.node.at process.func [as dlopen] (electron/js2c/asar.js:140:31)at Object.Module._extensions..node (…

探索 Python 中的 AI 魔法:markdownify 库的奥秘

文章目录 探索 Python 中的 AI 魔法:markdownify 库的奥秘背景:为何选择 markdownify?库简介:markdownify 是什么?安装指南:如何安装 markdownify?函数用法:markdownify 的五个简单函…

【Qwen2-VL】通义多模态新作速读

Qwen2-VL https://github.com/QwenLM/Qwen2-VL 结构: 整体:6.75 亿个参数的 Vision Transformer (ViT) (Dosovitskiy et al., 2021) Qwen2 预处理阶段: 朴素动态分辨率支持&…

工程车辆目标检测、工程车检测算法、工程车辆类型检测算法

工程车检测算法主要用于智能交通系统、建筑工地管理、矿山开采、物流运输等领域,通过图像识别技术来检测和识别工程车,以提高安全管理、交通流量管理和资源调度的效率。以下是关于工程车检测算法的技术实现、应用场景及优势的详细介绍。 一、技术实现 工…

VRP-SAM

不建议复现

uni-app - - - - - 小程序获取宿主语言

const systemInfo uni.getSystemInfoSync(); console.log(systemInfo);uni.showModal({title: 宿主语言,content: systemInfo.hostLanguage })官网地址:【uni-app getSystemInfoSync】

西圣Mike Pro无线麦克风强势上线!百元级实力口碑与销量双冠王!

随着音频技术的不断革新与飞跃,西圣XISEM再次以卓越的创新驱动力推出全新力作,近日,西圣品牌震撼发布全新专业无线麦克风——西圣Mike Pro。用行业领先的硬件配置,百元价格打造千元专业级麦克风专业体验,音质远超同价位…

1分钟学会BCT环境搭建和网络配置 (24年9月25日更新)

又开始弄AirPlay了,在之前基础上更新下如何配置BCT环境和网络 如何配置apple 路由器在之前的文章有教,在这里就不陈述了 传送门:【BCT认证】Bonjour Conformance Test教程 1、apple路由器怎么接? 2、命令怎么输入? IPv4 sudo ./BonjourConformanceTest -I en4 -L -DD -…

拆解一个有问题的索爱GK6蓝牙耳机,蓝牙连接中的一些软硬件问题

由来 经常带入耳式蓝牙,倒是耳朵有时候难受,无意间看见网上的夹耳式耳机,想要尝试一下。但毕竟好点儿的太贵,主要想了解内部结构,所以淘到两个电子垃圾 拆解充电仓 这个只能暴力一点儿,需要拆坏一个卡扣…

记某地级市护网的攻防演练行动

0x1 前言 哈喽,师傅们! 这次给师傅们分享的是上上个星期的地级市护网的攻防演练的两个案例,涉及到的知识点可能比较偏,下面我也会提前给师傅们拓展下改漏洞相关的知识点内容。护网攻防演练中,涉及到的很多敏感内容这…

古代经典名方目录数据库-支持经典名方检索!

"古代经典名方目录"是指一系列历史上流传下来的,被认为具有一定疗效的中药方剂的汇总。这些方剂多来源于历代医学典籍,经过长期临床实践的检验,部分已被收录于官方的目录之中,以便于现代医疗实践中的参考和应用。 目前…

安科瑞光伏发电并网柜防孤岛保护装置---微机保护测控装置

安科瑞戴婷 Acrel-Fanny 安科瑞光伏发电并网柜防孤岛保护装置微机保护测控装置(以下简称装置)集保护、控制、测量、通讯和监视功能于一体,资源丰富、配置完善、维护方便、性能稳定,适用于 35kV 及以下电压等级电力系统的保护和测…

投资气膜场馆:开启未来体育发展的新纪元—轻空间

随着对体育设施建设的重视,气膜场馆作为一种创新的体育设施,正日益成为投资的热门选择。气膜场馆凭借其独特的优势和多重好处,不仅能提升体育场馆的功能性和经济性,更为地方经济发展注入了新的活力。 成本效益显著 气膜场馆具有快…

闲盒支持的组网方式和注意事项

1. 直连光猫拨号​ 通过光猫拨号,设备直连光猫的设备,需要对光猫开启UPNP并关闭DMZ 如果只接一个盒子,建议直接针对盒子IP开dmz。 2. 直连路由器​ 通过路由器拨号,设备直连路由器的设备,需要对路由器开启UPNP并关闭…

如何在O2OA中使用ElementUI组件进行审批流程工作表单设计

本文主要介绍如何在O2OA中进行审批流程表单或者工作流表单设计,O2OA主要采用拖拽可视化开发的方式完成流程表单的设计和配置,不需要过多的代码编写,业务人员可以直接进行修改操作。 在流程表单设计界面,可以在左边的工具栏找到Ele…

Fyne ( go跨平台GUI )中文文档- 数据绑定 (六)

本文档注意参考官网(developer.fyne.io/) 编写, 只保留基本用法 go代码展示为Go 1.16 及更高版本, ide为goland2021.2 这是一个系列文章: Fyne ( go跨平台GUI )中文文档-入门(一)-CSDN博客 Fyne ( go跨平台GUI )中文文档-Fyne总览(二)-CSDN博客 Fyne ( go跨平台GUI…

基于GPU的Julia集应用程序

配置好CUDA编译环境之后,vs创建一个CUDA的项目,会自动包含一个.cu文件,可以在当前文件中编写。 因为当前的项目需要用到其他的头文件和库,需要加入对应的路径,这个和别的工程是一样的。 1. 头文件目录 2. 库文件目录…

用Java提取PDF表格到文本、CSV、Excel工作表

如何精准地提取PDF格式中嵌入的表格数据,并将其无缝转换为更加易于分析和操作的形式,如纯文本、CSV文件或Excel工作表,是一项重要的文档处理技巧。使用Java,我们可以简单地实现这一过程。本文将介绍如何利用Java从PDF文档提取表格…