开源 TTS 模型「Fish Speech」1.4 发布;GameGen-O :生成开放世界游戏视频模型丨 RTE 开发者日报

news2024/12/24 8:44:59

在这里插入图片描述

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。

我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

一、有话题的新闻

1、Fish Speech 1.4 发布:开源 TTS 模型迎来多语言突破

Fish Speech 1.4 版本的发布标志着这款开源文本转语音(TTS)模型在多语言支持和性能方面取得了重大突破。作为一个致力于提供高质量、自然流畅语音合成体验的创新解决方案,Fish Speech 在这次更新中展现了其强大的技术实力和广阔的应用前景。

本次 Fish Speech 的更新主要有以下亮点:

  • 多语言支持大幅提升: 训练数据量翻倍至 70 万小时,支持 8 种主要语言,拓展了应用范围。
  • 性能与功能全面升级: 超快速度与低延迟,即时语音克隆功能,灵活部署选项和 API 服务。
  • 应用前景广阔: 教育领域支持语言学习,娱乐产业即时语音克隆,辅助技术视障人士工具,智能客服和跨文化交流。(@AIbase 基地)

2、元象发布中国最大 MoE 开源大模型:总参数 255B,激活参数 36B

在这里插入图片描述

元象 XVERSE 发布中国最大 MoE 开源模型 XVERSE-MoE-A36B。

该模型总参数 255B,激活参数 36B,官方号称效果能「大致达到」超过 100B 大模型的「跨级」性能跃升,同时训练时间减少 30%,推理性能提升 100%,使每 token 成本大幅下降。

MoE(Mixture of Experts)混合专家模型架构,将多个细分领域的专家模型组合成一个超级模型,在扩大模型规模的同时,保持模型性能最大化,甚至还能降低训练和推理的计算成本。谷歌 Gemini-1.5、OpenAI 的 GPT-4 、马斯克旗下 xAI 公司的 Grok 等大模型都使用了 MoE。

在多个评测中,元象 MoE 超过多个同类模型,包括国内千亿 MoE 模型 Skywork-MoE、传统 MoE 霸主 Mixtral-8x22B 以及 3140 亿参数的 MoE 开源模型 Grok-1-A86B 等。(@IT 之家)

3、Roblox 宣布全新 AI 工具,可以用文本直接生成 3D 游戏世界

在这里插入图片描述

在 2024 年 Roblox 开发者大会(RDC) 上,首席执行官 David Baszucki 宣布了 Roblox 的一项重大创新——AI 驱动的「3D 基础模型」。该工具旨在通过文本、视频和 3D 提示创建 3D 资产,实现与游戏玩法直接集成的实时世界构建。

Roblox 一直在将生成式 AI 技术逐步融入其创作者开发工具中,如:

  • Assistant:自动化帮助开发者处理常规任务的工具。
  • 纹理生成器:自动生成 3D 模型的纹理,减少人工操作的时间。
  • Avatar 自动设置工具:简化了为游戏角色创建个性化外观的步骤。

然而,Baszucki 强调,这些工具仅仅是初步尝试,Roblox 计划将 AI 技术提升到一个新高度,使 AI 不仅能够帮助开发者生成单一元素,还能够动态生成完整的 3D 世界场景。

Roblox 正在开发一个 3D 基础模型,该模型能够根据多种输入(如文本、视频或 3D 提示)生成复杂的 3D 环境和物体。演示展示了以下功能:

  • 从文本到 3D 的实时转换:通过简单的文本提示(例如描述一个沙漠),AI 可以自动生成 3D 场景。开发者随后又用一个简单的指令将沙漠转换为森林场景。这种基于提示符的生成能力,使得创建复杂的 3D 环境变得更加便捷。
  • 多模态输入:除了文本,用户还可以通过视频或 3D 提示符来引导 AI 生成所需的场景或物体。这意味着未来开发者可以更加直观地与 AI 合作完成项目。

该 AI 工具的真正创新之处在于其可以实时创建 3D 内容并与游戏玩法深度集成。这一功能将赋予玩家和开发者更大的创造自由,尤其是在开放世界和沙盒类游戏中。未来的 Roblox 体验将有可能是一个完全由 AI 生成、玩家实时影响的动态世界。Baszucki 描绘了一个设想的场景:例如在一个虚拟的 D&D 游戏中,游戏世界可以随着地牢主的描述而即时生成,玩家的每一个行动都能实时影响环境的变化。

尽管功能看起来十分令人兴奋,但 Baszucki 也提到,这项技术仍处于早期研发阶段,目前大约有 40 名员工专门从事这个项目的开发。尽管如此,短短三个月的开发已经展示了初步的效果。虽然目前展示的能力是在舞台上预录的演示,实际应用中的效果如何还需进一步验证。(@小互 AI)

4、夸克 AI 写作助手 CueMe,不仅能写长文还能模仿风格

CueMe 是夸克基于大模型自主研发的全新智能对话助手,AI 写作能力突出,支持不同体裁、不同篇幅的内容生成,最长可生成 2 万字的内容,用户现可通过 cueme.cn 或夸克 App 使用。

夸克表示,CueMe 针对不同细分体裁进行了充分的语料预训练,可支持上千种不同体裁的写作需求,包括研究报告、日常写作、课程论文、新媒体文案等等,并且还在持续扩展中。

此外,CueMe 还支持文风定制,用户可选择根据平台风格、语言风格或个人文章风格生成符合其个性化需求的内容。

据夸克官方介绍,CueMe 实现了三项关键技术突破 —— 长文本理解与生成、专业知识检索与增强、以及复杂多轮文创指令遵循。在此基础上,CueMe 从三个方向进行内容深度优化。

  • 首先是结构,对于研究报告等长文,高质量大纲生成是确保内容结构合理、逻辑清晰的关键。
  • 其次是引用素材时效性强、内容丰富。
  • 最后在生成内容中增加细节描述和鲜明观点,从而让生成内容不再「AI 痕迹明显」或者泛泛而谈(@IT 之家)

5、腾讯 GameGen-O 生成开放世界游戏的视频模型

在这里插入图片描述

来自香港和中国大陆大学的研究人员与腾讯一起开发了 GameGen-O,这是一种可以模拟开放世界视频游戏的人工智能模型。据研究小组称,GameGen-O 可以生成各种游戏元素,包括角色、环境、动作和事件。该模型还为研究人员所谓的“游戏模拟”提供了交互式控制。

这些并不是完全可玩的游戏,而是开发者可以用来快速创建原型并测试不同游戏元素的工具,而无需从头开始创建它们。

为了创建 GameGen-O,研究人员首先建立了一个名为“OGameData”的大型数据集,其中包括来自 100 多款现代开放世界游戏的处理数据。然后,他们分两个阶段训练模型:首先,它学会基于 OGameData 生成各种游戏内容。接下来,他们添加了一个“InstructNet”组件,以实现对生成内容的交互式控制。

研究人员认为,GameGen-O 是利用人工智能制作开放世界电子游戏的重要一步。通过结合“创造性生成与交互能力”,它展示了作为传统渲染技术替代品的潜力。

根据该团队的说法,GameGen-O 可以成为研究人员和开发人员的宝贵资源。它允许探索各种应用程序,例如为视频游戏,交互式控制和沉浸式虚拟环境开发人工智能。

最近,来自谷歌研究院、谷歌 DeepMind 和特拉维夫大学的研究人员展示了 GameNGen,这是一种人工智能系统,可以以每秒超过 20 帧的速度完全模拟和实时播放经典游戏《毁灭战士》。(@大模型 Daliy)

6、OpenAI o1 比博士还「聪明」,全球 11 位 AI 大咖怎么看?

「好评」阵营:

  • Sam Altman(OpenAI CEO):OpenAI o1 是迄今为止最强大的模型,尽管仍有缺陷,但其推理能力开创了 AI 的新范式。
  • Greg Brockman(OpenAI 总裁):o1 是通过强化学习训练的模型,改进了推理质量和解释性,虽然技术仍处早期,但展现了巨大潜力。
  • Jason Wei(OpenAI 研究员):o1 的思维链机制能够自适应地进行推理,在科学问题上表现出色,并重新定义了深度学习领域。
  • Jim Fan(英伟达高级科学家):这是自 Chinchilla 缩放定律以来最重要的进展,o1 突破了推理瓶颈,是 AI 领域的一大飞跃。
  • James Campbell(卡内基梅隆大学博士生):展示了 o1 在数学比赛中的出色表现,并认为它显著超越了 GPT-4。

「中差评」阵营:

  • Clement Delangue(HuggingFace CEO):批评称 o1 并不具备真正的「思考」能力,认为 OpenAI 夸大了它的智能,实际上是预测系统而非人类智能。
  • Gary Marcus(纽约大学教授):虽然认可 o1 的进展,但指出它距离 AGI 还很遥远,且没有完全取代 GPT-4 的表现,夸大了部分结果。
  • Ethan Mollick(沃顿商学院教授):认为 o1 在规划复杂问题上表现出色,但其智能仍依赖于 GPT-4,存在错误和局限性。
  • Aravind Srinivas(Perplexit CEO):认为单纯依赖大语言模型的推理不够可靠,建议结合代码执行和知识图谱来提升模型的实用性。(@LLM 大模型)

二、有态度的观点

1、Sam Altman:对 AI 大量的审查是有必要的

近日,OpenAI CEO Sam Altman 接受了美国著名主持人 Oprah Winfrey 采访,谈到了为何可以信任 AI 技术。
Sam Altman 称,AI 技术的标准非常高,OpenAI 能做到最好的事情就是把这个技术交到人们手中,谈论它能或者不能做什么,将会发生什么,并向社会建议如何使用大模型,或者解释为何不发布一些技术,随着时间的推移建立起社会对 AI 的信任。

Sam Altman 认为,对 AI 技术大量的审查是非常有必要的。他也声称「每隔几天」就会和政府进行沟通,建立技术护栏,并让政府开始研究如何对 AI 系统进行安全测试。

Altman 也表示,他对 AI 将带来的好处感到非常兴奋,认为这是令人难以置信的,但也会带来一些坏处,因此 OpenAI 会尽可能减轻影响。他提醒 AI 技术会被滥用,每个人都需要认识到这点,不过他坚信 AI 带来的好处更多。( @APPSO)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

在这里插入图片描述

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2134747.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机网络:概述 - 性能指标

目录 一. 速率 二. 带宽 三. 吞吐量 四. 时延 五. 时延带宽积 六. 往返时间RTT 七. 利用率 八. 丢包率 此博客介绍计算机网络中的性能指标,性能指标从不同的角度来度量计算机网络的性能。下面介绍几个常用的性能指标: 一. 速率…

【TabBar嵌套Navigation案例-cell重用 Objective-C语言】

一、我们来说这个cell重用(重复使用)的问题啊 1.我们这个比分直播推送页面, 这个里边呢,现在这个cell,涉及到两个样式,上面呢,是Default的,下面呢,是Value1的,然后,我们在这个里边啊,我们每一组就一个cell啊,然后呢,我把这个组,多给它复制几份儿,现在是三个组…

OpenSSH后门从入门到应急响应与加固

目录 1. Openssh与后门介绍 1.1 Openssh介绍 1.2 Openssh后门介绍 2. 实战演练 2.1 查看版本,注意V是大写的 2.2 下载SSH配置文件 2.3 安装 2.4、修改后⻔密码和⽂件记录 2.5、修改版本号为原本的版本号(伪装openssh) 2.6、修改/etc/ssh中的key 2.7、安装所需环境与…

【黑神话】无脑过大头怪(幽魂)教程,手残也能打过关!

在《黑神话悟空》这款扣人心弦的动作角色扮演游戏中,玩家将面对众多考验操作与策略的Boss战。其中,大头幽魂作为玩家早期就会遇到的挑战之一,其独特的战斗机制和技能组合,对新手玩家而言无疑是一次不小的考验。今天,就…

AI 场景下如何构建运维的标准化能力?SOMA 智能运维计划发布 | 2024 龙蜥大会

8 月 30 日,2024 龙蜥操作系统大会(OpenAnolis Conference)在北京盛大召开。 与此同时,由龙蜥社区运营委员会副主席、龙腾计划生态负责人金美琴,阿里云智能集团高级技术专家毛文安,云杉网络 VP 向阳联合出品…

Java--常见的接口--Comparable

String类型的compareTo方法: 在String引用中,有一个方法可以比较两个字符串的大小: 和C语言中是一样的,两个字符串一个字符一个去比较。 那么这个方法是怎么实现的呢? 其实就是一个接口:Comparable接口里…

阿里云rds数据迁移

记录一下rds数据同步操作,官方文档: 跨阿里云账号迁移RDS实例. 背景:不同阿里云账号的rds中指定数据库迁移. 操作说明: 使用阿里云数据传输服务产品,选择数据迁移.注意是从目标阿里云账号的rds中操作,按照文档操作基本上没有问题. 源阿里云账号设置如上. 需要注意的是需要从源…

有伸缩镜头也能实现IP68级防尘防水,Pura 70 Ultra兼顾时尚与便捷

在这个快节奏的时代,手机不仅仅是通讯的工具,更是我们日常生活中不可或缺的伙伴。它记录着我们的回忆,承载着我们的工作,甚至在紧急时刻成为我们的救星。然而生活中总有一些不可预测的时刻,比如突如其来的大雨&#xf…

【C++算法】分治——归并

排序数组 题目链接 排序数组https://leetcode.cn/problems/sort-an-array/description/ 算法原理 代码步骤 class Solution {vector<int> tmp; public:vector<int> sortArray(vector<int>& nums) {tmp.resize(nums.size());merge(nums, 0, nums.size…

腾讯元器初体验

文章目录 前言什么是腾讯元器&#xff1f;前端编程助手智能体搭建智能体效果智能体入口腾讯元器体验感受 前言 一个后端开发人员可能没有办法快速实现前端代码&#xff0c;此时&#xff0c;如果有一个工具可以根据界面设计或者描述生成前端代码&#xff0c;那么对于后端开发而…

Prometheus监控系统部署及应用

Prometheus 由 Go 语言编写而成&#xff0c;采用 Pu11 方式获取监控信息&#xff0c;并提供了多维度的数据模型和灵活的査询接口。Prometheus不仅可以通过静态文件配置监控对象,还支持自动发现机制,能通过KubernetesCons1、DNS 等多种方式动态获取监控对象。在数据采集方面,借助…

电脑录屏怎么录?录屏软件哪个好,推荐5个视频录制软件免费版!

在当今这个日新月异、高速发展的数字化时代&#xff0c;屏幕录制软件毫无疑问已经成为了我们日常工作和学习中至关重要、不可或缺的得力工具。随着信息技术的不断进步&#xff0c;人们对于信息传播和知识分享的需求日益增长&#xff0c;屏幕录制软件的重要性愈发凸显。无论是教…

OBD服务07--请求当前或上一个完成的驾驶周期中检测到的与排放相关的诊断故障码(DTC)

功能描述 此服务的目的是允许外部测试设备获取在当前或上一个完成的驾驶周期中检测到的“pending”诊断故障码&#xff0c;这些故障码与排放相关的组件/系统有关。服务0x07适用于所有DTC&#xff0c;并且独立于服务0x03。这些数据的主要用途是在车辆维修后和清除诊断信息后&am…

重学SpringBoot3-集成RocketMQ(一)

更多SpringBoot3内容请关注我的专栏&#xff1a;《SpringBoot3》 期待您的点赞&#x1f44d;收藏⭐评论✍ 重学SpringBoot3-集成RocketMQ&#xff08;一&#xff09; 环境准备1. 配置项目依赖2. 配置 RocketMQ 信息2.1配置文件2.2导入自动配置类2.3创建Topic 3. 生产者代码示例…

ERP进销存多仓库管理系统源码 带完整的安装代码包以及搭建部署教程

系统概述 ERP进销存多仓库管理系统是一款专为中小企业量身定制的集成化管理软件&#xff0c;它集成了采购管理、销售管理、库存管理、财务管理以及多仓库协同作业等核心模块。通过统一的平台&#xff0c;企业可以实时掌握商品从入库到出库的全过程&#xff0c;实现库存的自动化…

【OpenGL】OpenGL学习笔记(一):绘制三角形、初识VAO和VBO

文章目录 前言绘制目标 前言 最近开始研究用 QT 做开发来学习 OpenGL &#xff0c;想着别学完了就忘了&#xff0c;所以准备新开一个 OpenGL 专栏。开发环境已经搭好了&#xff0c;但是没弄教程&#xff0c;最近比较忙&#xff0c;暂时先把核心代码放过来&#xff0c;先开个草…

微信支付开发-需求整理及需求设计

一、客户要求 1、通过唤醒机器人参与答题项&#xff0c;机器人自动获取题目&#xff0c;用户进行答题&#xff1b; 2、用户答对题数与后台设置的一样或者更多&#xff0c;则提醒用户可以领取奖品&#xff0c;但是需要用户支付邮费&#xff1b; 3、用户在几天之内不能重复领取奖…

分布式新能源的能量管理

在新能源的概念下&#xff0c;可以将其定义为&#xff1a;新能源是指具有一定能量的清洁的可再生能源&#xff0c;它是一种新型的可持续发展的资源和能源。生物质能是借助各类绿色植物的光合作用实现能量转换。地热能主要来源于地球熔岩内部存在的天然热能&#xff0c;海洋能通…

Vue3项目打包报错-内存溢出解决方法

错误&#xff1a;FATAL ERROR: Ineffective mark-compacts near heap limit Allocation failed - JavaScript heap out of memory 1、安装cross-env和increase-memory-limit 命令行&#xff1a;npm install cross-env increase-memory-limit 2、package.json添加如下内容&a…

胤娲科技:一场前所未有的运维革命

嘿&#xff0c;朋友们&#xff0c;你们有没有想过&#xff0c;如果电信网络里突然来了位“超级大脑”&#xff0c;我们的生活会是啥样&#xff1f; 以前啊&#xff0c;网络一有点小情绪&#xff0c;运维小哥就得像侦探一样&#xff0c;层层抽丝剥茧找问题。但现在&#xff0c;大…