讯飞星火极速超拟人交互技术:语音端到端,8 月底开放;昆仑万维发布 AI 短剧平台 SkyReels丨RTE 开发者日报

news2024/12/23 5:29:01

在这里插入图片描述

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、昆仑万维发布全球首个集成视频大模型与 3D 大模型的 AI 短剧平台 SkyReels

昆仑万维于 8 月 19 日发布全球首个集成视频大模型与 3D 大模型的 AI 短剧平台 SkyReels。SkyReels 平台集剧本生成、角色定制、分镜、剧情、对白/BGM 及影片合成于一体,让创作者「一键成剧」,轻松制作高质量 AI 视频。奇幻大片、凄美虐恋、爆笑喜剧……只要输入一个简单创意,SkyReels 就能完成从剧本到成品短剧制作全流程。

SkyReels 平台集成了昆仑万维自研剧本大模型 SkyScript、自研分镜大模型 StoryboardGen、自研 3D 生成大模型 Sky3DGen、以及业界首个将 AI 3D 引擎与视频大模型深度融合的创新平台 WorldEngine。

SkyReels 能够通过 AI 一键生成完整剧本、分镜、人物对白与 BGM,支持角色形象、音色与分镜的自定义调整,并能够自动将内容转换为 1080P 60 帧的高清视频,单次可生成视频长度达 180 秒,相比 Sora 单次可生成 60 秒视频、可灵单次可生成 10 秒视频,有显著突破。一键整合所有创作成果,极大提高视频的创作效率,降低创作成本,推动「一人一剧」时代加速来临。(@机器之心)

2、科大讯飞推出星火极速超拟人交互技术,对标 GPT-4o

科大讯飞宣布对星火语音大模型进行更新,正式推出星火极速超拟人交互,在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现突破,对标 GPT 4o。

响应和打断速度:官方称即便被频繁打断,也能「迅速反应」,更加符合日常对话情境

情绪感知情感共鸣:升级后的版本可以针对高兴、悲伤、生气、害怕等情绪进行识别,自动带入符合情境的对话,用合适的情绪语气进行回复

语音可控表达:在交流中能够跟随用户指令控制数十种情感、风格、方言,支持调节语速

人设扮演:能够模仿包括孙悟空、蜡笔小新、小猪佩奇等多种角色的音色、语气,还会模仿他们的人设与用户聊天

此次星火极速超拟人交互采用统一神经网络直接实现语音到语音端到端建模,大幅缩短响应时间的同时,提升交互拟人度和流畅度。该项技术将于 8 月底在讯飞星火 APP 上全民开放使用。(@IT 之家)

3、阿里通义千问宣布启用新域名「tongyi.ai」,网页版聊天新增深度搜索功能

阿里大语言模型「通义千问」于 8 月 19 日宣布启用新域名「tongyi.ai」,并带来多项新功能。

网页版聊天新增深度搜索功能:支持更多内容源索引,搜索结果更加深度、专业和结构化,数字角标悬浮显示来源网页

App 图片微动效支持多尺寸图片:进入通义 App 频道页,选择「图片微动效」,需要上传一张图片,即可生成与画面匹配的音效及微动视频效果

App 自定义唱演支持 3:4 画幅(原先 1:1):音频的上传逻辑进行调整,将时长由 120S 提高到 300S

阿里云在 8 月 8 日的万网焕新发布会上宣布,域名产品服务完成 AI 化系列改造,推出首个域名 AI 大模型应用,并上线「.ai」等 40 余个全新的域名后缀、2000 万个全球域名资源。

据阿里云官方介绍,升级后的阿里云万网,实现了智能起名。用户输入只需输入品牌信息与所属行业,一键点击后,基于通义大模型就能批量生成创意域名。(@IT 之家)

4、Linly-Dubbing:一个开源的多语言 AI 配音和视频翻译工具
在这里插入图片描述

Linly-Dubbing 是开源的多语言 AI 配音和视频翻译工具,支持下载 YouTube 等网站上的视频、多语言配音和字幕翻译,能转换语音为文本、识别说话者并准确翻译,还能用声音克隆和口型同步技术,用户可上传视频、选择语言和标准。虽口型匹配效果有待提高,但整体获好评,被认为是方便视频搬运和线上会议实时字幕的有力工具。

主要功能

自动下载视频:支持从 YouTube 等网站下载视频

多语言支持:支持中文及多种其他语言的配音和字幕翻译。

AI 语音识别:精准的语音识能力,语音到文本转换和说话者识别。

LLM 翻译:结合领先的大语言模型(如 GPT),快速且准确地进行翻译,确保翻译的专业性和自然性。

声音克隆:通过声音克隆技术,生成与原视频配音高度相似的语音,保持情感和语调的一致性。

口型同步:通保持口型同步,使配音与视频画面高度契合,提升视频的真实性和互动性。

灵活上传与翻译:用户可以上传视频,自主选择翻译语言和标准,确保个性化和灵活性。(@小互 AI)

5、Melodisco:AI 版的网易云音乐,一个开源的 AI 播放器

Melodisco 是由 @idoubicc 开发的开源 AI 播放器,该项目最初的目标是创建一个 AI 版的网易云音乐,现已收录了 30 万首 AI 歌曲,并且可以通过 Vercel 进行一键部署。该播放器的主要功能包括音乐生成、歌曲排行榜、随机漫游、歌曲管理以及播放器组件。此外,Melodisco 还集成了 Stripe 支付系统,支持在线购买服务或产品。(@小互 AI)

02有态度的观点

1、中国工程院院士邬贺铨:AI 大模型仍需「大力出奇迹」、提升算力枢纽利用率

中国工程院院士邬贺铨 8 月 19 日在 2024 北京人工智能生态大会上表示,人工智能是新质生产力的引擎,大模型的发展仍然需要「大力出奇迹」,多措并举提升对物理世界的模拟能力。

邬贺铨院士指出,中国已建的算力枢纽的利用率还有较大提升空间,通过集约优化可解决目前对算力的需求。中国具有超大规模市场、海量数据资源、丰富应用场景等潜能,但数据供给质量不高、流通机制不畅、应用潜力释放不够,需加快数据基础制度建设,推动政府数据共享和开放,促进数据流通和应用。

邬贺铨院士表示,大模型领域存在规模化定律,模型参数量、数据集大小,以及用于训练的算力规模三因素同时放大才有最佳效果,当不受其他两个因素的制约时,大模型性能与单个因素都有幂律关系,仍然需要「大力出奇迹」。(@雷锋网)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
在这里插入图片描述

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2056234.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux驱动开发基础(中断)

所学来自百问网 目录 1. 嵌入式中断系统 2. 中断处理流程 3. 异常向量表 4. Linux系统对中断的处理 4.1 ARM 处理器程序运行的过程 4.2 保护现场 5. Linux 系统对中断处理的演进 5.1 硬件中断和软件中断 5.2 中断拆分(上半部和下半部) 5.2.1 tasklet 5.2.2 工作队列…

iPad协议08算法新版

iPad协议是一种模拟iPad端微信的人工操作,并与微信服务器进行通信的协议。该协议涉及到一些关键点,包括PB协议、mmtls、07加密算法、rqt算法、aes加密、rsa加密等。只要理解了这些关键点,就可以模拟官方微信的所有功能,并且还可以…

基于STM32开发的智能家用能源管理系统

目录 引言环境准备工作 硬件准备软件安装与配置系统设计 系统架构硬件连接代码实现 系统初始化能源监测与数据处理能源管理与控制Wi-Fi通信与远程监控应用场景 家庭能源使用优化智能电力监控常见问题及解决方案 常见问题解决方案结论 1. 引言 随着能源需求的不断增长和环境保…

redis随笔记

缓存穿透。key不存在。恶意攻击、代码问题。加布隆过滤器,或者为空就返回。 缓存失效(击穿)。key刚好过期。缓存时间随机数。 缓存雪崩。缓存层宕机,一下子袭击数据库。缓存高可用、限流熔断、提前演练。 布隆过滤器就是一个key…

文档透明加密软件是什么?有哪些功能?一文给您详解!

文档透明加密软件是一种在不影响用户正常操作习惯的前提下,自动对电子文档进行加密和解密的技术解决方案。 其核心特点在于“透明性”,即用户在打开、编辑或保存文档时,无需进行任何额外的加密或解密操作,这些过程均在系统后台自…

【深度学习】【多模态】使用MiniCPM-V 2.6进行图片OCR

文章目录 ocr评价ocr 下载项目:https://huggingface.co/openbmb/MiniCPM-V-2_6 准备一个图片’test.jpg’。 将下面的python中的目录地址换成MiniCPM-V-2_6项目所在地址。然后执行: # test.py import torch from PIL import Image from transformers import AutoModel, Aut…

网络主播被正式认定为国家新职业

网络主播这一职业正式获得国家认可,标志着这一工作已成为一项正当且受认可的职业,而不再只是灵活就业的选项。近日,人力资源和社会保障部公布了新增的19个新职业信息,其中包括网络主播。对于从事直播行业的人来说,这是…

zabbix实战-磁盘空间告警

1.创建监控项 选择&#xff1a;键值&#xff1a;vfs.fs.size[fs,<mode>] 。 直接写 vfs.fs.size[fs,<mode>]是不出数据的。我们要写具体的值 &#xff1a;vfs.fs.size[/,free] &#xff0c;这个表示查看根的剩余空间。 2.创建图形 为磁盘剩余空间监控项创建图形&am…

cdn刷新预热

1、访问 cdn 控制台的 刷新预热 页面&#xff0c;填写需要刷新预热的url地址 阿里云&#xff1a; 腾讯云&#xff1a; 2、通过调用cdn的api接口刷新预热 阿里云&#xff1a; 调用RefreshObjectCaches-刷新缓存_CDN(CDN)-阿里云帮助中心 调用PushObjectCache-预热URL_CDN(CD…

前端宝典九:React Native从入门到精通实战

本文主要介绍 React Native新旧框架对比React与React Native区别React Native性能优化 其中第3点React Native性能优化的拆包分包&#xff0c;是项目实战中使用过的&#xff0c;在这里整理分享&#xff0c;如果没有用过的小伙伴会觉得晦涩难懂&#xff0c;建议按照在实际项目…

【等保测评】IIS模拟测评

一、身份鉴别 a)应对登录的用户进行身份标识和鉴别&#xff0c;身份标识具有唯一性&#xff0c;身份鉴别信息具有复杂度要求并定期更换&#xff1b; 结果记录&#xff1a;此项不适用&#xff0c;IIS中间件无管理控制台&#xff0c;身份鉴别功能依赖于所部署的服务器 b)应具有…

计算机毕业设计 心理健康服务系统 Java+SpringBoot+Vue 前后端分离 文档报告 代码讲解 安装调试

&#x1f34a;作者&#xff1a;计算机编程-吉哥 &#x1f34a;简介&#xff1a;专业从事JavaWeb程序开发&#xff0c;微信小程序开发&#xff0c;定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事&#xff0c;生活就是快乐的。 &#x1f34a;心愿&#xff1a;点…

创新驱动发展,SiLM5768LCG-DG 支持输入输出同相逻辑 带互锁功能的六通道数字隔离器 科技稳健赋能,工业汽车应用安全升级!

SiLM5768Lx系列带互锁功能的六通道数字隔离器选型表: SiLM5768LCG-DG:支持输入输出同相逻辑 SiLM5768LNCG-DG:支持输入输出反相逻辑 数字隔离器广泛应用于工业、汽车和通信等领域&#xff0c;为系统中的强电和弱电电路提供了安全、可靠的电气隔离解决方案&#xff0c;确保强…

【TCP】核心机制:延时应答、捎带应答和面向字节流

文章目录 延时应答捎带应答面向字节流粘包问题方案一&#xff1a;指定分隔符方案二&#xff1a;指定数据的长度 TCP 报头首部长度保留&#xff08;6 位&#xff09;选项序号确认序号 延时应答 尽可能降低可靠传输带来的性能影响 提升性能>让滑动窗口变大 如果我们立即返回 …

Chat App 项目之解析(二)

Chat App 项目介绍与解析&#xff08;一&#xff09;-CSDN博客文章浏览阅读76次。Chat App 是一个实时聊天应用程序&#xff0c;旨在为用户提供一个简单、直观的聊天平台。该应用程序不仅支持普通用户的注册和登录&#xff0c;还提供了管理员登录功能&#xff0c;以便管理员可以…

Docker最佳实践进阶(二):Docker Compose部署SpringCloud微服务项目

大家好&#xff0c;在上篇文章中博主演示了Dockerfile常用的命令&#xff0c;以及如何利用Dockerfile构建镜像&#xff0c;生成容器服务&#xff0c;但是在实际应用环境中&#xff0c;特别是在微服务架构中&#xff0c;一个应用系统可能包含多个微服务&#xff0c;每个微服务可…

软数据与硬数据的深度解析:住宅代理如何优化数据抓取

引言 什么是软数据&#xff1f;有哪些类型&#xff1f; 什么是硬数据&#xff1f;有哪些类型&#xff1f; 软数据和硬数据的区别是什么&#xff1f; 如何收集软数据和硬数据&#xff1f; 如何优化抓取软数据和硬数据&#xff1f; 总结 引言 在大数据时代&#xff0c;企业…

Sanic 和 Go Echo 对比

&#x1f49d;&#x1f49d;&#x1f49d;欢迎莅临我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐&#xff1a;「storm…

【Python系列】 并发编程在数据处理中的应用

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

iOS 17.6.1版本重发,修复高级数据保护错误

今日&#xff0c;苹果没有带来iOS 17.6.2的更新&#xff0c;而是重新发布了iOS 17.6.1版本&#xff0c;本次升级版本号为21G101&#xff0c;高于第一版的21G93。距离初版发布相隔一周半时间。 在 iOS / iPadOS 17.6.1 的更新日志&#xff0c;苹果公司写道&#xff1a;“此更新包…