微软新一代文本转语音模型——笑声,情绪,心情,打造真实AI语音

news2024/11/16 0:01:20

文本转语音一直是音频领域大家研究的对象,而基于人工智能模型打造的文本转语音的音频总是有机器人的味道,缺乏了人类的感情。如何把人类的感情融入到文本转音频领域一直是各大模型厂家研究的重点。

而OpenAI发布的GPT-4o(“o”代表“omni”)它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。模型更加智能,且输入输出方式更加自然,符合人类的交互需求。它可以在短短 232 毫秒内响应音频输入,平均为 320 毫秒,这与人类在对话中的响应时间相似,且模型输出的音频对话富有人类的感情。无奈OpenAI发布的模型一般不对普通用户开放,想体验一下GPT-4o的功能还需要升级plus会员,就算是这样,一般也不能使用。

前期我们也介绍过微软的tts(文本转语音服务)服务,当然微软也开放了其tts的个别服务,我们完全可以使用python代码执行文本转语音服务。而使用python代码执行文本转语音服务也很简单。只需要如下几行代码就可以执行文本转语音。

import edge_tts
import asyncio
TEXT = ""
with open ('1.txt','rb') as f:
    data = f.read()
    TEXT = data.decode('utf-8')
print(TEXT)
voice = 'zh-CN-YunxiNeural'
output = '4.mp3'
rate = '-4%'
volume = '+0%'
async def my_function():
    tts = edge_tts.Communicate(text = TEXT,voice = voice,rate = rate,volume=volume)
    await tts.save(output)
if __name__ == '__main__':
    asyncio.run(my_function())

但是生成的音频文件,缺乏了人类的各种感情,语音语调几乎没有,更别说是笑声,叹气声等语气词了。而微软最新发布了自己的文本转语音服务,包含笑声,语气词,让文本转的音频更加接近人类聊天的语气。

试听一下此音频,完全添加了人类聊天的语气词,更添加了停顿,笑声等。简直跟真人聊天一样。

文本转音频

借助 Azure OpenAI GPT 等大型语言模型 (LLM) 的强大功能,AI 可以产生比以往更自然、流畅和高质量的响应。因此,在进行口头对话时,对文本转语音 (TTS) 声音的自然性和表现力的要求比以往任何时候都更高。微软发布的新一代文本转音频模型,其新的逼真声音非常适合任何需要逼真语音交互的应用程序,包括聊天机器人、语音助手、游戏、电子学习、娱乐等。

无论是创建基于语音的聊天机器人、语音助手还是对话代理,这些新声音都将确保交互更加真实、逼真和引人入胜。与为通用目的设计的语音相比,在阅读会话和休闲文本时,针对会话优化的语音听起来更自然、更有吸引力。此外,它们甚至还包括笑声和充满停顿等感叹词,为您的虚拟对话增添人情味。

各种场景的音频生成

微软新一代的文本转音频服务,不仅更加逼人,更是提供了不同场景的服务,包含:对话,感叹词对话,冥想,新闻,诗歌,故事,电子学习,广告,定制服务,广播等,覆盖了生活中很多的场景。

当然除了中文,英文外,其模型还支持其他语言的语言,简直是配音的好帮手。

支持的其他语言语言

新 GA 语音:
en-US-AvaMultilingualNeural、en-US-AndrewMultilingualNeural、
en-US-EmmaMultilingualNeural、en-US-BrianMultilingualNeural、
De-DE-FlorianMultilingualNeural、De-DE-SeraphinaMultilingualNeural、
Fr-FR-RemyMultilingualNeural、Fr -FR-VivienneMultilingualNeural 
zh-CN-XiaoxiaoMultilingualNeural

更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:启示AI科技
微信中复制如下链接,打开,免费使用chatgpt
 
https://wx2.expostar.cn/qz/pages/manor/index?id=1137&share_from_id=79482&sid=24

 动画详解transformer 在线教程

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1818533.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

老杨说运维 | 基于数据驱动的智观能力建设(文末附现场视频)

本期回顾来自擎创科技创始人兼CEO杨辰的现场演讲 青城山脚下的滔滔江水奔涌而过,承载着擎创一往无前的势头,共同去向未来。2024年6月,双态IT成都用户大会擎创科技“数智化可观测赋能双态运维”专场迎来了完满的收尾。 “没有2200年前李冰率众…

有一个主域名跟多个二级子域名时该怎么申请SSL证书?

当您拥有主域名以及多个子域名时,选择合适的SSL证书类型对于确保网站的安全性至关重要。以下是三种SSL证书类型的简要介绍: 单域名SSL证书: 功能:只能绑定单个域名,无论是主域名还是子域名。 适用场景:仅…

强化学习-tutorial

强化学习 当你发现收集有标注的数据困难,正确答案人类也不知道是什么的时候,往往是考虑使用RL的时候。尽管机器不知道答案是什么,但是机器会知道什么好,什么不好,通过与环境互动获得奖励。 过程 演算法解RL问题&…

二分+ST表+递推,Cf 1237D - Balanced Playlist

一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 Problem - 1237D - Codeforces 二、解题报告 1、思路分析 case3提示我们一件事情:如果存在某个位置永远不停止,那么所有位置都满足永远不停止 很容易证明 随着下标右移&#xff0c…

一键铺货、多商户入驻:了解迅狐多语言跨境商城源码的商业优势

迅狐多语言跨境商城源码是一款创新的电商平台解决方案,具有独特的商业优势。其中,一键铺货和多商户入驻是其核心功能之一,为商家提供了便利和灵活性。 一、一键铺货:简化产品上架流程 对于电商卖家来说,上架商品是一…

LSS 和 BEVDepth算法解读

前言 当前BEV的研究大都基于深度学习的方法,从组织BEV特征信息的方式来看,主流方法分属两类:自底向上方法和自顶向下方法。 自底向上方法比较早的代表工作是LSS,后来BEVDet、BEVDepth等也是基于LSS的框架来进行优化。自底向上方…

qt dll编写和调用

dll编写 新建项目 头文件 #ifndef LIB1_H #define LIB1_H#include "lib1_global.h"class LIB1_EXPORT Lib1 { public:Lib1(); };//要导出的函数,使用extern "C",否则名称改变将找不到函数extern "C" LIB1_EXPORT int ad…

汽车传动系统为汽车动力总成重要组成部分 我国市场参与者数量不断增长

汽车传动系统为汽车动力总成重要组成部分 我国市场参与者数量不断增长 汽车系统主要包括动力系统、制动系统、传动系统、转向系统、行驶系统、燃油供给系统、照明系统以及电器系统。汽车传动系统指能够将发动机产生的动力转化为车辆行驶驱动力的动力传递装置。汽车传动系统为汽…

什么是电表无人抄表?

1.电表无人抄表:智能时代的新式计量方法 随着科技的发展的迅猛发展,传统电表抄表方法正被一种全新的、高效率的方式所替代——电表无人抄表。这类技术的普及,不仅提升了电力行业的经营效率,同时也为用户增添了更贴心的服务。 2.…

Python邮箱发送如何设置?Python发信方法?

Python邮箱发送邮件需要哪些库?怎么使用Python发信? Python的强大之处在于其丰富的库和模块,使得开发者可以轻松地实现各种功能,包括通过电子邮件发送信息。AokSend将介绍如何在Python中设置和发送电子邮件,以及相关的…

多功能电能表抄表

1.多功能电能表抄表:简述 多功能电能表抄表是一种现代化电力计量方法,它不仅能够纪录电力耗费,还能提供多种多样额外功能,如实时检测、故障预警、远程操作等。相对于传统电度表,它大大提高了电力管理的效率和精确性。…

浅谈网络通信(2)

文章目录 一、TCP1.1、TCP提供的api —— ServerSocket 、Socket1.2、使用TCP协议编写回显服务器1.3、长/短连接 二、应用层协议、传输层协议详解2.1、应用层(后端开发必知必会)2.1.1、自定义应用层协议2.1.2、通用的协议格式2.1.2.1、XML2.1.2.2、json2.1.2.3、protobuffer 2.…

kotlin类型检测与类型转换

一、is与!is操作符 1、使用 is 操作符或其否定形式 !is 在运行时检测对象是否符合给定类型。 fun main() {var a "1"if(a is String) {println("a是字符串类型:${a.length}")}// 或val b a is Stringprintln(b) } 二、"不安全的"转换操作符…

ARM32开发--IIC原理

知不足而奋进 望远山而前行 目录 文章目录 前言 目标 内容 I2C通讯规则 I2C写操作 I2C读流程 通讯信号 开始 结束 发送数据 bit发送 Byte发送 等待响应 接收数据 bit接收 Byte接收 发送响应 总结 前言 在现代消费电子和工业电子领域,各种类型的…

如何察觉自己或者家人是否出现了听力问题?

如何察觉自己或者家人是否出现了听力问题呢?可以从以下两个方面观察: 一.社交方面 • 是不是经常需要别人重复刚说的话才能理解? • 多人对话中是否感到吃力? • 觉得别人讲话含糊不清? • 在人多嘈杂…

YASKAWA机器人HW1171921-B电缆维修

安川机器人作为现代工业自动化的重要设备,其稳定运行对于生产线的连续性和效率至关重要。然而,随着使用时间的增长,可能会出现各种YASKAWA机器人本体线缆故障,如断线、短路、接触不良等。 一、安川工业机器人电缆维修前的准备 在进…

【Python】已解决报错 TypeError: Missing 1 Required Positional Argument

本文摘要:【Python】使用 Python 中将字符串转换为数组,并总结提出了几种可用方案。 😎 作者介绍:我是程序员洲洲,一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博…

谁才是产品界的真正王者?AI产品经理对决普通产品经理!

不同类型的产品经理可能有着不同的工作内容,那么,AI产品经理和普通产品经理之间的工作内容、工作职责、技能要求等方面,存在着哪些具体差异?这篇文章里,作者就进行了总结和梳理,一起来看看吧。 一、工作内容…

R语言绘制三变量分区地图

参考资料: https://mp.weixin.qq.com/s/5c7gpO2mJ2BqJevePJz3CQ tricolore包教程:https://github.com/jschoeley/tricolore 学习笔记:Ternary choropleth maps 1、测试实例 代码: library(ggplot2) library(rnaturalearthdata) …

「漏洞复现」I Doc View 在线文档预览 qJvqhFt.json 任意文件读取漏洞(XVE-2024-2115)

0x01 免责声明 请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,作者不为此承担任何责任。工具来自网络,安全性自测,如有侵权请联系删…