CosyVoice:开源强大的 AI 语音合成工具

news2024/9/20 20:41:14

在当今科技飞速发展的时代,AI 语音合成技术正逐渐改变着我们的生活。今天,就为大家介绍一款卓越的语音合成工具——CosyVoice。
A 3D rendering of the "CosyVoice" logo. The logo features a rounded font in pastel shades of pink, blue, and purple. The name is adornedwith stars, pink hearts, and a crown. The logo has a fun and youthful aesthetic. a microphone on left.The background is a soft gradient. This logo is perfect for romantic and youthful projects, photography, illustration, 3D rendering, typography, cinematic visuals, anime, fashion, and more.

一、安装步骤

  1. 克隆和安装
    • 克隆仓库:git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git。如果克隆子模块失败,可以运行命令cd CosyVoice; git submodule update --init --recursive
  2. 安装 Conda:请参考https://docs.conda.io/en/latest/miniconda.html。
  3. 创建 Conda 环境
    • conda create -n cosyvoice python=3.8
    • conda activate cosyvoice
    • conda install -y -c conda-forge pynini==2.1.5
    • pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
  4. 解决 sox 兼容性问题
    • Ubuntu:sudo apt-get install sox libsox-dev
    • CentOS:sudo yum install sox sox-devel

二、模型下载

强烈建议下载预训练的CosyVoice - 300MCosyVoice - 300M - SFTCosyVoice - 300M - Instruct模型和CosyVoice - ttsfrd资源。

  1. SDK 模型下载
    from modelscope import snapshot_download
    snapshot_download('iic/CosyVoice - 300M', local_dir='pretrained_models/CosyVoice - 300M')
    snapshot_download('iic/CosyVoice - 300M - SFT', local_dir='pretrained_models/CosyVoice - 300M - SFT')
    snapshot_download('iic/CosyVoice - 300M - Instruct', local_dir='pretrained_models/CosyVoice - 300M - Instruct')
    snapshot_download('iic/CosyVoice - ttsfrd', local_dir='pretrained_models/CosyVoice - ttsfrd')
    
  2. git 模型下载(确保已安装 git lfs):
    mkdir -p pretrained_models
    git clone https://www.modelscope.cn/iic/CosyVoice - 300M.git pretrained_models/CosyVoice - 300M
    git clone https://www.modelscope.cn/iic/CosyVoice - 300M - SFT.git pretrained_models/CosyVoice - 300M - SFT
    git clone https://www.modelscope.cn/iic/CosyVoice - 300M - Instruct.git pretrained_models/CosyVoice - 300M - Instruct
    git clone https://www.modelscope.cn/iic/CosyVoice - ttsfrd.git pretrained_models/CosyVoice - ttsfrd
    
  3. 可选步骤:解压ttsfrd资源并安装ttsfrd包以获得更好的文本归一化性能,但这不是必需的。若不安装,将默认使用WeTextProcessing
    cd pretrained_models/CosyVoice - ttsfrd/
    unzip resource.zip -d.
    pip install ttsfrd - 0.3.6 - cp38 - cp38 - linux_x86_64.whl
    

三、基本用法

  1. 对于不同的推理需求选择不同的模型:
    • 零样本/跨语言推理,请使用CosyVoice - 300M模型。
    • SFT 推理,请使用CosyVoice - 300M - SFT模型。
    • 指令推理,请使用CosyVoice - 300M - Instruct模型。
  2. 首先,将third_party/Matcha - TTS添加到PYTHONPATH
    export PYTHONPATH=third_party/Matcha - TTS
    
  3. 示例代码:
    from cosyvoice.cli.cosyvoice import CosyVoice
    from cosyvoice.utils.file_utils import load_wav
    import torchaudio
    
    cosyvoice = CosyVoice('pretrained_models/CosyVoice - 300M - SFT')
    # sft usage
    print(cosyvoice.list_avaliable_spks())
    # change stream=True for chunk stream inference
    for i, j in enumerate(cosyvoice.inference_sft('你好,我是通义生成式语音大模型,请问有什么可以帮您的吗?', '中文女', stream=False)):
        torchaudio.save('sft_{}.wav'.format(i), j['tts_speech'], 22050)
    
    cosyvoice = CosyVoice('pretrained_models/CosyVoice - 300M')
    # zero_shot usage, <|zh|><|en|><|jp|><|yue|><|ko|> for Chinese/English/Japanese/Cantonese/Korean
    prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
    for i, j in enumerate(cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物,那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐,笑容如花儿般绽放。', '希望你以后能够做的比我还好呦。', prompt_speech_16k, stream=False)):
        torchaudio.save('zero_shot_{}.wav'.format(i), j['tts_speech'], 22050)
    # cross_lingual usage
    prompt_speech_16k = load_wav('cross_lingual_prompt.wav', 16000)
    for i, j in enumerate(cosyvoice.inference_cross_lingual('<|en|>And then later on, fully acquiring that company. So keeping management in line, interest in line with the asset that\'s coming into the family is a reason why sometimes we don\'t buy the whole thing.', prompt_speech_16k, stream=False)):
        torchaudio.save('cross_lingual_{}.wav'.format(i), j['tts_speech'], 22050)
    
    cosyvoice = CosyVoice('pretrained_models/CosyVoice - 300M - Instruct')
    # instruct usage, support <laughter></laughter><strong></strong>[laughter][breath]
    for i, j in enumerate(cosyvoice.inference_instruct('在面对挑战时,他展现了非凡的<strong>勇气</strong>与<strong>智慧</strong>。', '中文男', 'Theo \'Crimson\', is a fiery, passionate rebel leader. Fights with fervor for justice, but struggles with impulsiveness.', stream=False)):
        torchaudio.save('instruct_{}.wav'.format(i), j['tts_speech'], 22050)
    

四、启动 Web 演示

可以使用 Web 演示页面快速熟悉 CosyVoice,支持 sft/零样本/跨语言/指令推理。具体详情请参考演示网站。
示例命令:python3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice - 300M(可根据需要更改模型)。

五、高级用法

对于高级用户,examples/libritts/cosyvoice/run.sh中提供了训练和推理脚本,可以按照此示例熟悉 CosyVoice。

六、构建用于部署

若要使用 grpc 进行服务部署,可执行以下步骤,否则可忽略此步骤。

  1. 构建 docker 镜像:
    cd runtime/python
    docker build -t cosyvoice:v1.0.
    
  2. 运行 docker 容器(根据需要选择推理模式):
    • grpc 用法
      docker run -d --runtime=nvidia -p 50000:50000 cosyvoice:v1.0 /bin/bash -c "cd /opt/CosyVoice/CosyVoice/runtime/python/grpc && python3 server.py --port 50000 --max_conc 4 --model_dir iic/CosyVoice - 300M && sleep infinity"
      cd grpc && python3 client.py --port 50000 --mode <sft|zero_shot|cross_lingual|instruct>
      
    • fastapi 用法
      docker run -d --runtime=nvidia -p 50000:50000 cosyvoice:v1.0 /bin/bash -c "cd /opt/CosyVoice/CosyVoice/runtime/python/fastapi && python3 server.py --port 50000 --model_dir iic/CosyVoice - 300M && sleep infinity"
      cd fastapi && python3 client.py --port 50000 --mode <sft|zero_shot|cross_lingual|instruct>
      

CosyVoice 以其强大的功能和灵活的使用方式,为我们带来了全新的语音合成体验。快来尝试吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2111885.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

linux使用samba共享目录,其他虚拟机和windows都可以访问

一、192.168.137.12主机作为源目录主机&#xff0c;将/samba/shared_dir目录分享出去 #192.168.137.12主机&#xff1a; rpm -q samba #查看是否安装 yum -y install samba #创建共享目录 mkdir /samba/shared_dir -p #给共享目录赋权 chown -R samba.samba /samba #提示用户不…

【流程设计】JAVA系统集成activiti工作流,流程设计器,在线审批,会签,驳回,流程图查看(实际多套系统运用案例分析)

基于Javavue开发的智能审批系统&#xff0c;低代码平台方案 其他资料&#xff0c;软件资料清单列表部分文档清单&#xff1a;工作安排任务书&#xff0c;可行性分析报告&#xff0c;立项申请审批表&#xff0c;产品需求规格说明书&#xff0c;需求调研计划&#xff0c;用户需求…

图论篇--代码随想录算法训练营第五十二天打卡| 101. 孤岛的总面积,102. 沉没孤岛,103. 水流问题,104.建造最大岛屿

101. 孤岛的总面积 题目链接&#xff1a;101. 孤岛的总面积 题目描述&#xff1a; 给定一个由 1&#xff08;陆地&#xff09;和 0&#xff08;水&#xff09;组成的矩阵&#xff0c;岛屿指的是由水平或垂直方向上相邻的陆地单元格组成的区域&#xff0c;且完全被水域单元格…

攻防世界 unseping

unseping 攻防世界web新手练习 -unseping_攻防世界web新手题unseping-CSDN博客 这道题对我来说还是有点难&#xff0c;什么oct绕过命令执行第一次遇到捏&#xff0c;所以基本是跟着别人的wp写的&#xff0c;一点点记录吧 先对源码进行分析 <?php highlight_file(__FILE…

LLVM IR指令VM混淆分析

未混淆编译 编写一个最简单的测试代码&#xff0c;对 test_add函数用于对两个数相加&#xff1a; int __attribute((__annotate__("vm"))) test_add(int a, int b) {int c a b;return c; }int main(void) {int c test_add(1, 2);return c; } 编译成中间代码&am…

【佳学基因检测】如何知道一个网站是用Nginx还是Apache运行的服务器。

【佳学基因检测】如何知道一个网站是用Nginx还是Apache运行的服务器。 要确定一个的网站是由Nginx还是Apache服务器运行&#xff0c;可以使用以下几种方法&#xff1a; 1. 查看HTTP头信息 您可以通过检查网站返回的HTTP头信息来判断使用的是哪种服务器。具体步骤如下&#x…

Kafka【十三】消费者消费消息的偏移量

偏移量offset是消费者消费数据的一个非常重要的属性。默认情况下&#xff0c;消费者如果不指定消费主题数据的偏移量&#xff0c;那么消费者启动消费时&#xff0c;无论当前主题之前存储了多少历史数据&#xff0c;消费者只能从连接成功后当前主题最新的数据偏移位置读取&#…

FastAPI+Vue3零基础开发ERP系统项目实战课 20240906 上课笔记 fastapi的各种练习

回顾练习 用FastAPI写一个接口&#xff0c;这个接口能够返回九九乘法表的字符串。 获取九九乘法表&#xff1a; for i in range(1, 10):for j in range(1, i 1):print(f"{j} x {i} {j * i}", end"\t")print()# 得到字符串 talbe99 "" for …

多环境jdk安装,CentOS,统信UOS,Ubuntu,KylinOS,windows

文章目录 1.CentOS1.1yum安装1.2压缩包安装 本文档只是为了留档方便以后工作运维&#xff0c;或者给同事分享文档内容比较简陋命令也不是特别全&#xff0c;不适合小白观看&#xff0c;如有不懂可以私信&#xff0c;上班期间都是在得 1.CentOS 1.1yum安装 yum install -y jav…

Oracle VM VirtualBox 下 Ubuntu22 虚拟机配置双网络

初衷&#xff0c;希望在虚拟机里面配置两个网络。一个网络用来给虚拟机上互联网&#xff08;浏览器&#xff0c;邮箱等&#xff09;使用&#xff0c;一个网络用于虚拟机和宿主机通讯&#xff08;静态IP&#xff09; 1 VirtualBox 网络设置 2 宿主机网络配置 3 虚拟机内命令行配…

前端---对MVC MVP MVVM的理解

就需要从前端这些年的从无到有、从有到优的变迁过程讲一下。 1. Web1.0时代 在web1.0时代并没有前端的概念&#xff0c;开发一个web应用多数采用ASP.NET/Java/PHP编写&#xff0c;项目通常用多个aspx/jsp/php文件构成&#xff0c;每个文件中同时包含了HTML、CSS、JavaScript、…

SpringCloud之熔断监控HystrixDashboard和Turbine

SpringCloud之熔断监控HystrixDashboard和Turbine Hystrix-dashboard是一款针对Hystrix进行实时监控的工具&#xff0c;通过Hystrix Dashboard我们可以在直观地看到各 Hystrix Command的请求响应时间, 请求成功率等数据。但是只使用Hystrix Dashboard的话, 你只能看到单个应 …

chrome 插件开发入门

1. 介绍 Chrome 插件可用于在谷歌浏览器上控制当前页面的一些操作&#xff0c;可自主控制网页&#xff0c;提升效率。 平常我们可在谷歌应用商店中下载谷歌插件来增强浏览器功能&#xff0c;作为开发者&#xff0c;我们也可以自己开发一个浏览器插件来配合我们的日常学习工作…

【开源免费】基于SpringBoot+Vue.JS图书个性化推荐系统(JAVA毕业设计)

本文项目编号 T 015 &#xff0c;文末自助获取源码 \color{red}{T015&#xff0c;文末自助获取源码} T015&#xff0c;文末自助获取源码 目录 一、系统介绍1.1 业务分析1.2 用例设计1.3 时序设计 二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究…

linux系统中,计算两个文件的相对路径

realpath --relative-to/home/itheima/smartnic/smartinc/blocks/ruby/seanet_diamond/tb/parser/test_parser_top /home/itheima/smartnic/smartinc/corundum/fpga/lib/eth/lib/axis/rtl/axis_fifo.v 检验方式就是直接在当前路径下&#xff0c;把输出的路径复制一份&#xff0…

二叉树的层次遍历(10道)

&#xff08;写给未来遗忘的自己&#xff09; 102.二叉数的层序遍历&#xff08;从上到下&#xff09; 题目&#xff1a; 代码&#xff1a; class Solution { public: vector<vector<int>> levelOrder(TreeNode* root) { vector<vector<int>> r…

H桥电路及其应用

一、H桥电路简介 H桥是一种电机驱动电路&#xff0c;通过四个开关元件构成“H”型的电流路径结构。该电路能够控制负载&#xff08;如直流电机&#xff09;的电流方向&#xff0c;从而实现电机正反转和速度调节。H桥广泛应用于需要方向控制的场合&#xff0c;尤其是机器人驱动…

Java小白一文讲清Java中集合相关的知识点(六)

接上篇 添加了第二个元素“php”字符串后&#xff0c;debug查看此时的table的空间具体存储情况如下&#xff1a; 于是其将第二个待存放的元素“php”映射放入了9号索引处&#xff1b;接下来我们分析添加第三个重复元素“java”再次尝试放进去时&#xff0c;底层发生的一系列动…

13款常用AI编程工具

AI编程工具的选择和使用&#xff0c;主要取决于具体的项目需求、编程语言、以及AI任务的类型&#xff08;如机器学习、自然语言处理、计算机视觉等&#xff09;。下面是一些广泛使用的AI编程工具合集&#xff0c;涵盖了从开发、训练、到部署的各个环节&#xff1a; Jupyter Not…

Signac R|如何合并多个 Seurat 对象 (2)

引言 在本文中演示了如何合并包含单细胞染色质数据的多个 Seurat 对象。为了进行演示&#xff0c;将使用 10x Genomics 提供的四个 scATAC-seq PBMC 数据集&#xff1a; 500-cell PBMC 1k-cell PBMC 5k-cell PBMC 10k-cell PBMC 构建数据对象 接下来&#xff0c;将利用已经量化…