国服最强文字转音频?Fish Speech

news2024/9/9 0:25:31

官网文档与示例

在这里插入图片描述

Fish Speech V1.2 是一款领先的文本到语音 (TTS) 模型,使用 30 万小时的英语、中文和日语音频数据进行训练。我尝试用1066运行,但是质量不尽如人意,建议使用RTX系列的显卡进行推理。

使用结果展示
    text= """
    2024年1月6日,夜色如墨,而深圳C局客户机房内的灯光却异常明亮,现场支撑的淞哥,眼睛紧盯着屏幕,手指在键盘上飞速敲击,随着最后一行代码的执行,他难掩激动地在大网改造保障群对话框里迅速写下:“服务启动完成、OSS(无线运营商业务系统)正常接入、定时报表正常生成、数据迁移范围符合预期……”这不仅是一条消息,更是一声胜利的号角。
消息一发出,群里立刻沸腾了,点赞和鼓掌的表情包不断在屏幕上跳动着。这一刻,我们所有人的心都紧紧相连,共同分享着这份来之不易的喜悦。
我坐在电脑前,闭上眼睛,任由思绪穿越时空,回到了过去一年中的每一个日夜……
缘起:跨领域迎接挑战
在OMC(无线网络管理)的先进领域,运营商客户始终在追求拥有一个高效管理系统——能够统一掌控庞大网络设备的理想平台。无论省份、设备制造商如何分散,都能通过统一的OMC系统实现无缝运维管理,这将极大提升运维效率,优化网络性能。
此前,我们的PRS(无线网络性能评估系统)作为无线网络管理领域的创新成果,成为了运营商客户日常网络运维不可或缺的一部分。客户对我们的信赖和对大网能力的期待,成为我们不断追求技术突破的动力。
2019年,我们迈出了重要的一步:PRS首套1W大网商用系统上线。“1W大网”能够管理一万个等效网元,为了有效处理海量T级别网络性能数据,我们首次引入了“Hadoop分布式集群系统”。同时,我们还有灵活管理规模小于一万个网元的 “PRS小网”系统,它一直依赖于公司自主研发的高斯数据库来存储数据。因此在大网商用之初,研发团队面临的一大挑战便是同时维护Hadoop和高斯两套技术栈。
    """

输出结果: output.wav

官网相关文档

https://fish.audio/zh-CN/about/    # 官方
https://speech.fish.audio/samples/ # 示例
https://github.com/fishaudio/fish-speech # 源码地址

使用硬件要求

GPU 内存: 4GB (用于推理), 8GB (用于微调)
系统: Linux, Windows

此处介绍的是ubuntu系统上的安装与使用。本文使用的windows 子系统ubuntu22.04

  • 安装
# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenv
python3 -m venv sp_venv
source sp_venv/bin/activate

# 安装 pytorch
pip3 install torch torchvision torchaudio -i  https://pypi.tuna.tsinghua.edu.cn/simple

# 下载fish-speech 代码
git clone https://github.com/fishaudio/fish-speech

# 安装 fish-speech
cd fish-speech
pip3 install -e .

# (Ubuntu / Debian 用户) 安装 sox
apt install libsox-dev

  • 下载模型文件
    方法一: 官网给定的下载模型文件命令:python ./tools/download_models.py
    但是由于网络原型,可能下载不成功。如果有翻墙工具,可以下载。
    方法二: 通过 modelscope 社区进行下载 :https://modelscope.cn/models/AI-ModelScope/fish-speech-1.2/files
cd fish-speech
mkdir checkpoints/fish-speech-1.2-sft

在这里插入图片描述
将下载的模型文件拷贝到 fish-speech-1.2-sft 文件夹下
如果使用的windows 子系统 可以使用一下 命令

wsl cp config.json /home/km/fish-speech/checkpoints/fish-speech-1.2-sft
  • 使用
    使用方法有两种,
    一种是通过 web UI 使用,更直观,便捷
    一种是通过API方式,更灵活,移植性更大
web UI
python -m tools.webui \
    --llama-checkpoint-path "checkpoints/fish-speech-1.2-sft" \
    --decoder-checkpoint-path "checkpoints/fish-speech-1.2-sft/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" \
    --decoder-config-name firefly_gan_vq

在这里插入图片描述
启动后 web : http://127.0.0.1:7860
在这里插入图片描述

API 方式使用
python -m tools.api \
    --listen 0.0.0.0:8080 \
    --llama-checkpoint-path "checkpoints/fish-speech-1.2-sft" \
    --decoder-checkpoint-path "checkpoints/fish-speech-1.2-sft/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" \
    --decoder-config-name firefly_gan_vq

使用

python -m tools.post_api \
    --text "要输入的文本" \
    --reference_audio "参考音频路径" \
    --reference_text "参考音频的文本内容" \
    --streaming True

参考音频路径 可以在 https://speech.fish.audio/samples/ 中下载一个参考音频。也可以使用自己创建的音频文件。
注意格式为 :wav
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1958296.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

有哪些高性价比开放式耳机推荐?五大实力超群热门款分享

开放式耳机的优点包括不堵塞耳道,佩戴稳固性高,能较好的感知外界的声音等等,以上这些优势使得开放式耳机特别适配户外运动场景,在工作、日常生活等场景下使用也是绰绰有余。有哪些高性价比开放式耳机推荐?如果你还不知…

常用传感器讲解十五--触摸传感器(KY-036)

常用传感器讲解十五–触摸传感器(KY-036) 具体讲解 这个比较简单,就是触摸后给个信号 电路连接 在Arduino上将VCC引脚连接到5V。 将GND连接到Arduino的GND。 将OUT连接到Arduino上的D2 代码实现 void setup() {pinMode(2, INPUT);Seri…

鸿蒙HarmonyOS开发:@Observed装饰器和@ObjectLink装饰器:嵌套类对象属性变化

文章目录 一、装饰器二、概述三、限制条件四、装饰器说明五、Toggle组件1、子组件2、接口3、ToggleType枚举4、事件 六、示例演示1、代码2、效果 一、装饰器 State装饰器:组件内状态Prop装饰器:父子单向同步Link装饰器:父子双向同步Provide装…

大模型是如何“炼”成的?揭秘AI背后的训练秘籍!

在当今科技飞速发展的时代,大模型(Large Language Models)已成为人工智能领域的璀璨明星。它们如同经过精心雕琢的艺术品,能够处理各种复杂的任务。然而,这些大模型并非天生如此强大,它们需要经过严格的训练…

VScode | 我的常用插件分享

系列文章目录 本系列文章主要分享作位前端开发的工具之------VScode的使用分享。 文章目录 目录 系列文章目录 文章目录 前言 一、Vetur 三、别名路径跳转 四、Prettier 五、koroFileHeader 六、vue-helper 总结 前言 本文主要分享VScode的好用插件。 一、Vetur Vue的Vetur插…

秒懂C++之vector(上)

目录 一.vector定义 二.vector常用接口 2.1 vector iterator迭代器 2.2 reserve 扩容 2.3 insert 插入 三.对象数组 3.1 例题 3.2 小拓展 一.vector定义 vector本质就是一个顺序表 #include <iostream> #include <vector> using namespace std;void func(ve…

分布式:RocketMQ/Kafka总结(附下载链接)

文章目录 下载链接思维导图 本文总结的是关于消息队列的常见知识总结。消息队列和分布式系统息息相关&#xff0c;因此这里就将消息队列放到分布式中一并进行处理关联 下载链接 链接: https://pan.baidu.com/s/1hRTh7rSesikisgRUO2GBpA?pwdutgp 提取码: utgp 思维导图

大模型微调:参数高效微调(PEFT)方法总结

PEFT (Parameter-Efficient Fine-Tuning) 参数高效微调是一种针对大模型微调的技术&#xff0c;旨在减少微调过程中需要调整的参数量&#xff0c;同时保持或提高模型的性能。 以LORA、Adapter Tuning 和 Prompt Tuning 为主的PEFT方法总结如下 LORA 论文题目&#xff1a;LORA:…

TikTok达人合作:AI与大数据如何提升跨境电商营销效果

在当今数字时代&#xff0c;跨境电商与TikTok达人的合作已成为推动品牌增长和市场拓展的重要力量。随着AI、大数据等先进技术的不断发展和应用&#xff0c;这种合作模式正变得更加高效和精准。本文Nox聚星将和大家探讨在TikTok达人合作中&#xff0c;AI、大数据等技术的具体运用…

PyTorch 的 .pt 文件是什么?以及都能存储什么样的数据格式和复合数据格式?加载 train.pt 文件的一个代码示例

&#x1f349; CSDN 叶庭云&#xff1a;https://yetingyun.blog.csdn.net/ 一、PyTorch 的 .pt 文件是什么&#xff1f; .pt 文件的基本概念&#xff1a; .pt 文件是 PyTorch 中特有的一种文件格式&#xff0c;用于保存和加载各类数据。.pt为 PyTorch 的缩写。此文件格式极其灵…

Linux快速安装Jenkins一键部署Maven项目

目录 一、序言二、安装前置准备1、JDK版本要求2、Maven安装3、Git安装 三、Jenkins安装1、Jenkins war包下载2、启动Jenkins3、初始化Jenkins4、Jenkins全局设置 四、Maven项目自动化jar部署项目配置1、创建Maven风格的项目2、丢弃旧的构建3、源码管理配置4、构建配置5、构建后…

华为od 100问 持续分享10-华为OD的面试流程细说

我是一名软件开发培训机构老师&#xff0c;我的学生已经有上百人通过了华为OD机试&#xff0c;学生们每次考完试&#xff0c;会把题目拿出来一起交流分享。 重要&#xff1a;2024年5月份开始&#xff0c;考的都是OD统一考试&#xff08;D卷&#xff09;&#xff0c;题库已经整…

带有扰动观测器的MPC电机控制

模型预测控制(Model Predictive Contro1, MPC)是一种先进的控制策略&#xff0c;虽然具有鲁棒性、建模简单、处理多变量系统、显示约束、预测未来行为和优化性能的能力等优势。它的不足在于预测控制行为的计算需要繁琐的计算量&#xff0c;以及抗干扰能力较弱。这里提出基于扰动…

34 列表常用方法——copy()

列表对象的 copy() 方法返回列表的浅复制。 浅复制&#xff0c;是指生成一个新的列表&#xff0c;并且把原列表中所有元素的引用都都复制到新列表中。 如果原列表中只包含整数、实数、复数等基本类型或元组、字符串这样的不可变类型的数据&#xff0c;一般是没有问题的。但是&a…

黛米·摩尔和她的孙女卢埃塔在这张飘逸的快照很亲密

卢埃塔和她的祖母黛米摩尔显然是最好的朋友&#xff0c;这张飘逸的快照证明了这一点。准备好“哇&#xff01;” 7 月 26 日&#xff0c;摩尔分享了一张非常迷人的照片&#xff0c;照片上有她、她的两个女儿和她的孙女在她昂贵的后院。她在照片中配文说&#xff1a;“夏日&…

SX_初识GitLab_1

1、对GitLab的理解&#xff1a; 目前对GitLab的理解是其本质是一个远程代码托管平台&#xff0c;上面托管多个项目&#xff0c;每个项目都有一个master主分支和若干其他分支&#xff0c;远程代码能下载到本机&#xff0c;本机代码也能上传到远程平台 1.分支的作用&#xff1a…

Home Assistant ESPHome 第一次烧录ESP8266设备记录日志

流程简介 windows PC->usb 数据线->板载usb-ttl->esp8266 connect 编译固件 下载固件 esp web tools 写入固件 编译固件 go esphome add on 1.创建设备 选择ESP8266 2.编写.yaml配置, 3.编译-输出bin 烧录 4.烧录 打开 Web-ESPHome 5.查看日志 查看手机wif…

如何让企业在获客上拥有竞争力?云微客打造流量爆款

做了这么久的短视频&#xff0c;还是没有客户&#xff0c;如果你还在单一账号上死磕&#xff0c;那么就别做爆款的白日梦了&#xff01;因为你的做法是干不过同行的&#xff0c;同行可能早就开通上百个账号在互联网上抢流量了。 想获客只用一个云微客AI矩阵系统&#xff0c;不用…

科普文:深入理解ElasticSearch体系结构

概叙 Elasticsearch是什么&#xff1f; Elasticsearch&#xff08;简称ES&#xff09;是一个分布式、可扩展、实时的搜索与数据分析引擎。ES不仅仅只是全文搜索&#xff0c;还支持结构化搜索、数据分析、复杂的语言处理、地理位置和对象间关联关系等。 官网地址&#xff1a;…

实习日志2之windows上大模型(qwen2-7b)部署

一、模型部署 1、下载ollama(大模型本地部署工具)&#xff0c;并安装 下载网址&#xff1a;https://ollama.com/ ollama是大模型部署方案&#xff0c;对应docker&#xff0c;本质也是基于docker的容器化技术。 2、下载大模型 在命令框&#xff0c;如windows系统在cmd窗口输…