云平台部署 FunAudioLLM 语音天花板

news2024/12/23 15:05:07

FunAudioLLM

FunAudioLLM 是阿里开源的语音处理模型,包含 SenseVoice 和 CosyVoice 两个模型。可以实现 5 种语言生成,以及 50 种语言无缝翻译,还能识别语音情绪。

  • FunAudioLLM:https://github.com/FunAudioLLM

  • CosyVoice开源仓库:https://github.com/FunAudioLLM/CosyVoice

  • CosyVoice在线体验:https://www.modelscope.cn/studios/iic/CosyVoice-300M

  • SenseVoice开源仓库:https://github.com/FunAudioLLM/SenseVoice

  • SenseVoice在线体验:https://www.modelscope.cn/studios/iic/SenseVoice

FunAudioLLM 模型已经在趋动云『社区项目』上线,欢迎感兴趣的码友们前来实操体验,一同领略 AI 播客带来的非凡魅力与强劲实力!

  • 项目入口:https://open.virtaicloud.com/web/project/detail/470526582805655552

图片

一键部署,极速体验 AI 语音天花板

进入FunAudioLLM项目主页中,下滑可以浏览该项目的详细介绍。

点击运行一下,即刻将项目一键克隆到工作空间,不需要自己动手收集下载数据集、模型等。另外,『社区项目』推荐适用的算力规格,可以直接立即运行

图片

图片

图片

配置完成,点击进入开发环境,根据项目主页介绍进行部署。

图片

根据『社区项目』中该项目的介绍,执行以下操作,依次部署:CosyVoice 和 SenseVoice 两个模型。

CosyVoice

1.运行方法

进入CosyVoice文件夹,找到run.ipynb文件。

图片

2.运行代码

图片

或者点进去run.ipynb,直接enter+shift运行代码即可。

3.当看到 local url 表明服务开启完成

图片

4.添加端口,获得外部访问链接

图片

图片

5.复制到浏览器即可访问

使用自然语言控制时,需要更换模型,在run.ipynb文件中,在代码!export MODELSCOPE_CACHE=/gemini/code/modelscope/ && python webui.py --port 8081 --model_dir pretrained_models/CosyVoice-300M前加#号注释掉,然后将#!export MODELSCOPE_CACHE=/gemini/code/modelscope/ && python webui.py --port 8081 --model_dir pretrained_models/CosyVoice-300M-Instruct前的#号去掉,运行代码即可。

SenseVoice

操作和 CosyVoice 一样。

  1. 打开 SenseVoice 目录下的 run.ipynb 文件;

  2. 运行所有单元格,运行代码;

  3. 当看到 local url 的时候表明服务开启;

  4. 添加 8082 端口;

  5. 通过外部访问链接即可访问服务。

直接上传音频,即可识别出对应的文字,或者可以直接使用在 CosyVoice 上生成的音频。

识别文字如下,正确率非常的高,除了粤语的不太好评定,中英日韩的识别正确率百分百!

中文

英语

粤语歌

日语

韩语

➫温馨提示: 完成项目后,记得及时关闭开发环境,以免继续产生费用!

智汇全球,趋动未来

『社区项目』汇聚全球智慧,促进技术交流的宝贵平台。热切盼望每一位码友加入,分享您的杰作,共筑这个充满活力与创新的技术乐园。让我们并肩同行,在技术的浩瀚宇宙中持续探索,共同成长!

教程系列1 | 趋动云『社区项目』极速部署 SD WebUI
教程系列2 | 趋动云『社区项目』一步实现与 AI 对话
教程系列3 | 趋动云『社区项目』一键极速部署 PhotoMaker,解锁 AI 绘画奇妙之旅
教程系列4 | 趋动云『社区项目』极速体验 LivePortrait 人脸表情“移花接木”大法

趋动云

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1990946.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Material-UI】按钮组:垂直按钮组详解

文章目录 一、按钮组概述1. 组件介绍2. 基本用法 二、垂直按钮组的应用场景1. 导航菜单2. 表单操作3. 选项切换 三、按钮组的样式定制1. 变体(Variants)2. 颜色(Colors) 四、垂直按钮组的优势1. 空间利用2. 可读性与易用性3. 视觉…

【网络基础一】几乎不讲任何网络协议细节,搭建网络基本结构

文章目录 问题认识“协议”计算机通信问题技术问题应用问题 协议分层 统编程帮助我们处理数据,网络编程帮助我们获取数据,网络配上我们写的线程池模块很快就搭建起来了。 问题 网卡是文件吗? 是的,所以未来网络通信的本质反馈到编…

Obsidian插件安装与开发

大概背景 事情的起因还是因为做笔记,我喜欢利用插件Obsidian Git自动同步笔记到Gitee,写md文档有个问题就是关于图片如何存储。 我个人习惯是将所有图片都保存到指定的文件夹下,如图👇 由于Obsidian对粘贴图片默认格式为这样的&…

ESXI加入VMware现有集群提示常规性错误

集群内有vSphere6.5和6.7的版本,都开启了EVC 这台老服务器是DELL R710添加时报错,网上查了些资料说要重装ESXI或者关闭EVC等等 最终解决方法是,给这台ESXI配置一个NTP服务器,同步系统时间,之后即可正常加入集群 往期文…

【安卓】文件存储

文章目录 将数据存储到文件中从文件中读取数据 文件存储是Android中最基本的数据存储方式,它不对存储的内容进行任何格式化处理,所有数据都是原封不动地保存到文件当中的,因而它比较适合存储一些简单的文本数据或二进制数据。如果你想使用文件…

家庭教育—情绪教育:塑造孩子情绪智力的金钥匙

文章目录 1. 背景介绍2. “1310镇静”方法的介绍3. 方法的科学依据4. 实施步骤5. 总结 1. 背景介绍 在快节奏的现代生活中,儿童面临着越来越多的情绪挑战。情绪教育作为素质教育的重要组成部分,越来越受到家长和教育者的重视。情绪教育不仅关乎儿童的心…

第100+20步 ChatGPT学习:R实现Lasso回归

基于R 4.2.2版本演示 一、写在前面 花了好几期分享了使用R语言实现机器学习分类,基本把常见模型都讲完了。 最后就以Lasso回归收尾得了。 Lasso回归应该很出名了,做特征变量筛选的,因此,不过多介绍。 二、R代码实现Lasso回归 …

OceanBase V4.2特性解析:MySQL模式下GIS空间表达式的场景及能力解析

1. 背景 1.1. OceanBase Mysql gis空间表达式的应用场景及能力 在OceanBase 4.1版本中,mysql模式下支持了gis数据类型以及部分空间对象相关的表达式,随着客户使用空间数据的需求日益增长,需要快速地补齐空间数据存储和计算分析的能力&#…

简单分享下Python进程

1. 单进程与多进程 理论讲解: 进程是操作系统中资源分配的基本单位,每个进程都有独立的内存空间。 多进程允许同时运行多个进程,提高CPU利用率和程序响应速度。 示例代码: import os print("当前进程ID:", os.getp…

【适配器模式】设计模式: 穿越接口的时空隧道(架起接口间的桥梁)

文章目录 Java 设计模式之适配器模式:理论与实践1. 引言1.1 结构型模式介绍1.2 为什么需要适配器模式? 2. 适配器模式概述2.1 定义2.2 关键概念2.3 适配器模式的类型 3. 适配器模式的参与者4. 适配器模式的工作原理4.1 类适配器模式的工作流程4.2 对象适…

CSS基础 - CSS3

目录 A. 简介 B. 基础用法 C. 总结 A. 简介 CSS3 是 CSS(层叠样式表)技术的升级版本。 一、新特性概述 选择器增强 CSS3 引入了更多强大的选择器,使得开发者能够更精确地选择和样式化网页元素。例如,属性选择器可以根据元素…

Golang | Leetcode Golang题解之第329题矩阵中的最长递增路径

题目: 题解: var (dirs [][]int{[]int{-1, 0}, []int{1, 0}, []int{0, -1}, []int{0, 1}}rows, columns int )func longestIncreasingPath(matrix [][]int) int {if len(matrix) 0 || len(matrix[0]) 0 {return 0}rows, columns len(matrix), len(m…

仓颉编程入门 -- 循环语句详解

仓颉编程入门 – 循环语句 一 . while 表达式 while 表达式的基本形式为: while (条件) {循环体 }注意事项 : 其中“条件”是布尔类型表达式,“循环体”是一个代码块。while 表达式将按如下规则执行: 计算“条件”表达式,如果…

计算机毕业设计选题推荐-电缆行业生产管理系统-Java/Python项目实战

✨作者主页:IT研究室✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…

LabVIEW软件开发的未来是什么?

LabVIEW软件开发的未来展望可以从以下几个方面进行分析: 1. 与硬件集成的进一步增强 LabVIEW一贯以其与硬件的紧密集成而著称,未来这一优势将进一步得到强化。随着物联网(IoT)设备、工业4.0和智能制造的发展,LabVIEW将…

Mipi SoundWire Spec 详解4.2~4.3

目录 4.2 低层特性 4.2.1 物理接口 4.2.1.1 信号拓扑 4.2.1.2 多数据通道 4.2.1.3 高性能PHY 4.2.2 数据编码 4.2.3 物理信号值和逻辑信号值的术语 4.2.4 对开发和测试低级功能的支持 4.3 控制特性 4.3.1 比特流与帧结构 4.3.1.1 控制字与带宽权衡 4.3.2 同步 4.3.…

今日早报 每日精选15条新闻简报 每天一分钟 知晓天下事 8月8日,星期四

每天一分钟,知晓天下事! 2024年8月8日 星期四 农历七月初五 1、 财政部预拨4.65亿元资金支持辽宁、吉林等7省(市)开展应急抢险救灾工作。 2、 2024年“三区”人才支持计划发布:全国将选派15952名教师赴“三区”。 3…

什么是三维坐标系?

在研究向量和高级微积分主题时,了解 3D 坐标系非常重要。过去,我们一直在处理平面和矩形坐标。这一次,我们将研究三维坐标系的组成部分和约定。 3D 坐标系使我们能够表示包含三个相互垂直轴的空间中的一个量。通过 3D 坐标系统,我…

计算机网络——网络层(多协议标签交换MPLS、软件定义网络SDN)

多协议标签交换MPLS 多协议标签交换MPLS(multiProtocal Label Switching):“多协议”表示在MPLS的上层可以采用多种协议。 MPLS利用面向连接技术,使每个分组携带一个叫作标签的小整数(这叫作打上标签)。当分…