AudioGPT推出!音频领域都不放过,ChatGPT这是杀疯了!

news2025/1/17 2:48:14

大家好,我是千与千寻,你们可以叫我千寻哥,算一算写ChatGPT的技术文章已经写到第四篇了!

今天和大家介绍的一个项目属于音频领域的ChatGPT的应用实践。真没想不到,在音频领域,ChatGPT都没有放过,ChatGPT这是杀疯了呀!

现在的ChatGPT是一个实打实的风口,也希望大家跟我一起努力在风口上飞起来!

之前我曾经写过三篇ChatGPT相关的,大家可以再去看一看,今天和大家介绍的大模型应用是AudioGPT,与其他的ChatGPT的区别在于,ChatGPT属于大模型的文字对话模型。

而AudioGPT则是针对于语音领域。AudioGPT可实现的功能有以下几点,给大家总结一下。

另外大家需要注意的是AudioGPT的使用是需要基于ChatGPT基础的,为什么这么说呢?原因在于需要我们通过使用OpenAI的API key进访问权限的验证,如图为OpenAI key的获取示意图

所以大家如果还没有OpenAI的GPT账号的,自己去申请一下,然后将这个API Key放到这个AudioGPT的输入框中,即可进行运行程序。

以下是AudioGPT程序的地址:

https://github.com/AIGC-Audio/AudioGPT

以下跟大家演示一下如何在自己的电脑上去运行AudioGPT的代码程序,以及如何学会正确运用AudioGPT实现对应的功能?

首先需要实现搭建模型运行环境,然后安装requirements文件列表里面的这依赖项,以及怎么实现在我们本地的客户端去运行AudioGPT的程序。

  1. 创建运行程序新的conda环境
# create a new environment
conda create -n audiogpt python=3.8
  1. 安装环境运行所需依赖,以及下载模型文件
#  prepare the basic environments
pip install -r requirements.txt

# download the foundation models you need
bash download.sh
  1. 导入你的OpenAI Key字符串进入代码文件
# prepare your private openAI private key
export OPENAI_API_KEY={Your_Private_Openai_Key}
  1. 开始运行AudioGPT程序
python audio-chatgpt.py

至此我们可以实际检验AudioGPT的实际功能。

以上的操作步骤还是似乎还是偏向于极客,可以直接使用Hugging Face社区,调用实际的API接口,使用更加方便。以下是Hugging Face社区的代码地址:

https://huggingface.co/spaces/AIGC-Audio/AudioGPT

AudioGPT效果如下图所示:

实践环节演示

AudioGPT包括以下几种功能,由于AudioGPT的模型属于语音音频方向的大模型。其功能包括以下的内容分类。

第一、实现根据输入文本转换为语音文件的语音合成

例如:生成带有文本“here we go”的语音音频

第二、实现将单通道语音转换为双通道语音

第三、根据语言的文本描述生成对应语音

例如:生成狗叫声的音频:

第四,根据音频输出指定文字的描述

例如:给我这个生成音频的描述

第五、根据输入语音信号转换输出其对应的频谱图

第六、说明音频内部所包含的事件以及起止时间

例如:这段音频中的雷声是什么时候发生的?

不仅如此,AudioGPT也集成了图像识别的功能,根据图片输入的上传图片生成对应的内容描述音频

例如:上传下图的江南水乡的图片

然后通过江南水乡的图片,生成的雨水声音

怎么样感觉效果如何?不过其实告诉大家一个秘密,音频信号的处理,相对来说,比较占用内存,处理音频的时间较长,可以选择不同的加速硬件GPU,如下图所示

原始使用的T4显卡是免费的,其实理论上计算性能也还不错,免费的,还要啥自行车!

不过如果有更多的需要,当然也可以按需购买。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/550762.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

maven聚合工程详解

目录 一、Maven继承二、idea搭建父子工程三、可继承的 POM 元素四、Maven聚合五、idea搭建聚合工程六、继承和聚合的关系七、dependencyManagement八、pluginManagement 本篇文章重点针对这几个问题进行讲解: Maven继承使用IDEA搭建Maven父子工程使用IDEA搭建Maven…

【建议收藏】Python自动化必不可少的测试框架 — pytest

每天进步一点点,关注我哦,每天分享测试技术文章 Python在测试圈的应用非常广泛,特别是在自动化测试以及测试开发的领域,其中在自动化测试中我们常用的测试框架是uniitest和pytest,本文将带领大家搭建以及熟悉pytest的使…

改进YOLOv5系列:ResNeXt融合特征金字塔,引领YOLOv5目标检测

目录 一、介绍1、YOLOv5简介2、ResNeXt简介3、目标检测简介 二、YOLOv5及其局限性1、YOLOv5的架构与原理2、YOLOv5的优势3、YOLOv5的局限性 三、ResNeXt与特征金字塔融合1、ResNeXt的基本原理2、ResNeXt的优势3、特征金字塔的基本原理4、特征金字塔的优势5、ResNeXt与特征金字塔…

mysql JDBC的三种查询(普通、流式、游标)

使用JDBC向mysql发送查询时,有三种方式: 常规查询:JDBC驱动会阻塞的一次性读取全部查询的数据到 JVM 内存中,或者分页读取流式查询:每次执行rs.next时会判断数据是否需要从mysql服务器获取,如果需要触发读…

找计算机研究的论文18个平台

虽然说目前arvix是计算机领域跟进最新研究成果论文的网站,有时候我们也需要找一些其他的好论文,比如一个很久之前的。我们整理了18个相关平台,包括几个可以免费下载和阅读CS相关技术论文的网站,收录到 找计算机研究的论文18个平台…

secure CRT 常见问题配置

文章目录 颜色主题如何切换 SecureCRT 颜色主题如何新建SecureCRT 颜色 主题如何拷贝我的颜色主题,主题名为pic 系统间拷贝基于clipboard的文字shell下的VIM系统间拷贝1. 确保 ubuntu 上的 vim 支持 clipboard 特性2. 确保 图形shell下的 vim(gvim) 支持 系统间拷贝3. 确保 文字…

004 - STM32固件库GPIO(三)位带操作

目前掌握的对GPIO引脚的输入输出操作只能使用BSRRL/H、I/ODR寄存器,记得以前学51的时候,对于引脚的输入输出可以采用关键字sbit实现位定义,例如 sbit LED1 P1^3;在STM32中没有类似于sbit一样的关键字,但是提供了位带操作来实现类似于51的为…

ARM的状态传送器指令、软中断指令与协处理指令(软中断具体实现)

1.状态寄存器传送指令: 作用:访问(读写)CPSR寄存器 CPSR寄存器结构图: 前八位的作用: Bit[4:0] :不同的电平组合表示不同的模式,[10000]User [10001]FIQ [10010]IRQ [10011]SVC …

【Hadoop】二、Hadoop MapReduce与Hadoop YARN

文章目录 二、Hadoop MapReduce与Hadoop YARN1、Hadoop MapReduce1.1、理解MapReduce思想1.2、Hadoop MapReduce设计构思1.3、Hadoop MapReduce介绍1.4、Hadoop MapReduce官方示例1.5、Map阶段执行流程1.6、Reduce阶段执行流程1.7、Shuffle机制 2、Hadoop YARN2.1、Hadoop YARN…

导入源码至Android Studio

导入源码至Android Studio 参考: Android源码环境搭建(aosp Ubuntu 16.04) 使用如下的步骤: 1.. build/envsetup.sh (source可以用 .代替,即". build/envsetup.sh") 2.lunch,并选择要编译的项…

jmeter请求Sse长链接接口

文章目录 1.背景1.1 什么是SSE接口 2. **解决思路-尝试方法⬇️:**2.1 🏳️‍🌈 **postman-sse请求结果**2.2 **⚡ jmeter报错**2.3 ☀️**封装此SSE接口**2.3.1 ❌httpclient2.3.2 ❌HttpURLConnection2.3.3 ✔️okhttp3 3. jmeter-beanshel…

跟我一起使用 compose 做一个跨平台的黑白棋游戏(3)状态与游戏控制逻辑

前言 在上一篇文章中,我们已经完成了黑白棋的界面设计与编写,今天这篇文章我们将完成状态控制和游戏逻辑代码的编写。 正如第一篇文章所述,在本项目中,我们需要实现不依赖于平台的状态管理,也就是使用 Flow 和 compo…

浏览器扩展一些好用插件

给浏览器添加一些插件功能,能够让我们用的更方便,开发中非常实用,下面直接开始 我们这里选择的是微软自带的Microsoft Edge浏览器(谷歌也行。这两款浏览器都是非常好用的) 我们打开浏览器找到扩展应用这个,…

opencv 中值滤波

中值滤波是一种常用的图像滤波算法,是在像素点周围进行多个点的中值滤波,将点的灰度值根据其周围像素点的灰度值进行平均,并使这些点的灰度值具有相似性,以达到平滑去噪的目的。中值滤波在图像处理中应用广泛,在图像滤…

利用java编写的项目设备调配系统代码示例(内含5种设备调配的算法)

利用java编写的项目设备调配系统代码示例(内含5种设备调配的算法) 一、设备调配方案二、设备匹配算法三、代码实现(java) 最近在做一个项目设备调配系统,分享一些干货!!! 一、设备…

Godot引擎 4.0 文档 - 入门介绍 - Godot 关键概念概述¶

本文为Google Translate英译中结果,DrGraph在此基础上加了一些校正。英文原版页面:Overview of Godots key concepts — Godot Engine (stable) documentation in English Godot 关键概念概述 每个游戏引擎都围绕您用来构建应用程序的抽象展开。在 Godo…

【mysql】库的操作+表的操作

文章目录 启动mysql登录mysql1.MySQL环境安装与基础认识修改端口号连接服务器服务器,数据库,表关系建表 第二讲_库与表的操作1.创建数据库2.创建数据库案例3.指明字符集和校验集校验规则对数据库的影响不区分大小写的查询以及结果:区分大小写…

SQL Backup Master 6.3.6 Crack

SQL Backup Master 能够为用户将 SQL Server 数据库备份到一些简单的云存储服务中,例如 Dropbox、OneDrive、Amazon S3、Microsoft Azure、box,最后是 Google Drive。它能够将数据库备份到用户和开发者的FTP服务器上,甚至本地机器甚至网络服务…

速通二次型、二次型标准型、二次型规范型

浅过二次型 理解二次型可以从二次型的多项式入手: 显然,在系数都为实数的情况下,二次型矩阵即为一个实对称矩阵。 取一个代入值的例子就是: 二次型的标准型 OK,再从二次型的标准型的多项式入手,如下&…

FPGA System Planner(FSP)使用手册

FSP工具是cadence公司为了FPGA/PCB协同设计而推出的一个解决方案工具包。它的主要工作是由软件来自动生成、优化FPGA芯片的管脚分配,提高FPGA/PCB设计的工作效率和连通性。FSP完成两顷重要工作:一、可以自动生成FPGA芯片的原理图符号(symbol);二、自动生成、优化和更改FPG…