Pipecat: 创建语音对话agent的开源框架,支持多模态!

news2024/11/20 15:18:22

项目简介

pipecat 是用于构建语音(和多模态)对话代理的框架。诸如私人教练、会议助理、儿童讲故事玩具、客户支持机器人、摄入流程和尖刻的社交伙伴。

看看一些示例应用:

  

语音代理入门

您可以开始在本地计算机上运行 Pipecat,然后在准备就绪后将代理进程移动到云中。您还可以添加📞电话号码、🖼️图像输出、📺视频输入、使用不同的 LLMs,等等。

1 # install the module2 pip install pipecat-ai
4 # set up an .env file with API keys5 cp dot-env.template .env

默认情况下,为了最小化依赖关系,只有基本的框架功能可用。某些第三方 AI 服务需要额外的依赖项,您可以使用这些依赖项进行安装:

您的项目可能需要也可能不需要这些,因此它们作为可选要求提供。下面是一个列表:

  • AI services: anthropic, azure, fal, moondream, openai, playht, silero, whisper

  • Transports: local, websocket, daily

代码示例

  • 基础 — 相互构建的小片段,一次引入一个或两个概念

  • 示例应用程序 — 可用作开发起点的完整应用程序

本地运行的简单语音代理

这是一个非常基本的 Pipecat 机器人,当用户加入实时会话时,它会向他们打招呼。我们将使用 Daily 进行实时媒体传输,并使用 ElevenLabs 进行文本转语音。

 

运行它:

 

Daily 提供预构建的 WebRTC 用户界面。在应用程序运行时,您可以访问 https://<yourdomain>.daily.co/<room_url> 并听机器人打招呼!

用于生产的 WebRTC

WebSocket 非常适合服务器到服务器的通信或初始开发。但对于生产用途,您需要客户端-服务器音频才能使用专为实时媒体传输而设计的协议。(有关 WebSockets 和 WebRTC 之间区别的解释,请参阅这篇文章。

快速启动和运行WebRTC的一种方法是注册一个Daily开发者帐户。Daily 为您提供用于音频(和视频)路由的 SDK 和全球基础设施。每个帐户每月可免费获得 10,000 分钟的音频/视频/转录时间。

在此处注册并在开发者仪表板中创建房间。

什么是VAD?

语音活动检测 — 对于了解用户何时完成与机器人的通话非常重要。如果您不使用按压通话,并希望 Pipecat 检测用户何时完成通话,VAD 是自然感觉对话的重要组成部分。

Pipecast 在使用 WebRTC 传输层时默认使用 WebRTC VAD。或者,您可以使用Silero VAD来提高精度,但代价是CPU使用率更高。

 

 首次使用 Silero 运行机器人时,启动可能需要一段时间,同时在后台下载和缓存模型。您可以在控制台中查看此操作的进度。

黑客攻击框架本身

请注意,在按照以下说明操作之前,您可能需要设置虚拟环境。例如,您可能需要从存储库的根目录运行以下命令:    

 在此存储库的根目录下,运行以下命令:

 这将生成包。若要在本地使用包(例如运行示例文件),请运行

运行测试

从根目录中,运行:

项目链接

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1720257.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

相同的树(oj题)

一、题目链接https://leetcxode-cn.com/problems/same-tree/ 二、题目思路 遍历整颗树&#xff0c;判断两棵树的每个位置的结点都相同。 每个结点的左右孩子结点都要综合判断 三、题解代码 bool isSameTree(struct TreeNode* p, struct TreeNode* q) {//如果两颗树的根结点…

如何评价GPT-4o?GPT-4o和ChatGPT4.0的区别是啥呢?

如何评价GPT-4o? GPT-4o代表了人工智能领域的一个重要里程碑&#xff0c;它不仅继承了GPT-4的强大智能&#xff0c;还在多模态交互方面取得了显著进步。以下是几个方面的分析&#xff1a; 技术特点 多模态交互能力&#xff1a;GPT-4o支持文本、音频和图像的任意组合输入与输出…

Windows 权限维持之 Shift 后门

正常情况下我们连按五次 shift 键会弹出粘滞键 粘滞键是电脑使用中的一种快捷键&#xff0c;一般连按五次 shift 会出现粘滞键提示&#xff0c;粘滞键是专为同时按下两个或多个键有困难的人而设计的&#xff0c; 粘滞键开启后&#xff0c;可以先按一个键位&#xff0c;再按另一…

利用数组求出费波纳西数列的前100个值,随即输出四个值

利用数组求出费波纳西数列的前100个值&#xff0c;随即输出四个值 #include <stdio.h> int main () {double a1,b1; int i; for(i1;i<100;i) { printf("%-35.0lf%-35.0lf",a,b);if(i%20)printf("\n");aab;bba; } return 0; } 运行图

【Linux-阻塞,非阻塞,异步】

Linux-阻塞&#xff0c;非阻塞&#xff0c;异步 ■ Linux-阻塞-非阻塞 IO-异步■ Linux-阻塞IO■ 阻塞IO简介■ open■ 等待队列■ 示例一&#xff1a;APP阻塞IO读取进入睡眠后-等待队列唤醒进程■■ ■ Linux-非阻塞IO■ 非阻塞IO简介■ open■ 轮询■ 1、select 函数■ 2、po…

分享一个在linux中运行通义千问的方法

分享一个在linux中和通义千问交互的方法 效果展示: 整体步骤 分享一个在linux中和通义千问交互的方法效果展示:一、在阿里云appflow控制台创建连接流1、通过以下地址,在灵积平台创建个API-KEY,用于通义千问的连接凭证2、点击连接流-创建连接流3、第一步选择webhook4.第二步…

软件定义汽车,通信连接世界 | 2024汽车软件与通信大会开幕

5月28日-30日&#xff0c;在江苏省工业和信息化厅、智能汽车安全技术全国重点实验室指导下&#xff0c;由中国中检所属中国汽车工程研究院股份有限公司&#xff08;下称&#xff1a;中国汽研&#xff09;主办&#xff0c;中汽院(江苏)汽车工程研究院有限公司承办的2024汽车软件…

如何让大模型在智能时代背景下更加先进:一种基于时代特征的探讨

随着人工智能技术的飞速发展&#xff0c;大型模型如深度学习网络和强化学习算法已经在各个领域取得了显著的成果。然而&#xff0c;随着应用场景的不断扩展和复杂化&#xff0c;如何让这些大模型在智能时代背景下更加先进&#xff0c;已经成为了一个亟待解决的问题。本文将从以…

ESP32开发板定义硬串口

ESP32 的默认串口 UART序号Rx PINTx PIN是否可用UART0GPIO3GPIO1是UART1GPIO9GPIO10是&#xff0c; 但与SPI flash相关联需要重新定义UART2GPIO16GPIO17是 下面我们定义2、4GPIO引脚为串口1&#xff1a; #include <HardwareSerial.h> HardwareSerial S1(1); 初始化 …

【微服务】docker部署redis,一主二从三哨兵,读写分离

配置redis读写分离 3台虚拟机 创建目录用于挂载 mkdir -p /root/redis/{conf,data,logs} #master配置文件 bind 0.0.0.0 //任何ip都能访问 port 6379 //redis端口号 logfile "/data/redis.log" //日志文件存放位置&#xff0c;启动redis之前设置为空&#xff…

压测工具Jmeter的使用

一、安装 下载地址&#xff1a; 国外地址&#xff1a;jmeter.apache.org&#xff08;下载会很慢&#xff0c;建议使用国内地址&#xff09; 国内地址&#xff1a;apache-jmeter-binaries安装包下载_开源镜像站-阿里云 下载好进入bin文件下&#xff0c;双击jmeter.bat 打开…

小百科|软考(中、高项)是什么?考试难吗?考试时间是什么时候?

证书背景 软考全称是计算机技术与软件专业技术资格&#xff08;水平&#xff09;考试&#xff0c;简称“软考”。它是由我国两个国家级部门人力资源和社会保障部与工业和信息化部共同举办的国家级考试。其中系统集成项目管理工程师是中级资格考试&#xff08;简称中项&#xf…

java多态——向下转型

引入 前面我尝试了一下这个代码 package b;public class main_ {public static void main(String[] args) {//向上转型&#xff0c;父类的引用转向了子类的father_ animalnew graduate();Object objnew graduate();System.out.println(animal.name);System.out.println(obj.n…

神经网络-------人工神经网络

一、什么是神经网络和神经元 人工神经网络&#xff08;英语&#xff1a;Artificial Neural Network&#xff0c;ANN&#xff09;&#xff0c;简称 神经网络&#xff08;Neural Network&#xff0c;NN&#xff09;或 类神经网络&#xff0c;是一种模仿生物神经网络&#xff08;…

一图了解【电子面拦截】接口

【电子面拦截】又可以成为快递拦截 商品还在运输途中&#xff0c;买家申请仅退款、想修改地址怎么办&#xff1f; 百递云API开放平台最新推出「电子面单拦截」接口&#xff0c;提供三种拦截类型&#xff0c;助力快速拦截处理在途包裹。 下图带您了解&#x1f447;

网络报文协议头学习

vxlan&#xff1a;就是通过Vxlan_header头在原始报文前面套了一层UDPIP&#xff08;4/6&#xff09;Eth_hdr 需求背景&#xff1a;VXLAN&#xff1a;简述VXLAN的概念&#xff0c;网络模型及报文格式_vxlan报文格式-CSDN博客 如果服务器作为VTEP&#xff0c;那从服务器发送到接…

Android 车载 Audio 中 有关系统按键无声的问题排查小结

本文简单记录一下&#xff0c;车载中系统按键音的问题排查从 App --> FrameWork --> HAL层 的问题排查。 通过日志分析&#xff1a; AudioStreamOutSink 这个有数据写入到 HAL 中&#xff08;方式一&#xff09; 查看 dump 文件。&#xff08;方式二&#xff09; 先 …

HR人才测评,如何做中层管理人员的素质测评?

中层管理人员是企业中的重要力量&#xff0c;他们是连接高层管理和基层员工的桥梁&#xff0c;对企业的发展至关重要。因此&#xff0c;对中层管理人员的素质测评尤为重要。下面&#xff0c;我将介绍一些HR人才测评的方法和步骤&#xff0c;以帮助企业准确评估中层管理人员的素…

Golang:gin模板渲染base64图片出现#ZgotmplZ

目录 问题描述场景复现解决办法 问题描述 gin模板渲染base64图片出现#ZgotmplZ 场景复现 项目目录 main.go templates/index.htmlgin模板渲染base64图片 package mainimport ("net/http""github.com/gin-gonic/gin" )// base64图片 var imageUrl &qu…

数据结构栈(C语言Java语言的实现)相关习题

文章目录 栈概念以及代码实现例题[232. 用栈实现队列](https://leetcode.cn/problems/implement-queue-using-stacks/)[1614. 括号的最大嵌套深度](https://leetcode.cn/problems/maximum-nesting-depth-of-the-parentheses/)[234. 回文链表](https://leetcode.cn/problems/pal…