本地化AI语音聊天voicechat2;改进版的Whisper模型,速度快50%;多代理创建儿童图画书

news2024/9/28 1:23:33

✨ 1: voicechat2

voicechat2是一款使用WebSockets进行快速、本地化AI语音聊天的软件。

在这里插入图片描述

Voicechat2 是一个快速、完全本地化的AI语音聊天系统,采用WebSockets技术。它运行在高性能硬件上,例如7900级的AMD RDNA3显卡或4090显卡,可以实现低至1秒甚至300毫秒的语音到语音延迟。它使用了多个先进的AI模型和工具,包括Whisper、Llama和Coqui TTS。

人机对话:实现与AI助手的实时语音互动,如智能客服、AI陪聊等。
教育培训:实时语音指导和解答问题,为学生提供即时反馈。
远程工作和会议:提高线上沟通效率,减少语音延迟,保证会议的流畅进行。
游戏:在多人联机游戏中进行实时语音交流,提升游戏体验。

地址:https://github.com/lhl/voicechat2

✨ 2: Real-time Live Streaming Digital Human

实时直播数字人通过少样本学习在30和40系列显卡上流畅运行,提供交互体验。

在这里插入图片描述

实时直播数字人(Real-time Live Streaming Digital Human) 是一项基于少样本学习技术的项目,旨在提供流畅且互动性强的直播体验。该系统能够在NVIDIA 30和40系列显卡上高效运行,实现每秒25帧以上的实时性能。

地址:https://github.com/kleinlee/DH_live

✨ 3: Whisper Medusa

Whisper Medusa 是改进版的Whisper模型,通过每次迭代预测多个标记加速语音转录,速度比 OpenAI 的 Whisper 快 50%,由以色列公司 aiOla 推出。

在这里插入图片描述

Whisper Medusa

Whisper Medusa是基于Whisper模型的一种高级编码器-解码器模型,用于语音转录和翻译。通过在每次迭代中预测多个标记(tokens),Whisper Medusa显著提高了推理速度,同时只带来少量的词错误率(WER)下降。模型在LibriSpeech数据集上进行训练和评估,表现出强大的速度和准确性。

地址:https://github.com/aiola-lab/whisper-medusa

✨ 4: Agentic Story Book Workflow

Agentic Story Book Workflow 是一个基于AutoGen的多代理流程,用于创建儿童图画书。

在这里插入图片描述

Agentic Story Book Workflow是一个基于AutoGen的多代理工作流程框架,旨在为儿童创作图画书。

该框架涉及不同的多代理协作方法,以下是其主要流程:

用户交互:User_Proxy代表用户,与Receptionist沟通以收集用户需求。
内容创作:通过GroupChat机制协作,各GroupChat有一个GroupChat Manager协调当前的对话者。在内容创作角色(如Story Editor、Storyboard Editor、Prompt Editor)中,设有Agent负责审查内容。如审查不过,GroupManager将其退回编辑者修改。
生成图像/视频/PPT:这一阶段由独立的Image Creator Agent处理,其内部包含两个子代理:一个负责AI图像生成,另一个负责审查生成的图像。

地址:https://github.com/breakstring/Agentic_Story_Book_Workflow

✨ 5: LiYing

自动化完成一般照相馆后期流程的照片自动处理

在这里插入图片描述

LiYing 是一套用于自动化证件照后期处理的程序,可以自动识别人体、人脸,纠正角度,更换背景,裁切证件照,离线运行。用户可以通过整合包或从源码构建使用该程序,同时需要下载相关模型。具体运行方式可通过CLI参数配置,也可以自定义证件照类型。程序制作初衷是为了帮助父母更轻松地完成工作。

地址:https://github.com/aoguai/LiYing



更多AI工具,参考国内AiBard123,Github-AiBard123 公众号:每日AI新工具

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1980897.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

最全面的Python重点知识汇总,建议收藏!

Py2 VS Py3 print成为了函数,python2是关键字 不再有unicode对象,默认str就是unicode python3除号返回浮点数 没有了long类型 xrange不存在,range替代了xrange 可以使用中文定义函数名变量名 高级解包 和*解包 限定关键字参数 *后的变…

【区块链+医疗健康】国家儿童医学中心互联网 + 肾脏专科联盟服务平台 | FISCO BCOS应用案例

医疗资源结构的失衡在儿科领域尤为突出,供需矛盾突出。由于肾脏病等疑难病的特殊性,加之儿童疾病诊断的 复杂性,其诊治过程可谓“难上加难”。一些基层儿童医院由于缺乏专业的医疗团队、特殊的辅助检查手段以及 基因测序等前沿技术的支撑&…

代码随想录算法训练营第二十四天| 455.分发饼干, 376. 摆动序列 , 53. 最大子序和

今天是贪心算法学习的第一天,主要的学习内容有:贪心算法的理论基础,以及如何通过局部最优解推导全局最优解。 对于贪心的理论基础,贪心算法并没有固定的模板和套路,对于贪心算法的题目其实就是一种模拟题,…

从常春藤精英到阶下囚:加密货币行业丑闻频发,责任在「名校情节」?

撰文:Muyao Shen,彭博社 编译:Yangz,Techub News 似乎每当加密货币行业出现丑闻时,涉案者大都有着常春藤联盟大学或其他名校学位。本文简单整理了加密货币行业的「脏衣篓」,翻出了好多名校 T 恤。 就在本周…

UE5 UC++流式请求 || Varest流式调用Coze(但一次性回复,不太推荐)

文章仅供参考。C调用的是公司后台的接口,博主未尝试用C调用Coze的接口,需要补充更多的代码。 ———— C #include "HttpModule.h" #include "HttpManager.h" #include "Http.h"DECLARE_DYNAMIC_MULTICAST_DELEGATE_O…

星座运势网源码/星座屋接口/星座配对网站PHP程序带采集

星座运势网源码/星座屋接口/星座配对网站PHP程序带采集 演示站: https://xz.wengu8.com/ 程序说明: 1、前端模板PC手机端自适应。 2、每日运势/当月/当年星座运势调用星座屋API接口,每天只采集一次接口,后保存到本地调用本地…

ThreeJs控制模型骨骼实现数字人

之前章节有讲过ThreeJs加载pmd模型和vmd动作文件,实现动画人物根据vmd中的动作跳舞,不过缺点是只能按照文件中指定动作跳舞,如果要让一个模型做出多种动作的话,就需要做很多个动作文件,如果动作文件很多,加…

算力共享:forward_to_next_shard,process_prompt推断之间的链接map_partitions_to_shards

目录 forward_to_next_shard 参数 函数逻辑 _process_prompt StandardNode get_current_shard map_partitions_to_shards forward_to_next_shard 这段代码定义了一个名为 forward_to_next_shard 的异步函数,它是设计用于在分布式模型或数据处理系统中的节点(或称为“分…

SpringBoot基本原理,轻松应对面试官 - 第522篇

《国内最全的Spring Boot系列之一》 《国内最全的Spring Boot系列之二》 《国内最全的Spring Boot系列之三》 《国内最全的Spring Boot系列之四》 《国内最全的Spring Boot系列之五》 《国内最全的Spring Boot系列之六》 《国内最全的Spring Boot系列之七》 Noisee AI中…

C语言自定义类型联合体与枚举超详解

文章目录 1. 联合体1. 1 联合体类型的声明1. 2 联合体的特点1. 3 相同成员的结构体和联合体对比1. 4 联合体大小的计算1. 5 联合体的练习 2. 枚举2. 1 枚举类型的声明2. 2 枚举类型的优点2. 3 枚举类型的使用2. 4 枚举类型的实际使用 1. 联合体 1. 1 联合体类型的声明 像结构…

无线定位测距传输无延迟,飞睿智能超宽带uwb sip芯片,商显TV遥控器丝滑操控

在这个日新月异的智能时代,每一项技术的创新都如同星辰般璀璨,创新着我们的生活向更加便捷、高效的方向迈进。今天,让我们聚焦于一项正悄然改变商业显示(商显)领域游戏规则的黑科技——飞睿智能超宽带(Ultr…

阿里云SMS服务C++ SDK编译及调试关键点记录

一. 阿里云SMS服务开通及准备工作 在阿里云官网上完成这部分的工作 1. 申请资质 个人or企业 我这里是用的企业资质 2. 申请签名 企业资质认证成功后,会自动赠送一个用于测试的短信签名 也可以自己再进行申请,需要等待审核。 3. 申请短信模板 企…

雷达气象学(0)——雷达的基本知识

文章目录 0.1 天气雷达的工作原理0.1.1 雷达的工作原理0.1.2 雷达的测距原理0.1.3 雷达的测角原理 0.2 天气雷达的种类0.3 我国新一代天气雷达系统简介0.3.1 我国天气雷达发展简史0.3.2 我国新一代天气雷达的型号命名0.3.3 补充:美国天气雷达的发展简史 0.4 天气雷达…

网络安全之sql靶场(1-10)

sql靶场(1-10) 第一关(字符型注入) 判断注入是否存在 http://127.0.0.1/sqllabs/Less-1/?id1 判断sql语句是否拼接 http://127.0.0.1/sqllabs/Less-1/?id1 http://127.0.0.1/sqllabs/Less-1/?id1-- 可以根据结果指定是字符…

Stable Diffusion WebUI 1.10.0来了

大家好,我是每天分享AI应用的萤火君! 前几天 AUTOMATIC1111 发布了Stable Diffusion WebUI 1.10,我也在第一时间将云环境的镜像升级到了最新版本,有兴趣的同学可以去体验下,目前已经发布到了AutoDL,镜像地…

黑马Java零基础视频教程精华部分_13_包装类

系列文章目录 《黑马Java零基础视频教程精华部分》系列文章目录 黑马Java零基础视频教程精华部分_1_JDK、JRE、字面量、JAVA运算符 黑马Java零基础视频教程精华部分_2_顺序结构、分支结构、循环结构 黑马Java零基础视频教程精华部分_3_无限循环、跳转控制语句、数组、方法 黑…

【C++】tinygltf基本使用方法

一、前言 网上的教程均为搭配opengl使用,如果单纯想读取模型数据,资料就比较少了。先放出相关链接: 1、gltf规范文档:glTF™ 2.0 Specification (khronos.org) 2、gltf在线模型查看器 :glTF Viewer (donmccur…

基于FPGA的数字信号处理(21)--超前进位加法器(Carry Lookahead Adder,CLA)

目录 1、什么是超前进位加法器 2、CLA加法器的关键路径 3、CLA加法器的Verilog实现 4、CLA加法器的时序性能 5、总结 文章总目录点这里:《基于FPGA的数字信号处理》专栏的导航与说明 1、什么是超前进位加法器 在之前的文章,我们介绍了行波进位加法器…

通过Sm@rtServer远程访问西门子触摸屏的具体方法示例

通过Sm@rtServer远程访问西门子触摸屏的具体方法示例 配置组态 CPU 1513-F 6ES7 513-1FL02-0AB0 TP1200 精智面板 6AV2 124-0MC01-0AX0 TIA PORTAL V16 具体步骤可参考以下内容: 在TIA项目树中,打开HMI菜单,点击‘运行系统设置’→‘服务’→勾选远程控制中的‘启动Sm@rtSer…

探索GPT-4o mini:开启AI驱动的开发新时代

文章目录 GPT-4o mini:小身材,大能量成本与效能的完美平衡 AI辅助开发:从构想到现实自动化文档编写智能代码审查 提升创新能力:AI驱动的新常态模型驱动的设计思维 社区共享与合作知识共享的重要性 未来展望:AI与人类的…