GitHub 上高星 AI 开源项目推荐

GitHub 上高星 AI 开源项目推荐

news2026/2/15 8:21:52

FIFO-Diffusion

介绍：FIFO-Diffusion 是一个创新的开源项目，它能够基于文本描述生成无限长度的高品质视频，而无需任何预先的模型训练。这一技术的核心在于其高效的内存管理策略和先进的扩散模型，使得即使是小型GPU配置也能轻松应对任务，极大扩展了创作者的可能性空间。
GitHub星数：337
GitHub地址：https://github.com/jjihwan/FIFO-Diffusion_public

AniTalker

介绍：AniTalker 是一个由上海交通大学 X-LANCE 实验室和思必驰 AISpeech 的研究人员共同开发的创新框架，它能够将单张静态人像和输入的音频转换成栩栩如生的动画对话视频。这个框架通过自监督学习策略捕捉面部的复杂动态，包括微妙的表情和头部动作。AniTalker 利用通用运动表示和身份解耦技术，减少了对标记数据的依赖，同时结合扩散模型和方差适配器，生成多样化和可控制的面部动画。
GitHub星数：1.4k
GitHub地址：https://github.com/X-LANCE/AniTalker

VoiceCraft

介绍：VoiceCraft 是一个由德克萨斯大学奥斯汀分校的研究团队开发的神经编解码器语言模型，专注于零样本语音编辑和文本到语音（TTS）任务。该模型采用Transformer架构，通过创新的token重排过程，结合因果掩蔽和延迟叠加技术，可零样本实现在现有音频序列内的高效生成。VoiceCraft在多种口音、风格和噪声条件下的语音编辑和TTS任务上展现出卓越性能，生成的语音自然甚至难以与原声区分。
GitHub星数：7.5k
GitHub地址：https://github.com/jasonppy/VoiceCraft

FarFalle

介绍：是一个开源的 AI 问答引擎，支持本地部署，并且可以与大型语言模型（LLM）如 llama3, gemma, mistral, phi3 等配合使用。它还支持云模型，如 Groq/Llama3, OpenAI/gpt4-o。Farfalle 提供了 Docker 和 Ollama 部署的支持，并且可以使用多个搜索提供商。用户需要下载支持的模型，并启动 Ollama 服务器。它还提供了获取 API 密钥的指南，并且有一个在线地址和项目地址。
GitHub星数：2.6k
GitHub地址：https://github.com/rashadphz/farfalle

AnimateAnyone

介绍：AnimateAnyone 是由阿里巴巴智能计算研究院推出的一款开源框架，它能够将静态图像中的角色或人物进行动态化，生成高质量的动态视频。该框架在扩散模型的基础上，引入了 ReferenceNet、Pose Guider 姿态引导器和时序生成模块等技术，以实现照片动起来时保持一致性、可控性和稳定性。
论文地址：https://arxiv.org/pdf/2311.17117
GitHub星数：14.4k
GitHub地址：https://humanaigc.github.io/animate-anyone/

Insanely Fast Whisper

介绍：基于 OpenAI 的 Whisper 模型，并结合了 Hugging Face 的 Transformers 库、Optimum 库以及 Flash Attention 技术，提供了极快的音频转录速度。这个项目的目标是利用设备端的命令行界面（CLI）来转录音频文件，能够在极短的时间内完成大量音频的转录任务。
GitHub星数：7.4k
GitHub地址：https://github.com/Vaibhavs10/insanely-fast-whisper

MLX

介绍：MLX 是一个专为苹果芯片设计的机器学习数组框架，由 Apple 的机器学习研究团队开发。它旨在提供一个既简单易用又高效的研究环境，让研究人员能够快速探索和实现新的算法思想。MLX 的设计灵感来源于 NumPy、PyTorch、Jax 以及 ArrayFire 等知名库，并在此基础上进行了创新和优化。
GitHub星数：16.5k
GitHub地址：https://github.com/ml-explore/mlx

GPT-SoVits

介绍：GPT-SoVITS 是一个开源的声音克隆项目，由 RVC 变声器创始人“花儿不哭”与 AI 音色转换技术 Sovits 开发者 Rcell 联合开发。这个工具结合了 GPT（Generative Pre-trained Transformer）模型和 SoVITS 变声器技术，能够通过少量的样本数据实现高质量的语音克隆和文本到语音转换（TTS）。它特别适合需要快速生成特定人声的场景，能够在没有或只有少量目标说话人语音样本的情况下，训练出能够模仿该说话人声音的模型。
GitHub星数：32.8k
GitHub地址：https://github.com/RVC-Boss/GPT-SoVITS

Umi-OCR

介绍：Umi-OCR 是一款免费、开源的离线OCR软件，它基于 PaddleOCR 技术构建，适用于 Windows7 x64 及以上版本，并且支持多国语言的文字识别。
GitHub星数：25.6k
GitHub地址：https://github.com/hiroi-sora/Umi-OCR

AI Gateway

介绍：AI Gateway 是一个用于管理和扩展生成式 AI 工作负载的统一接口，它允许开发人员监控和控制 AI 应用程序。Cloudflare 最近宣布 AI Gateway 已普遍可用，它作为一个 AIOps 平台，提供了对生成式 AI 工作负载的管理和扩展能力。AI Gateway 作为服务和推理提供者之间的代理，无论模型位于何处，都能够进行有效的管理和优化。
GitHub星数：5.9k
GitHub地址：https://github.com/Portkey-AI/gateway

Parler-TTS

介绍：Parler-TTS 是一个由 Hugging Face 开发的轻量级文本转语音（TTS）模型，能够根据给定的说话者风格（包括性别、音调、说话风格等）生成高质量、自然听起来的语音。这个模型是基于 Dan Lyth 和 Simon King 的研究工作，他们分别来自 Stability AI 和爱丁堡大学。Parler-TTS 的特点是完全开源，包括数据集、预处理、训练代码和权重，这使得社区可以在此基础上进一步开发和创新。
GitHub星数：4.2k
GitHub地址：https://github.com/huggingface/parler-tts

MiniCPM-V

介绍：MiniCPM-V 是由面壁智能和清华大学自然语言处理实验室共同开发的一系列端侧多模态大模型，它们在图像和文本的理解方面展现出了卓越的性能
GitHub星数：12k
GitHub地址：https://github.com/OpenBMB/MiniCPM-V

TikTokDownloader

介绍：TikTokDownloader 是一个开源工具，它允许用户从抖音和 TikTok 平台下载无水印的视频、图集和直播内容。
GitHub星数：7.5k
GitHub地址：https://github.com/JoeanAmier/TikTokDownloader

Qwen2-Audio

介绍：Qwen2-Audio 是由阿里通义千问团队推出的一款开源 AI 语音模型，它支持直接语音输入和多语言文本输出。该模型具备语音聊天和音频分析的功能，能够理解和回应语音指令，支持超过8种语言，包括中文、英语、粤语、法语等。Qwen2-Audio 在多个基准数据集上的表现超越了先前的模型，显示出其卓越的性能。
GitHub星数：1.1k
GitHub地址：https://github.com/QwenLM/Qwen2-Audio

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2155260.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

1018. 可被 5 整除的二进制前缀

1018. 可被 5 整除的二进制前缀

目录一：题目： 二：代码： 三：结果： 一：题目： 给定一个二进制数组 nums ( 索引从0开始 )。我们将xi 定义为其二进制表示形式为子数组 nums[0..i] (从最高有效位到最低有效位)。 …

阅读更多...

数据结构之栈（python）

数据结构之栈（python）

栈（顺序栈与链栈） 1.栈存储结构1.1栈的基本介绍1.2进栈和出栈1.3栈的具体实现1.4栈的应用例一例二例三 2.顺序栈及基本操作（包含入栈和出栈）2.1顺序栈的基础介绍2.2顺序栈元素入栈2.3顺序栈元素出栈2.4顺序栈的表示和实现 3.链栈及…

阅读更多...

IDEA去除掉虚线，波浪线，和下划线实线的方法

IDEA去除掉虚线，波浪线，和下划线实线的方法

初次安装使用IDEA，总是能看到导入代码后，出现很多的波浪线，下划线和虚线，这是IDEA给我们的一些提示和警告，但是有时候我们并不需要，反而会让人看着很不爽，这里简单记录一下自己的调整方法&#…

阅读更多...

Linux：权限管理

Linux：权限管理

基本权限和归属权限和归属基本权限与归属 • 访问权限 – 读取：允许查看内容-read – 写入：允许修改内容-write – 可执行：允许运行和切换-excute对于文本文件：r读取权限：cat、less、grep、head、tailw写入权限&am…

阅读更多...

linux下共享内存的3种使用方式

linux下共享内存的3种使用方式

进程是资源封装的单位，内存就是进程所封装的资源的一种。一般情况下，进程间的内存是相互隔离的，也就是说一个进程不能访问另一个进程的内存。如果一个进程想要访问另一个进程的内存，那么必须要进过内核这个桥梁，这就是…

阅读更多...

中国雕塑—孙溟㠭凿刻印《自然贼》

中国雕塑—孙溟㠭凿刻印《自然贼》

中国雕塑孙溟㠭凿刻作品《自然贼》孙溟㠭凿刻印《自然贼》遵循自然之法谓之道，脱离自然之道谓之贼，道法自然。丙申秋月溟展刊。孙溟㠭凿刻印《自然贼》这方《自然贼》，红木章料，半尺见方，自然古朴，浑…

阅读更多...

摆脱困境并在iPhone手机上取回删除照片的所有解决方案

摆脱困境并在iPhone手机上取回删除照片的所有解决方案

您是否无意中从 iPhone 中删除了照片？您，无需惊慌，因为您可以使用以下方法恢复所有照片。如果您长时间使用 iPhone，您应该知道 iOS 提供了许多 Android 不提供的备份功能。例如，您的所有照片都会自动备份到 iCloud 存…

阅读更多...

【机器学习(七)】分类和回归任务-K-近邻 (KNN)算法-Sentosa_DSML社区版

【机器学习(七)】分类和回归任务-K-近邻 (KNN)算法-Sentosa_DSML社区版

文章目录一、算法概念二、算法原理（一）K值选择（二）距离度量1、欧式距离2、曼哈顿距离3、闵可夫斯基距离 （三）决策规则1、分类决策规则2、回归决策规则三、算法优缺点优点缺点四、KNN分类任务实现对比&am…

阅读更多...

音视频生态下Unity3D和虚幻引擎（Unreal Engine）的区别

音视频生态下Unity3D和虚幻引擎（Unreal Engine）的区别

技术背景好多开发者跟我们做技术交流的时候，会问我们，为什么有Unity3D的RTMP|RTSP播放模块，还有RTMP推送和轻量级RTSP服务模块，为什么不去支持虚幻引擎？二者区别在哪里？本文就Unity3D和虚幻引擎之间的差异…

阅读更多...

idea上传jar包到nexus

idea上传jar包到nexus

注意：确保idea中项目为maven项目，并且在nexus中已经创建了maven私服。 1、配置pom.xml中推送代码配置 <distributionManagement> <repository> <id>releases</id> <url>http://127.0.0.1:8001/repository/myRelease/<…

阅读更多...

鼻咽癌中三级淋巴结构的单细胞与空间转录组分析｜文献精析·24-09-22

鼻咽癌中三级淋巴结构的单细胞与空间转录组分析｜文献精析·24-09-22

小罗碎碎念研究团队通过单细胞和空间转录组分析，揭示了与鼻咽癌进展和免疫治疗反应相关的三级淋巴结构。作者角色作者姓名单位（中文）第一作者Yang Liu/通讯作者Jin-Xin Bei国家癌症中心南方肿瘤学重点实验室，鼻咽癌诊断治疗广东…

阅读更多...

$机器学习04-逻辑回归（python）-02原理与损失函数$

机器学习04-逻辑回归（python）-02原理与损失函数

1. 逻辑回归概念逻辑回归（Logistic Regression） 是一种分类模型，主要用于解决二分类问题（即分成两类，如是否通过、是否患病等）。逻辑回归的目标是根据输入的特征预测一个概率&#xff0…

阅读更多...

C++——关联式容器（4）：set和map

C++——关联式容器（4）：set和map

在接触了诸如二叉搜索树、AVL树、红黑树的树形结构之后，我们对树的结构有了大致的了解，现在引入真正的关联式容器。首先，先明确了关联式容器的概念。我们之前所接触到的如vector、list等容器，我们知道他们实际上都是线性的数据结…

阅读更多...

C++门迷宫

C++门迷宫

目录开头程序程序的流程图程序游玩的效果下一篇博客要说的东西开头大家好，我叫这是我58。程序 #include <iostream> using namespace std; void printmaze(const char strmaze[11][11]) {int i 0;int ia 0;for (; i < 11; i) {for (ia 0; ia <…

阅读更多...

部署林风社交论坛/社交论坛linfeng-community遇到问题集合

部署林风社交论坛/社交论坛linfeng-community遇到问题集合

部署开源版本遇到的问题 1.管理端前端部署 npm install报错 “ERR! gyp verb ensuring that file exists: C:\Python27\python.exe” “ERR! gyp ERR! node -v v20.10.0” “ ERR! gyp ERR! node-gyp -v v3.8.0” 原因:node版本和node-gyp版本不匹配解决方法: 1&…

阅读更多...

航拍房屋检测系统源码分享

航拍房屋检测系统源码分享

航拍房屋检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer Vis…

阅读更多...

基于stm32物联网身体健康检测系统

基于stm32物联网身体健康检测系统

在当今社会，由于经济的发展带来了人们生活水平不断提高，但是人们的健康问题却越来越突出了，各种各样的亚健康随处可在，失眠、抑郁、焦虑症，高血压、高血糖等等侵袭着人们的健康，人们对健康的关注达到了一个…

阅读更多...

职业发展如何进入人工智能领域

职业发展如何进入人工智能领域

基础知识和技能进入人工智能领域需要学习一系列的基础知识和技能，以下是一些关键的步骤和领域： 基础数学知识：人工智能领域涉及到大量的数学概念，包括线性代数、概率论、统计学和微积分。这些数学工具对于理解和设计算法至关重要…

阅读更多...

Java流程控制语句——跳转语句详解：break 与 continue 有什么区别？

Java流程控制语句——跳转语句详解：break 与 continue 有什么区别？

🌐在Java编程中，break和continue是两个重要的控制流语句，它们允许开发者根据特定条件改变程序的执行流程。虽然两者都用于中断当前的行为，但它们的作用方式不同。本文将通过生动的例子来详细解释这两个语句，并使用流程…

阅读更多...

[Redis][Set]详细讲解

[Redis][Set]详细讲解

目录 0.前言1.常用命令1.SADD2.SMEMBERS3.SISMEMBER4.SCARD5.SPOP6.SMOVE7.SREM 2.集合间操作0.是什么？1.SINTER2.SINTERSTORE3.SUNION4.SUNIONSTORE5.SDIFF6.SDIFFSTORE 3.内部编码1.intset(整数集合)2.hashtable(哈希表) 4.使用场景 0.前言集合类型也是保存多个字…

阅读更多...

推荐文章

最新文章