FIFO-Diffusion
- 介绍:FIFO-Diffusion 是一个创新的开源项目,它能够基于文本描述生成无限长度的高品质视频,而无需任何预先的模型训练。这一技术的核心在于其高效的内存管理策略和先进的扩散模型,使得即使是小型GPU配置也能轻松应对任务,极大扩展了创作者的可能性空间。
- GitHub星数:337
- GitHub地址:https://github.com/jjihwan/FIFO-Diffusion_public
AniTalker
- 介绍:AniTalker 是一个由上海交通大学 X-LANCE 实验室和思必驰 AISpeech 的研究人员共同开发的创新框架,它能够将单张静态人像和输入的音频转换成栩栩如生的动画对话视频。这个框架通过自监督学习策略捕捉面部的复杂动态,包括微妙的表情和头部动作。AniTalker 利用通用运动表示和身份解耦技术,减少了对标记数据的依赖,同时结合扩散模型和方差适配器,生成多样化和可控制的面部动画。
- GitHub星数:1.4k
- GitHub地址:https://github.com/X-LANCE/AniTalker
VoiceCraft
- 介绍:VoiceCraft 是一个由德克萨斯大学奥斯汀分校的研究团队开发的神经编解码器语言模型,专注于零样本语音编辑和文本到语音(TTS)任务。该模型采用Transformer架构,通过创新的token重排过程,结合因果掩蔽和延迟叠加技术,可零样本实现在现有音频序列内的高效生成。VoiceCraft在多种口音、风格和噪声条件下的语音编辑和TTS任务上展现出卓越性能,生成的语音自然甚至难以与原声区分。
- GitHub星数:7.5k
- GitHub地址:https://github.com/jasonppy/VoiceCraft
FarFalle
- 介绍:是一个开源的 AI 问答引擎,支持本地部署,并且可以与大型语言模型(LLM)如 llama3, gemma, mistral, phi3 等配合使用。它还支持云模型,如 Groq/Llama3, OpenAI/gpt4-o。Farfalle 提供了 Docker 和 Ollama 部署的支持,并且可以使用多个搜索提供商。用户需要下载支持的模型,并启动 Ollama 服务器。它还提供了获取 API 密钥的指南,并且有一个在线地址和项目地址 。
- GitHub星数:2.6k
- GitHub地址:https://github.com/rashadphz/farfalle
AnimateAnyone
- 介绍:AnimateAnyone 是由阿里巴巴智能计算研究院推出的一款开源框架,它能够将静态图像中的角色或人物进行动态化,生成高质量的动态视频。该框架在扩散模型的基础上,引入了 ReferenceNet、Pose Guider 姿态引导器和时序生成模块等技术,以实现照片动起来时保持一致性、可控性和稳定性。
- 论文地址:https://arxiv.org/pdf/2311.17117
- GitHub星数:14.4k
- GitHub地址:https://humanaigc.github.io/animate-anyone/
Insanely Fast Whisper
- 介绍:基于 OpenAI 的 Whisper 模型,并结合了 Hugging Face 的 Transformers 库、Optimum 库以及 Flash Attention 技术,提供了极快的音频转录速度。这个项目的目标是利用设备端的命令行界面(CLI)来转录音频文件,能够在极短的时间内完成大量音频的转录任务。
- GitHub星数:7.4k
- GitHub地址:https://github.com/Vaibhavs10/insanely-fast-whisper
MLX
- 介绍:MLX 是一个专为苹果芯片设计的机器学习数组框架,由 Apple 的机器学习研究团队开发。它旨在提供一个既简单易用又高效的研究环境,让研究人员能够快速探索和实现新的算法思想。MLX 的设计灵感来源于 NumPy、PyTorch、Jax 以及 ArrayFire 等知名库,并在此基础上进行了创新和优化。
- GitHub星数:16.5k
- GitHub地址:https://github.com/ml-explore/mlx
GPT-SoVits
- 介绍:GPT-SoVITS 是一个开源的声音克隆项目,由 RVC 变声器创始人“花儿不哭”与 AI 音色转换技术 Sovits 开发者 Rcell 联合开发。这个工具结合了 GPT(Generative Pre-trained Transformer)模型和 SoVITS 变声器技术,能够通过少量的样本数据实现高质量的语音克隆和文本到语音转换(TTS)。它特别适合需要快速生成特定人声的场景,能够在没有或只有少量目标说话人语音样本的情况下,训练出能够模仿该说话人声音的模型。
- GitHub星数:32.8k
- GitHub地址:https://github.com/RVC-Boss/GPT-SoVITS
Umi-OCR
- 介绍:Umi-OCR 是一款免费、开源的离线OCR软件,它基于 PaddleOCR 技术构建,适用于 Windows7 x64 及以上版本,并且支持多国语言的文字识别。
- GitHub星数:25.6k
- GitHub地址:https://github.com/hiroi-sora/Umi-OCR
AI Gateway
- 介绍:AI Gateway 是一个用于管理和扩展生成式 AI 工作负载的统一接口,它允许开发人员监控和控制 AI 应用程序。Cloudflare 最近宣布 AI Gateway 已普遍可用,它作为一个 AIOps 平台,提供了对生成式 AI 工作负载的管理和扩展能力。AI Gateway 作为服务和推理提供者之间的代理,无论模型位于何处,都能够进行有效的管理和优化。
- GitHub星数:5.9k
- GitHub地址:https://github.com/Portkey-AI/gateway
Parler-TTS
- 介绍:Parler-TTS 是一个由 Hugging Face 开发的轻量级文本转语音(TTS)模型,能够根据给定的说话者风格(包括性别、音调、说话风格等)生成高质量、自然听起来的语音。这个模型是基于 Dan Lyth 和 Simon King 的研究工作,他们分别来自 Stability AI 和爱丁堡大学。Parler-TTS 的特点是完全开源,包括数据集、预处理、训练代码和权重,这使得社区可以在此基础上进一步开发和创新。
- GitHub星数:4.2k
- GitHub地址:https://github.com/huggingface/parler-tts
MiniCPM-V
- 介绍:MiniCPM-V 是由面壁智能和清华大学自然语言处理实验室共同开发的一系列端侧多模态大模型,它们在图像和文本的理解方面展现出了卓越的性能
- GitHub星数:12k
- GitHub地址:https://github.com/OpenBMB/MiniCPM-V
TikTokDownloader
- 介绍:TikTokDownloader 是一个开源工具,它允许用户从抖音和 TikTok 平台下载无水印的视频、图集和直播内容。
- GitHub星数:7.5k
- GitHub地址:https://github.com/JoeanAmier/TikTokDownloader
Qwen2-Audio
- 介绍:Qwen2-Audio 是由阿里通义千问团队推出的一款开源 AI 语音模型,它支持直接语音输入和多语言文本输出。该模型具备语音聊天和音频分析的功能,能够理解和回应语音指令,支持超过8种语言,包括中文、英语、粤语、法语等。Qwen2-Audio 在多个基准数据集上的表现超越了先前的模型,显示出其卓越的性能。
- GitHub星数:1.1k
- GitHub地址:https://github.com/QwenLM/Qwen2-Audio