✨ 1: Digital Human Intelligent Dialogue System
Linly-Talker是一个集成多种AI技术、支持图像和语音的智能交互对话系统。
Digital Human Intelligent Dialogue System,即数字人智能对话系统,是一个集成了最新人工智能技术的创新平台。该系统通过整合大型语言模型(LLM)、自动语音识别(ASR)、文本到语音转换(TTS)以及语音克隆技术,提供了一个互动的Web界面,允许用户上传图像并与AI进行个性化对话。Linly-Talker是其中具有代表性的一个系统。
多模型集成:Linly-Talker整合了诸如Linly、GeminiPro、Qwen等主要模型,以及视觉模型如Whisper和SadTalker,以实现高质量的对话和视觉生成。
多轮对话能力:通过GPT模型实现的多轮对话系统,Linly-Talker能够理解并维护上下文相关和连贯的对话,显著增强了互动的真实性。
语音克隆:利用如GPT-SoVITS等技术,用户可以上传一分钟的语音样本进行微调,系统将克隆用户的声音,使数字人在对话中使用用户的声音。
实时互动:支持实时语音识别和视频字幕,允许用户通过语音自然地与数字人交流。
视觉增强:利用数字人生成技术,Linly-Talker能够创建逼真的数字人头像,提供更沉浸的体验。
地址:https://github.com/Kedreamix/Linly-Talker
✨ 2: LivePortrait
通过拼接和重定位控制实现高效肖像动画
LivePortrait 是一个高效的肖像动画工具,通过拼接和重定向控制实现。
LivePortrait 能够对肖像图像进行动画处理,生成动态视频效果。它基于PyTorch实现,结合了多种开源技术(B如FOMM、Open Facevid2vid、SPADE、InsightFace等),在生成过程中使用了多个预训练模型。
地址:https://github.com/KwaiVGI/LivePortrait
✨ 3: GraphRAG Accelerator
GraphRAG Accelerator是一个基于Azure的API加速器,用于索引和查询知识图谱。
GraphRAG Accelerator 是一个解决方案加速器,它建立在 graphrag Python 包之上,并通过在 Azure 上托管的 API 端点进行扩展。这个加速器可以用来触发索引管道,并启用 graphrag 知识图谱的查询功能。
企业知识管理:通过构建和查询企业内部的知识图谱,有效管理和利用企业知识资源。
数据分析和智能推荐:在数据密集型应用中,如电子商务或内容推荐系统,利用知识图谱进行用户行为分析和个性化推荐。
研究和教育:在学术研究和教育领域,通过知识图谱检索和组织复杂的研究信息和文献。
医疗健康:在医疗健康行业,应用知识图谱进行疾病研究、药物发现和个性化医疗方案的开发。
地址:https://github.com/Azure-Samples/graphrag-accelerator
✨ 4: GPT-API-free
GPT-API-free是一个提供包括GPT-4在内多种OpenAI模型的API服务,免费直连国内无需代理。
GPT-API-free 是一个支持多种 OpenAI 模型的 API 平台,包括 GPT-4、GPT-3.5-Turbo、GPT-3.5-Turbo-16K、嵌入模型(embeddings)、DALL·E、Whisper 和 text-davinci。它提供国内动态加速服务,用户无需代理即可直连使用。
地址:https://github.com/chatanywhere/GPT_API_free
✨ 5: Anole
Anole是一个开源的多模态模型,能够生成交错的图像和文本。
Anole是一个开源、自回归并原生训练的大型多模态模型,可实现交错的图文生成。它不仅继承了Chameleon的优点,还特别擅长生成交替出现的文字和图片。Anole通过对约6000张图片的数据集进行微调,以极少的额外训练实现了出色的图像生成和理解能力,从而促进多模态AI的研究和开发。
地址:https://github.com/GAIR-NLP/anole
更多AI工具,参考国内AiBard123,Github-AiBard123 公众号:每日AI新工具