自ChatGPT为代表的大语言模型 (大型语言模型,LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的法学开源之后,业界涌现了非常多基于法学的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100 + 个!
如果本项目能给您带来一点点帮助,麻烦点个⭐️ 吧 ~
同时也欢迎大家贡献本项目未收录的开源模型、应用、数据集等。提供新的仓库信息请发起公关、并按照本项目的格式提供仓库链接、明星数、简介等相关信息、感谢 ~
常见底座模型细节概览:
底座 | 包含模型 | 模型参数大小 | 训练令牌数 | 训练最大长度 | 是否可商用 |
---|---|---|---|---|---|
ChatGLM | ChatGLM/2/3 Base & Chat | 6B | 1T/1.4 | 2K/32K | 可商用 |
美洲驼 | LLaMA/2/3基地和聊天 | 7B/8B/13B/33B/70B | 1T/2T | 2k/4k | 部分可商用 |
百川 | 百川/2基地 & 聊天 | 7B/13B | 1.2T/1.4T | 4k | 可商用 |
Qwen | Qwen/1.5 Base & Chat | 7B/14B/72B/110B | 2.2T/3T | 8k/32k | 可商用 |
布卢姆 | 布卢姆 | 1B/7B/176B-MT | 1.5T | 2k | 可商用 |
天鹰座 | 天鹰座/2基地/聊天 | 7B/34B | - | 2k | 可商用 |
InternLM | InternLM/2基本/聊天/代码 | 7B/20B | - | 200k | 可商用 |
混合 | 基地和聊天 | 8x7B | - | 32k | 可商用 |
彝族 | 基地和聊天 | 6B/9B/34B | 3T | 200k | 可商用 |
DeepSeek | 基地和聊天 | 1.3B/7B/33B/67B | - | 4k | 可商用 |
XVERSE | 基地和聊天 | 7B/13B/65B/A4.2B | 2.6T/3.2T | 8k/16k/256k | 可商用 |
目录
- 目录
- 1. 模型
- 1.1文本LLM模型
- 1.2多模态LLM模型
- 2. 应用
- 2.1垂直领域微调
- 医疗
- 法律
- 金融
- 教育
- 科技
- 电商
- 网络安全
- 农业
- 2.2 LangChain应用
- 2.3其他应用
- 2.1垂直领域微调
- 3. 数据集
- 预训练数据集
- SFT数据集
- 偏好数据集
- 4. LLM训练微调框架
- 5. LLM推理部署框架
- 6.法学硕士评测
- 7.法学硕士教程
- 法学基础知识
- 提示工程教程
- 法学应用教程
- 法学实战教程
- 8. 相关仓库
- 1. 模型
- 明星历史
1.模型
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
1.1文本LLM模型
- ChatGLM:
- 地址:https://github.com/THUDM/ ChatGLM-6B
- 简介:中文领域效果最好的开源底座模型之一,针对中文问答和对话进行了优化。经过约1t标识符的中英双语训练,辅以监督微调,反馈自助,人类反馈强化学习等技术的加持
- ChatGLM2-6B
- 地址:https://github.com/THUDM/ ChatGLM2-6B
- 简介:基于开源中英双语对话模型ChatGLM-6B的第二代版本,在保留了初代模型对话流畅,部署门槛较低等众多优秀特性的基础之上,引入了GLM的混合目标函数,经过了1.4t中英标识符的预训练与人类偏好对齐训练;基座模型的上下文长度扩展到了32k,并在对话阶段使用8k的上下文长度训练;基于多查询注意力技术实现更高效的推理速度和更低的显存占用;允许商业使用。
- ChatGLM3-6B
- 地址:https://github.com/THUDM/ ChatGLM3
- 简介:ChatGLM3-6B是ChatGLM3系列中的开源模型,在保留了前两代模型对话流畅,部署门槛低等众多优秀特性的基础上,ChatGLM3-6B引入了如下特性:更强大的基础模型: ChatGLM3-6B的基础模型ChatGLM3-6B-Base采用了更多样的训练数据,更充分的训练步数和更合理的训练策略;更完整的功能支持: ChatGLM3-6B采用了全新设计的提示格式,除正常的多轮对话外。同时原生支持工具调用 (函数调用) 、代码执行 (代码解释器) 和代理任务等复杂场景;更全面的开源序列: 除了对话模型ChatGLM3-6B外、还开源了基础模型ChatGLM3-6B-Base、长文本对话模型ChatGLM3-6B-32K。以上所有权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。
- GLM-4
- 地址:https://github.com/THUDM/ GLM-4
- 简介:GLM-4-9B是智谱AI推出的最新一代预训练模型GLM-4系列中的开源版本。 在语义、数学、推理、代码和知识等多方面的数据集测评中, GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出超越Llama-3-8B的卓越性能。除了能进行多轮对话,GLM-4-9B-Chat还具备网页浏览、代码执行、自定义工具调用 (函数调用) 和长文本推理(支持最大128k上下文)等高级功能。本代模型增加了多语言支持、支持包括日语、韩语、德语在内的26日种语言。我们还推出了支持1米上下文长度(约200万中文字符)的 GLM-4-9B-Chat-1M 模型和基于GLM-4-9B的多模态模型GLM-4V-9B。GLM-4V-9B 具备1120*1120高分辨率下的中英双语多轮对话能力、在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中、GLM-4V-9B表现出超越GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、qwen-vl-max和Claude 3 Opus的卓越性能。
- 中国-羊驼:
- 地址:https://github.com/ymcui/ 中国-美洲驼-羊驼
- 简介:中文美洲驼和羊驼大语言模型 + 本地CPU/GPU部署,在原版美洲驼的基础上扩充了中文词表并使用了中文数据进行二次预训练
- 中国-美洲驼-羊驼-2:
- 地址:https://github.com/ymcui/ 中国-美洲驼-羊驼-2
- 简介:该项目将发布中文美洲驼-2和羊驼-2大语言模型,基于可商用的美洲驼-2进行二次开发。
- Chinese-LlaMA2:
- 地址:GitHub - michael-wzhu/Chinese-LlaMA2: Repo for adapting Meta LlaMA2 in Chinese! META最新发布的LlaMA2的汉化版! (完全开源可商用)
- 简介:该项目基于可商用的美洲驼-2进行二次开发决定在次开展美洲驼2的中文汉化工作,包括Chinese-LlaMA2: 对美洲驼2进行中文预训练;第一步:先在42g中文预料上进行训练;后续将会加大训练规模;Chinese-LlaMA2-chat: 对中文-美洲驼2进行指令微调和多轮对话微调,以适应各种应用场景和多轮对话交互。同时我们也考虑更为快速的中文适配方案:Chinese-LlaMA2-sft-v0: 采用现有的开源中文指令微调或者是对话数据,对美洲驼-2进行直接微调 (将于近期开源)。
- Llama2-Chinese:
- 地址:https://github.com/FlagAlpha/ Llama2-Chinese
- 简介:该项目专注于Llama2模型在中文方面的优化和上层建设,基于大规模中文数据,从预训练开始对Llama2模型进行中文能力的持续迭代升级。
- Qwen/Qwen1.5
- 地址:GitHub - QwenLM/Qwen: The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud.
- 简介:通义千问是阿里云研发的通义千问大模型系列模型,包括参数规模为18亿(1.8b) 、70亿(7B)、140亿(14B)、720亿(72B)和1100亿(110B)。各个规模的模型包括基础模型Qwen,以及对话模型。数据集包括文本和代码等多种数据类型,覆盖通用领域和专业领域,能支持8k的上下文长度,针对插件调用相关的对齐数据做了特定优化,当前模型能有效调用插件以及升级为代理。
- OpenChineseLLaMA:
- 地址:GitHub - OpenLMLab/OpenChineseLLaMA: Chinese large language model base generated through incremental pre-training on Chinese datasets
- 简介:基于LLaMA-7B经过中文数据集增量预训练产生的中文大语言模型基座,对比原版美洲驼,该模型在中文理解能力和生成能力方面均获得较大提升,在众多下游任务中均取得了突出的成绩。
- 贝儿:
- 地址:GitHub - LianjiaTech/BELLE: BELLE: Be Everyone's Large Language model Engine(开源中文对话大模型)
- 简介:开源了基于布卢姆和美洲驼优化后的一系列模型、同时包括训练数据、相关模型、训练代码、应用场景等、也会持续评估不同训练数据、训练算法等对模型表现的影响。
- 熊猫:
- 地址:GitHub - dandelionsllm/pandallm: Panda项目是于2023年5月启动的开源海外中文大语言模型项目,致力于大模型时代探索整个技术栈,旨在推动中文自然语言处理领域的创新和合作。
- 简介:开源了基于LLaMA-7B,-13B,-33B,-65B进行中文领域上的持续预训练的语言模型,使用了接近15m条数据进行二次预训练。
- 罗宾 (罗宾):
- 地址:GitHub - OptimalScale/LMFlow: An Extensible Toolkit for Finetuning and Inference of Large Foundation Models. Large Models for All.
- 简介:Robin (罗宾)是香港科技大学LMFlow团队开发的中英双语大语言模型。仅使用180k条数据微调得到的Robin第二代模型,在Huggingface榜单上达到了第一名的成绩。LMFlow支持用户快速训练个性化模型,仅需单张3090和5个小时即可微调70亿参数定制化模型。
- 风神邦-LM:
- 地址:https://github.com /创意-CCNL/风神邦-LM
- 简介: fengshenbang-lm (封神榜大模型)是思想研究院认知计算与自然语言研究中心主导的大模型开源体系,该项目开源了姜子牙通用大模型V1,是基于美洲驼的130亿参数的大规模预训练模型,具备翻译,编程,文本分类,信息抽取,摘要,文案生成,常识问答和数学计算等能力。除姜子牙系列模型之外、该项目还开源了太乙、二郎神系列等模型。
- 比拉:
- 地址:GitHub - Neutralzz/BiLLa: BiLLa: A Bilingual LLaMA with Enhanced Reasoning Ability
- 简介:该项目开源了推理能力增强的中英双语美洲驼模型。模型的主要特性有:较大提升美洲驼的中文理解能力,并尽可能减少对原始美洲驼英文能力的损伤;训练过程增加较多的任务型数据,利用生成解析,强化模型理解任务求解逻辑;全量参数更新,追求更好的生成效果。
- 苔藓:
- 地址:GitHub - OpenMOSS/MOSS: An open-source tool-augmented conversational language model from Fudan University
- 简介:支持中英双语和多种插件的开源对话语言模型、苔藓基座语言模型在约七千亿中英文以及代码单词上预训练得到、后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。
- 罗托-中文-法学硕士:
- 地址:https://github.com/LC1332/罗托-中文-LLM
- 简介:囊括了一系列中文大语言模型开源项目,包含了一系列基于已有开源模型(ChatGLM,莫斯,美洲驼) 进行二次微调的语言模型,指令微调数据集等。
- 林莉:
- 地址:GitHub - CVI-SZU/Linly: Chinese-LLaMA 1&2、Chinese-Falcon 基础模型;ChatFlow中文对话模型;中文OpenLLaMA模型;NLP预训练/指令微调数据集
- 简介:提供中文对话模型Linly-ChatFlow、中文基础模型Linly-Chinese-LLaMA及其训练数据。 中文基础模型以LLaMA为底座,利用中文和中英平行增量预训练。项目汇总了目前公开的多语言指令数据,对中文模型进行了大规模指令跟随训练,实现了Linly-ChatFlow对话模型。
- 萤火虫:
- 地址:https://github.com /杨建新1/萤火虫
- 简介: 萤火虫 (流萤) 是一个开源的中文大语言模型项目、开源包括数据、微调代码、多个基于、百川等微调好的模型等;支持全量参数指令微调、QLoRA低成本高效指令微调、LoRA指令微调;支持绝大部分主流的开源大模型、如百川、百川、子牙、水华、美洲驼等。持lora与基础模型进行权重合并,推理更便捷。
- 聊原
- 地址:https://github.com /线索-ai/聊原
- 简介:元语智能发布的一系列支持中英双语的功能型对话语言大模型、在微调数据、人类反馈强化学习、思维链等方面进行了优化。
- ChatRWKV:
- 地址:GitHub - BlinkDL/ChatRWKV: ChatRWKV is like ChatGPT but powered by RWKV (100% RNN) language model, and open source.
- 简介:开源了一系列基于RWKV架构的聊天模型(包括英文和中文),发布了包括乌鸦,nove-chreng,nove-ch与nove-chrnpro等模型,可以直接闲聊及进行诗歌,小说等创作,包括7B和14B等规模的模型。
- CPM-蜜蜂
- 地址:https://github.com/OpenBMB/ cpm-bee
- 简介:一个完全开源、允许商用的百亿参数中英文基座模型。它采用变压器自回归架构 (自回归),在超万亿 (万亿) 高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。
- TigerBot
- 地址:GitHub - TigerResearch/TigerBot: TigerBot: A multi-language multi-task LLM
- 简介:一个多语言多任务的大规模语言模型(LLM),开源了包括模型:TigerBot-7B,TigerBot-7B-base,TigerBot-180B,基本训练和推理代码,100g预训练数据,涵盖金融,法律,百科的领域数据以及API等。
- 书生·浦语
- 地址:https://github.com/InternLM/ InternLM-techreport
- 简介:商汤科技、上海人工智能实验室联合香港中文大学、复旦大学和上海交通大学发布千亿级参数大语言模型 “书生·浦语”(InternLM)。据悉,“书生·浦语” 具有1040亿参数,基于 “包含1.6万亿令牌的多语种高质量数据集” 训练而成。
- 书生·浦语2
- 地址:GitHub - InternLM/InternLM: Official release of InternLM2.5 7B base and chat models. 1M context support
- 简介:商汤科技、上海AI实验室联合香港中文大学、复旦大学和上海交通大学发布千亿级参数大语言模型 “书生·浦语”(InternLM2)。internLM2在数理、代码、对话、创作等各方面能力都获得了长足进步、综合性能达到开源模型的领先水平。internLM2包含两种模型规格:7B和20B。7B为轻量级的研究和应用提供了一个轻便但性能不俗的模型,20B模型的综合性能更为强劲,可以有效支持更加复杂的实用场景。
- 天鹰座
- 地址:https://github.com/FlagAI-开放/FlagAI/树/主/示例/天鹰座
- 简介:由智源研究院发布,Aquila语言大模型在技术上继承了GPT-3,美洲驼等的架构设计优点,替换了一批更高效的底层算子实现,重新设计实现了中英双语的分词器,升级了BMTrain并行训练方法,是在中英文高质量语料基础上从0开始训练的,通过数据质量的控制,多种训练的优化方法,实现在更小的数据集,更短的训练时间,获得比其它开源模型更优的性能。也是首个支持中英双语知识,支持商用许可协议,符合国内数据合规需要的大规模开源语言模型。
- Aquila2
- 地址:https://github.com/FlagAI-开放式/Aquila2
- 简介:由智源研究院发布,Aquila2系列,包括基础语言模型Aquila2-7B,Aquila2-34B和Aquila2-70B-Expr,对话模型AquilaChat2-7B,AquilaChat2-34B和AquilaChat2-70B-Expr,长文本对话模型AquilaChat2-7B-16k和AquilaChat2-34B-16。
- Baichuan-7B
- 地址:https://github.com /百川公司/baichuan-7B
- 简介:Baichuan-13B是由百川智能继Baichuan-7B之后开发的包含130亿参数的开源可商用的大规模语言模型,在权威的中文和英文基准上均取得同尺寸最好的效果。该项目发布包含有预训练 (Baichuan-13B-Base) 和对齐 (Baichuan-13B-Chat) 两个版本。
- Baichuan-13B
- 地址:https://github.com /百川公司/Baichuan-13B
- 简介:由百川智能开发的一个开源可商用的大规模预训练语言模型。基于变压器结构,在大约1.2万亿令牌上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。在标准的中文和英文权威基准 (c-eval/MMLU)上均取得同尺寸最好的效果。
- 百川2
- 地址:https://github.com /百川公司/百川2
- 简介:由百川智能推出的新一代开源大语言模型,采用2.6万亿令牌的高质量语料训练,在多个权威的中文,英文和多语言的通用,领域基准上取得同尺寸最佳的效果,发布包含有7B,13B的基础和经过PPO训练的聊天版本,并提供了聊天版本的4bits量化。
- 阿尼玛
- 地址:GitHub - lyogavin/Anima: Moved to here: https://github.com/lyogavin/airllm
- 简介:由艾写科技开发的一个开源的基于QLoRA的33B中文大语言模型,该模型基于QLoRA的Guanaco 33B模型使用中国骆马项目开放的训练数据集guanaco_belle_merge_v1.0进行精细度训练了10000个步,基于Elo评级锦标赛评估效果较好。
- 知识
- 地址:GitHub - zjunlp/KnowLM: An Open-sourced Knowledgable Large Language Model Framework.
- 简介:KnowLM项目旨在发布开源大模型框架及相应模型权重以助力减轻知识谬误问题,包括大模型的知识难更新及存在潜在的错误和偏见等。该项目一期发布了基于美洲驼的抽取大模型智析,使用中英文语料对美洲驼 (13B)进行进一步全量预训练,并基于知识图谱转换指令技术对知识抽取任务进行优化。
- 贝岭
- 地址:GitHub - ictnlp/BayLing: “百聆”是一个基于LLaMA的语言对齐增强的英语/中文大语言模型,具有优越的英语/中文能力,在多语言和通用任务等多项测试中取得ChatGPT 90%的性能。BayLing is an English/Chinese LLM equipped with advanced language alignment, showing superior capability in English/Chinese generation, instruction following and multi-turn interaction.
- 简介:一个具有增强的跨语言对齐的通用大模型,由中国科学院计算技术研究所自然语言处理团队开发。百聆 (贝林) 以美洲驼为基座模型,探索了以交互式翻译任务为核心进行指令微调的方法,旨在同时完成语言间对齐以及与人类意图对齐,将美洲驼的生成能力和指令跟随能力从英语迁移到其他语言(中文)。在多语言翻译、交互翻译、通用任务、标准化考试的测评中、百聆在中文/英语中均展现出更好的表现。百聆提供了在线的内测版演示,以供大家体验。
- YuLan-聊天
- 地址:https://github.com /ruc-gsai/YuLan-聊天
- 简介: 玉兰-聊天是中国人民大学GSAI研究人员开发的基于聊天的大语言模型。它是在美洲驼的基础上微调开发的,具有高质量的英文和中文指令。玉兰-聊天可以与用户聊天,很好地遵循英文或中文指令,并且可以在量化后部署在GPU(A800-80g或RTX3090)上。
- PolyLM
- 地址:GitHub - DAMO-NLP-MT/PolyLM
- 简介:一个在6400亿个词的数据上从头训练的多语言语言模型,包括两种模型大小(1。7B和13B)。polyLM覆盖中、英、俄、西、法、葡、德、意、荷、波、阿、土、希伯来、日、韩、泰、越、印尼等语种、特别是对亚洲语种更友好。
- 火子
- 地址:https://github.com /打SCIR/火子
- 简介:由哈工大自然语言处理研究所多位老师和学生参与开发的一个开源可商用的大规模预训练语言模型。 该模型基于布鲁姆结构的70亿参数模型,支持中英双语上下文窗口长度为2048, 同时还开源了基于RLHF训练的模型以及全人工标注的16.9k中文偏好数据集。
- YaYi
- 地址:https://github.com /温格研究/YaYi
- 简介:雅意大模型在百万级人工构造的高质量领域数据上进行指令微调得到,训练数据覆盖媒体宣传,舆情分析,公共安全,金融风控,城市治理等五大领域,上百种自然语言指令任务。雅意大模型从预训练初始化权重到领域模型的迭代过程中,我们逐步增强了它的中文基础能力和领域分析能力,并增加了多轮对话和部分插件能力。同时,经过数百名用户内测过程中持续不断的人工反馈优化,进一步提升了模型性能和安全性。已开源基于美洲驼2的中文优化模型版本,探索适用于中文多领域任务的最新实践。
- YAYI2
- 地址:https://github.com /温格研究/YAYI2
- 简介:YAYI 2是中科闻歌研发的新一代开源大语言模型,包括基地和聊天版本,参数规模为30B。YAYI2-30B是基于变压器的大语言模型,采用了超过2个万亿令牌的高质量、多语言语料进行预训练。针对通用和特定领域的应用场景,我们采用了百万级指令进行微调,同时借助人类反馈强化学习方法,以更好地使模型与人类价值观对齐。本次开源的模型为YAYI2-30B基础模型。
- XVERSE-7B
- 地址:GitHub - xverse-ai/XVERSE-7B: XVERSE-7B: A multilingual large language model developed by XVERSE Technology Inc.
- 简介:由深圳元象科技自主研发的支持多语言的大语言模型,支持8k的上下文长度 (上下文长度),使用2.6万亿令牌的高质量,多样化的数据对模型进行充分训练,支持中,英,俄,西等40个多种语言。并包含GGUF、GPTQ量化版本的模型,支持在美洲驼。cpp、vLLM在MacOS/Linux/Windows系统上推理。
- XVERSE-13B
- 地址:GitHub - xverse-ai/XVERSE-13B: XVERSE-13B: A multilingual large language model developed by XVERSE Technology Inc.
- 简介:由深圳元象科技自主研发的支持多语言的大语言模型,支持8k的上下文长度 (上下文长度),使用3.2万亿令牌的高质量,多样化的数据对模型进行充分训练,支持中,英,俄,西等40个多种语言。包含长序列对话模型XVERSE-13B-256K,该版本模型最大支持256k的上下文窗口长度,约25w字的输入内容,可以协助进行文献总结,报告分析等任务。并包含GGUF、GPTQ量化版本的模型,支持在美洲驼。cpp、vLLM在MacOS/Linux/Windows系统上推理。
- XVERSE-65B
- 地址:GitHub - xverse-ai/XVERSE-65B: XVERSE-65B: A multilingual large language model developed by XVERSE Technology Inc.
- 简介:由深圳元象科技自主研发的支持多语言的大语言模型,支持16k的上下文长度 (上下文长度),使用2.6万亿令牌的高质量,多样化的数据对模型进行充分训练,支持中,英,俄,西等40个多种语言。包含增量预训练到3.2万亿令牌的XVERSE-65B-2模型。并包含GGUF、GPTQ量化版本的模型,支持在美洲驼。cpp、vLLM在MacOS/Linux/Windows系统上推理。
- XVERSE-MoE-A4.2B
- 地址:GitHub - xverse-ai/XVERSE-MoE-A4.2B: XVERSE-MoE-A4.2B: A multilingual large language model developed by XVERSE Technology Inc.
- 简介:由深圳元象科技自主研发的支持多语言的大语言模型 (大型语言模型),使用混合专家模型(MoE,专家混合) 架构,模型的总参数规模为258亿,实际激活的参数量为42亿,支持8k的上下文长度 (上下文长度),使用3.2万亿令牌的高质量、多样化的数据对模型进行充分训练、支持中、英、俄、西等40个多种语言。
- Skywork
- 地址:GitHub - SkyworkAI/Skywork: Skywork series models are pre-trained on 3.2TB of high-quality multilingual (mainly Chinese and English) and code data. We have open-sourced the model, training data, evaluation data, evaluation methods, etc. 天工系列模型在3.2TB高质量多语言和代码数据上进行预训练。我们开源了模型参数,训练数据,评估数据,评估方法。
- 简介:该项目开源了天工系列模型,该系列模型在3.2tb高质量多语言和代码数据上进行预训练,开源了包括模型参数,训练数据,评估数据,评估方法。具体包括Skywork-13B-基础模型,Skywork-13B-聊天模型,Skywork-13B-数学模型和Skywork-13B-MM模型,以及每个模型的量化版模型,以支持用户在消费级显卡进行部署和推理。
- 彝族
- 地址:GitHub - 01-ai/Yi: A series of large language models trained from scratch by developers @01-ai
- 简介:该项目开源了Yi-6B和Yi-34B等模型,该系列模型最长可支持200k的超长上下文窗口版本,可以处理约40万汉字超长文本输入,理解超过1000页的PDF文档。
- 元-2.0
- 地址:https://github.com/IEIT-元/元-2.0
- 简介:该项目开源了由浪潮信息发布的新一代基础语言大模型,具体开源了全部的3个模型源2.0-102B,源2.0-51B和源2.0-2B。并且提供了预训练,微调,推理服务的相关脚本。源2.0是在源1。0的基础上,利用更多样的高质量预训练数据和指令微调数据集,令模型在语义,数学,推理,代码,知识等不同方面具备更强的理解能力。
- Chinese-Mixtral-8x7B
- 地址:GitHub - HIT-SCIR/Chinese-Mixtral-8x7B: 中文Mixtral-8x7B(Chinese-Mixtral-8x7B)
- 简介:该项目基于混合-8x7B稀疏混合专家模型进行了中文扩词表增量预训练,开源了中文混合-8x7B扩词表模型以及训练代码。该模型的的中文编解码效率较原模型显著提高。同时通过在大规模开源语料上进行的增量预训练,该模型具备了强大的中文生成和理解能力。
- BlueLM
- 地址:GitHub - vivo-ai-lab/BlueLM: BlueLM(蓝心大模型): Open large language models developed by vivo AI Lab
- 簡介:BlueLM是由vivo AI全球研究院自主研发的大规模预训练语言模型,本次发布包含7B基础 (base) 模型和7B对话 (chat) 模型,同时我们开源了支持32k的长文本基础 (base) 模型和对话 (chat) 模型。
- TuringMM
- 地址:https://github.com /光年-图灵/TuringMM-34B-Chat
- 簡介:TuringMM-34B聊天是一款开源的中英文聊天模型,由北京光年无限科技有限公司基于Yi-34B开源模型,基于14w的精标教育数据进行sft微调以及15w对齐数据进行DPO偏好学习得到的一个微调模型。
- 猎户座
- 地址:GitHub - OrionStarAI/Orion: Orion-14B is a family of models includes a 14B foundation LLM, and a series of models: a chat model, a long context model, a quantized model, a RAG fine-tuned model, and an Agent fine-tuned model. Orion-14B 系列模型包括一个具有140亿参数的多语言基座大模型以及一系列相关的衍生模型,包括对话模型,长文本模型,量化模型,RAG微调模型,Agent微调模型等。
- 簡介:Orion-14B是一个具有140亿参数的多语种大模型,该模型在一个包含2.5万亿令牌的多样化数据集上进行了训练,涵盖了中文、英语、日语、韩语等多种语言。
- OrionStar-Yi-34B-Chat
- 地址:https://github.com/OrionStarAI/ OrionStar-Yi-34B-Chat
- 簡介:OrionStar-Yi-34B-Chat是猎户星空基于零一万物开源的Yi-34B模型,使用15w + 的高质量语料训练而来微调大模型,旨在为大模型社区用户提供卓越的交互体验。
- MiniCPM
- 地址:GitHub - OpenBMB/MiniCPM: MiniCPM-2B: An end-side LLM outperforming Llama2-13B.
- 简介:MiniCPM是面壁智能与清华大学自然语言处理实验室共同开源的系列端侧大模型,主体语言模型MiniCPM-2B仅有24亿(2.4b) 的非词嵌入参数量,总计2.7B参数量。
- Mengzi3
- 地址:https://github.com/Langboat/ Mengzi3
- 简介:Mengzi3 8B/13B模型基于美洲驼架构,语料精选自网页,百科,社交,媒体,新闻,以及高质量的开源数据集。通过在万亿代币上进行多语言语料的继续训练,模型的中文能力突出并且兼顾多语言能力。
- DeepSeek-V2
- 地址:GitHub - deepseek-ai/DeepSeek-V2: DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
- 简介:DeepSeek-V2:强大、经济、高效的专家混合语言模型
1.2多模态LLM模型
-
VisualGLM-6B
- 地址:https://github.com/THUDM/ VisualGLM-6B
- 简介:一个开源的,支持图像,中文和英文的多模态对话语言模型,语言模型基于ChatGLM-6B,具有62亿参数;图像部分通过训练BLIP2-Qformer构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。依靠来自于CogView数据集的30米高质量中文图文对,与300米经过筛选的英文图文对进行预训练。
-
CogVLM
- 地址:GitHub - THUDM/CogVLM: a state-of-the-art-level open visual language model | 多模态预训练模型
- 简介:一个强大的开源视觉语言模型(VLM)。CogVLM-17B拥有100亿视觉参数和70亿语言参数。 CogVLM-17B在10个经典跨模态基准测试上取得了SOTA性能。CogVLM能够准确地描述图像,几乎不会出现幻觉。
-
粘性
- 地址:GitHub - OpenBMB/VisCPM: [ICLR'24 spotlight] Chinese and English Multimodal Large Model Series (Chat and Paint) | 基于CPM基础模型的中英双语多模态大模型系列
- 简介:一个开源的多模态大模型系列,支持中英双语的多模态对话能力(VisCPM-聊天模型)和文到图生成能力(VisCPM-油漆模型)。基于百亿参数量语言大模型CPM-Bee(10B)训练,融合视觉编码器(Q-形成器) 和视觉解码器 (扩散-UNet)以支持视觉信号的输入和输出。得益于CPM-蜜蜂基座优秀的双语能力,VisCPM可以仅通过英文多模态数据预训练,泛化实现优秀的中文多模态能力。
-
视觉-中国-美洲驼-羊驼
- 地址:https://github.com/airaria/ 视觉-中国-美洲驼-羊驼
- 简介:基于中文美洲驼和羊驼大模型项目开发的多模态中文大模型。VisualCLA在中文美洲驼/羊驼模型上增加了图像编码等模块,使美洲驼模型可以接收视觉信息。在此基础上,使用了中文图文对数据进行了多模态预训练,对齐图像与文本表示,赋予其基本的多模态理解能力;并使用多模态指令数据集精调,增强其对多模态指令的理解,执行和对话能力,目前开源了VisualCLA-7B-v0.1。
-
LLaSM
- 地址:GitHub - LinkSoul-AI/LLaSM: 第一个支持中英文双语语音-文本多模态对话的开源可商用对话模型。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验,同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。
- 简介:第一个支持中英文双语语音文本多模态对话的开源可商用对话模型。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验,同时避免了基于ASR解决方案的繁琐流程以及可能引入的错误。目前开源了LLaSM-Chinese-Llama-2-7B,LLaSM Baichuan-7B等模型与数据集。
-
Qwen-VL
- 地址:https://github.com/QwenLM/ qwen-vl
- 简介:是阿里云研发的大规模视觉语言模型、可以以图像、文本、检测框作为输入、并以文本和检测框作为输出。特点包括:强大的性能:在四大类多模态任务的标准英文测评中上均取得同等通用模型大小下最好效果;多语言对话模型:天然支持英文、中文等多语言对话、端到端支持图片里中英双语的长文本识别;多图交错对话:支持多图输入和比较、指定图片问答、多图文学创作等;首个支持中文开放域定位的通用模型:通过中文开放域语言表达进行检测框标注;细粒度识别和理解:相比于目前其它开源LVLM使用的224分辨率,qwen-vl是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。
2.1垂直领域微调
医疗
-
DoctorGLM:
- 地址:GitHub - xionghonglin/DoctorGLM: 基于ChatGLM-6B的中文问诊模型
- 简介:基于ChatGLM-6B的中文问诊模型,通过中文医疗对话数据集进行微调,实现了包括lora,p-tuningv2等微调及部署
-
BenTsao:
- 地址:https://github.com /scir-hi/华佗-美洲驼-Med-中文
- 简介:开源了经过中文医学指令精调/指令微调 (指示调优) 的LLaMA-7B模型。通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集,并在此基础上对LLaMA进行了指令微调,提高了LLaMA在医疗领域的问答效果。
-
比安克:
- 地址:GitHub - scutcyr/BianQue: 中文医疗对话模型扁鹊(BianQue)
- 简介:一个经过指令与多轮问询对话联合微调的医疗对话大模型,基于ClueAI/chatyue-live-v2作为底座,使用中文医疗问答指令与多轮问询对话混合数据集进行微调。
-
华图:
- 地址:GitHub - FreedomIntelligence/HuatuoGPT: HuatuoGPT, Towards Taming Language Models To Be a Doctor. (An Open Medical GPT)
- 简介:开源了经过中文医学指令精调/指令微调 (指示-调谐) 的一个类GPT模型
-
Med-ChatGLM:
- 地址:https://github.com /scir-hi/med-chatglm
- 简介:基于中文医学知识的ChatGLM模型微调,微调数据与BenTsao相同。
-
奇正普特:
- 地址:GitHub - CMKRG/QiZhenGPT: QiZhenGPT: An Open Source Chinese Medical Large Language Model|一个开源的中文医疗大语言模型
- 简介:该项目利用启真医学知识库构建的中文医学指令数据集,并基于此在LLaMA-7B模型上进行指令精调,大幅提高了模型在中文医疗场景下效果,首先针对药品知识问答发布了评测数据集,后续计划优化疾病,手术,检验等方面的问答效果,并针对医患问答,病历自动生成等应用展开拓展。
-
聊天:
- 地址:GitHub - michael-wzhu/ChatMed: ChatMed: 中文医疗大模型,善于在线回答患者/用户的日常医疗相关问题!
- 简介:该项目推出ChatMed系列中文医疗大规模语言模型,模型主干为LlaMA-7b并采用LoRA微调,具体包括ChatMed_Consult: 基于中文医疗在线问诊数据集ChatMed_Consult_数据集的50w + 在线问诊 + ChatGPT回复作为训练集; Chatmed-tcm: 基于中医药指令数据集ChatMed_TCM_Dataset,以开源的中医药知识图谱为基础,采用以实体为中心的自指令方法 (以实体为中心的自我指导),调用ChatGPT得到2.6w + 的围绕中医药的指令数据训练得到。
-
XrayGLM,首个会看胸部X光片的中文多模态医学大模型:
- 地址:GitHub - WangRongsheng/XrayGLM: 🩺 首个会看胸部X光片的中文多模态医学大模型 | The first Chinese Medical Multimodal Model that Chest Radiographs Summarization.
- 简介:该项目为促进中文领域医学多模态大模型的研究发展,发布了XrayGLM数据集及模型,其在医学影像诊断和多轮交互对话上显示出了非凡的潜力。
-
中文心理健康支持对话大模型:
- 地址:GitHub - qiuhuachuan/smile: SMILE: Single-turn to Multi-turn Inclusive Language Expansion via ChatGPT for Mental Health Support
- 简介:该项目开源的中文心理健康支持通用模型由ChatGLM-6B LoRA 16位指令微调得到。数据集通过调用gpt-3.5-turbo API扩展真实的心理互助QA为多轮的心理健康支持多轮对话,提高了通用语言大模型在心理健康支持领域的表现,更加符合在长程多轮对话的应用场景。
-
MedicalGPT
- 地址:GitHub - shibing624/MedicalGPT: MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型,实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO。
- 简介:训练医疗大模型,实现包括二次预训练,有监督微调,奖励建模,强化学习训练。发布中文医疗LoRA模型shibing624/ziya-llama-13b-medical-lora,基于Ziya-LLaMA-13B-v1模型,SFT微调了一版医疗模型,医疗问答效果有提升,发布微调后的LoRA权重。
-
孙思庙
- 地址:GitHub - X-D-Lab/Sunsimiao: 🌿孙思邈中文医疗大模型(Sunsimiao):提供安全、可靠、普惠的中文医疗大模型
- 简介:Sunsimiao是一个开源的中文医疗大模型,该模型基于baichuan-7B和ChatGLM-6B底座模型在十万级高质量的中文医疗数据中微调而得。
-
神农-中医-法学硕士
- 地址:https://github.com/michael-wzhu/神农-tcm-llm
- 简介:该项目开源了神农中医药大规模语言模型,该模型以美洲驼为底座,采用LoRA (等级 = 16)微调得到。微调代码与聊天代码库相同。此外该项目还开源了中医药指令微调数据集。
-
SoulChat
- 地址:GitHub - scutcyr/SoulChat: 中文领域心理健康对话大模型SoulChat
- 简介:该项目开源了经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调的心理健康大模型灵心(SoulChat),该模型以ChatGLM-6B作为初始化模型,进行了全量参数的指令微调。
-
CareGPT
- 地址:GitHub - WangRongsheng/CareGPT: 🌞 CareGPT (关怀GPT)是一个医疗大语言模型,同时它集合了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型,包含LLM的训练、测评、部署等以促进医疗LLM快速发展。Medical LLM, Open Source Driven for a Healthy Future.
- 简介:该项目开源了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型,包含LLM的训练,测评,部署等以促进医疗LLM快速发展。
-
圆盘-MedLLM
- 地址:https://github.com/FudanDISC/ 圆盘-MedLLM
- 简介:该项目是由复旦大学发布的针对医疗健康对话式场景而设计的医疗领域大模型与数据集,该模型由DISC-med-sft数据集基于Baichuan-13B-Base指令微调得到。
-
Taiyi-LLM
- 地址:GitHub - DUTIR-BioNLP/Taiyi-LLM: Biomedical LLM, A Bilingual (Chinese and English) Fine-Tuned Large Language Model for Diverse Biomedical Tasks
- 简介:该项目由大连理工大学信息检索研究室开发的中英双语医学大模型 “太一”,收集整理了丰富的中英双语生物医学自然语言处理(BioNLP)训练语料,总共包含38个中文数据集,通过丰富的中英双语任务指令数据(超过100w条样本)进行大模型(Qwen-7B-base)指令微调,使模型具备了出色的中英双语生物医学智能问答,医患对话,报告生成,信息抽取,机器翻译,标题生成、文本分类等多种BioNLP能力。
-
WiNGPT
- 地址:https://github.com/winninghealth/ WiNGPT2
- 简介:WiNGPT是一个基于GPT的医疗垂直领域大模型,基于Qwen-7b1作为基础预训练模型,在此技术上进行了继续预训练,指令微调等,该项目具体开源了WiNGPT2-7B-基础与WiNGPT2-7B-聊天模型。
-
谐音-GPT
- 地址:https://github.com/synlp/ 谐音-GPT
- 简介: chimed-gpt是一个开源中文医学大语言模型,通过在中文医学数据上持续训练Ziya-v2构建而成,其中涵盖了预训练,有监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 等训练过程。
-
MindChat
- 地址:https://github.com /x-d-lab/MindChat
- 简介:心理大模型 -- 漫谈(MindChat)期望从心理咨询、心理评估、心理诊断、心理治疗四个维度帮助人们纾解心理压力与解决心理困惑、为用户提供隐私、温暖、安全、及时、方便的对话环境、从而帮助用户克服各种困难和挑战、实现自我成长和发展。MindChat是一个基于Qwen作为基础预训练模型,并在此基础上进行指令微调得到的心理垂域大模型。
法律
-
獬豸(LawGPT_zh): 中文法律对话语言模型
- 地址:https://github.com/LiuHC0428/law-gpt
- 简介: 本项目开源的中文法律通用模型由ChatGLM-6B LoRA 16位指令微调得到。数据集包括现有的法律问答数据集和基于法条和真实案例指导的自指示构建的高质量法律文本问答,提高了通用语言大模型在法律领域的表现,提高了模型回答的可靠性和专业程度。
-
LaWGPT:基于中文法律知识的大语言模型
- 地址:GitHub - pengxiao-song/LaWGPT: 🎉 Repo for LaWGPT, Chinese-Llama tuned with Chinese Legal knowledge. 基于中文法律知识的大语言模型
- 简介:该系列模型在通用中文基座模型(如美洲驼、ChatGLM等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练、增强了大模型在法律领域的基础语义理解能力。在此基础上、构造法律领域对话问答数据集、中国司法考试数据集进行指令精调、提升了模型对法律内容的理解和执行能力。
-
LexiLaw:中文法律大模型
- 地址:GitHub - CSHaitao/LexiLaw: LexiLaw - 中文法律大模型
- 简介:LexiLaw是一个基于ChatGLM-6B微调的中文法律大模型,通过在法律领域的数据集上进行微调。该模型旨在为法律从业者、学生和普通用户提供准确、可靠的法律咨询服务、包括具体法律问题的咨询、还是对法律条款、案例解析、法规解读等方面的查询。
-
律师LLaMA:中文法律LLaMA
- 地址:https://github.com/AndrewZhe/ 律师-llama
- 简介:开源了一系列法律领域的指令微调数据和基于美洲驼训练的中文法律大模型的参数。律师美洲驼首先在大规模法律语料上进行了持续的预培训。在此基础上,借助ChatGPT收集了一批对中国国家统一法律职业资格考试客观题(以下简称法考)的分析和对法律咨询的回答,利用收集到的数据对模型进行指令微调,让模型习得将法律知识应用到具体场景中的能力。
-
韩非 (韩菲)
- 地址:https://github.com/siat-nlp/汉飞
- 简介: HanFei-1.0(韩非)是国内首个全参数训练的法律大模型,参数量7b,主要功能包括:法律问答、多轮对话、撰写文章、检索等。
-
ChatLaw-法律大模型
- 地址:https://github.com /pku-yuangroup/ChatLaw
- 简介:由北大开源的一系列法律领域的大模型,包括ChatLaw-13B(基于姜子牙Ziya-LLaMA-13B-v1训练而来),ChatLaw-33B(基于Anima-33B训练而来,逻辑推理能力大幅提升),ChatLaw-Text2Vec,使用93w条判决案例做成的数据集基于伯特训练了一个相似度匹配模型,可将用户提问信息和对应的法条相匹配。
-
lychee_law-律知
- 地址:https://github.com/davidpig/ lychee_law
- 简介:该项目由德国萨尔大学团队和中国南京大学团队合作开发,开源一系列中文司法领域大模型,如Law-GLM-10B: 基于GLM-10B模型,在30GB中文法律数据上进行指令微调得到的。
-
智海-录问 (智慧询问)
- 地址:GitHub - zhihaiLLM/wisdomInterrogatory
- 简介:该项目由浙江大学、阿里巴巴达摩院以及华院计算三家单位共同设计研发的法律大模型、基于baichuan-7b进行了法律领域数据的二次预训练与指令微调、并设计了知识增强的推理流程。
-
夫子 • 明察司法大模型
- 地址:GitHub - irlab-sdu/fuzi.mingcha: 夫子•明察司法大模型是由山东大学、浪潮云、中国政法大学联合研发,以 ChatGLM 为大模型底座,基于海量中文无监督司法语料与有监督司法微调数据训练的中文司法大模型。该模型支持法条检索、案例分析、三段论推理判决以及司法对话等功能,旨在为用户提供全方位、高精准的法律咨询与解答服务。
- 简介:该项目由是由山东大学、浪潮云、中国政法大学联合研发、以聊天为大模型底座,基于海量中文无监督司法语料(包括各类判决文书、法律法规等)与有监督司法微调数据(包括法律问答、类案检索)训练的中文司法大模型。该模型支持法条检索、案例分析、三段论推理判决以及司法对话等功能。
-
DISC-LawLLM
- 地址:https://github.com/FudanDISC/ 光盘-LawLLM
- 简介:该项目由由复旦大学数据智能与社会计算实验室 (复旦-DISC) 开发并开源的法律领域大模型,包括数据集,基于Baichuan-13B-Base进行微调的模型,且增加了检索增强模块。
金融
-
聚宝盆 (聚宝盆):基于中文金融知识的美洲驼微调模型
- 地址:https://github.com/jerry1993-tech/聚宝盆-美洲驼-Fin-中文
- 简介:开源了经过中文金融知识指令精调/指令微调 (指示-调优) 的LLaMA-7B模型。通过中文金融公开数据 + 爬取的金融数据构建指令数据集,并在此基础上对LLaMA进行了指令微调,提高了LLaMA在金融领域的问答效果。基于相同的数据,后期还会利用GPT3.5 API构建高质量的数据集,另在中文知识图谱-金融上进一步扩充高质量的指令数据集。
-
BBT-FinCUGE-应用程序
- 地址:https://github.com/ssymmetry/ BBT-FinCUGE-应用
- 简介:开源了中文金融领域开源语料库BBT-fincorp,中文金融领域知识增强型预训练语言模型BBT-FinT5及中文金融领域自然语言处理评测基准CFLEB。
-
轩辕 (轩辕):首个千亿级中文金融对话模型
- 地址:https://github.com /杜小曼地/轩辕
- 简介:轩辕是国内首个开源的千亿级中文对话大模型,同时也是首个针对中文金融领域优化的千亿级开源对话大模型。轩辕在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,它不仅可以应对通用领域的问题,也可以解答与金融相关的各类问题,为用户提供准确,全面的金融信息和建议。
-
手指
- 地址:GitHub - AI4Finance-Foundation/FinGPT: FinGPT: Open-Source Financial Large Language Models! Revolutionize 🔥 We release the trained model on HuggingFace.
- 简介:该项目开源了多个金融大模型、包括ChatGLM-6B/ChatGLM2-6B + LoRA和LLaMA-7B + LoRA的金融大模型、收集了包括金融新闻、社交媒体、财报等中英文训练数据。
-
圆盘-FinLLM
- 地址:https://github.com/FudanDISC/ 圆盘-FinLLM
- 简介:该项目由复旦大学数据智能与社会计算实验室 (复旦-光盘) 开发并开源,项目中开源的资源包括: 光盘-FinLLM-SFT训练数据样本,光盘-FinLLM模型参数(基于Baichuan-13B-聊天训练),光盘-鳍-Eval-基准等。
-
同益-金融
- 地址:https:// modelscope.cn/models/TongyiFinance/ Tongyi-Finance-14B
- 简介:该模型是针对对金融行业推出的大语言模型、基于通义千问基础模型进行行业语料增量学习、强化金融领域知识和场景应用能力、覆盖金融知识问答、文本分类、信息抽取、文本创作、阅读理解、逻辑推理、多模态、编码等能力象限。具有以下特点:行业语料增量学习:使用200B高质量金融行业语料进行增量学习,并进行金融行业词表扩展,覆盖丰富的数据类型,支持更大上下文(16k)输入和完整的语义表达。行业能力强化:自研SFT质量和多样性分析工具,筛选高质量SFT数据,解决大语言模型的对齐问题。行业后链路优化:借助多agent框架,实现知识库增强和工具API调用。
教育
-
桃李 (桃李):
- 地址:GitHub - blcuicall/taoli: "桃李“: 国际中文教育大模型
- 简介:一个在国际中文教育领域数据上进行了额外训练的模型。项目基于目前国际中文教育领域流通的500余册国际中文教育教材与教辅书、汉语水平考试试题以及汉语学习者词典等、构建了国际中文教育资源库、构造了共计88000条的高质量国际中文教育问答数据集、并利用收集到的数据对模型进行指令微调、让模型习得将知识应用到具体场景中的能力。
-
EduChat:
- 地址:GitHub - ECNU-ICALK/EduChat: An open-source educational chat model from ICALK, East China Normal University. 开源中英教育对话大模型。(通用基座模型,GPU部署,数据清理) 致敬: LLaMA, MOSS, BELLE, Ziya, vLLM
- 简介:该项目华东师范大学计算机科学与技术学院的EduNLP团队研发,主要研究以预训练大模型为基底的教育对话大模型相关技术,融合多样化的教育垂直领域数据,辅以指令微调,价值观对齐等方法,提供教育场景下自动出题,作业批改,情感支持,课程辅导,高考咨询等丰富功能,服务于广大老师,学生和家长群体,助力实现因材施教,公平公正,富有温度的智能教育。
-
chatglm-数学:
- 地址:https://github.com/yongzhuo/ chatglm-数学
- 简介:基于chatglm-6b微调/LORA/PPO/推理的数学题解题大模型,样本为自动生成的整数/小数加减乘除运算,可gpu/cpu部署,开源了训练数据集等。
-
MathGLM:
- 地址:GitHub - THUDM/MathGLM: Official Pytorch Implementation for MathGLM
- 简介:该项目由THUDM研发,同时开源了可用于算术运算微调的数据集开源了多个能进行20亿参数可以进行准确多位算术运算的语言模型。
-
巧板:
- 地址:https://github.com /hit-scir-sc/QiaoBan
- 简介:该项目旨在构建一个面向儿童情感陪伴的大模型,这个仓库包含:用于指令微调的对话数据/数据,巧板的训练代码,训练配置文件,使用巧板进行对话的示例代码(TODO,检查点将发布至huggingface)。
科技
-
天文大语言模型StarGLM:
- 地址:https://github.com /yu-yang-li/StarGLM
- 简介:基于聊天训练了天文大语言模型、以期缓解大语言模型在部分天文通用知识和前沿变星领域的幻觉现象、为接下来可处理天文多模态任务、部署于望远镜阵列的观测代理 -- 司天大脑(数据智能处理)打下基础。
-
致远:
- 地址:GitHub - DUOMO/TransGPT
- 简介:开源交通大模型、主要致力于在真实交通行业中发挥实际价值、它能够实现交通情况预测、智能咨询助手、公共交通服务、交通规划设计、交通安全教育、协助管理、交通事故报告和分析、自动驾驶辅助系统等功能。
-
墨子:
- 地址:https://github.com/gmftbyGMFTBY/ 科学-llm
- 简介:该项目开源了基于美洲驼和可以用于科技文献的问答和情感支持百川的科技论文大模型。
电商
- EcomGPT
- 地址:https://github.com /阿里巴巴-NLP/EcomGPT
- 简介:一个由阿里发布的面向电商领域的语言模型,该模型基于布卢姆兹在电商指令微调数据集上微调得到,人工评估在12个电商评测数据集上超过查特。
网络安全
- SecGPT
- 地址:GitHub - Clouditera/SecGPT: SecGPT网络安全大模型
- 简介:开项目开源了网络安全大模型,该模型基于Baichuan-13B采用Lora做预训练和SFT训练,此外该项目还开源了相关预训练和指令微调数据集等资源。
农业
- 后稷 (阿格里马):
- 地址:GitHub - zhiweihu1103/AgriMa: 后稷-首个开源中文农业大模型
- 简介:首个中文开源农业大模型是由山西大学、山西农业大学与Fin AI联合研发,以百川为底座、基于海量有监督农业领域相关数据微调、具备广泛的农业知识和智能分析能力、该模型旨在为农业领域提供全面而高效的信息处理和决策支持。
- 稷丰(AgriAgent):
- 地址:GitHub - zhiweihu1103/AgriAgent: 稷丰-首个开源中文农业多模态大模型
- 简介:首个开源中文农业多模态大模型是由山西农业大学研发,以MiniCPM-Llama3-V 2.5为底座、能够从图像、文本、气象数据等多源信息中提取有用信息、为农业生产提供全面、精准的智能化解决方案。我们致力于将稷丰应用于作物健康监测、病虫害识别、土壤肥力分析、农田管理优化等多个方面、帮助农民提升生产效率、减少资源浪费、促进农业的可持续发展。
2.2 LangChain应用
-
langchain-ChatGLM:
- 地址:https://github.com/imClumsyPanda/ langchain-ChatGLM
- 简介:基于本地知识库的问答应用,目标期望建立一套对中文场景与开源模型支持友好,可离线运行的知识库问答解决方案。建立了全流程可使用开源模型实现的本地知识库问答应用。现已支持使用ChatGLM-6B等大语言模型直接接入,或通过fastchat api形式接入骆马,羊驼,美洲驼,考拉,RWKV等模型。
-
LangChain-ChatGLM-Webui:
- 地址:GitHub - X-D-Lab/LangChain-ChatGLM-Webui: 基于LangChain和ChatGLM-6B等系列LLM的针对本地知识库的自动问答
- 简介:利用LangChain和ChatGLM-6B系列模型制作的Webui,提供基于本地知识的大模型应用。目前支持上传txt、docx、md、pdf等文本格式文件,提供包括ChatGLM-6B系列、百丽系列等模型文件以及GanymedeNil/text2vec-large-chinese、nghuyong/ernie-3.0-base-zh、nghuyong/ernie-3.0-nano等嵌入模型。
-
Langchain-ChatGLM-and-TigerBot:
- 地址:https://github.com/wordweb/ langchain-chatglm-and-TigerBot
- 简介:该项目在langchain-ChatGLM的基础上补充了加载TigerBot模型的基于本地知识库的问答应用。
-
中文-LangChain:
- 地址:https://github.com/yanqiangmiffy/ 中文-LangChain
- 简介:基于ChatGLM-6b + langchain实现本地化知识库检索与智能答案生成(包括互联网检索结果接入)
-
Lagent:
- 地址:GitHub - InternLM/lagent: A lightweight framework for building LLM-based agents
- 简介: 代理是一个轻量级、开源的基于大语言模型的智能体 (代理) 框架、支持用户快速地将一个大语言模型转变为多种类型的智能体。具体实现了多种类型的智能体,如经典的反应,AutoGPT和ReWoo等智能体。框架简单易拓展。只需要不到20行代码你就能够创造出一个你自己的智能体 (代理)。同时支持了Python解释器、API调用和搜索三类常用典型工具。灵活支持多个大语言模型。提供了多种大语言模型支持包括InternLM、Llama-2等开源模型和GPT-4/3.5等基于API的闭源模型。
-
DemoGPT:
- 地址:GitHub - melih-unsal/DemoGPT: Create 🦜️🔗 LangChain apps by just using prompts🌟 Star to support our work! | 只需使用句子即可创建 LangChain 应用程序。 给个star支持我们的工作吧!
- 简介:⚡DemoGPT使您只需使用提示即可创建快速演示。⚡
-
ChatDev:
- 地址:GitHub - OpenBMB/ChatDev: Create Customized Software using Natural Language Idea (through LLM-powered Multi-Agent Collaboration)
- 简介:ChatDev是一家虚拟软件公司,通过担任不同角色的各种智能代理进行运营,包括首席执行官,首席技术官,程序员,测试员等。 这些代理形成了一个多代理组织结构,并因 “通过编程彻底改变数字世界” 的使命而团结在一起。 ChatDev中的代理通过参加专门的功能研讨会进行协作,包括设计,编码,测试和记录等任务。
2.3其他应用
-
文达:
- 地址:GitHub - wenda-LLM/wenda: 闻达:一个LLM调用平台。目标为针对特定环境的高效内容生成,同时考虑个人和中小企业的计算资源局限性,以及知识安全和私密性问题
- 简介:一个LLM调用平台。为小模型外挂知识库查找和设计自动执行动作,实现不亚于于大模型的生成能力。
-
JittorLLMs:
- 地址:GitHub - Jittor/JittorLLMs: 计图大模型推理库,具有高性能、配置要求低、中文支持好、可移植等特点
- 简介:计图大模型推理库:笔记本没有显卡也能跑大模型,具有成本低,支持广,可移植,速度快等优势。
-
LMFlow:
- 地址:GitHub - OptimalScale/LMFlow: An Extensible Toolkit for Finetuning and Inference of Large Foundation Models. Large Models for All.
- 简介:LMFlow是香港科技大学LMFlow团队开发的大模型微调工具箱。LMFlow工具箱具有可扩展性强、高效、方便的特性。LMFlow仅使用180k条数据微调,即可得到在hugingface榜单第一名的Robin模型。LMFlow支持用户快速训练个性化模型,仅需单张3090和5个小时即可微调70亿参数定制化模型。
-
fastllm:
- 地址:GitHub - ztxz16/fastllm: 纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
- 简介:纯c ++ 的全平台llm加速库,chatglm-6B级模型单卡可达10000 + token / s,支持moss,chatglm,百川模型,手机端流畅运行。
-
WebCPM
- 地址:GitHub - thunlp/WebCPM: Official codes for ACL 2023 paper "WebCPM: Interactive Web Search for Chinese Long-form Question Answering"
- 简介:一个支持可交互网页搜索的中文大模型。
-
GPT学术:
- 地址:https://github.com /二进制-哈士奇/gpt_academic
- 简介:为GPT/GLM提供图形交互界面,特别优化论文阅读润色体验,支持并行问询多种LLM模型,支持清华chatglm等本地模型。兼容复旦MOSS,llama,rwkv,盘古等。
-
ChatALL:
- 地址:GitHub - sunner/ChatALL: Concurrently chat with ChatGPT, Bing Chat, Bard, Alpaca, Vicuna, Claude, ChatGLM, MOSS, 讯飞星火, 文心一言 and more, discover the best answers
- 简介:ChatALL(中文名:齐叨)可以把一条指令同时发给多个AI,可以帮助用户发现最好的回答。
-
CreativeChatGLM:
- 地址:GitHub - ypwhs/CreativeChatGLM: 👋 欢迎来到 ChatGLM 创意世界!你可以使用修订和续写的功能来生成创意内容!
- 简介:可以使用修订和续写的功能来生成创意内容,可以使用 “续写” 按钮帮ChatGLM想一个开头,并让它继续生成更多的内容,你可以使用 “修订” 按钮修改最后一句ChatGLM的回复。
-
docker-llama2-chat:
- 地址:https://github.com/soulteary/ docker-llama2-chat
- 简介:开源了一个只需要三步就可以上手LLaMA2的快速部署方案。
-
ChatGLM2-Voice-Cloning:
- 地址:GitHub - KevinWang676/ChatGLM2-Voice-Cloning: Chat with any character you like: ChatGLM2+SadTalker+Voice Cloning | 和喜欢的角色沉浸式对话吧:ChatGLM2+声音克隆+视频对话
- 简介:实现了一个可以和喜欢的角色沉浸式对话的应用,主要采用ChatGLM2 + 声音克隆 + 视频对话的技术。
-
Flappy
- 地址:GitHub - pleisto/flappy: Production-Ready LLM Agent SDK for Every Developer
- 简介:一个产品级面向所有程序员的LLM SDK,
-
LazyLLM
- 地址:GitHub - LazyAGI/LazyLLM: Easyest and lazyest way for building multi-agent LLMs applications.
- 简介:LazyLLM是一款低代码构建多代理大模型应用的开发工具,协助开发者用极低的成本构建复杂的AI应用,并可以持续的迭代优化效果。LazyLLM提供了更为灵活的应用功能定制方式,并实现了一套轻量级网管机制来支持一键部署多代理应用,支持流式输出,兼容多个Iaas平台,且支持对应用中的模型进行持续微调。
-
MemFree
- 地址:GitHub - memfreeme/memfree: MemFree - Hybrid AI Search Engine
- 简介:MemFree是一个开源的混合人工智能搜索引擎,可以同时对您的个人知识库(如书签、笔记、文档等)和互联网进行搜索,为你提供最佳答案。MemFree支持自托管的极速无服务器向量数据库,支持自托管的极速本地嵌入和Rerank服务,支持一键部署。
预训练数据集
-
MNBVC
- 地址:GitHub - esbatmop/MNBVC: MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
- 数据集说明:超大规模中文语料集,不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集,且在持续更新中。
-
WuDaoCorporaText
- 地址:https:// data.baai.ac.cn/details/WuDaoCorporaText
- 数据集说明: 乌达是北京智源人工智能研究院(智源研究院)构建的大规模、高质量数据集、用于支撑大模型训练研究、目前由文本、对话、图文对、视频文本对四部分组成、分别致力于构建微型语言世界、提炼对话核心规律、打破图文模态壁垒、建立视频文字关联、为大模型训练提供坚实的数据支撑。
-
CLUECorpus2020
- 地址:https://github.com/CLUEbenchmark/ CLUECorpus2020
- 数据集说明:通过对常见的抓取的中文部分进行语料清洗,最终得到100gb的高质量中文预训练语料、可直接用于预训练、语言模型或语言生成任务以及专用于简体中文NLP任务的小词表。
-
WanJuan-1.0
- 地址:OpenDataLab 引领AI大模型时代的开放数据平台
- 数据集说明:书生·万卷1.0为书生·万卷多模态语料库的首个开源版本、包含文本数据集、图文数据集、视频数据集三部分,数据总量超过2TB。 目前,书生·万卷1.0已被应用于书生·多模态、书生·浦语的训练。通过对高质量语料的 “消化” 、书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出的优异性能。
-
seq-monkey-data
-
地址:https://github.com/mobvoi/ seq-monkey-data
-
数据集说明:序列猴子是出门问问提供的超大规模语言模型,基于其通用的表示与推理能力,支持多轮交互,能够大幅度提高生产效率和数据处理能力,被广泛应用于问答系统,自然语言处理,机器翻译,文本摘要等领域。序列猴子数据集是用于训练序列猴子模型的数据集合,现选择部分数据集向公众开放。
-
SFT数据集
-
RefGPT:基于RefGPT生成大量真实和定制的对话数据集
- 地址:https://github.com/DA-南安普敦/RedGPT
- 数据集说明:包括refgpt-fact和refgpt-code两部分,其中refgpt-fact给出了5万中文的关于事实性知识的多轮对话,refgpt-code给出了3.9万中文编程相关的多轮对话数据。
-
COIG
- 地址:https:// huggingface.co/datasets/BAAI/COIG
- 数据集说明:维护了一套无害、有用且多样化的中文指令语料库、包括一个人工验证翻译的通用指令语料库、一个人工标注的考试指令语料库、一个人类价值对齐指令语料库、一个多轮反事实修正聊天语料库和一个leetcode指令语料库。
-
generated_chat_0.4M:
- 地址:https:// huggingface.co/datasets/BelleGroup/generated_chat_0.4M
- 数据集说明:包含约40万条由BELLE项目生成的个性化角色对话数据,包含角色介绍。但此数据集是由ChatGPT产生的,未经过严格校验,题目或解题过程可能包含错误。
-
alpaca_chinese_dataset:
- 地址:https://github.com/hikariming/ alpaca_chinese_dataset
- 数据集说明:根据斯坦福开源的羊驼数据集进行中文翻译,并再制造一些对话数据
-
羊驼床:
- 地址:https://github.com/PhoebusSi/ 羊驼-CoT
- 数据集说明:统一了丰富的IFT数据(如CoT数据,目前仍不断扩充),多种训练效率方法(如lora,p调谐) 以及多种LLMs,三个层面上的接口,打造方便研究人员上手的llm-ift研究平台。
-
pCLUE:
- 地址:GitHub - CLUEbenchmark/pCLUE: pCLUE: 1000000+多任务提示学习数据集
- 数据集说明:基于提示的大规模预训练数据集,用于多任务学习和零样本学习。包括120万训练数据,73个提示,9个任务。
-
firefly-train-1.1M:
- 地址:https:// huggingface.co/datasets/YeungNLP/firefly-train-1.1M
- 数据集说明:23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万
-
BELLE-data-1.5M:
- 地址:BELLE/data/1.5M at main · LianjiaTech/BELLE · GitHub
- 数据集说明:通过自我指导生成,使用了中文种子任务,以及openai的文本davinci-003接口,涉及175个种子任务
-
中国科学文献数据集:
- 地址:GitHub - ydli-ai/CSL: [COLING 2022] CSL: A Large-scale Chinese Scientific Literature Dataset 中文科学文献数据集
- 数据集说明:中文科学文献数据集(CSL),包含396,209篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)以及简单的提示
-
中医对话数据:
- 地址:https://github.com/Toyhom/ 中医-医学-对话-数据
- 数据集说明:中文医疗对话数据集,包括:<Andriatria男科> 94596个问答对 <内科> 220606个问答对 <OAGD妇产科> 183751个问答对 <肿瘤学肿瘤科> 75553个问答对 <儿科儿科> 101602个问答对 <外科外科> 115991个问答对总计792099个问答对。
-
Huatuo-26M:
- 地址:https://github.com/FreedomIntelligence/ Huatuo-26M
- 数据集说明:Huatuo-26M是一个中文医疗问答数据集,此数据集包含了超过2600万个高质量的医疗问答对,涵盖了各种疾病,症状,治疗方式,药品信息等多个方面。Huatuo-26M是研究人员,开发者和企业为了提高医疗领域的人工智能应用,如聊天机器人,智能诊断系统等需要的重要资源。
-
Alpaca-GPT-4:
- 地址:GitHub - Instruction-Tuning-with-GPT-4/GPT-4-LLM: Instruction Tuning with GPT-4
- 数据集说明:Alpaca-GPT-4是一个使用自学技术,基于175条中文种子任务和GPT-4接口生成的50k的指令微调数据集。
-
说明野生
- 地址:GitHub - XueFuzhao/InstructionWild
- 数据集说明:InstructionWild是一个从网络上收集自然指令并过滤之后使用自然指令结合ChatGPT接口生成指令微调数据集的项目。主要的指令来源:Twitter、CookUp.AI、Github和丢弃。
-
共享聊天
- 地址:https:// paratranz.cn/projects/ 6725
- 数据集说明:一个倡议大家一起翻译高质量ShareGPT数据的项目。
- 项目介绍:清洗/构造/翻译中文的聊天数据,推进国内AI的发展,人人可炼优质中文聊天模型。本数据集为ChatGPT约九万个对话数据,由ShareGPT API获得(英文68000,中文11000条,其他各国语言)。项目所有数据最终将以CC0协议并入多语言共享GPT语料库。
-
瓜纳科
- 地址:https:// huggingface.co/datasets/JosephusCheung/GuanacoDataset
- 数据集说明:一个使用自我指导的主要包含中日英德的多语言指令微调数据集。
-
chatgpt-语料库
- 地址:https://github.com/PlexPt/ 聊天-语料库
- 数据集说明:开源了由ChatGPT3.5生成的300万自问自答数据,包括多个领域,可用于用于训练大模型。
-
SmileConv
- 地址:GitHub - qiuhuachuan/smile: SMILE: Single-turn to Multi-turn Inclusive Language Expansion via ChatGPT for Mental Health Support
- 数据集说明:数据集通过ChatGPT改写真实的心理互助QA为多轮的心理健康支持多轮对话 (通过ChatGPT单轮到多轮包容性语言扩展),该数据集含有56k个多轮对话,其对话主题,词汇和篇章语义更加丰富多样,更加符合在长程多轮对话的应用场景。
偏好数据集
-
C值
- 地址:https://github.com /x-plug/c值
- 数据集说明:该项目开源了数据规模为145k的价值对齐数据集,该数据集对于每个及时包括了拒绝和正向建议 (安全和责任) > 拒绝为主 (安全) > 风险回复 (不安全) 三种类型,可用于增强SFT模型的安全性或用于训练奖励模型。
-
GPT-4-LLM
- 地址:GitHub - Instruction-Tuning-with-GPT-4/GPT-4-LLM: Instruction Tuning with GPT-4
- 数据集说明:该项目开源了由GPT4生成的多种数据集,包括通过GPT4生成的中英PPO数据,可以用于奖励模型的训练。
-
zhihu_rlhf_3k
- 地址:https:// huggingface.co/datasets/liyucheng/zhihu_rlhf_3k
- 数据集说明:该项目开源了3k + 条基于知乎问答的人类偏好数据集,每个实际的知乎问题下给出了赞同数据较高 (选择) 和较低 (拒绝) 的回答,可以用于奖励模型的训练。
-
hh_rlhf_cn
- 地址:https:// huggingface.co/datasets/dikw/hh_rlhf_cn
- 数据集说明:基于的人类论文训练一个有帮助和无害的助手从人类反馈中强化学习开源的有帮助的和无害的数据,使用翻译工具进行了翻译。
-
chatbot_arena_conversations
- 地址:https:// huggingface.co/datasets/lmsys/chatbot_arena_conversations
- 数据集说明:该偏好数据集包含20个LLM的输出,其中包括GPT-4和Claude-v1等更强的LLM,它还包含这些最先进模型的许多失败案例。包含来自超过13k个用户的无限制对话。
-
UltraFeedback
- 地址:GitHub - OpenBMB/UltraFeedback: A large-scale, fine-grained, diverse preference dataset (and models).
- 数据集说明:该数据集是一个大规模、细粒度、多样化的偏好数据集、用于训练强大的奖励模型和批评者模型。该工作从各种资源(包括UltraChat、ShareGPT、Evol-指示、TruthfulQA、FalseQA和FLAN、数据集统计数据请参见此处)中收集了约64k条提示。然后使用这些提示来查询多个LLM(模型列表请参见此处),并为每个提示生成4个不同的回复,从而得到总共256k个样本。
4. LLM训练微调框架
-
DeepSpeed聊天:
- 地址:https://github.com/microsoft/DeepSpeed/tree/master/blogs/ deepspeed-聊天
- 简介:该项目提供了一键式RLHF训练框架,只需一个脚本即可实现多个训练步骤,包括SFT,奖励模型微调和基于人类反馈的强化学习(RLHF),此外还实现了深高速HE,统一的高效混合引擎,达到训练和推理引擎之间的过渡是无缝的。
-
LLaMA高效调谐:
- 地址:https://github.com/hiyouga/ 美洲驼-高效-调谐
- 简介:该项目提供了易于使用的基于PEFT的美洲驼微调框架,实现了包括全参数,LoRA,QLoRA等的预训练,指令微调和RLHF,并支持美洲驼,布鲁姆,猎鹰,百川,国际等底座模型。
-
ChatGLM高效调优:
- 地址:https://github.com/hiyouga/ ChatGLM-高效-调优
- 简介:该项目提供了基于PEFT的高效ChatGLM微调,支持LoRA,P调谐V2,全参数微调等模式,并适配了多个微调数据集。
-
bert4torch:
- 地址:https://github.com/Tongjilibo/ bert4torch
- 简介:该项目提供了一个大模型的训练和部署框架,包含了目前主要的开源大模型,美洲驼系列,chatglm,布鲁姆系列等等,同时还给出了预训练和微调的示例。
5. LLM推理部署框架
-
vLLM:
- 地址:https://github.com/vllm-项目/vllm
- 简介:适用于大批量提示输入,并对推理速度要求高的场景。吞吐量比HuggingFace变压器高14x-24倍,比HuggingFace文本生成推理 (TGI)高2.2x-2。5倍,实现了连续配料和页面数据保持等技巧。但该框架对适配器(LoRA、QLoRA等)的支持不友好且缺少权重量化。
-
深速度-MII:
- 地址:https://github.com/microsoft/ DeepSpeed-MII
- 简介:支持多个机器之间的负载均衡,支持不同的模型库(如拥抱脸,FairSeq等),支持模型量化推理。
-
文本生成推理:
- 地址:https://github.com/huggingface/ 文本生成-推理
- 简介:用于文本生成推断的Rust、Python和gRPC部署框架、可以监控服务器负载、实现了flash注意力和分页注意力、所有的依赖项都安装在Docker中:支持HuggingFace模型;但该框架对适配器(LoRA、QLoRA等)的支持不友好。
-
CTranslate2
- 地址:https://github.com/OpenNMT/ CTranslate2
- 简介:基于C ++ 和python的推理框架,支持在CPU和GPU上并行和异步执行,且支持提示缓存及量化。但缺少对适配器(LoRA、QLoRA等)的支持。
-
OpenLLM
- 地址:GitHub - bentoml/OpenLLM: Run any open-source LLMs, such as Llama 3.1, Gemma, as OpenAI compatible API endpoint in the cloud.
- 简介:支持将要部署的LLM连接多个适配器,可以实现只使用一个底座模型来执行多个特定的任务;支持量化推理和LangChain集成但对批处理和分布式推理的支持相对不友好。
-
MLC LLM
- 地址:GitHub - mlc-ai/mlc-llm: Universal LLM Deployment Engine with ML Compilation
- 简介:支持不同平台上的不同设备部署推理,包括移动设备(iOS或Android设备等)的高效推理,压缩等。但对大规模批量调用相对不友好。
-
LightLLM:
- 地址:GitHub - ModelTC/lightllm: LightLLM is a Python-based LLM (Large Language Model) inference and serving framework, notable for its lightweight design, easy scalability, and high-speed performance.
- 简介:一个基于Python的LLM(大型语言模型)推理和服务框架,该框架采用轻量级设计,易于扩展和高速性能,LightLLM引入了一种更细粒度的kv缓存管理算法令牌注意,并设计了一个与令牌注意高效配合的高效的路由器调度实现。在令牌注意和高效的路由器的相互作用下,LightLLM在大部分场景下都能获得比vLLM和文本生成推理得到更高的吞吐,部分场景下可以得到4倍左右的性能提升。
-
AirLLM:
- 地址:https://github.com/lyogavin/Anima/tree/main/ air_llm
- 简介:该项目开源了一个优化推理内存的推理框架,可实现4gb单卡GPU可以运行70B大语言模型推理。不需要任何损失模型性能的量化和蒸馏,剪枝等模型压缩,该项目采用了分层推理的技术以在较低的内存下实现大模型推理。
-
LMDeploy:
- 地址:GitHub - InternLM/lmdeploy: LMDeploy is a toolkit for compressing, deploying, and serving LLMs.
- 简介:该项目支持LLM(大语言模型)和VL(视觉语言模型)任务在NVIDIA设备上量化、推理和服务。LMDeploy支持有状态的推理、可以缓存对话、记住历史。它实现了持久性批处理 (即连续批处理) 、阻塞的K/V缓存、动态拆分和融合、张量并行高效的计算内核等重要特性。推理性能是vLLM的1.8倍以上。其4位量化模型推理性能达FP16的2.4倍以上。
-
FlagEval (天秤)大模型评测体系及开放平台
- 地址:GitHub - FlagOpen/FlagEval: FlagEval is an evaluation toolkit for AI large foundation models.
- 简介:旨在建立科学、公正、开放的评测基准、方法、工具集、协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。FlagEval (天秤)创新构建了 “能力-任务-指标” 三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。
-
C-eval: 构造中文大模型的知识评估基准:
- 地址:https://github.com/SJTU照明/ceval
- 简介:构造了一个覆盖人文,社科,理工,其他专业四个大方向,52个学科(微积分,线代 …),从中学到大学研究生以及职业考试,一共13948道题目的中文知识和推理型测试集。此外还给出了当前主流中文法学硕士的评测结果。
-
OpenCompass:
- 地址:GitHub - open-compass/opencompass: OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.
- 简介:由上海AI实验室发布的面向大模型评测的一站式平台。主要特点包括:开源可复现;全面的能力维度:五大维度设计,提供50 + 个数据集约30万题的的模型评测方案;丰富的模型支持:已支持20 + HuggingFace及API模型;分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测;多样化评测范式:支持零样本,小样本及思维链评测,结合标准型或对话型提示词模板;灵活化拓展。
-
SuperCLUElyb: SuperCLUE琅琊榜
- 地址:GitHub - CLUEbenchmark/SuperCLUElyb: SuperCLUE琅琊榜:中文通用大模型匿名对战评价基准
- 简介:中文通用大模型匿名对战评价基准,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名,随机的对战。他们发布了初步的结果和基于Elo评级系统的排行榜。
-
高考长椅:
- 地址:https://github.com/OpenLMLab/ 高考-长凳
- 简介: 高考是一个以中国高考题目为数据集,测评大模型语言理解能力,逻辑推理能力的测评框架,收集了2010年-2022年年全国高考卷的题目,其中包括1781道客观题和1030道主观题,构建起高考的数据部分。
-
AGIEval:
- 地址:GitHub - ruixiangcui/AGIEval
- 简介:由微软发布的一项新型基准测试、这项基准选取20种面向普通人类考生的官方、公开、高标准往常和资格考试、包括普通大学入学考试(中国高考和美国SAT考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等等。
-
协智:
- 地址:https://github.com/mikegu721/xiezhiebenchmark
- 简介:由复旦大学发布的一个综合的、多学科的、能够自动更新的领域知识评估基准、包含了哲学、经济学、法学、教育学、文学、历史学、自然科学、工学、农学、医学、军事学、管理学、艺术学这13个个学科门类,24个万道学科题目,516个具体学科,249587道题目。
-
打开LLM排行榜:
- 地址:https:// huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
- 简介:由HuggingFace组织的一个LLM评测榜单,目前已评估了较多主流的开源LLM模型。评估主要包括AI2推理挑战,HellaSwag,MMLU,TruthfulQA四个数据集上的表现,主要以英文为主。
-
CMMLU:
- 地址:https://github.com /浩南里/CMMLU
- 简介:CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。
-
MMCU:
- 地址:GitHub - Felixgithub2017/MMCU: MEASURING MASSIVE MULTITASK CHINESE UNDERSTANDING
- 简介:该项目提供对中文大模型语义理解能力的测试,评测方式,评测数据集,评测记录都公开,确保可以复现。该项目旨在帮助各位研究者们评测自己的模型性能,并验证训练策略是否有效。
-
中文-llm-基准:
- 地址:https://github.com/jeinlee1991/中文-llm-基准
- 简介:中文大模型能力评测榜单:覆盖百度文心一言,chatgpt,阿里通义千问,讯飞星火,belle / chatglm6b等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!
-
安全提示:
- 地址:https://github.com/thu-coai/安全提示
- 简介:由清华大学提出的一个关于LLM安全评测基准,包括安全评测平台等,用于评测和提升大模型的安全性,囊括了多种典型的安全场景和指令攻击的提示。
-
PromptCBLUE: 中文医疗场景的法学硕士评测基准
- 地址:GitHub - michael-wzhu/PromptCBLUE: PromptCBLUE: a large-scale instruction-tuning dataset for multi-task and few-shot learning in the medical domain in Chinese
- 简介:为推动LLM在医疗领域的发展和落地,由华东师范大学联合阿里巴巴天池平台,复旦大学附属华山医院,东北大学,哈尔滨工业大学(深圳),鹏城实验室与同济大学推出PromptCBLUE评测基准,将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务,形成首个中文医疗场景的LLM评测基准。
-
哈卢卡: 中文幻觉评估基准
- 地址:GitHub - OpenMOSS/HalluQA: Dataset and evaluation script for "Evaluating Hallucinations in Chinese Large Language Models"
- 简介: 用于衡量中文大型语言模型中的幻觉现象哈卢卡的基准测试该项目提出了一个名为。halluQA包含450个精心设计的对抗性问题,涵盖多个领域,并考虑了中国历史文化,风俗和社会现象。在构建HalluQA时,考虑了两种类型的幻觉:模仿性虚假和事实错误,并基于GLM-130B和ChatGPT构建对抗性样本。为了评估,设计了一种使用GPT-4进行自动评估的方法,判断模型输出是否是幻觉。
法学基础知识
-
拥抱llm:
- 地址:https://github.com/datawhalechina/ 拥抱-llm
- 简介:介绍ChatGPT原理、使用和应用、降低使用门槛、让更多感兴趣的非NLP或算法专业人士能够无障碍使用LLM创造价值。
-
指南:
- 地址:https://github.com/Mooler0410/llmspratticalguide
- 简介:该项目提供了关于法学硕士的一系列指南与资源精选列表,包括法学硕士发展历程、原理、示例、论文等。
提示工程教程
-
面向开发者的LLM入门课程:
- 地址:https://github.com/datawhalechina/ 提示-面向开发人员的工程
- 简介: 主要包括围绕吴恩达老师的大模型系列课程展开一个中文版的大模型入门教程: 吴恩达《开发人员的ChatGPT Prompt工程》课程中文版,吴恩达《使用ChatGPT API构建系统》课程中文版,吴恩达《LangChain for LLM Application Development》课程中文版等。
-
提示工程指南:
- 地址:https:// www.promptingguide.ai/zh
- 简介:该项目基于对大语言模型的浓厚兴趣、编写了这份全新的提示工程指南、介绍了大语言模型相关的论文研究、学习指南、模型、讲座、参考资料、大语言模型能力以及与其他与提示工程相关的工具。
-
awesome-chatgpt-提示-zh:
- 地址:https://github.com/PlexPt/ 真棒-chatgpt-提示-zh
- 简介:该项目是ChatGPT中文调教指南。包括各种场景使用指南,让chatgpt知道怎么听你的话,对指令构造可以提供一些参考。
法学应用教程
-
LangChain🦜️🔗中文网,跟着LangChain一起学LLM/GPT开发:
- 地址:https:// www.langchain.asia
- 简介:Langchain的中文文档,由是两个在LLM创业者维护,希望帮助到从刚进入AI应用开发的朋友们。
-
OpenAI食谱:
- 地址:https://github.com/openai/ openai-cookbook
- 简介:该项目是OpenAI提供的使用OpenAI API的示例和指导,其中包括如何构建一个问答机器人等教程,能够为从业人员开发类似应用时带来指导。
-
构筑大语言模型应用:应用开发与架构设计:
- 地址:GitHub - phodal/aigc: 《构筑大语言模型应用:应用开发与架构设计》一本关于 LLM 在真实世界应用的开源电子书,介绍了大语言模型的基础知识和应用,以及如何构建自己的模型。其中包括Prompt的编写、开发和管理,探索最好的大语言模型能带来什么,以及LLM应用开发的模式和架构设计。
- 简介:该项目开源了一本关于LLM在真实世界应用的开源电子书,介绍了大语言模型的基础知识和应用,以及如何构建自己的模型。其中包括提示的编写,开发和管理,探索最好的大语言模型能带来什么,以及LLM应用开发的模式和架构设计。
法学实战教程
-
LLMs九层妖塔:
- 地址:GitHub - km1994/LLMsNineStoryDemonTower: 【LLMs九层妖塔】分享 LLMs在自然语言处理(ChatGLM、Chinese-LLaMA-Alpaca、小羊驼 Vicuna、LLaMA、GPT4ALL等)、信息检索(langchain)、语言合成、语言识别、多模态等领域(Stable Diffusion、MiniGPT-4、VisualGLM-6B、Ziya-Visual等)等 实战与经验。
- 简介:ChatGLM、中国羊驼、MiniGPT-4、FastChat、美洲驼、gpt4all等实战与经验。
-
llm-操作:
- 地址:https://github.com/liguodongiot/ llm-行动
- 简介:该项目提供了一系列法学硕士实战的教程和代码,包括法学硕士的训练、推理、微调以及法学硕士生态相关的一些技术文章等。
-
llm大模型训练专栏:
- 地址:https://www.zhihu.com/column/ c_1252604770952642560
- 简介:该项目提供了一系列法学硕士前言理论和实战实验,包括论文解读与洞察分析。
-
书生·浦语大模型实战营
- 地址:GitHub - InternLM/Tutorial: LLM&VLM Tutorial
- 简介:该课程由上海人工智能实验室重磅推出。课程包括大模型微调、部署与评测全链路、目的是为广大开发者搭建大模型学习和实践开发的平台。
-
FindTheChatGPTer:
- 地址:GitHub - chenking2020/FindTheChatGPTer: ChatGPT爆火,开启了通往AGI的关键一步,本项目旨在汇总那些ChatGPT的开源平替们,包括文本大模型、多模态大模型等,为大家提供一些便利
- 简介:ChatGPT爆火,开启了通往AGI的关键一步,本项目旨在汇总那些ChatGPT的开源平替们,包括文本大模型,多模态大模型等,为大家提供一些便利。
-
LLM_reviewer:
- 地址:https://github.com/SpartanBin/ LLM_reviewer
- 简介:总结归纳近期井喷式发展的大语言模型、以开源、规模较小、可私有化部署、训练成本较低的 '小羊驼类' 模型为主。
-
真棒-AITools:
- 地址:https://github.com/ikaijua/ 真棒-AITools
- 简介:收藏整理了AI相关的实用工具、评测和相关文章。
-
开源ChatGPT及其他:
- 地址:https://github.com/SunLemuria/ open_source_chatgpt_list
- 简介: 此repo旨在记录开源ChatGPT,并提供如何参与的概述,包括: 基本模型,技术,数据,领域模型,训练管道,加速技术,多语言,多模式,还有更多。
-
真棒完全开放的Chatgpt:
- 地址:https://github.com/nichtdax/ 真棒-完全开放-chatgpt
- 简介: 此回购记录了ChatGPT的完全开放替代方案的列表。
-
真棒-LLM:
- 地址:GitHub - Hannibal046/Awesome-LLM: Awesome-LLM: a curated list of Large Language Model
- 简介: 这个repo是一个关于大型语言模型的精选列表,特别是与ChatGPT有关的论文。它还包含LLM培训框架,部署LLM的工具,有关LLM的课程和教程以及所有公开可用的LLM检查点和api。
-
DecryptPrompt:
- 地址:GitHub - DSXiangLi/DecryptPrompt: 总结Prompt&LLM论文,开源数据&模型,AIGC应用
- 简介:总结了提示和LLM论文,开源数据和模型,AIGC应用。
-
令人敬畏的预训练中国NLP模型:
- 地址:https://github.com/lonePatient/ 真棒-预训练-中文-nlp-模型
- 简介:收集了目前网上公开的一些高质量中文预训练模型。
-
ChatPiXiu:
- 地址:GitHub - OpenLLMAI/OpenLLMWiki: OpenLLMWiki: Docs of OpenLLMAI. Survey, reproduction and domain/task adaptation of open source chatgpt alternatives/implementations. PiXiu-貔貅 means fortune.
- 简介:该项目旨在打造全面且实用的ChatGPT模型库和文档库。当前V1版本梳理了包括:相关资料调研 + 通用最小实现 + 领域/任务适配等。
-
LLM-动物园:
- 地址:https://github.com/DAMO-NLP-SG/LLM-动物园
- 简介:该项目收集了包括开源和闭源的法学硕士模型,具体包括了发布时间,模型大小,支持的语种,领域,训练数据及相应论文/仓库等。
-
LLMs-在中国:
- 地址:https://github.com/wgwang/ LLMs-In-中国
- 简介:该项目旨在记录中国大模型发展情况,同时持续深度分析开源开放的大模型以及数据集的情况。
-
BMList:
- 地址:GitHub - OpenBMB/BMList: A List of Big Models
- 简介:该项目收集了参数量超过10亿的大模型、并梳理了各个大模型的适用模态、发布的机构、适合的语种、参数量和开源地址、API等信息。
-
真棒-免费-chatgpt:
- 地址:https://github.com/LiLittleCat/ 真棒-免费-chatgpt
- 简介:该项目收集了免费的ChatGPT镜像网站列表,ChatGPT的替代方案,以及构建自己的ChatGPT的教程工具等。
-
Awesome-Domain-LLM:
- 地址:https://github.com /鲁班-agi/Awesome-Domain-LLM
- 简介:该项目收集和梳理垂直领域的开源模型、数据集及评测基准。