书生 浦语全链路开发体系:从数据到最后的应用,都有相应开源工具,其中模型,和数据集都有很好的开源支持。
一. 书生 万卷
书生万卷开发数据集包括,1.0和CC,拥有较为丰富的高质量的数据集,可用于模型的预训练,SFT微调等。
均可在opendatalab 获取相应数据集:https://opendatalab.org.cn
二. 预训练
Intern-LM 框架支持从8卡到千卡的训练,对比同规模的训练框架,在训练加速上有不错的优化效果。兼容主流的HuggingFace等生态技术。
三. 微调
XTuner是一个高效微调框架,硬件上支持消费级显卡,从RTX2080起,模型支持HuggingFace,ModelScope模型或数据集。最低只需8G显存即可微调7B模型。
四. 评测
OpenCompass 评测体系 包括了CompassRank 中立模型性能榜单,CompassKit 大模型全栈评测工具,CompassHub评测社区。
OpenCompass是Meta官方认证的国产开源评测工具。
五. 模型部署
LMDeploy提供大模型在GPU上部署的全流程解决方案,包括模型轻量化,推理和服务。
能够提供高效推理引擎,高效的模型并行,k/v缓存管理机制。
六. 智能体(Agent)
6.1 Lagent
支持多种智能体能力,多种大语言模型,包括GPT, InternLM, Huggingface,LLAMA等。提供丰富的工具,API等。
6.2 AgentLego工具箱
丰富的工具集合,兼容主流Agent框架,包括LangChain, Transformers Agent, lagent等。