课程来源:书生·浦语大模型全链路开源体系
1.大模型成为发展通用人工智能的重要途径
专用模型:针对特定任务,一个模型解决一个问题
通用大模型:一个模型应对多种任务、多种模态
2.书生·浦语大模型开源历程
书生·浦语2.0面向不同的使用需求,每个规格包含三个模型版本:InternLM2-Base、InternLM2和InternLM2-Chat
3.回归语言建模的本质
多维度数据价值评估:基于文本质量、信息质量、信息密度等维度对数据价值进行综合评估与提升
高质量语料驱动的数据富集:利用高质量语料的特征从物理世界、互联网以及语料库进一步富集更多类似语料
有针对性的数据补齐:针对性补充语料,重点加强世界知识,数量、代码等核心能力
4.书生·浦语2.0 的主要亮点
超长上下文
综合性能全面提升
优秀的对话和创作体验
工具调用能力整体升级
突出的数理能力和实用的数据分析功能
5.从模型到应用
智能客服
个人助手
行业应用
6.从模型到应用典型流程
7.书生·浦语全链条开源开放体系
数据:书生·万卷 2TB数据
预训练:InternLM-Train 并行训练
微调:XTuner 全参数微调 低成本微调
部署:LMDeploy 全链路部署
评测:OpenCompass 全方位评测
应用:Lagent AgentLego 支持多种智能体 代码解释器
7.1 数据
书生·万卷1.0:总数据量2TB;多模态融合;精细化处理;价值观对齐
书生·万卷CC:总数据量:400GB;时间跨度长;来源丰富多样;安全密度高
7.2 预训练
高可扩展;极致性能优化;兼容主流;开箱即用
7.3 微调
增量续训:让基座模型学习到一些新知识
有监督微调:让模型学会理解各种指令进行对话或注入少量领域知识训练数据
7.4 部署
LMDeploy提供大模型在GPU上部署的全流程解决方案,包括模型轻量化、推理和服务。
高效推理引擎
完备易用的工具链
支持交互式推理不为历史对话买单
7.5 评测
1月30日 OpenCompass 2.0司南大模型评测体系 正式发布
7.6 智能体
轻量级智能体框架Lagent:灵活支持多种大语言模型 简单易扩展,支持丰富的工具
多模态智能体工具箱 AgentLego