书生浦语大模型全链路开源开放体系学习

news2025/4/7 6:52:40

书生浦语大模型的开源体系经过一年努力，已实现从数据收集到模型部署的全链路打通。课程介绍了书生浦语的最新进展，包括7B和20B模型的开源及其性能提升。新版本模型在推理能力和上下文处理上表现优异，支持超长上下文和复杂任务解决。开源工具涵盖数据处理、模型微调、评测和部署，助力用户在科研和应用领域的创新。课程还强调了社区的协作与反馈机制，推动了模型的不断优化与迭代。

在这里插入图片描述
从性能天梯来看，比肩GPT4

亮点:

书生浦语大模型的开源体系经历了长时间的努力，已实现从数据收集到AI应用的全链路打通。新版本的模型在推理性能和商业应用方面都有显著提升，展现出国产模型的强大潜力。
-书生浦语大模型自去年以来发布了多个版本，逐步实现从7B到20B的规模升级。每个新版本的模型都在性能上取得了显著的飞跃，满足不同用户的需求。
-书生浦语开源体系不仅仅涵盖模型本身，还包括工具和应用的全链条支持。这种全方位的生态促进了模型的商业化应用和科研机构的广泛使用。
-在与国际先进模型的对比中，书生浦语大模型的性能逐渐接近，例如在2.5版本中达到了与GPT 4.0的齐平。这样的进展标志着国产开源模型的竞争力不断增强。

短期记忆和上下文的处理能力在GPT4O模型中达到了100万的级别，展现出其强大的推理和复杂任务处理能力。通过不断的反馈和数据优化，模型性能得以提升，推动了开源体系的进步。
-GPT4O模型的上下文处理能力相较于之前的版本有显著提高，达到了10倍的量级。这种能力使得模型能够更好地理解和生成基于上下文的对话，满足用户的需求。
-在模型的迭代过程中，数据质量是提升模型性能的关键。通过智能评估和对齐数据，开发者能够不断优化模型的输出质量，从而提高用户的满意度。
-基于人类反馈的数据生成方法能够有效提升模型的生成能力。此方法允许用户对模型输出进行满意度排序，从而帮助模型更好地满足实际需求，改进后续版本。
概览从3个方向进行突破
核心技术思路还在通过RLHF不断迭代
从高质量的数据来源使模型完成各种超越人类期望的任务
推理能力不断提升
**模型在处理超长背景知识时的定位能力是一个重要话题。**尽管随着信息量的增加，模型的准确性会有所下降，但其在较短背景下的表现依然令人印象深刻。
-大海捞针实验显示了模型在大量信息中定位的挑战。随着背景知识长度的增加，模型的记忆和定位能力逐渐降低，这是理解其工作原理的关键。
-在处理复杂问题时，模型的规划和搜索能力至关重要。通过分析问题并利用外部工具，模型能够有效地解决子问题并整合答案，从而提升其整体性能。
-Mind Search项目展示了如何结合搜索引擎与语言模型。该项目的开源特点使得用户在进行调研和搜索工作时，能够获得更好的体验和便利。
大海捞针，100w tocken仍然表现很好
原生模型不用RAG也可以在长的上下文中发现逻辑，分析问题
处理问题可用到MindSearch
mindsearch可以对问题进行拆分并解答
**模型的参数量与应用场景有密切关系。**1.8B和7B参数的模型适合边缘设备和轻量级研究，而20B参数模型则展现出更复杂的涌现现象，适用于生产环境。
-不同参数量的模型在应用上有所不同。1.8B和7B参数的模型可以在手机和边缘设备上运行，而20B的模型在处理复杂任务时表现更佳，能够进行未见内容的回答。
-开源生态系统支持科研与应用。视频提到的书生万卷和in turn evil框架为科研和企业用户提供了丰富的资源和工具，方便进行预训练与微调。
-部署与评测工具的必要性。lm deploy和open compass等工具被介绍，帮助用户更高效地将微调后的模型部署到实际应用中，提升用户体验。

不同的模型大小和不同专业领域应用
所有的数据、部署、评测工具都是开源的
开源工具箱：Miner U、Label LLM、 Label U多模态问答的标注
介绍了一种高效的数据提取和处理工具minor u，它能够将复杂的PDF文件转化为纯文本格式，并集成了OCR功能。这些工具的开源性和与现有社区的无缝衔接，极大提高了数据处理的效率。
-minor u工具的功能非常强大，可以直接从PDF、网页和电子书中提取文本内容，解决了PDF复杂结构的问题。这个工具特别适合需要处理大量文档的用户，提高了工作效率。
-视频标注任务的开源软件相对较少，minor u和label LLM可以为用户提供良好的标注体验。用户可以利用AI辅助标注，显著提高标注效率，适用于图像和视频数据。
-与其他预训练框架相比，intern-evil在显存优化和分布式训练方面具有显著优势，降低了硬件要求，帮助企业节省成本并提高效率。这使得更多用户能参与到深度学习的应用中。
Intern Evo降低硬件要求，原来跑不起来的东西现在可以跑起来

优化加速技术在大模型微调中的应用，特别是flash attention和deep speed zero等技术的内置支持。这些技术显著提高了微调效率，并适用于不同的硬件环境，尤其是个人电脑。
Xtuner 都打包好了
Xtuner零显存浪费
在这里插入图片描述

   -当前在科研和企业中，qLora和LoRA算法的微调方法被广泛使用。这两种算法的微调方式简单易行，适合不同的计算环境，因此成为主流选择。 
   -Open Compass评测体系在大模型评测中扮演重要角色，广泛应用于各大企业及科研机构。它不仅获得了meta官方推荐，还提供了高质量的评测集和能力分析，助力行业发展。 
   -部署阶段使用的lm deploy框架支持多种开源模型的高效部署。该框架提供多种推理接口，并包括量化和服务选项，确保在性能和灵活性上的优势。

Oencompass在评测标准上有突出贡献
在这里插入图片描述

大模型的可靠性仍有待提高，因此需要构建智能体框架以增强与外部工具的互动。这种智能体框架将显著提升我们输出的可靠性，推动更精准的计算和结果展示。
-legend框架支持多种主流智能体构建方案，包括react、rework和auto gpt等。这些框架使得开发者可以灵活选择适合的工具来实现复杂的任务。
-通过demo展示，智能体能够调用Python解释器有效解决数学问题。这一过程体现了将数学问题转化为程序代码的能力，提高了问题解决的准确性。
-mind search智能体作为AI驱动的搜索引擎，能够模拟人脑思维逻辑，并可视化思维路径。它的设计能够有效规划和总结问题解决的步骤，提升了信息检索的效率。
在这里插入图片描述

把数学问题转化为语言问题；零样本泛化，大模型可以调用图片描述工具或者是规划其他思路
可视化大模型解决问题的路径，并进行思维连的总结
茴香豆是免费商用的RAG应用，
茴香豆的应用非常方便
参考：https://www.bilibili.com/video/BV18142187g5/?spm_id_from=333.788&vd_source=d5e90f8fa067b4804697b319c7cc88e4