书生大模型全链路开源体系

news2024/11/24 14:00:20

书生浦语大模型全链路开源体系开源了哪些东西

  • 数据书生万卷:一个2TB的涵盖多种模态与任务的数据集
  • 预训练InternLM-Train
  • 微调XTuner:可供你低成本微调模型的工具箱
  • 部署LMDeploy:一个服务端场景下、transformer 结构 LLM 部署工具。
  • 评测OpenCompass:开源的大模型评测工具
  • 智能体应用
    • Lagent
    • AgentLego

数据

书生万卷1.0

这个是上海人工智能开源的多模态的数据集,有文本,图像-文本,以及视频数据

网址:https://github.com/opendatalab/WanJuan1.0

OpenDataLab

除了开源了书生万卷数据集,上海人工智能实验室还提供了OpenDataLab这个数据平台,上面有很多数据集可以下载。而且还提供了数据标注工具

网址:https://opendatalab.com/

预训练 InternLM-Train

这个预训练框架的特点

  • 高可扩展
  • 极致性能优化
  • 兼容主流
  • 开箱即用

微调

在大模型下游的应用中一般用到两种微调方式:增量续训、有监督微调。

  • 增量续训是让基座模型学习新知识,如某个垂直领域的知识。此时输入数据一般为专业领域知识文章、书籍等。
  • 有监督微调是让大模型学会理解和遵循各种指令,或者注入少量的领域知识。

XTuner

.XTuner是上海人工智能实验室开发的低成本大模型训练工具箱,只要8G。最低只需 8GB 显存,就可以微调InternLM-7B模型,打造专属于你的 AI 助手。哎,望了眼我家里不争气的RTX1660Ti

评测体系OpenCompass

OpenCompass是什么?上海人工智能实验室推出OpenCompass大模型开放评测体系,简称就是OpenCompass

OpenCompass最大的一个特点就是囊括了非常多的数据集以及对应数据集的预处理加工脚本。此外,还支持社区用户根据自身需求快速添加自定义的数据集。

 官网链接 https://opencompass.org.cn

 开源链接 https://github.com/open-compass/opencompass

轻量化部署 LMDeploy

为了解决大语言模型内存开销大,无法在低存储设备上部署推理服务等问题,上海AI实验室推出了LMDeploy的轻量化的部署方案

应用

为了让用户更好的发挥大模型的作用,书生通用大模型开源体系提供了两个智能体应用框架

轻量级智能体框架Lagent

多模态智能体工具箱AgentLego

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1369844.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用开源通义千问模型(Qwen)搭建自己的大模型服务

目标 1、使用开源的大模型服务搭建属于自己的模型服务; 2、调优自己的大模型; 选型 采用通义千问模型,https://github.com/QwenLM/Qwen 步骤 1、下载模型文件 开源模型库:https://www.modelscope.cn/models mkdir -p /data/…

Camunda ServiceTask

一:Java class Java class实现JavaDelegate接口,只需要配置类的全限定名即可,不需要被Spring容器管理。 public class JavaClassServiceTask implements JavaDelegate {Overridepublic void execute(DelegateExecution execution) throws …

k8s的集群调度---下

前情回顾 预算策略:过滤出合适的节点 优选策略:选择部署的节点 nodeName:硬匹配,不走调度策略。node01. nodeSelector:根据节点的标签选择,会走调度算法。 只要是走调度算法,在不满足预算策…

荣誉 | 数说故事荣登2023粤港澳大湾区科创百强;上榜甲子光年2023中国数字经济榜

硬科技向前,加「数」战新年 2024新年伊始,数说故事就迎来了两大喜讯 上榜2023粤港澳大湾区科创榜 荣登【光年20】2023中国数字经济产品创新榜 ...... 以技术为笔,创新为墨 「数」写着数说故事在科技领域的强大实力与潜力 为新年注入更…

Selenium 学习(0.18)——软件测试之基本路径测试

1、基本路径法测试的概念 是一种白盒测试方法,它在程序控制流图的基础上,通过分析控制构造的环行复杂性,导出基本可执行路径集合,从而设计测试用例的方法。 要保证在测试中程序的每一个可执行语句至少执行一次 【这和语句…

基于pytorch的房价预测

简介 本文主要介绍的基于pytorch和房价预测深度学习网络构建。 该系统使用的是网络上的开源数据: 实现了对房价数据的处理,包括词频统计、情感分析等,并将分析结果以图表形式进行展示。通过这个系统,用户可以便捷地进行分析和可…

scVI与MultiVI

scVI:https://docs.scvi-tools.org/en/stable/user_guide/models/scvi.html MultiVI:https://docs.scvi-tools.org/en/stable/user_guide/models/multivi.html 目录 scVI生成推理任务 MultiVI生成推理 scVI single cell variational inference提出了一个…

JAVA实现文件上传至阿里云

注册阿里云账号后,开通好对象存储服务(OSS),三个月试用 阿里云登录页 (aliyun.com) 目录 一.创建Bucket 二.获取AccessKey(密钥) 三.参考官方SDK文件,编写入门程序 1.复制阿里云OSS依赖,粘贴…

山东名岳轩印刷包装携专业包装袋盛装亮相2024济南生物发酵展

山东名岳轩印刷包装有限公司盛装亮相2024第12届国际生物发酵展,3月5-7日山东国际会展中心与您相约! 展位号:1号馆F17 山东名岳轩印刷包装有限公司是一家拥有南北两个生产厂区,设计、制版、印刷,营销策划为一体的专业…

无法找到 WindowsKernelModeDriver10.0 的生成工具

无法找到 WindowsKernelModeDriver10.0 的生成工具(平台工具集 “WindowsKernelModeDriver10.0”)。若要使用 WindowsKernelModeDriver10.0 生成工具进行生成,请安装 WindowsKernelModeDriver10.0 生成工具。或者,可以升级到当前 Visual Studio 工具&…

ShardingSphere-JDBC初探

引言 为什么使用分库分表? 数据量太大单表放不下,并且公司不希望切换产品,可选的方案不多,ShardingSphere就是不错的选择。 切换产品指的是换成es、clickhouse、hbase这种支持大数据,试想一下切换产品对整个项目的改…

mysql进阶-视图

目录 1. 用途 2. 语法 2.1 创建或替换视图 2.2 修改视图 2.3 查看视图: 2.4 删除视图: 3. 其他 3.1 操作视图 3.2 迁移数据库 1. 用途 视图可以理解为一个复杂查询的简称,它可以帮助我们简化查询,主要用于报表查询:例如…

Halcon3D篇-3D预处理,滤波,点云筛选

前言 由于3D相机采集到的数据通常通过Tiff格式的深度图进行显示或者保存。 深度图与模型的互转可以访问另一篇博客:https://blog.csdn.net/m0_51559565/article/details/135362674 关于3D相机的数据采集,可以访问我们另一篇关于LMI3D相机SDK的二次开发…

【leetcode】力扣算法之两数相加【中等难度】

题目描述 给你两个 非空 的链表,表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的,并且每个节点只能存储 一位 数字。 请你将两个数相加,并以相同形式返回一个表示和的链表。 你可以假设除了数字 0 之外,这两个数都…

书生·浦语大模型实战营第二次课堂笔记

文章目录 什么是大模型?pip,conda换源模型下载 什么是大模型? 人工智能领域中参数数量巨大、拥有庞大计算能力和参数规模的模型 特点及应用: 利用大量数据进行训练拥有数十亿甚至数千亿个参数模型在各种任务重展现出惊人的性能 …

鸿鹄电子招投标系统:企业战略布局下的采购寻源解决方案

在数字化采购领域,企业需要一个高效、透明和规范的管理系统。通过采用Spring Cloud、Spring Boot2、Mybatis等先进技术,我们打造了全过程数字化采购管理平台。该平台具备内外协同的能力,通过待办消息、招标公告、中标公告和信息发布等功能模块…

从私有Git仓库的搭建到命令的使用及部署再到分支管理

一、版本控制系统/版本控制器 1. 版本控制系统: git 分布式 —没有中心代码库,所有机器之间的地位同等(每台机器上都有相同的代码) svn 集中管理的 —有中心代码库,其他都是客户端 2.git与svn介绍 1.git属于分布…

力扣:18.四数之和

一、做题链接:18. 四数之和 - 力扣(LeetCode) 二、题目分析 1.做这一道题之前本博主建议先看上一篇《三数之和》 2.题目分析 给你一个由 n 个整数组成的数组 nums ,和一个目标值 target 。请你找出并返回满足下述全部条件且不重…

vue+springboot+mybatis实现项目管理系统

项目前端:https://gitee.com/anxin-personal-project/project-management-front 项目后端:https://gitee.com/anxin-personal-project/project-management-behind 项目均可运行!!!有问题留言,如果看到了会…

自创C++题目——自掏腰包

预估难度 中等 题目描述 我今天特别开心,去了一家商场。有个商场,商场里有个商品,我要买个产品,每个商品元,去一家商场需要元(不包括第一次),那么我该怎么花钱,才能花…