智源大模型通用算子库FlagGems四大能力升级 持续赋能AI系统开源生态

news2024/12/21 0:33:38

FlagGems是由智源研究院于2024年6月推出的面向多种AI芯片的开源大模型通用算子库。FlagGems使用Triton语言开发,在Triton生态开源开放的基础上,为多种AI芯片提供开源、统一、高效的算子层生态接入方案。FlagGems沿着统一的中间语言、统一的算子接口和统一的开源算子库方向进行了深入探索与实践。经过半年的研发迭代,FlagGems 取得了诸多新进展。

四大能力升级

  • 提供大模型算子总数超过120个,是目前提供算子数量最多、覆盖广度最大的Triton算子库。

  • 提供多后端支持,目前已有7家厂商的不同 AI 芯片接入 FlagGems,为大模型提供更多算力选择。

  • 实现代码生成技术、运行时优化技术,在开发效率和运行性能等重要指标上都优于同类开源项目。

  • 持续优化多种 AI 芯片性能,加速比显著提升,多数超越原生算子。算子在 Nvidia GPU上整体性能优越,实现平均性能90%以上超越Pytorch CUDA版本。

  • 详细数据如下所示:

    • 平台:A100

    • 实验时间:11月27日

    • 代码版本:commit 41ab8017b4ed93db54358e3cb563eadf1a98f43d

    • 采集方法:benchmark数据按算子取加速比均值,全局排序

    • 数据意义:加速比为1表示FlagGems与Pytorch aten CUDA性能相当,超过1表示FlagGems性能更优,低于1表示FlagGems性能劣势;黄色条左侧的加速比均大于1,黄色条至红色条之间的加速比约等于1,红色条右侧的加速比小于1。

赋能大模型训练

FlagGems已与智源大模型并行训练及推理框架FlagScale(https://github.com/FlagOpen/FlagScale.git)进行集成使用,该框架能实现不同代际、不同架构芯片之间的异构混合训练,已支持智源内外10多个模型的端到端训练与推理,涵盖稠密与稀疏模型,涉及语言与多模态领域,参数规模到千亿量级,并实现多款芯片的适配。

首次实现FlagGems+FlagScale端到端训练的模型如下:

  • 语言模型 Aquila-135M

    • 模型概述

      • Aquila-135M是尺寸最小的中英双语语言大模型。

      • 基于1.66TB的预训练数据和优选的100B Token的退火数据,采用预训练和退火二阶段训练得到。

      • 整个训练过程基于智源Triton算子库FlagGems以及并行训练框架FlagScale实现。

    • 模型效果

      • 英文指标接近同类型小模型SOTA水平(SmolLM2-135M),中文评测显著胜出。

      • 采用Triton算子的模型效果与CUDA算子基本一致,证明了Triton算子的正确性。

  • 多模态模型 Aquila-VL-2B

    • 模型概述

      • Aquila-VL-2B基于LLaVA-OneVision框架构建,采用Qwen-2.5-1.5B作为语言塔,Siglip400m作为视觉塔,并使用了智源开源的千万级多模态指令数据集Infinity-MM进行多阶段训练。这一创新设计和高质量数据的结合,使得Aquila-VL-2B在同规模模型中取得了领先的性能。

      • 训练过程基于智源Triton算子库FlagGems以及并行训练框架FlagScale实现,分别在 Nvidia GPU 和 某款非英伟达的全功能GPU训练,证明了 FlagGems 支持多元化AI芯片能力。

    • 模型效果

      • 其中 Aquila-VL-2B-Triton 在某款全功能 GPU 千卡规模高效训练,效果与Nvidia A800基本一致。

构建开发者生态

智源致力于构建FlagGems开发者生态,支持多元化AI芯片的合作体系,通过深化核心合作、强化社区建设、提供技术与框架支持、丰富生态建设活动等多维度策略,全面促进AI技术的创新与发展。目前,智源与蚂蚁、腾讯、商汤、火山等大模型应用厂商,以及浪潮、新华三、联想等系统厂商建立合作伙伴关系,并携手百度飞桨、中科加禾、硅基流动等厂商,共同为开发者提供算子及框架支持,此外,智源还联合上海实验室、信通院、电子四院等机构,积极推动制定相关标准,为生态健康发展提供技术的规范性和统一性。这些合作伙伴不仅为生态提供了丰富的资源和技术支持,也为生态的多样性和活力注入了新的血液。

在社区平台建设方面,FlagGems与CSDN深度合作,建立了Triton中文社区门户,汇聚了超过110名社区算子贡献者,通过Github Project看板协作完成项目贡献,并已对外发放25+个开发任务,激励社区开发者的参与和贡献。得到上海人工智能实验室、CSDN、中国互联网协会人工智能工作委员会的共同支持,首次活动线下满员,线上参与5000+人次。智源大会期间举办了Triton算子开发培训,并举办Triton生态活动专场,Triton中国生态Meetup系列活动,展现了生态的广泛影响力。

教育是生态建设的未来。智源积极参与北京市属高校人工智能通识课程案例征集,打造《AI高性能计算软件编程》课程,为高校学生提供了宝贵的学习资源。这不仅为学生提供了实践机会,也为生态培养了未来的人才。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2262983.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

每天40分玩转Django:Django部署

Django部署 一、今日学习内容概述 学习模块重要程度主要内容生产环境配置⭐⭐⭐⭐⭐settings配置、环境变量WSGI服务器⭐⭐⭐⭐⭐Gunicorn配置、性能优化Nginx配置⭐⭐⭐⭐反向代理、静态文件安全设置⭐⭐⭐⭐⭐SSL证书、安全选项 二、生产环境配置 2.1 项目结构调整 mypr…

JDK21执行java -jar xxx.jar 文件时 “An unexpected error occurred” 问题处理

背景介绍:因langchain4j最新版本(>0.36.0)(Min JDK version has been upgraded to 17)需JDK17起,故直接使用Amazon Corretto JDK 21作为基础镜像。 在使用 JDK21 进行开发或运行相关应用时,有…

人工智能:人机交互和用户体验:相关学点、两者关系、未来趋势

目录 相关学点 HCI 与 UX 的关系 当前趋势和未来展望 人机交互(Human-Computer Interaction, HCI)和用户体验(User Experience, UX)是现代设计和工程领域的重要概念,尤其在软件开发、网站设计和产品设计中起着关键作…

docker(wsl)命令 帮助文档

WSL wsl使用教程 wsl -l -v 列出所有已安装的 Linux 发行版 wsl -t Ubuntu-22.04 --shutdown 关闭所有正在运行的WSL发行版。如果你只想关闭特定的发行版 wsl -d Ubuntu-22.04 登录到Ubuntu环境 wsl --list --running 查看正在wsl中运行的linux发行版 wsl --unregister (系统名…

2024年09月机器人一级理论真题答案及解析

一、单选题 1、如图,下列哪个选项是机器人? ( ) A、a B、b C、c D、d 解析: 根据提供的图片和选项,选项B(b)与图片中显示的机器人外观相符,因此B是正确答案。 2、智能机器人属…

Web开发 -前端部分-CSS

CSS CSS&#xff08;Cascading Style Sheet&#xff09;:层叠样式表&#xff0c;用于控制页面的样式&#xff08;表现&#xff09;。 一 基础知识 1 标题格式 标题格式一&#xff1a; 行内样式 <!DOCTYPE html> <html lang"en"><head><meta…

【数据集】车内视角拍摄道路路面缺陷数据集1075张3类标签YOLO+VOC格式

数据集格式&#xff1a;VOC格式YOLO格式 压缩包内含&#xff1a;3个文件夹&#xff0c;分别存储图片、xml、txt文件 JPEGImages文件夹中jpg图片总计&#xff1a;1075 Annotations文件夹中xml文件总计&#xff1a;1075 labels文件夹中txt文件总计&#xff1a;1075 标签种类数&am…

vue3使用axios请求接口,先报错301,然后报错404

一、问题描述 在开发项目需求的时候&#xff0c;碰到一个奇怪的错误&#xff0c;先报错301&#xff0c;然后报错404&#xff0c;如上图所示。但是项目的其他接口请求都是正常的。 二、错误原因及解决方法 接口url的末尾缺少斜杠 /&#xff0c;加上就好了。 原url&#xff1a;…

当我用影刀AI Power做了一个旅游攻略小助手

在线体验地址&#xff1a;旅游攻略小助手https://power.yingdao.com/assistant/ca1dfe1c-9451-450e-a5f1-d270e938a3ad/share 运行效果图展示&#xff1a; 话不多说一起看下效果图&#xff1a; 智能体的截图&#xff1a; 工作流截图&#xff1a; 搭建逻辑&#xff1a; 其实这…

.NET 技术 | 调用系统API创建Windows服务

01阅读须知 此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等&#xff08;包括但不限于&#xff09;进行检测或维护参考&#xff0c;未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失&#xf…

2024告别培训班 数通、安全、云计算、云服务、存储、软考等1000G资源分享

大类有&#xff1a;软考初级 软考中级 软考高级 华为认证 华三认证&#xff1a; 软考初级&#xff1a; 信息处理技术员 程序员 网络管理员 软考中级&#xff1a; 信息安全工程师 信息系统监理师 信息系统管理工程师 嵌入式系统设计时 数据库系统工程师 电子商务设…

Java设计模式 —— 【结构型模式】适配器模式(类的适配器、对象适配器、接口适配器)详解

文章目录 基本介绍一、类的适配器二、对象适配器三、接口适配器总结 基本介绍 生活中有很多例子&#xff1a; 不同国家的插座接口不同&#xff0c;需要转换器&#xff1b;家用电源220V&#xff0c;手机只接受5V充电&#xff0c;需要转换器&#xff1b;读卡器&#xff0c;拓展…

游泳溺水识别数据集,对9984张原始图片进行YOLO,COCO JSON, VOC XML 格式的标注,平均识别率在91.7%以上

游泳溺水识别数据集&#xff1a; 对9984张原始图片进行YOLO&#xff0c;COCO JSON, VOC XML 格式的标注&#xff0c;平均识别率在91.7&#xff05;以上 &#xff0c;可识别泳池或者水库中是否有人溺水。 数据集分割 训练组98&#xff05; 9818图片 有效集&#xff05;…

满足更多业务需求:HZERO平台可视化大屏功能升级

前言 报表平台 报表平台是一款全面的数据可视化和报表生成工具&#xff0c;该平台支持多种数据源类型&#xff0c;包括Oracle、MySQL、HIVE等主流数据库及非关系型数据库&#xff0c;通过标准SQL、脚本SQL、API等多种方式灵活配置数据集&#xff0c;满足复杂数据结构需求。还…

Linux下部署MySQL8.0集群 - 主从复制(一主两从)

目录 一、部署前准备 1、查看系统信息 # 查看系统版本 cat /etc/red* # 查看系统位数 getconf LONG_BIT[rootlocalhost ~]# cat /etc/red* CentOS Linux release 7.5.1804 (Core) [rootlocalhost ~]# getconf LONG_BIT 642、下载对应安装包 进入MySQL官网&#xff1a;https:…

web3跨链桥协议-Nomad

项目介绍 Nomad是一个乐观跨链互操作协议。通过Nomad协议&#xff0c;Dapp能够在不同区块链间发送数据&#xff08;包括rollups&#xff09;&#xff0c;Dapp通过Nomad的合约和链下的代理对跨链数据、消息进行验证、传输。其安全通过乐观验证机制和欺诈证明制约验证者实现&…

【CSS in Depth 2 精译_080】 13.1:CSS 渐变效果(中)——不同色彩空间的颜色插值算法在 CSS 渐变中的应用

当前内容所在位置&#xff08;可进入专栏查看其他译好的章节内容&#xff09; 第四部分 视觉增强技术 ✔️【第 13 章 渐变、阴影与混合模式】 ✔️ 13.1 渐变 ✔️ 13.1.1 使用多个颜色节点&#xff08;上&#xff09;13.1.2 颜色插值方法&#xff08;中&#xff09; ✔️13.1…

讯飞智文丨一键生成WordPPT

在当今数字化办公的浪潮中&#xff0c;Word和PPT已经成为职场人士日常工作的标配工具。然而&#xff0c;面对繁琐的内容编辑和格式调整任务&#xff0c;如何提升效率成了每个人的追求。而讯飞智文&#xff0c;一款结合人工智能技术的文字处理与演示文稿工具&#xff0c;正逐渐成…

Android Studio的笔记--BusyBox相关

BusyBox 相关 BusyBoxandroid上安装busybox和使用示例一、下载二、移动三、安装和设置环境变量四、使用 busybox源码下载和查看 BusyBox BUSYBOX BUSYBOX链接https://busybox.net/ 点击链接后如图 点击左边菜单栏的Get BusyBix中的Download Source 跳转到busybox 的下载源码…

【机器学习】机器学习的基本分类-强化学习(Reinforcement Learning, RL)

强化学习&#xff08;Reinforcement Learning, RL&#xff09;是一种基于试错的方法&#xff0c;旨在通过智能体与环境的交互&#xff0c;学习能够最大化累积奖励的策略。以下是强化学习的详细介绍。 强化学习的核心概念 智能体&#xff08;Agent&#xff09; 执行动作并与环境…