AI21实验室推出Jamba模型,突破AI算力瓶颈,引领行业创新!

news2024/9/17 2:42:12

近日,AI领域再次迎来重大突破。知名AI研究实验室AI21在官网正式发布了其最新研究成果——基于SSM-Transformer混合架构的商业大模型Jamba。这款模型不仅继承了Transformer架构的优点,还巧妙地融合了SSM技术的优势,实现了性能和效率的双重飞跃。

AI-321 | 专注于AI工具分享的网站

AI工具集 | 人工智能工具箱 | 全球顶尖AI工具软件推荐与分享!

传统的Transformer架构在处理长序列、训练大参数模型时存在诸多问题,如AI算力消耗大、过拟合、内存占用大等。为了解决这些难题,AI21实验室在Transformer架构基础上引入了结构化状态空间模型(SSM)技术,成功研发出Jamba模型。这款模型在捕获序列内长距离依赖关系、泛化能力、特征提取等方面表现出色,同时有效降低了AI算力消耗和内存占用。

据悉,Jamba模型的吞吐量达到了同类知名开源模型Mixtral8x7B的3倍,同时在单个GPU上能容纳高达140K上下文,展现出了卓越的性能。这意味着,即使没有庞大的GPU集群,中小企业和个人开发者也能通过Jamba开发出高性能、低消耗的生成式AI产品。

Jamba架构的创新之处在于采用了分块分层的方法,巧妙地将SSM和Transformer架构融合在一起。每个Jamba模块都包含一个注意力层或一个Mamba层,然后是一个多层感知器,总体比例为每八个层中有一个Transformer层。这种设计在保证模型推理性能的同时,大大降低了AI算力消耗,提升了吞吐量。

此外,Jamba还是一个专家混合模型(MoE),520亿参数中的120亿参数长期处于激活状态,并对所有MoE层的专家进行了大幅度优化,减轻了推理时内存占用大的问题。

AI21实验室成立于2017年,总部位于特拉维夫和纽约,由三位业界资深人士联合创立。自成立以来,AI21实验室已融资3.26亿美元,并在2023年推出了大语言模型Jurassic-2。Jurassic-2在文本生成、API延迟、语言支持等方面进行了全面增强,同时还开放了指令微调、数据微调等功能,帮助企业和个人开发者打造量身定制的ChatGPT助手。目前,耐克、Zoom、沃尔玛、三星、阿迪达斯、airbnb等知名企业在使用AI21的大模型产品。

总之,AI21实验室发布的Jamba模型为中小企业和个人开发者提供了新的选择,有望推动生成式AI产品的普及和应用。这款模型的成功研发,无疑将为AI领域带来新的变革,引领行业迈向更加美好的未来。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1553600.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Arthas-tarce线上排查问题流程

入门文档:trace | arthas 1、jar下载和启动 连接curl -O https://arthas.aliyun.com/arthas-boot.jar【wget https://arthas.aliyun.com/arthas-boot.jar】 。.../jdk/bin/java -jar arthas-boot.jar 22336【最好在这个目录启动,port可选】 选择进程序号 enter回车…

Linux:详解TCP协议段格式

文章目录 认识TCPTCP协议段格式 本篇主要总结的是TCP协议的一些字段 认识TCP TCP协议全称是传输控制协议,也就是说是要对于数据的传输进行一个控制 以上所示的是对于TCP协议进行数据传输的一个理解过程 全双工 至此就可以对于TCP协议是全双工的来进行理解了&…

WinServer启用Hyper-V新建虚拟机没有网络、无法开启增强模式

没有网络问题如下: 原因:没有在Hyper-V中新增交换机 操作—虚拟交换机管理器—新建虚拟网络交换机-外部-允许管理员操作系统共享此网络适配器 无法开启增强模式:

【分布式】——分布式事务

分布式事务 ⭐⭐⭐⭐⭐⭐ Github主页👉https://github.com/A-BigTree 笔记链接👉https://github.com/A-BigTree/tree-learning-notes ⭐⭐⭐⭐⭐⭐ Spring专栏👉https://blog.csdn.net/weixin_53580595/category_12279588.html SpringMVC专…

免费在线制流程图和思维导图ProcessOn高效协同

免费在线制流程图和思维导图ProcessOn高效协同,还有海量的免费模板。在ProcessOn,你可以与全球超过1.1亿的优秀人才一起合作,共同绘制出精美的流程图和思维导图。无论是工作中的项目管理,还是学习中的知识整理,Process…

【计算机图形学】3D Implicit Transporter for Temporally Consistent Keypoint Discovery

对3D Implicit Transporter for Temporally Consistent Keypoint Discovery的简单理解 文章目录 1. 现有方法限制和文章改进2. 方法2.1 寻找时间上一致的3D特征点2.1.1 3D特征Transporter2.1.2 几何隐式解码器2.1.3 损失函数 2.2 使用一致特征点的操纵 1. 现有方法限制和文章改…

【热门话题】Yarn:新一代JavaScript包管理器的安装与使用

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 Yarn:新一代JavaScript包管理器的安装与使用引言一、Yarn的安装1. 系…

FPGA结构与片上资源

文章目录 0.总览1.可配置逻辑块CLB1.1 6输入查找表(LUT6)1.2 选择器(MUX)1.3 进位链(Carry Chain)1.4 触发器(Flip-Flop) 2.可编程I/O单元2.1 I/O物理级2.2 I/O逻辑级 3.布线资源4.其…

网络七层模型之数据链路层:理解网络通信的架构(二)

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

IEEE投稿Latex要求整理(以TCYB为例)

本文以IEEE Transactions on Cybernetics(TCYB)期刊为例,简略整理了投稿中latex编写时作者本人认为需要特别注意的事项。 投稿步骤如下: 下载对应期刊的模板;仔细阅读模板中的投稿要求;在官网注册并投稿。 一、下载对应期刊的模…

Rust编程(五)终章:查漏补缺

闭包 & 迭代器 闭包(Closure)通常是指词法闭包,是一个持有外部环境变量的函数。外部环境是指闭包定义时所在的词法作用域。外部环境变量,在函数式编程范式中也被称为自由变量,是指并不是在闭包内定义的变量。将自…

“光学行业正被量子颠覆”——行业巨头齐聚,展示量子成果

OFC是全球最大的光网络和通信盛会,代表一系列产品,从光学元件和设备到系统、测试设备、软件和特种光纤,代表整个供应链,并提供业界学习、连接、建立网络和达成交易的首要市场,于2024年3月24日至28日在圣地亚哥会议中心…

HarmonyOS入门--配置环境 + IDE汉化

文章目录 下载安装DevEco Studio配置环境先认识DevEco Studio界面工程目录工程级目录模块级目录 app.json5module.json5main_pages.json通知栏预览区 运行模拟器IED汉化 下载安装DevEco Studio 去官网下载DevEco Studio完了安装 配置环境 打开已安装的DevEco Studio快捷方式…

百源生物诚邀您参观2024上海生物发酵产品与技术装备展

参展企业介绍 百源生物致力于提高微生物工业发酵的过程控制水平,以“发酵过程的智能化”为公司使命,通过反应器设计、营养量化、代谢监控及数据分析等手段让复杂的微生物发酵过程变得透明简单,从而实现发酵过程的精确量化控制。 公司…

4. 面向对象编程(上)

文章目录 4. 面向对象编程(上)4.1 面向过程和面向对象4.2 类和对象4.2.1 类对象得使用4.2.2 类对象的内存解析4.2.3 匿名对象 4.3 类的成员之一:属性4.3.1 成员变量和局部变量 4.4 类的成员之二:方法(函数)…

JAVA面试八股文之集合

JAVA集合相关 集合?说一说Java提供的常见集合?hashmap的key可以为null嘛?hashMap线程是否安全, 如果不安全, 如何解决?HashSet和TreeSet?ArrayList底层是如何实现的?ArrayList listnew ArrayList(10)中的li…

【超图 SuperMap3D】【基础API使用示例】54、超图SuperMap3D -鼠标左键拖拽绘制圆

前言 引擎下载地址:[添加链接描述](http://support.supermap.com.cn/DownloadCenter/DownloadPage.aspx?id2524) 通过左键按下拖拽的方式在地图上进行贴地的圆绘制 完整代码拷贝直接本地运行即可查看效果效果 核心代码 // 绘制圆形 function startDrawCircleHand…

每天学习一点点之注解处理器 APT

APT(Annotation Processing Tool)是一种处理注解的工具,它能够对源代码文件进行检测并找出其中的注解,然后对其进行额外的处理。由于注解处理过程是在编译时完成的,并不会影响程序的运行时性能。 APT 能做什么&#x…

3D人体姿态估计项目 | 从2D视频中通过检测人体关键点来估计3D人体姿态实现

项目应用场景 人体姿态估计是关于图像或视频中人体关节的 2D 或 3D 定位。一般来说,这个过程可以分为两个部分:(1) 2D 视频中的 2D 关键点检测;(2) 根据 2D 关键点进行 3D 位姿估计。这个项目使用 Detectron2 从任意的 2D 视频中检测 2D 关节…

车载以太网AVB交换机 gptp透明时钟 8口 千兆/百兆可切换 SW1100TR

SW1100TR车载以太网交换机 一、产品简要分析 8端口千兆和百兆混合车载以太网交换机,其中包含2个通道的1000BASE-T1采用罗森博格H-MTD接口,5通道100BASE-T1泰科MATEnet接口和1个通道1000BASE-T标准以太网(RJ45接口),可以实现车载以太网多通道…