科技云报道:黑马Groq单挑英伟达,AI芯片要变天?

news2025/1/12 15:56:00

科技云报道原创。

近一周来,大模型领域重磅产品接连推出:OpenAI发布“文字生视频”大模型Sora;Meta发布视频预测大模型 V-JEPA;谷歌发布大模型 Gemini 1.5 Pro,更毫无预兆地发布了开源模型Gemma…

难怪网友们感叹:“一开年AI发展的节奏已经如此炸裂了么!”

但更令人意想不到的是,AI芯片领域处于绝对霸主地位的英伟达,竟然也遇到了挑战,而且挑战者还是一家初创公司。

在这家名叫Groq的初创芯片及模型公司官网上,它号称是世界最快大模型,比GPT-4快18倍,测试中最快达到破纪录的每秒吞吐500 tokens。

这闪电般的速度,来源于Groq自研的LPU(语言处理单元),是一种名为张量流处理器(TSP)的新型处理单元,自然语言处理速度是英伟达GPU 10倍,做到了推理的最低延迟。

“快”字当头,Groq可谓赚足眼球。Groq还喊话各大公司,扬言在三年内超越英伟达。

事实上,在这一波AI热潮中,“天下苦英伟达久矣”。英伟达GPU芯片价格一再被炒高,而Groq的LPU架构能“弯道超车”,显然是众望所归。

因此,不少舆论惊呼Groq要颠覆英伟达,也有业内人士认为Groq想要“平替”英伟达还有很长的路要走。

但无论持哪种观点,Groq的出现不仅是对现有芯片架构和市场格局的挑战,也预示着AI芯片及其支撑的大模型发展方向正在发生变化——聚焦AI推理。
在这里插入图片描述
Groq LPU:快字当头

据介绍,Groq的芯片采用14nm制程,搭载了230MB大静态随机存储器(SRAM)以保证内存带宽,片上内存带宽达80TB/s。在算力方面,该芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度为188TFLOPs。

Anyscale的LLMPerf排行显示,在Groq LPU推理引擎上运行的Llama 2 70B,输出tokens吞吐量快了18倍,优于其他所有云推理供应商。

据网友测试,面对300多个单词的“巨型”prompt(AI模型提示词),Groq在不到一秒钟的时间里,就为一篇期刊论文创建了初步大纲和写作计划。此外,Groq还完全实现了远程实时的AI对话。

电子邮件初创企业Otherside AI的首席执行官兼联合创始人马特·舒默(Matt Shumer)在体验Groq后称赞其快如闪电,能够在不到一秒钟的时间内生成数百个单词的事实性、引用性答案。

更令人惊讶的是,其超过3/4的时间用于搜索信息,而生成答案的时间却短到只有几分之一秒。

Groq之所以“快如闪电”,其创新的核心在于LPU。

据官方信息显示,LPU推理引擎是一种新型的端到端处理单元系统,它为计算密集型应用提供最快的推理能力,这些应用具有序列组件,例如AI语言应用程序(LLM)。

LPU旨在克服LLM的两个瓶颈:计算密度和内存带宽。

就LLM而言,LPU比GPU和CPU具有更大的计算能力。这减少了每个单词的计算时间,从而可以更快地生成文本序列。

同时,与利用高带宽内存(HBM)的GPU不同,Groq的LPU利用SRAM进行数据处理,比HBM快约20倍,从而显著降低能耗并提高效率。

GroqChip的独特架构与其时间指令集相结合,可实现自然语言和其他顺序数据的理想顺序处理。

消除外部内存瓶颈,不仅使LPU推理引擎能够在LLM上提供比GPU高几个数量级的性能。

而且由于LPU只进行推理计算,需要的数据量远小于模型训练,从外部内存读取的数据更少,消耗的电量也低于GPU。

此外,LPU芯片设计实现了多个TSP的无缝连接,避免了GPU集群中的瓶颈问题,显著地提高了可扩展性。

因此,Groq公司宣称,其LPU所带来的AI推理计算是革命性的。

在AI推理领域挑战GPU

尽管Groq高调喊话,但想要“平替”英伟达GPU并不容易。从各方观点来看,Groq的芯片还无法与之分庭抗礼。

原Facebook人工智能科学家、原阿里技术副总裁贾扬清算了一笔账,因为Groq小得可怜的内存容量,在运行Llama 2 70B模型时,需要305张Groq卡才足够,而用英伟达的H100则只需要8张卡。

从目前的价格来看,这意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。

但跳出单纯的价格对比,Groq LPU的解决方案依然展现出了不小的应用潜力。

根据机器学习算法步骤,AI芯片可以划分为训练AI芯片和推理AI芯片。

训练芯片是用于构建神经网络模型,需要高算力和通用性,追求的是高计算性能(高吞吐率)、低功耗。

推理芯片是对训练好的神经网络模型进行运算,利用输入的新数据来一次性获得正确结论。

因此完成推理过程的时间要尽可能短、低功耗,更关注用户体验方面的优化。

虽然现阶段GPU利用并行计算的优势在AI领域大获全胜,但由于英伟达GPU的独有架构,英伟达H100等芯片在推理领域算力要求远不及训练端,这也就给Groq等竞争对手留下了机会。

因此,专注于AI推理的Groq LPU,得以在推理这个特定领域挑战英伟达GPU的地位。从测试结果上看,Groq能够达到令人满意的“秒回”效果。

这也在一定程度上显示了通用芯片与专用芯片的路径分歧。

随着AI和深度学习的不断发展,对专用芯片的需求也在增长。

各种专用加速器如FPGA、ASIC以及其他初创公司的AI芯片已经不断涌现,它们在各自擅长的领域内展现出了挑战GPU的可能性。

相比于英伟达通用型AI芯片,自研AI芯片也被称作ASIC,往往更适合科技公司本身的AI工作负载需求且成本较低。

比如,云巨头AWS就推出了为生成式AI和机器学习训练而设计全新自研AI芯片AWS Trainium2,性能比上一代芯片提高到4倍,可提供65ExaFlops超算性能。

微软也推出第一款定制的自研CPU系列Azure Cobalt和AI加速芯片Azure Maia,后者是微软首款AI芯片,主要针对大语言模型训练,预计将于明年初开始在微软Azure数据中心推出。

谷歌云也推出了新版本的TPU芯片TPU v5p,旨在大幅缩减训练大语言模型时间投入。

无论是大厂自研的AI芯片,还是像Groq LPU这样的专用芯片,都是为了优化特定AI计算任务的性能和成本效率,同时减少对英伟达等外部供应商的依赖。

作为GPU的一个重要补充,专用芯片让面对紧缺昂贵的GPU芯片的企业有了一个新的选择。

AI芯片聚焦推理

随着AI大模型的快速发展,尤其是Sora以及即将推出的GPT-5,都需要更强大高效的算力。但GPU在推理方面的不够高效,已经影响到了大模型业务的发展。

从产业发展趋势来看,AI算力负载大概率将逐步从训练全面向推理端迁移。

华尔街大行摩根士丹利在2024年十大投资策略主题中指出,随着消费类边缘设备在数据处理、存储端和电池续航方面的大幅改进,2024年将有更多催化剂促使边缘AI这一细分领域迎头赶上,AI行业的发展重点也将从“训练”全面转向“推理”。

高通CEO Amon也指出,芯片制造商们的主要战场不久后将由“训练”转向“推理”。

Amon在采访时表示:“随着AI大模型变得更精简、能够在设备上运行并专注于推理任务,芯片制造商的主要市场将转向‘推理’,即模型应用。预计数据中心也将对专门用于已训练模型推理任务的处理器产生兴趣,一切都将助力推理市场规模超越训练市场。”

在最新的财报电话会上,英伟达CFO Colette Kress表示,大模型的推理场景已经占据英伟达数据中心40%的营收比例。这也是判断大模型行业落地前景的重要信号。

事实上,巨头们的一举一动也在印证这一趋势的到来。

据路透社报道,Meta将推新款自研AI推理芯片Artemis。预计Meta可于年内完成该芯片在自有数据中心的部署,与英伟达GPU协同提供算力。

而英伟达也通过强化推理能力,巩固自身通用GPU市占率。

在下一代芯片H200中,英伟达在H100的基础上将存储器HBM进行了一次升级,为的也是提升芯片在推理环节中的效率。

不仅如此,随着各大科技巨头、芯片设计独角兽企业都在研发更具效率、部分替代GPU的芯片,英伟达也意识到这一点,建立起了定制芯片的业务部门。

总的来说,以现在AI芯片供不应求的现状,GPU的增长暂时还不会放缓。但随着AI发展趋势的快速变化,英伟达不可能是永远的王者,而Groq也绝对不是唯一的挑战者。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1471237.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

不可错过的Telegram神器:十个实用Telegram机器人介绍

Telegram机器人是基于Telegram平台上的自动化程序,通过Telegram Bot API来与用户交互,执行各种任务,大大拓宽了Telegram这个软件的功能。不只是可以进行简单的自动化任务如提醒服务、天气预报、个人助理,也可以完成复杂的商业行为…

SpringBoot自带的tomcat的最大连接数和最大的并发数

先说结果:springboot自带的tomcat的最大并发数是200, 最大连接数是:max-connectionsaccept-count的值 再说一下和连接数相关的几个配置: 以下都是默认值: server.tomcat.threads.min-spare10 server.tomcat.threa…

基于Pytorch的猫狗图片分类【深度学习CNN】

猫狗分类来源于Kaggle上的一个入门竞赛——Dogs vs Cats。为了加深对CNN的理解,基于Pytorch复现了LeNet,AlexNet,ResNet等经典CNN模型,源代码放在GitHub上,地址传送点击此处。项目大纲如下: 文章目录 一、问题描述二、数据集处理…

【Vue3】学习watch监视:深入了解Vue3响应式系统的核心功能(上)

💗💗💗欢迎来到我的博客,你将找到有关如何使用技术解决问题的文章,也会找到某个技术的学习路线。无论你是何种职业,我都希望我的博客对你有所帮助。最后不要忘记订阅我的博客以获取最新文章,也欢…

Linux基础命令—进程管理

基础知识 linux进程管理 什么是进程 开发写代码->代码运行起来->进程 运行起来的程序叫做进程程序与进程区别 1.程序是一个静态的概念,主要是指令集和数据的结合,可以长期存放在操作系统中 2.进程是一个动态的概念,主要是程序的运行状态,进程存在生命周期,生命周期结…

nginx.conf配置文件详解、案例,Nginx常用命令与模块

目录 一、Nginx常用命令 二、Nginx涉及的文件 2.1、Nginx 的默认文件夹 2.2、Nginx的主配置文件nginx.conf nginx.conf 配置的模块 2.2.1、全局块:全局配置,对全局生效 2.2.2、events块:配置影响 Nginx 服务器与用户的网络连接 2.2.3…

docker 容器访问 GPU 资源使用指南

概述 nvidia-docker 和 nvidia-container-runtime 是用于在 NVIDIA GPU 上运行 Docker 容器的两个相关工具。它们的作用是提供 Docker 容器与 GPU 加速硬件的集成支持,使容器中的应用程序能够充分利用 GPU 资源。 nvidia-docker 为了提高 Nvidia GPU 在 docker 中的…

Python爬虫-爬取豆瓣高分电影封面

本文是本人最近学习Python爬虫所做的小练习。如有侵权,请联系删除。 页面获取url 代码 import requests import os import re# 创建文件夹 path os.getcwd() /images if not os.path.exists(path):os.mkdir(path)# 获取全部数据 def get_data():# 地址url "…

输电线路微波覆冰监测装置助力电网应对新一轮寒潮

2月19日起,湖南迎来新一轮寒潮雨雪冰冻天气。为做好安全可靠的供电准备,国网国网湘潭供电公司迅速启动雨雪、覆冰预警应急响应,采取“人巡机巡可视化巡视”的方式,对输电线路实施三维立体巡检。该公司组织员工对1324套通道可视化装…

leetcode hot100 买卖股票的最佳时机二

注意,本题是针对股票可以进行多次交易,但是下次买入的时候必须保证上次买入的已经卖出才可以。 动态规划可以解决整个股票买卖系列问题。 dp数组含义: dp[i][0]表示第i天不持有股票的最大现金 dp[i][1]表示第i天持有股票的最大现金 递归公…

全面InfiniBand解决方案——LLM培训瓶颈问题

ChatGPT对技术的影响引发了对人工智能未来的预测,尤其是多模态技术的关注。OpenAI推出了具有突破性的多模态模型GPT-4,使各个领域取得了显著的发展。 这些AI进步是通过大规模模型训练实现的,这需要大量的计算资源和高速数据传输网络。端到端…

东莞IBM服务器维修之IBM x3630 M4阵列恢复

记录东莞某抖音电商公司送修一台IBM SYSTEM X3630 M4文档服务器RAID6故障导致数据丢失的恢复案例 时间:2024年02月20日, 服务器品牌:IBM System x3630 M4,阵列卡用的是DELL PERC H730P 服务器用途和用户位置:某抖音电…

【Flink精讲】Flink性能调优:内存调优

内存调优 内存模型 JVM 特定内存 JVM 本身使用的内存,包含 JVM 的 metaspace 和 over-head 1) JVM metaspace: JVM 元空间 taskmanager.memory.jvm-metaspace.size,默认 256mb 2) JVM over-head 执行开销&#xff1…

Spring Boot对接RocketMQ示例

部署服务 参考RocketMq入门介绍 示例 引入maven依赖 <dependency><groupId>org.apache.rocketmq</groupId><artifactId>rocketmq-spring-boot-starter</artifactId><version>2.2.2</version></dependency>完整依赖如下&am…

C# Onnx Yolov8-OBB 旋转目标检测

目录 效果 模型信息 项目 代码 下载 C# Onnx Yolov8-OBB 旋转目标检测 效果 模型信息 Model Properties ------------------------- date&#xff1a;2024-02-26T08:38:44.171849 description&#xff1a;Ultralytics YOLOv8s-obb model trained on runs/DOTAv1.0-ms.ya…

关系型数据库事务的四性ACID:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)和持久性(Durability)

关系型数据库事务的四性ACID:原子性&#xff08;Atomicity&#xff09;、一致性&#xff08;Consistency&#xff09;、隔离性&#xff08;Isolation&#xff09;和持久性&#xff08;Durability&#xff09; 事务的四性通常指的是数据库事务的ACID属性&#xff0c;包括原子性&…

C语言第三十一弹---自定义类型:结构体(下)

✨个人主页&#xff1a; 熬夜学编程的小林 &#x1f497;系列专栏&#xff1a; 【C语言详解】 【数据结构详解】 目录 1、结构体内存对齐 1.1、为什么存在内存对齐? 1.2、修改默认对齐数 2、结构体传参 3、结构体实现位段 3.1、什么是位段 3.2、位段的内存分配 3.3、…

qt-C++笔记之事件过滤器

qt-C笔记之事件过滤器 —— 杭州 2024-02-25 code review! 文章目录 qt-C笔记之事件过滤器一.使用事件过滤器和不使用事件过滤器对比1.1.使用事件过滤器1.2.不使用事件过滤器1.3.比较 二.Qt 中事件过滤器存在的意义三.为什么要重写QObject的eventFilter方法&#xff1f;使用QO…

数据结构:链表的冒泡排序

法一&#xff1a;修改指针指向 //法二 void maopao_link(link_p H){if(HNULL){printf("头节点为空\n");return;}if(link_empty(H)){printf("链表为空\n");return;}link_p tailNULL;while(H->next->next!tail){link_p pH;link_p qH->next;while(q…

常见的音频与视频格式

本专栏是汇集了一些HTML常常被遗忘的知识&#xff0c;这里算是温故而知新&#xff0c;往往这些零碎的知识点&#xff0c;在你开发中能起到炸惊效果。我们每个人都没有过目不忘&#xff0c;过久不忘的本事&#xff0c;就让这一点点知识慢慢渗透你的脑海。 本专栏的风格是力求简洁…