奥运会Ⅶ--史上最快AI芯片“搜狐”，比B200快10倍

生成式AI推理的性价比是GPU的140倍。

大模型时代，全球算力短缺，买来铲屎的Nvidia市值被推上天。

如今，终于有一家公司拿出了自己的AI芯片来挑战。

今天早上，科技圈迎来一则重磅消息，美国芯片初创公司Etched推出了旗下首款AI芯片搜狐，其运行大型模型的速度比Nvidia的H100快20倍，比今年3月推出的顶级芯片B200快10倍以上。

运行Llama 70B的搜狐服务器每秒可以输出50多万个代币，是H100服务器（2.3万个代币/秒）的20倍，是B200服务器（约4.5万个代币/秒）的10倍。

搜狐公司研发了全球首款Transformer计算专用芯片，耗时两年打造。

作为一款 ASIC（专用集成电路），搜狐对 Transformer 架构进行了优化，并将其固化在芯片中，无法运行大多数“传统”AI 模型：支持 Instagram 广告的 DLRM、AlphaFold 2 等蛋白质折叠模型，或 Stable Diffusion 2 等较旧的图像生成模型。我们也无法运行 CNN、RNN 或 LSTM。

但另一方面，对于 transformer 来说，搜狐是有史以来最快的芯片，它与其他产品的差距是一个数量级。如今每一款主流的 AI 产品，如 ChatGPT、Claude、Gemini、Sora 等，都是由 transformer 驱动的。

近期受摩尔定律放缓影响，GPU性能的提升很大程度上依赖增加芯片面积和功耗，无论是Nvidia B200、AMD MI300X还是Intel Gaudi 3，均采用“二合一”的方式提升性能，功耗也随之翻倍。

从 2022 年到 2025 年，AI 芯片并没有真正变得更好，只是变得更大了。

但如果大型模型广泛使用Transformer架构，追求专业化或许是提高性能的一个很好的方向。‍

作为一个新兴领域，AI模型的架构在过去经历了很大的变化。但从GPT-2开始，几乎所有最先进的模型都使用了Transformer，从OpenAI的GPT系列，谷歌的PaLM，Facebook的LLaMa，到特斯拉FSD自动驾驶所需的模型。

Etched 为我们算了一笔账：芯片项目的成本在 5000 万到 1 亿美元之间，而且需要数年时间才能投入生产。另一方面，当模型训练成本超过 10 亿美元、推理成本超过 100 亿美元时，使用专用芯片是不可避免的。在这种工业规模下，1% 的改进可以利用硬件架构的更新。

比H100快20倍，FLOPS利用率超过90%

作为全球首款Transformer ASIC芯片，一台服务器搭载8颗搜狐芯片，性能可以媲美160块H100 GPU，也就是说，搜狐的运行速度是H100的20倍以上。

具体来说，通过专业化，搜狐拥有了前所未有的性能，一台搭载8个搜狐芯片的服务器，每秒可以处理50万个Llama 7B代币。

Llama 3 70B 在 FP8 精度下的基准测试显示：无稀疏性、8 倍模型并行性、2048 输入或 128 输出长度。

另外，搜狐仅支持Llama和Stable Diffusion 3的Transformer推理，目前搜狐支持Google、Meta、Microsoft、OpenAI、Anthropic等现有模型，后续会适配模型调整。

由于搜狐只能运行一种算法，因此可以删除绝大多数控制流逻辑，从而允许使用更多数学块。因此，搜狐的 FLOPS 利用率超过 90%，而使用 TRT-LLM 的 GPU 的利用率约为 30%。

搜狐为什么能输出更多的FLOPS？

NVIDIA H200在不稀疏的情况下支持989 TFLOPS的FP16/BF16算力，这是目前最先进的芯片，而2025年推出的GB200将算力提升25%，支持1250 TFLOPS。

由于 GPU 的大部分区域都是可编程的，因此专注于 Transformer 将容纳更多的计算。这可以从第一原理中证明：

构建单个 FP16/BF16/FP8 乘加电路需要 10,000 个晶体管，这是所有矩阵数学的基石。H100 SXM 有 528 个张量核心，每个核心都有 4× 8 × 16 FMA 电路。乘法告诉我们：H100 有 27 亿个晶体管专用于张量核心。

然而，H100 拥有 800 亿个晶体管。这意味着 H100 GPU 上只有 3.3% 的晶体管用于矩阵乘法。这是 NVIDIA 和其他芯片制造商经过深思熟虑的设计决定。如果要支持所有类型的模型（CNN、LSTM、SSM 等），没有比这更好的了。

通过仅运行变压器，Etched 允许搜狐芯片输出更多的 FLOPS，但却以精度或稀疏性为代价。

内存带宽不是瓶颈

事实上，对于像 Llama 3 这样的车型来说，情况并非如此。

我们以 NVIDIA 和 AMD 的标准基准为例：2048 个输入 token 和 128 个输出 token。大多数 AI 产品的提示都比较长，比如最新的 Claude 聊天机器人的系统提示就有 1000+ 个 token。

在搜狐上，推理是分批进行的。每个批次都需要加载一次所有模型权重，并在批次的每个标记中重复使用。一般来说，LLM 输入是计算密集型的，而 LLM 输出是内存密集型的。当我们将输入和输出标记与连续批次相结合时，工作负载会变得高度计算密集。

下面是 LLM 连续批处理的示例，运行具有四个输入标记和四个输出标记的序列。每种颜色代表不同的序列。

我们可以扩展同样的技巧来运行具有 2048 个输入标记和 128 个输出标记的 Llama 3 70B。每个批次包含一个序列的 2048 个输入标记和 127 个不同序列的 127 个输出标记。

如果这样做，每个batch大约需要 (2048+127)×70B 参数×2bytes perparameter = 304 TFLOPs，而只需要加载 70B 参数×2bytes perparameter = 140GB 的模型权重，以及大约 127×64×8×128×(2048+127)×2×2 = 72GB 的 KV cache 权重。这比内存带宽所需的计算量要大得多：H200 需要 6.8PFLOPS 的计算量才能最大化其内存带宽。在 100% 利用率的情况下仍然如此。如果利用率只有 30%，则需要 3 倍以上的内存。

搜狐拥有更强的计算能力，而且利用率很高，因此可以运行巨大的吞吐量，而不会遇到内存带宽瓶颈。

软件的工作原理

在 GPU 和 TPU 上，软件是一场噩梦。处理任意 CUDA 和 PyTorch 代码需要极其复杂的编译器。第三方 AI 芯片（如 AMD、英特尔、AWS 等）在软件上总共花费了数十亿美元，但收效甚微。

搜狐只运行 transformers，因此你只需要为 transformer 编写软件。

大多数运行开源或内部模型的公司都使用变压器特定的推理库，例如 TensorRT-LLM、vLLM 或 HuggingFace 的 TGI。

这些框架非常死板，虽然你可以进行模型超参数调整，但它们不支持更改底层模型代码。但这没关系，因为所有 Transformer 模型都非常相似（甚至文本/图像/视频模型也是如此），所以超参数调整就是你所需要的。

虽然 95% 的 AI 公司都是如此，但一些最大的 AI 实验室采用了定制方法。他们拥有工程师团队，手动调整 GPU 核心以提高利用率，并进行逆向工程以最大限度地减少寄存器到每个张量核心的延迟。

Etched 消除了逆向工程的需要，并且其所有软件（从驱动程序、内核到服务堆栈）都将是开源的。如果您想实现自定义转换层，内核向导可以自由地做到这一点。

创业团队：由哈佛辍学生领导

Etched 首席执行官 Gavin Uberti 告诉记者：“如果 Transformer 将来不再是主流，我们就会倒闭。但如果它继续存在，我们就会成为历史上最大的公司。”

打造搜狐芯片的 Etched 位于加州库比蒂诺。该公司成立仅两年，目前团队只有 35 人。其创始人是一对哈佛辍学生，Gavin Uberti（前 OctoML 和 Xnor.ai 员工）和 Chris Zhu。他们与 Robert Wachen 和前赛普拉斯半导体首席技术官 Mark Ross 一起，一直致力于打造专用于大型 AI 模型的芯片。

在搜狐芯片发布的同时，Etched 还宣布完成 1.2 亿美元 A 轮融资，由 Primary Venture Partners 和 Positive Sum Ventures 领投。Etched 的总融资额已达 1.2536 亿美元。本轮融资的重要投资者包括 Peter Thiel、GitHub CEO Thomas Dohmke、Cruise 联合创始人 Kyle Vogt、Quora 联合创始人 Charlie Cheever。

然而，对于占据AI芯片市场80%以上份额的英伟达来说，1.2亿美元只相当于半天的收益。

“我们之所以如此兴奋，之所以辍学，之所以组建团队从事这个芯片项目，是因为这是最重要的工作，”Etched 运营主管罗伯特·瓦肯 (Robert Wachen) 表示。“整个技术的未来将取决于计算基础设施是否能够扩展。”

Uberti 称，迄今为止，匿名客户预订了“价值数千万美元”的硬件，预计搜狐将于今年第三季度推出。

是不是未来真的像乌贝蒂所说的那样，视频生成、音频生成、具身智能等技术只有在搜狐这样的芯片上才能真正实现呢？

欢迎前往我们的公众号，资讯