马斯克开启军备竞赛，xAI筹集60亿美元

news2025/1/12 6:06:42

大模型技术论文不断，每个月总会新增上千篇。本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产。若在某个环节出现卡点，可以回到大模型必备腔调重新阅读。而最新科技（Mamba，xLSTM,KAN）则提供了大模型领域最新技术跟踪。若对于如果构建生成级别的AI架构则可以关注AI架构设计专栏。技术宅麻烦死磕LLM背后的基础模型。

xAI

埃隆·马斯克于去年夏天创立了 xAI，今天宣布筹集 60 亿美元资金，称将帮助xAI“将首批产品推向市场，构建先进的基础设施，并加速未来技术的研发”。

到目前为止，xAI 已经推出了 Grok，这是OpenAI ChatGPT 的升级版，可通过 X（原名 Twitter）使用，目前该聊天机器人仅供 X Premium 订阅用户使用。

据 xAI 称，本轮融资来自多个渠道，包括 Andreessen Horowitz、红杉资本和沙特阿拉伯王子阿尔瓦利德·本·塔拉尔。去年，一份提交给美国证券交易委员会的文件显示，xAI 正寻求通过股权投资筹集高达 10 亿美元的资金。几个月前，《金融时报》报道称，该公司正寻求筹集高达60 亿美元的资金。马斯克当时否认了这一报道。

微软公司向 OpenAI 投资了约 130 亿美元，而亚马逊公司向 Anthropic 投资了约 40 亿美元。

能够支持 AI 开发的硬件价格相当昂贵，Nvidia 即将推出的 Blackwell B200 AI 显卡每张售价在 30,000 至 40,000 美元之间。上周有Information报道称，xAI 需要 100,000个 Nvidia的H100 芯片来为超级计算机提供 Grok AI 聊天机器人的升级版。据报道，马斯克告诉投资者，计划在 2025 年秋季之前启动新的数据中心。

在芯片、人才和技术方面展开人工智能竞赛的代价并不低——除了谷歌、苹果、亚马逊、微软和Meta向自己的人工智能项目投入资源之外，大型科技公司还向Anthropic等人工智能初创公司投入了数十亿美元。

微软还与 OpenAI 达成了数十亿美元的合作，据报道，OpenAI 首席执行官 Sam Altman 正在寻求数万亿美元的资金来重振全球芯片行业。作为 OpenAI 的创始成员之一，马斯克正在起诉该公司，声称该公司放弃了造福人类的使命。

除了 xAI 和 OpenAI，马斯克表示，在人工智能和机器人方面，除非他获得更多控制权，否则他“更愿意在特斯拉之外开发产品”。

Grok-1.5V

根据公开的开发者文件，埃隆·马斯克的人工智能公司 xAI 正在为其 Grok 聊天机器人添加多模式输入方面取得进展。这意味着，用户很快就能将照片上传到 Grok 并收到基于文本的答案。

xAI 上个月在一篇博客文章中首次透露了这一点，称 Grok-1.5V 将提供“多个领域的多模态模型”。开发人员文档的最新更新似乎显示了推出新模型的进展。

在开发人员文档中，一个示例 Python 脚本演示了开发人员如何使用 xAI 软件开发工具包库根据文本和图像生成响应。此脚本读取图像文件、设置文本提示并使用 xAI SDK 生成响应。

Grok-1 已经开源

xAI前端时间将使其 AI 聊天机器人Grok-1 版本开源，目前该版本已在GitHub和Hugging Face上发布。此举使研究人员和开发人员能够扩展该模型，影响 xAI 如何在 OpenAI、Meta、谷歌、微软等科技巨头的竞争中发展 Grok。

这一里程碑标志着 AI 领域的重大转折，使该领域的其他开发人员和专家能够访问 Grok-1 的代码和相关数据以进行分析和开发。

Grok-1 开源旨在为 AI 研发开辟新机遇。此前，Mixtral和Llama 2等行业领先模型主导了AI研究领域。然而，Grok以其庞大的规模脱颖而出，包含一组令人印象深刻的 314B参数，几乎是其最接近的竞争对手 Llama 2 的四倍。

这种规模意味着模型精度和交互能力方面具有广阔的前景。Grok 的权重对于其运行至关重要，可供下载，使开发人员能够试验其结构和行为。

现在 Grok-1 已经开源，xAI的Grok-1 版本的所有基本信息：314B params - 8*33B MoE - 25% 的权重激活/单个Token比Llama2和GPT3.5 Apache2更好。

马斯克声称，他决定采用 Grok 开源方式是为了响应人工智能领域日益增长的透明度和协作需求。为了寻求 OpenAI 和谷歌的替代方案，马斯克推出了xAI，目的是开发他期望的人工智能，能够最大限度提高寻求真相的能力。

Grok-1 最初于 2023 年 10 月进行训练，是一个预训练过的基础模型，未经任何微调。这种缺乏专业化的特性使其在广泛的应用中具有强大的潜力，同时完全不受约束。该模型的参数已根据很宽松的Apache 2.0许可发布，鼓励商业和非商业用途。

主要技术规格：

3140 亿个参数
混合专家架构，包含 8 位专家（每个Token有 2 位活跃专家）
64 层
48 个用于查询的注意力头
6,000 维内部嵌入
支持旋转位置嵌入 (RoPE)
支持 8 位量化和激活缓存
最大上下文窗口为 8,000 个 token
SentencePiece Tokenizer 标记器，包含 131,072 个标记
由于规模巨大，在本地运行 Grok-1 需要大量硬件资源。4 位推理估计需要 320GB VRAM，而 8 位推理则需要 NVIDIA DGX H100 这样的系统（配备 8 个 GPU，每个 GPU 配备 80GB VRAM）。