马斯克开启军备竞赛,xAI筹集60亿美元

news2024/11/19 13:22:04

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于如果构建生成级别的AI架构则可以关注AI架构设计专栏。技术宅麻烦死磕LLM背后的基础模型。

xAI

埃隆·马斯克于去年夏天创立了 xAI,今天宣布筹集 60 亿美元资金,称将帮助xAI“将首批产品推向市场,构建先进的基础设施,并加速未来技术的研发”。

到目前为止,xAI 已经推出了 Grok,这是OpenAI ChatGPT 的升级版,可通过 X(原名 Twitter)使用,目前该聊天机器人仅供 X Premium 订阅用户使用。

据 xAI 称,本轮融资来自多个渠道,包括 Andreessen Horowitz、红杉资本和沙特阿拉伯王子阿尔瓦利德·本·塔拉尔。去年,一份提交给美国证券交易委员会的文件显示,xAI 正寻求通过股权投资筹集高达 10 亿美元的资金。几个月前,《金融时报》报道称,该公司正寻求筹集高达60 亿美元的资金。马斯克当时否认了这一报道。

微软公司向 OpenAI 投资了约 130 亿美元,而亚马逊公司向 Anthropic 投资了约 40 亿美元。

能够支持 AI 开发的硬件价格相当昂贵,Nvidia 即将推出的 Blackwell B200 AI 显卡每张售价在 30,000 至 40,000 美元之间。上周有Information报道称,xAI 需要 100,000个 Nvidia的H100 芯片来为超级计算机提供 Grok AI 聊天机器人的升级版。据报道,马斯克告诉投资者,计划在 2025 年秋季之前启动新的数据中心。

在芯片、人才和技术方面展开人工智能竞赛的代价并不低——除了谷歌、苹果、亚马逊、微软和Meta向自己的人工智能项目投入资源之外,大型科技公司还向Anthropic等人工智能初创公司投入了数十亿美元。

微软还与 OpenAI 达成了数十亿美元的合作,据报道,OpenAI 首席执行官 Sam Altman 正在寻求数万亿美元的资金来重振全球芯片行业。作为 OpenAI 的创始成员之一,马斯克正在起诉该公司,声称该公司放弃了造福人类的使命。

除了 xAI 和 OpenAI,马斯克表示,在人工智能和机器人方面,除非他获得更多控制权,否则他“更愿意在特斯拉之外开发产品”。

Grok-1.5V

根据公开的开发者文件,埃隆·马斯克的人工智能公司 xAI 正在为其 Grok 聊天机器人添加多模式输入方面取得进展。这意味着,用户很快就能将照片上传到 Grok 并收到基于文本的答案。

xAI 上个月在一篇博客文章中首次透露了这一点,称 Grok-1.5V 将提供“多个领域的多模态模型”。开发人员文档的最新更新似乎显示了推出新模型的进展。

在开发人员文档中,一个示例 Python 脚本演示了开发人员如何使用 xAI 软件开发工具包库根据文本和图像生成响应。此脚本读取图像文件、设置文本提示并使用 xAI SDK 生成响应。

Grok-1 已经开源

xAI前端时间将使其 AI 聊天机器人Grok-1 版本开源,目前该版本已在GitHub和Hugging Face上发布。此举使研究人员和开发人员能够扩展该模型,影响 xAI 如何在 OpenAI、Meta、谷歌、微软等科技巨头的竞争中发展 Grok。

这一里程碑标志着 AI 领域的重大转折,使该领域的其他开发人员和专家能够访问 Grok-1 的代码和相关数据以进行分析和开发。

Grok-1  开源旨在为 AI 研发开辟新机遇。此前,Mixtral和Llama 2等行业领先模型主导了AI研究领域。然而,Grok以其庞大的规模脱颖而出,包含一组令人印象深刻的 314B参数,几乎是其最接近的竞争对手 Llama 2 的四倍。

这种规模意味着模型精度和交互能力方面具有广阔的前景。Grok 的权重对于其运行至关重要,可供下载,使开发人员能够试验其结构和行为。

现在 Grok-1 已经开源,xAI的Grok-1 版本的所有基本信息:314B params - 8*33B MoE - 25% 的权重激活/单个Token比Llama2和GPT3.5 Apache2更好。

马斯克声称,他决定采用 Grok 开源方式是为了响应人工智能领域日益增长的透明度和协作需求。为了寻求 OpenAI 和谷歌的替代方案,马斯克推出了xAI,目的是开发他期望的人工智能,能够最大限度提高寻求真相的能力。

Grok-1 最初于 2023 年 10 月进行训练,是一个预训练过的基础模型,未经任何微调。这种缺乏专业化的特性使其在广泛的应用中具有强大的潜力,同时完全不受约束。该模型的参数已根据很宽松的Apache 2.0许可发布,鼓励商业和非商业用途。

主要技术规格:

  • 3140 亿个参数

  • 混合专家架构,包含 8 位专家(每个Token有 2 位活跃专家)

  • 64 层

  • 48 个用于查询的注意力头

  • 6,000 维内部嵌入

  • 支持旋转位置嵌入 (RoPE)

  • 支持 8 位量化和激活缓存

  • 最大上下文窗口为 8,000 个 token

  • SentencePiece Tokenizer 标记器,包含 131,072 个标记

  • 由于规模巨大,在本地运行 Grok-1 需要大量硬件资源。4 位推理估计需要 320GB VRAM,而 8 位推理则需要 NVIDIA DGX H100 这样的系统(配备 8 个 GPU,每个 GPU 配备 80GB VRAM)。

早期基准测试表明,在 GEM8K、MMLU、HumanEval 和数学问题等任务上,Grok-1 的表现优于 2700 亿参数 Lamma MoE 甚至 GPT-3.5 等模型。这表明该模型的规模可能转化为改进的推理能力。拥有大量高质量数据集的公司可以充分的利用开源Grok-1,能够获取卓越性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1710143.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

蓝桥杯—SysTick中断精准定时实现闪烁灯

在嵌入式系统中,SysTick_Handler 是一个中断服务例程(Interrupt Service Routine, ISR),用于处理 SysTick 定时器的中断。SysTick 定时器通常用于提供一个周期性的定时中断,可以用来实现延时或者周期性任务。 SysTick…

AWS联网和内容分发之Transit Gateway

将Amazon VPC、AWS账户和本地网络连接到一个网关中。AWS Transit Gateway通过中央枢纽连接Amazon虚拟私有云(VPC)和本地网络。此连接简化了您的网络,并且结束了复杂的对等关系。Transit Gateway充当高度可扩展的云路由器,每个新的…

HLS入门(Xilinx Vivado 2019.2)——点亮LED仿真

HLS入门——点亮LED仿真 一、HLS简介(一)什么是HLS?(二)HLS能做什么?(三)HLS的使用(四)HLS的优势(五)HLS与VHDL/Verilog编程技术的关系…

【机器学习】【深度学习】正则化(Regularization)

概念 正则化(Regularization)是在机器学习模型中避免过拟合的一种技术。它通过引入一个惩罚项(即正则项)来限制模型的复杂度,以此来提防模型过度依赖训练数据,捕获数据中的噪音信息而导致过拟合现象。简单…

企业营收分析难?搞定收入认领月底不加班!

在当今日益激烈的市场竞争中,企业的营收分析不仅是衡量经营成果的关键指标,更是指导企业未来发展的重要依据。然而,对于许多企业来说,营收分析的过程往往繁琐且耗时,尤其是月底结账时,大量的数据和复杂的计…

【机器学习300问】95、什么是KNN算法?它和K-means什么关系?

一、KNN算法的定义 KNN(K-Nearest Neighbors)算法,是一种简单而有效的监督学习方法。它既可以用在分类任务,也可用在回归任务中。KNN算法的核心思想:在特征空间中,如果有一个数据点周围的大多数邻居属于某个…

10. C++异步IO处理库和使用libevent实现高性能服务器

C比较有名的异步IO处理库 libevent 这个主要使用的是epoll。libevthplibuvlibev 我们主要介绍libevent。 libevent重要函数 event_base_new 这个可以对应于epoll_create也就是创建一个实例。还可以初始化libevent所有管理相关的代码。比如说所能用到的队列,栈&a…

OFDM 802.11a的FPGA实现:发射部分的最终实现

目录 1.摘要 2.最终实现的ModelSim仿真 3.Matlab仿真和MoselSim仿真进行对比 4.完整工程 1.摘要 本系统在Xilinx的zynq 7000系列FPGA芯片上实现了一个基于IEEE 802.11a协议的OFDM基带处理发射机的功能。本系统包含了整个发射机的所有功能,包括序列训练符号、Si…

现代信号处理11_Spectral Analysis谱分析(CSDN_20240526)

谱分析与傅里叶变换 对于一个信号,一方面可以从时域上对其进行分析,另一方面也可以从频域上对其进行认识,对信号进行频谱分析能够帮助我们了解能量在频域上的分布。 确定性信号的能量通常是有限的,而平稳随机信号的能量通常是无限…

No input file specified.(‘.user.ini’文件问题宝塔复制到本地,其他情况可跳过)

症状 病因 一般是宝塔直接copy到本地的情况。 宝塔面板中的.user.ini文件是一个重要的配置文件,它主要用于配置PHP运行环境和网站环境。以下是.user.ini文件的主要作用和操作建议: 防止跨目录访问和文件跨目录读取。这是.user.ini文件的主要作用之一&a…

kafka-消费者组-点对点测试

文章目录 1、点对点测试1.1、获取 kafka-consumer-groups.sh 的帮助信息1.2、列出所有的消费者组1.3、创建消费者1并指定组 my_group11.4、创建消费者2并指定组 my_group11.5、创建消费者3并指定组 my_group11.6、创建生产者发送消息到 my_topic1 主题1.6.1、发送第一条消息rom…

用循环神经网络预测股价

循环神经网络可以用来对时间序列进行预测,之前我们在介绍循环神经网络RNN,LSTM和GRU的时候都用到了正弦函数预测的例子,其实这个例子就是一个时间序列。而在众多的时间序列例子中,最普遍的就是股价的预测了,股价序列是一种很明显的…

【PG16】后 EL 7 时代,PG 16 如何在 CentOS 7 上运行

↑ 关注“少安事务所”公众号,欢迎⭐收藏,不错过精彩内容~ ★ 本文写于 2023-09-29 PostgreSQL 16 Released 9/14, PostgreSQL 16 正式发布。从发布公告^1 和 Release Notes^2 可以看到 PG16 包含了诸多新特性和增强改进。 性能提升,查询计划…

ssm超市管理系统java超市进销存管理系统jsp项目

文章目录 超市进销存管理系统一、项目演示二、项目介绍三、系统部分功能截图四、七千字项目文档五、部分代码展示六、底部获取项目源码和七千字项目文档(9.9¥带走) 超市进销存管理系统 一、项目演示 超市进销存管理系统 二、项目介绍 角色分…

Dynadot API调整一览

关于Dynadot Dynadot是通过ICANN认证的域名注册商,自2002年成立以来,服务于全球108个国家和地区的客户,为数以万计的客户提供简洁,优惠,安全的域名注册以及管理服务。 Dynadot平台操作教程索引(包括域名邮…

算法设计第七周(应用哈夫曼算法解决文件归并问题)

一、【实验目的】 (1)进一步理解贪心法的设计思想 (2)掌握哈夫曼算法的具体应用 (3)比较不同的文件归并策略,探讨最优算法。 二、【实验内容】 设S{f1,…,fn}是一组不同的长度的有序文件构…

vue脚手架与创建vue项目

一、前言 vue脚手架的安装与创建vue项目需要先行安装配置node与npm,详情可以看node、npm的下载、安装、配置_node 下载安装-CSDN博客 二、vue脚手架的使用 1、vue与vue脚手架的版本 Vue脚手架(Vue CLI)是Vue.js官方提供的一个命令行工具&…

打乱一维数组中数据(小练习)

int[] tempArr{0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15}; 要求:打乱一维数组的数据,并按照4个一组的方式添加到二维数组中。 package chengyu4; import java.util.Random; public class Test{public static void main(String args[]) {int[] temArr {1…

CM2038A 3W 双通道立体声音频功率放大器芯片IC

功能说明: CM2038A是一双路音频功率放大器,它能够在5V 电源电压下给一个4Ω负载提供THD小于10%、最大平均值为3W的输出功率。另外,在驱动立体声耳机时耳机输入引脚可以使放 大器工作在单边模式。 CM2038A是为提供高保真音频输出而专门设计…

【每日一坑】KiCAD 覆铜区域约束

【每日一坑】 1.螺丝孔周围不想要要铜皮; 2、首先在CTRLshiftK;画一个区域,比如铺一个GND; 3、选择CUTOUT; 4、画线,画好闭合图形;如下图 5、就是这样了,就是还没有画圆或者异形的;