Grok-1 :目前参数最大的开源大模型

news2024/11/26 18:20:29

在人工智能快速发展的自然语言处理领域中,xAI 正式发布了大模型 Grok-1,这是迄今参数量最大的开源大语言模型,标志着一个重要的里程碑。Grok-1 是一个拥有3140亿参数的专家混合模型,经过四个月的开发,以其创新的架构和能力脱颖而出。本文深入探讨 Grok-1 的技术复杂性、训练方法、安装部署、未来工作等内容,揭示了它在大模型革命中的地位。

技术说明

Grok-1 与 GPT 类似,也是是一个基于自回归 Transformer 的大语言模型,用于进行下一个单词预测,旨在完成生成式任务,这是自然语言处理中的基础任务。

Grok-1 拥有 3140 亿个参数,这比 OpenAI 的 GPT-3 模型大了一倍以上,GPT-3 在 2020 年发布时被认为是一项重大突破。Grok-1 采用了专家混合 (Mixture-of-Experts, MoE) 方法,其中对于给定的标记,只有 25% 的权重是活跃的,从而提高了效率和性能。Grok-1 是从 0 开始逐步开发的,利用了一个集成了 JAX 和 Rust 等技术的自定义训练堆栈,标志着人工智能开发实践的飞跃。

训练方法

基础语料

Grok-1 是预训练阶段的原始基础模型,于2023年10月结束。Grok-1 的初始版本并未针对特定任务进行优化,而是为各种自然语言处理应用提供了多功能基础。该模型的训练方案涵盖了广泛的文本数据语料库,包括截至 2023 年第 3 季度的互联网内容和来自 AI 导师的专业数据集。这种全面的训练策略对于完善 Grok-1 的能力至关重要,其卓越的基准测试成绩证明了这一点,包括在 GSM8k 上达到 62.9%、在 MMLU 上达到 73.0%、在 HumanEval 上达到63.2%、在 MATH 上达到 23.9%,展示了其出色的推理和问题解决能力。

在 2023 年匈牙利国家高中数学期末考试的实际测试中,Grok-1 以 C(59%) 的成绩通过了考试,展示了其处理复杂、未知问题的能力。

image.png

实时知识

Grok-1 的一个显著特点是其与实时知识平台的集成,使其能够获取和传播当前信息。这种能力不仅增强了模型的相关性和准确性,还使其能够进行更加动态和具有上下文意识的互动。因此,Grok-1 具备处理非常规查询并提供及时响应的能力。

image.png

安装部署

Grok-1 遵循 Apache 2.0 许可开源,即允许用户自由地使用、修改、分发源代码,还允许在修改后的代码中应用专利。

下载地址

  • github.com/xai-org/gro…
  • huggingface.co/xai-org/gro…
  • 磁力链接:magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

image.png

image.png

步骤

  • 在 GitHub 仓库中有关于加载和运行 Grok-1 的说明,将仓库克隆到本地。

  • 从 HuggingFace 下载模型权重文件,并放入本地项目的 “checkpoints” 目录中。(或者通过磁力链接下载)

  • 打开命令行界面并运行以下命令来测试代码:

    sh
    复制代码
    pip install -r requirements.txt  
    python run.py
    
  • 注意:由于Grok-1模型的规模相当大,包含了3140亿个参数,因此需要一台具有足够GPU内存的机器来使用提供的示例代码测试该模型,这可能是一台拥有 628 GB GPU 内存的机器(每个参数 2 字节)。

未来工作

尽管发布 Grok-1 是一个重要的里程碑,但仍然有挑战需要克服。该模型的庞大参数使得开源社区难以直接进行迭代。不过预计功能量化版本将在接下来的一个月内推出,使其更容易被更广泛的研究人员和开发者使用。

Grok-1 的开源标志着通往开源AGI的关键时刻。随着 xAI 不断发展和完善其人工智能工具,我们可以期待在不久的将来看到更多突破性的发布和创新。

xAI 为 Grok 制定了令人振奋的路线图,其中包括整合形式验证以确保安全可靠,提高长文本理解和检索能力,增强对抗性鲁棒性,并融合多模态能力。这些发展将使 Grok 能够更好地协助用户,并为 AI 技术的负责任进步做出贡献。

结语

Grok-1 的发布不仅有助于推动人工智能技术的发展,还为人工智能模型的开发和融入数字互动和信息交流的方式设立了新标准。随着大模型如火如荼的蓬勃发展,让我们期待接下来的技术动向和模型迭代。

最后

为了帮助大家更好的学习人工智能,这里给大家准备了一份人工智能入门/进阶学习资料,里面的内容都是适合学习的笔记和资料,不懂编程也能听懂、看懂,所有资料朋友们如果有需要全套人工智能入门+进阶学习资源包,可以在评论区或扫.码领取哦)~

在线教程

  • 麻省理工学院人工智能视频教程 – 麻省理工人工智能课程
  • 人工智能入门 – 人工智能基础学习。Peter Norvig举办的课程
  • EdX 人工智能 – 此课程讲授人工智能计算机系统设计的基本概念和技术。
  • 人工智能中的计划 – 计划是人工智能系统的基础部分之一。在这个课程中,你将会学习到让机器人执行一系列动作所需要的基本算法。
  • 机器人人工智能 – 这个课程将会教授你实现人工智能的基本方法,包括:概率推算,计划和搜索,本地化,跟踪和控制,全部都是围绕有关机器人设计。
  • 机器学习 – 有指导和无指导情况下的基本机器学习算法
  • 机器学习中的神经网络 – 智能神经网络上的算法和实践经验
  • 斯坦福统计学习

😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

请添加图片描述

人工智能书籍

  • OpenCV(中文版).(布拉德斯基等)
  • OpenCV+3计算机视觉++Python语言实现+第二版
  • OpenCV3编程入门 毛星云编著
  • 数字图像处理_第三版
  • 人工智能:一种现代的方法
  • 深度学习面试宝典
  • 深度学习之PyTorch物体检测实战
  • 吴恩达DeepLearning.ai中文版笔记
  • 计算机视觉中的多视图几何
  • PyTorch-官方推荐教程-英文版
  • 《神经网络与深度学习》(邱锡鹏-20191121)

  • 在这里插入图片描述
    😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

第一阶段:零基础入门(3-6个月)

新手应首先通过少而精的学习,看到全景图,建立大局观。 通过完成小实验,建立信心,才能避免“从入门到放弃”的尴尬。因此,第一阶段只推荐4本最必要的书(而且这些书到了第二、三阶段也能继续用),入门以后,在后续学习中再“哪里不会补哪里”即可。

第二阶段:基础进阶(3-6个月)

熟读《机器学习算法的数学解析与Python实现》并动手实践后,你已经对机器学习有了基本的了解,不再是小白了。这时可以开始触类旁通,学习热门技术,加强实践水平。在深入学习的同时,也可以探索自己感兴趣的方向,为求职面试打好基础。

第三阶段:工作应用

这一阶段你已经不再需要引导,只需要一些推荐书目。如果你从入门时就确认了未来的工作方向,可以在第二阶段就提前阅读相关入门书籍(对应“商业落地五大方向”中的前两本),然后再“哪里不会补哪里”。

在这里插入图片描述
😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1530811.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024年中国酶制剂供需布局及市场发展现状

环洋咨询Global Info Research的酶制剂市场调研报告提供酶制剂市场的基本概况,包括定义,分类,应用和产业链结构,同时还讨论发展政策和计划以及制造流程和成本结构,分析酶制剂市场的发展现状与未来市场趋势,…

阿里云99元服务器40G ESSD Entry系统盘够用吗?

阿里云99元服务器40G ESSD Entry云盘够用吗?够用,操作系统占15GB左右,还有25G富余。如果是40G ESSD Entry系统盘不够用,还可以为云服务器另外挂载数据盘,所以不用担心40G系统盘不够用。可以在阿里云CLUB中心查看 aliyu…

第1章 初识 Python 背记手册

1、print()—输出 print()函数的基本用法如下: print("输出的内容")其中,输出内容可以是数字和字符串(使用引号括起来),此类内容将直接输出,也 可 以是包含运算符的表达式,此类内容…

NSS [SWPUCTF 2022 新生赛]ez_ez_unserialize

NSS [SWPUCTF 2022 新生赛]ez_ez_unserialize 开题,直接给了题目源码。 简单看了一下,题目告诉我们flag在哪,而且类中有高亮文件方法。怎么拿flag已经很明显了。关键点在于__weakup()魔术方法固定死了我们高亮的文件。所以这题只需要绕过__w…

关于vue3的自定义hook

把一些逻辑写在单独的ts文件里,vue文件使用的时候引入即可 1、计算属性写出去 直接写出去的话,使用时报错 ExpirationTime是一个计算属性,若直接在html上使用{{ExpirationTime(orderForm报错)}} 查阅资料显示:在 setup 函数中&…

docker入门(五)—— 小练习,docker安装nginx、elasticsearch

练习 docker 安装 nginx # 搜素镜像 [rootiZbp15293q8kgzhur7n6kvZ home]# docker search nginx NAME DESCRIPTION STARS OFFICIAL nginx …

适不适合跳过六西格玛绿带直接攻读六西格玛黑带?自我评估指南

六西格玛认证体系的设计初衷是逐步引领学习者深入掌握六西格玛的理论、工具和实践应用。从白带到大师黑带,每一步都旨在为学习者提供逐渐累积的学习经验和技能提升。然而,个人背景差异巨大,有的学习者可能因为其丰富的项目管理经验、质量管理…

windows10 WSL启动Ubuntu虚拟机,安装DolphinScheduler

文章目录 1. 启动WSL与虚拟机2. 安装Docker与DolphinScheduler容器 1. 启动WSL与虚拟机 使用管理员权限运行命令: Enable-WindowsOptionalFeature -Online -FeatureName Microsoft-Windows-Subsystem-Linux重启后即可创建虚拟机 在Microsoft Store中搜索Ubuntu&…

Python计算机二级选择易错题(一)

题目来源:python计算机二级真题(选择题) - 知乎 选择题第08,09套

实操 | 从0到1教你用Python来爬取整站天气网

Scrapy Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。 一、安装scrapy 安装Twisted Twisted:为 Python 提供的基于事件驱动的网络引擎包。 在下面网址安装Twisted url:https://www.l…

【正点原子Linux连载】 第十六章 Linux阻塞和非阻塞IO实验 摘自【正点原子】ATK-DLRK3568嵌入式Linux驱动开发指南

1)实验平台:正点原子ATK-DLRK3568开发板 2)平台购买地址:https://detail.tmall.com/item.htm?id731866264428 3)全套实验源码手册视频下载地址: http://www.openedv.com/docs/boards/xiaoxitongban 第十六…

三种简单方法教你手机mp4怎么转换成mp3!

在日常生活中,我们经常会遇到想要将手机上的MP4视频转换为MP3音频的情况。可能是想要提取音频内容,例如歌曲或录音,方便在其他设备上播放或分享;也可能是为了节省手机存储空间,将视频文件转换为更小的音频文件。 无论…

基础知识(读取指定数据/布尔索引/nan/inf)

读取数据 代码 import numpy as np# 文件的路径 us_file_path"./youtube_video_data/US_video_data_numbers.csv" uk_file_path"./youtube_video_data/GB_video_data_numbers.csv"# 读取文件 t1np.loadtxt(us_file_path,delimiter,,dtypeint) t2np.loadt…

VBA之Word应用:利用Bookmark属性返回选择区域的开始和结束位置

《VBA之Word应用》(版权10178982),是我推出第八套教程,教程是专门讲解VBA在Word中的应用,围绕“面向对象编程”讲解,首先让大家认识Word中VBA的对象,以及对象的属性、方法,然后通过实…

文件包含漏洞之包含SESSION(CTF题目)

这次使用的环境是ubuntunginxphpmysql 首先四个文件源码在以下链接中: 一道CTF题:PHP文件包含 | Chybeta 我们注册一个用户名111密码111,然后登录查看cookie和linux的session,因为我们的de服务器 是手动搭建的,所以…

一款不错的开源的 Linux 服务器运维管理面板:1Panel

适用于非运维人员的环境搭建、部署、监控等 一、1Panel 是一个现代化、开源的 Linux 服务器运维管理面板。1Panel 的功能和优势包括: 快速建站:深度集成 Wordpress 和 Halo,域名绑定、SSL 证书配置等一键搞定; 高效管理&#xf…

C语言易错知识点

1、数组长度及所占字节数 char x[] {"Hello"},y[]{H,e,l,l,o}; x数组的长度为5&#xff0c;y的长度也是5 x、y数组所占字符串为6为 51(\0)6 strlen&#xff08;&#xff09;函数得到的是数组的长度 2、%%与%的优先级 #include<stdio.h> int main(){ int a…

YOLOv5目标检测学习(6):源码解析之:训练部分train.py

文章目录 前言一、导入相关包与配置二、主函数main2.1 checks&#xff1a;检查rank值来判断是否打印参数、检查git仓库、检查包的安装2.2 判断是否恢复上一次模型训练提问&#xff1a;opt.data, opt.cfg, opt.hyp, opt.weights, opt.project各是什么&#xff1f; 2.3 DDP mode&…

【数字图像处理系列】读取图像

【数字图像处理系列】读取图像 使用函数 imread 可以将图像读人 MATLAB 环境&#xff0c;imread 的语法为 imread(filename)其中&#xff0c;filename是一个含有图像文件全名的字符串(包括任何可用的扩展名)。例如&#xff0c;命令行 >>f imread(pout.tif)将tif图像po…

索引常见面试题

面试中&#xff0c;MySQL 索引相关的问题基本都是一系列问题&#xff0c;都是先从索引的基本原理&#xff0c;再到索引的使用场景&#xff0c;比如&#xff1a; 索引底层使用了什么数据结构和算法&#xff1f;为什么 MySQL InnoDB 选择 Btree 作为索引的数据结构&#xff1f;什…