全新的大语言模型Grok-2,最新测评!!

news2024/9/20 21:34:02

埃隆·马斯克再次引发轰动,他旗下的xAI公司推出了全新的大语言模型Grok-2!

最新的Grok-2测试版已经发布,用户可以在𝕏平台上体验小版本的Grok-2 mini。

马斯克还通过一种谜语般的方式揭开了困扰大模型社区一个多月的谜团:Lmsys大模型竞技场上那个神秘的匿名模型sus-column-r,实际上就是Grok-2的化身。

【最新版】手把手Claude 3.5 Sonnet 详细步骤注册方法!_claude 3.5 sonnet 注册


 

sus-column-r在排行榜上积累了超过一万次的人类投票,目前它已经与GPT-4o的API版并列第三。

如何使用WildCard正确方式打开Claude,目前 WildCard 支持的服务非常齐全!

官网有更详细介绍:WildCard

在xAI的内部测试中,Grok-2在常识(如MMLU、MMLU-Pro)、数学竞赛问题(MATH)以及研究生水平科学知识(GPQA)等多个领域表现出色,与其他前沿模型不相上下。

此外,Grok-2在视觉任务方面尤为擅长,尤其是在视觉数学推理(MathVista)方面达到了SOTA(State of the Art)的水平。

不过,有趣的是,在展示这些结果时,xAI刻意将Grok-2与分数最高的GPT-4o和Claude-3.5-Sonnet分开,似乎试图在图表上制造一些心理影响。

然而,分数只是数字,更关键的是实际测试效果。

接下来进入Grok-2的一手实测环节。

如果你是𝕏/推特平台的付费用户,可以直接进入Grok频道进行试玩!

即便不付费,也可以在Lmsys大模型竞技场上选择sus-column-r进行体验。

值得一提的是,付费用户只能玩到小杯mini版,而免费用户则能体验更大的版本,这一点相当厚道。

由于Grok-2能够访问𝕏上的实时数据,因此它可以总结当天的新闻,并在开启趣味模式后附加一些幽默的评论。

此外,付费版本还接入了最新的开源AI生图模型Flux.1,该模型能够将中文提示词翻译成英文来理解。

用户可以在Grok-2上继续使用中文提问,它甚至在这款尚未发售的游戏《黑神话:悟空》之前就了解。

Grok-2不仅能准确指出该游戏的预定发售日期为8月20日,还能识别游戏使用的虚幻5引擎,并总结𝕏平台上网友的讨论内容。

然而,由于𝕏平台上提供的只是Grok-2的mini版本,强度测试还需要在大模型竞技场上进行。在这个竞技场中,用户可以直接让Grok-2(即sus-column-r)与GPT-4o进行对比。

在最近热门的智商测试问题“9.9和9.11哪个更大”中,Grok-2的表现明显超越了ChatGPT的最新版本。

然而,在另一项流行的测试“strawberry中有几个r”中,两者表现都不尽如人意(虽然多次尝试后,两者都有可能答对,但这种情况较为罕见)。

不过,特斯拉的股东们对此并不满意。据《华尔街日报》报道,马斯克一直在将人才、数据和GPU资源从特斯拉转移至xAI。

目前,xAI已经雇佣了至少11名曾在特斯拉工作的员工,其中六人曾在Autopilot团队工作。此外,马斯克还要求英伟达优先为xAI供应GPU资源,原本这些资源是为特斯拉保留的。

他还公开表示,特斯拉收集的大量视觉数据可以用来训练xAI的模型。

这一举动引发了股东们的不满,至少三名特斯拉股东因马斯克将资源转移到xAI而对他提起诉讼,指控他损害了特斯拉投资者的利益。

目前,此案件正在特拉华州法院审理。

这个新推出的Grok-2模型在业界掀起了不小的波澜,尤其是马斯克为其投入的巨大资源和战略转移,引发了广泛的关注和争议。

随着Grok-2继续扩展其应用场景,尤其是在大模型领域与其他顶级模型的竞争中,其未来的发展前景值得密切关注。


如何使用WildCard正确方式打开Claude,目前 WildCard 支持的服务非常齐全!

官网有更详细介绍:​​​​​​WildCard

推荐阅读:

Claude 3.5 Sonnet引入了LaTeX公式渲染功能!!
 

【最新版】手把手Claude 3.5 Sonnet 详细步骤注册方法!_claude 3.5 sonnet 注册

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2079662.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C/C++ 包管理器 Conan 安装及使用

文章目录 Github官网文档简介安装 Conan 包管理器Conan 私有存储库创建 profile 文件添加远程存储库依赖包操作命令 Artifactory 私有存储库下载安装包(推荐)Docker 方式安装 Conan 官方示例 Github https://github.com/conan-io/conan 官网 https://…

零代码上手,工厂数据管理从未如此简单

在当今快节奏的工业环境中,工厂管理者们越来越依赖于数据分析来优化生产流程、提高效率和降低成本。然而,传统的数据分析工具往往复杂难用,且动辄需要高昂的费用,这让很多工厂望而却步。不过最近本人发现了一款非常实用的报表工具…

智能废弃瓶子垃圾箱:城市环境的绿色守护者

随着城市化进程的加速,生活垃圾的处理成为城市管理中的一大挑战。智能废弃瓶子垃圾箱的出现,不仅提高了垃圾回收的效率,还促进了资源的循环利用,成为智慧城市建设的重要组成部分。 目录 技术概述 核心功能 应用场景 环境与社会…

Java数据结构栏目总结

目录 数组与稀疏数组 队列:自己用数组模拟Queue 环形队列,取模【取余】实现. 单链表(LinkList) 双向链表(Next 、Pre) 单向环形链表 线性结构 数组与稀疏数组 稀疏数组,很多0值,可用于压缩 特点&a…

在 AMD GPUs 上进行图分析使用 Gunrock

Graph analytics on AMD GPUs using Gunrock — ROCm Blogs 图和图分析是可以帮助我们理解复杂数据和关系的相关概念。在这种背景下,图是一种数学模型,用于表示实体(称为节点或顶点)及其连接(称为边或链接)…

【CTF Web】BUUCTF BUU BRUTE 1 Writeup(弱口令+暴力破解+字典攻击)

BUU BRUTE 1 1 点击启动靶机。 解法 随便输个用户名。 试试 admin。 用 burp 抓包。 生成四位数字的字典。 导入字典到 burp。 添加载荷位置。 开始爆破。破解完成,密码:6490。取得 flag。 注意 如果破解得慢的话,记得要续期靶机。不然靶机…

算法工程师秋招面试问题总结

大模型分布式训练并行 一般有 tensor parallelism、pipeline parallelism、data parallelism 几种并行方式,分别在模型的层内、模型的层间、训练数据三个维度上对 GPU 进行划分。三个并行度乘起来,就是这个训练任务总的 GPU 数量。 1.数据并行 数据并行是最常见的并行形式…

2024.8.27 作业

1> 提示并输入一个字符串&#xff0c;统计该字符串中字母个数、数字个数、空格个数、其他字符的个数 #include <iostream>using namespace std;int main() {string s;cout << "请输入字符串>>>";getline(cin,s);int letter0,digit0,blank0,…

git 复制提交到另外分支上

查看提交id 在原分支上查看要复制的id git log切换目标分支 将刚才复制的id&#xff0c;在这个目标分支上执行复制命令 git cherry-pick <commit-id>其中是要复制的提交的提交ID 效果 新分支上未复制的提交&#xff1a; 新分支上已复制的提交&#xff1a;

PTA - C语言国庆题集2

目录 7-21 打妖怪7-22 统计连续高温的最大天数7-23 唱歌比赛打分7-24 找最长的字符串7-25 算龙脉7-26 DNA鉴定7-28 T9键盘7-31 单链表的创建&#xff0c;遍历与销毁7-36 有多少位是7&#xff1f;7-37 选择排序7-38 翻转单词顺序7-39 求因子和最大的数&#xff08;结构体排序&am…

min(n,k)*min(m,k)

今天看那场一题都没写出来的div12&#xff0c;发现我想了那么久的A题&#xff0c;别人用几行代码就搞出来了。。。&#xff0c;现在感觉这道题和状压dp好像。。。 这道题用到了切比雪夫距离。。。

2024114读书笔记|《漱玉词》—— 绛绡缕薄冰肌莹,雪腻酥香,满院东风,海棠铺绣,梨花飞雪

2024114读书笔记|《漱玉词》—— 绛绡缕薄冰肌莹&#xff0c;雪腻酥香&#xff0c;满院东风&#xff0c;海棠铺绣&#xff0c;梨花飞雪 《漱玉词》李清照&#xff0c;观之入微&#xff0c;是惆怅亦是欢乐&#xff0c;不费力就可以读完的小诗词&#xff0c;插图不错。 知否的主…

Spring理论知识(Ⅱ)——Spring核心容器模块

Spring的组成 Spring由20个核心依赖组成&#xff0c;这20个核心依赖可以分为6个核心模块 本篇文章着重描述Spring核心容器模块&#xff0c;其中包含了spring-beans&#xff0c;spring-core&#xff0c;spring-context&#xff0c;spring-expression-language&#xff08;…

摄像头设备问题如何检测

摄像头等智能设备的在线状态通常被视为其运作正常的表现。但在日常监控使用中&#xff0c;由于使用空间、网络环境、产品年限等原因&#xff0c;设备掉线、视频流无法正常获取、监控画面异常&#xff08;如花屏&#xff09;&#xff0c;以及存储介质&#xff08;如SD卡&#xf…

【Electron】Electron学习笔记

1.什么是 Electron&#xff1f; Electron 是一个跨平台桌面应用开发框架&#xff0c;开发者可以利用 HTML、CSS、JavaScript 等Web技术来构建桌面应用程序。它本质上是结合了 Chromium 和 Node.js&#xff0c;目前广泛用于桌面应用程序开发。例如&#xff0c;许多桌面应用都采…

算法学习-基础算法

基础算法 一.二分查找 1.模版 boolean check(int x) { }int search(int left, int right) {while (left < right) {int mid (left right) >> 1;if (check(mid)) {//满足条件&#xff0c;向寻找范围继续寻找&#xff0c;例如我要找更靠左的&#xff1a;r m right…

一次学校OJ 代码执行测试

前言 以前看过一篇Windows上搭OJ被C#打穿的文章&#xff0c;刚好测测学校的OJ。 这里没有过多的研究其余的可能利用点&#xff0c;仅仅是简单记录下过程&#xff0c;一些思路的启发。 测试过程 首先看支持的代码类型&#xff1a; 尝试了Java发现不能import&#xff0c;那J…

一文带你从零到实战,学会gcc和Makefile,多文件编译神器的使用与编写

目录&#xff1a; 目录&#xff1a; 一、什么是Makefile 1.1 makefile的作用&#xff1a; 1.2 makefile的基本组成&#xff1a; 二、Linux编译过程&#xff1a; 2.1 linux编译过程: 2.1.1 预处理&#xff08;Preprocessing&#xff09; 2.1.2 编译&#xff08;Compilation&am…

# 移动硬盘误操作制作为启动盘数据恢复问题

移动硬盘误操作制作为启动盘数据恢复问题 文章目录 移动硬盘误操作制作为启动盘数据恢复问题步骤一恢复原有数据 步骤二格式化并重新分区 注意注意先找数据恢复软件恢复数据&#xff0c;把之前移动硬盘或者U盘上的数据恢复到其它地址 步骤一 恢复原有数据 使用一些数据恢复软…

SpringBoot实现Word转PDF/TXT

背景 研发工作中难免会遇到一些奇奇怪怪的需求&#xff0c;就比如最近&#xff0c;客户提了个新需求&#xff1a;上传一个WORD文档&#xff0c;要求通过系统把该文档转换成PDF和TXT。客户的需求是没得商量的&#xff0c;必须实现&#xff01;承载着客户的期望&#xff0c;我开始…