老题重测，国产AI大模型从“智障”走向“智能”？

老题重测，国产AI大模型从“智障”走向“智能”？

news2026/2/14 16:05:53

在这里插入图片描述

2023年8月，拿我家小孩的一道小学数学题来测试了一批知名的国产大模型，结果很失望，没有一个能答对。最近正好看到OpenAI GPT-4o发布的新闻，于是跑去重测了一遍，结果很惊喜，绝大部分国产AI大模型都给出清晰、正确的答案，说明它们在语义理解上进步神速。

下面的表格对比了一下时隔9个月，各大模型（也包括国外的一些知名模型）在同一道小学数学题上的表现。

题目：15个圆球从上往下排列，其中只有1个是红色的，从上往下数，红色圆球位于第6个，这时，从最下面拿走一个球，此时，请问从下往上数，红色圆球在第几个？

在这里插入图片描述

总结：

从表中看，目前国内比较知名的11个大模型中，除了文心、智谱、Kimi之外，都成功回答对了，对比9个月前的全军覆没，可以说天壤之别。

国外的模型中，OpenAI遥遥领先，从GPT-turbo-3.5（2023年3月发布）开始就能回答对，更不用说最新的GPT-4o了。其他国外的大模型，包括号称对标GPT的Claude 3、Google的Gemini都表现拉垮。另外，开源的LLAMA 3最终给出的答案虽然是对的，但倒数第4行的表述就是错误的，具体参见后续给出的答案截图。

声明：文中测试结果仅代表各模型在该特定题目上的能力，如欲了解模型整体的综合能力，请参考各大专业Benchmark。

01

阿里-通义千问

02

百度-文心一言

03

科大讯飞-星火

04

字节跳动-豆包

05

商汤科技-商量

06

智谱AI

07

百川智能

08

360智脑

09

MiniMax-ABAB/海螺

10

零一万物-YI

11

月之暗面-KIMI

12

GPT-Turbo-3.5

13

GPT-4o

14

Anthropic-Claude

15

Google-Gemini-1.5-Flash

16

LLMA-3-70B-T

如何学习AI大模型？

现在社会上大模型越来越普及了，已经有很多人都想往这里面扎，但是却找不到适合的方法去学习。

作为一名资深码农，初入大模型时也吃了很多亏，踩了无数坑。现在我想把我的经验和知识分享给你们，帮助你们学习AI大模型，能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习，等录播视频免费分享出来，需要的小伙伴可以扫取。

在这里插入图片描述

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势，它不仅能够为我们提供更多的机会和挑战，还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型，我们可以深入了解深度学习、神经网络等核心概念，并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时，掌握AI大模型还能够为我们的职业发展增添竞争力，成为未来技术领域的领导者。

再者，学习AI大模型也能为我们自己创造更多的价值，提供更多的岗位以及副业创收，让自己的生活更上一层楼。

因此，学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1684848.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

MySQL密码忘记之通过Navicat保存的加密密码来解码过程

MySQL密码忘记之通过Navicat保存的加密密码来解码过程

MySQL密码忘记之通过Navicat保存的加密密码来解码过程一、前言许久不用数据库MySQL，因此密码忘记，但是在Navicat上保存了MySQL的密码，然而Navicat上保存的密码是加密的，无法直接复制来使用，因此需要对Navicat上保存…

阅读更多...

如何停止 iPad 和 iPhone 之间共享短信，独立接收和发送消息

如何停止 iPad 和 iPhone 之间共享短信，独立接收和发送消息

概括在当今高度互联的数字世界中，Apple 设备之间的无缝连接性提供了极大的便利，尤其是在消息同步方面。iPhone 和 iPad 用户通常可以享受到设备间短信的自动同步功能，这意味着无论是在哪个设备上，用户都可以接收和回复消息。然而…

阅读更多...

英伟达发布亮眼财报，大超预期！

英伟达发布亮眼财报，大超预期！

KlipC报道：5月22日美股收盘后，英伟达公布第一财季财报。实现了260亿美元营收，远超分析师预测的246.5亿美元，同比增长262%。Q1净利润148.1亿美元，同比增长628%。此外，Q1毛利率也继续上升，达到了7…

阅读更多...

VMware ESXi 7.0 U3q 发布 - 领先的裸机 Hypervisor

VMware ESXi 7.0 U3q 发布 - 领先的裸机 Hypervisor

VMware ESXi 7.0 U3q 发布 - 领先的裸机 Hypervisor VMware ESXi 7.0 Update 3 Standard & All Custom Image for ESXi 7.0U3 Install CD 请访问原文链接：https://sysin.org/blog/vmware-esxi-7-u3/，查看最新版。原创作品，转载请保留出…

阅读更多...

【HCIP学习】RSTP和MSTP

【HCIP学习】RSTP和MSTP

一、RSTP（Rapid Spanning Tree Protocol，快速生成树） 1、背景：RSTP从STP发展而来，具备STP的所有功能，可以兼容stp运行 2、RSTP与STP不同点 （1）减少端口状态 STP:disabled\blockin…

阅读更多...

Diffusion Policy:基于扩散模型的机器人动作生成策略

Diffusion Policy:基于扩散模型的机器人动作生成策略

项目地址： Diffusion Policy (columbia.edu) 一、摘要本文介绍了 "扩散策略"，这是一种生成机器人行为的新方法，它将机器人的视觉运动策略（visuomotor policy）表示为条件去噪扩散过程（conditi…

阅读更多...

P1【知识点】【数据结构】【链表LinkedList】C++版

P1【知识点】【数据结构】【链表LinkedList】C++版

链表是一种逻辑上连续，内存上分散的线性表数据结构，是用一组任意的空间（可以连续，也可以不连续）来存放数据元素。每个数据元素成为一个”结点“，每个结点由数据域和指针域组成。访问元素（Acce…

阅读更多...

RK3588 Android13 TvSetting 中增加字体大小调整菜单

RK3588 Android13 TvSetting 中增加字体大小调整菜单

前言电视产品，客户要求在设置中设备偏好设置子菜单里的显示和声音二级菜单里增加字体大小菜单功能，其实里面本来有个文字缩放菜单，但不满足客户需求，那就新加一个也不是什么难事，开整。效果图 TvSetting 部分修改文件清单 packages/apps/TvSettings/Settings/res/va…

阅读更多...

解锁 user-agent(UA)识别 Api 接口的无限潜力

解锁 user-agent(UA)识别 Api 接口的无限潜力

近年来，随着移动设备的普及和互联网的迅猛发展，用户使用不同的操作系统、浏览器以及硬件设备来访问网页的情况越来越多样化。为了更好地了解用户的访问环境和提供更好的用户体验，我们需要通过用户的访问UA（User-Agent）…

阅读更多...

指针,指针变量，引用，取地址符，malloce（）函数使用，C中“—＞” 和“ . ” 作用与区别

指针,指针变量，引用，取地址符，malloce（）函数使用，C中“—＞” 和“ . ” 作用与区别

目录一：指针,指针变量，引用，取地址符： 前提 ： 1.“ * ” 的两种用途 2." & “的两种用途 2.1：引用 2.2：取地址补充： 二 : malloc(),动态申请地址空间 1.原型定义…

阅读更多...

IEEE Transactions on Neural Networks and Learning Systems神经网络和学习系统TNNLS论文投稿须知

IEEE Transactions on Neural Networks and Learning Systems神经网络和学习系统TNNLS论文投稿须知

一、TNNLS介绍 IEEE Transactions on Neural Networks and Learning Systems作为控制领域的TOP期刊，2024年5月影响因子为10.4，虽然有些下降，之前五年平均影响因子为11.2，但依然是该领域王牌期刊，接收关于神经网络和相…

阅读更多...

Python踩坑系列之使用redis报错：module ‘redis‘ has no attribute ‘Redis‘问题

Python踩坑系列之使用redis报错：module ‘redis‘ has no attribute ‘Redis‘问题

一步一步往后看哦！！！ 纳尼，大伙看看这是什么情况，都是这么写的呢，为啥我这就报错了0.0 出现问题不可怕，解决它就完事了。方法一、安装redis重新运行程序 pip install redis 无果&#xff0…

阅读更多...

【kubernetes】探索k8s集群中kubectl的陈述式资源管理

【kubernetes】探索k8s集群中kubectl的陈述式资源管理

目录一、k8s集群资源管理方式分类 1.1陈述式资源管理方式：增删查比较方便，但是改非常不方便 1.2声明式资源管理方式：yaml文件管理二、陈述式资源管理方法 2.1查看版本信息 2.2查看资源对象简写 2.3配置kubectl自动补全 2.4node节点…

阅读更多...

10 - 核心对象 Switch / case

10 - 核心对象 Switch / case

简介在Kettle（也称为Pentaho Data Integration，PDI）中，Switch/Case 是一个关键的组件，用于根据特定条件将数据流分支到不同的路径。Switch组件评估输入数据中的某个字段，并将数据标记后传递给相应的Case组…

阅读更多...

一款数字化管理平台源码：云MES系统（附架构图、流程）技术架构：springboot + vue-element-plus-admin

一款数字化管理平台源码：云MES系统（附架构图、流程）技术架构：springboot + vue-element-plus-admin

制造生产企业打造数字化生产管控的系统，从原材料、生产报工、生产过程、质检、设备、仓库等整个业务流程的管理和控制，合理安排生产计划、实时监控生产、优化生产工艺、降低不良产出和运营成本； 技术架构：springboot vue-elemen…

阅读更多...

LLaMa系列模型详解（原理介绍、代码解读）：LLaMA 3

LLaMa系列模型详解（原理介绍、代码解读）：LLaMA 3

LLaMA 3 2024年4月18日，Meta 重磅推出了Meta Llama 3，Llama 3是Meta最先进开源大型语言模型的下一代，包括具有80亿和700亿参数的预训练和指令微调的语言模型，能够支持广泛的应用场景。这一代Llama在一系列行业标准基准测试中展示…

阅读更多...

UI问题 --- CardView和其它的控件在同一布局中时，始终覆盖其它控件

UI问题 --- CardView和其它的控件在同一布局中时，始终覆盖其它控件

原本代码： <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"android:layout_width"40dp"android:layout_height"wrap_content"andr…

阅读更多...

【Vue3】env环境变量的配置和使用（区分cli和vite）

【Vue3】env环境变量的配置和使用（区分cli和vite）

原文作者：我辈李想版权声明：文章原创，转载时请务必加上原文超链接、作者信息和本声明。文章目录前言一、env文件二、vue3cli加载env1..env配置2..dev配置（其他环境参考）3.package.json文件4.使用三、vue3vite加载e…

阅读更多...

MobaXterm使用私钥远程登陆linux

MobaXterm使用私钥远程登陆linux

秘钥的形式使用MobaXterm 远程连接 linux 服务器 MobaXterm使用私钥远程登陆linux just填写远程主机不指定用户勾选使用私钥选择私钥即可 1.使用秘钥连接远程linux 服务器的好处只需要第一次添加秘钥，并输入密码后，以后再连接就不需要再输入密码…

阅读更多...

5款网页表白代码5（附带源码）

5款网页表白代码5（附带源码）

5款网页表白代码5 前言效果图及部分源码1.博客式表白2.故事式表白3.信封式表白4.信封式表白（简洁版）5.高级UI表白页领取源码下期更新预报前言大部分人都有喜欢的人，学会这些表白代码，下次表白你肯定会成功。希望你有个女朋友 …

阅读更多...

推荐文章

最新文章