2024年人工智能数据报告

news2024/11/19 2:37:24

  大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳,不仅形成深入且独到的理解,而且能够帮助新手快速入门。

  本文主要介绍了2024年人工智能数据报告,希望能对学习人工智能的同学们有所帮助。

文章目录

  • 1. 人工智能的发展现状
  • 2. AI benchmark
    • 2.1 NLP
    • 2.2 CV

1. 人工智能的发展现状

  到 2023 年为止,人工智能在多项任务中的表现已经超过了人类,下图清晰地展示了 AI 系统在九个代表性任务的 AI 基准测试中相对于人类基准的进步(比如,图像分类或基础阅读理解)。AI Index 团队针对每个任务选取了代表性的基准。

  在过去几年中,AI 在诸如 2015 年的图像分类、2017 年的基础阅读理解、2020 年的视觉推理、2021 年的自然语言推理等多个领域已经超越了人类。然而到了 2023 年,AI 在一些领域,尤其是那些涉及更高级认知的任务如视觉常识推理和高级数学题目解题(竞赛级问题)中,还未能超过人类。
在这里插入图片描述

2. AI benchmark

2.1 NLP

  如去年的报告所强调的,AI 技术性能的一个新兴主题是在多个基准测试中观察到的性能饱和现象,比如用来评价 AI 模型如 ImageNet 的熟练程度测试。这些测试的结果近几年趋于平稳,这可能意味着 AI 的能力已经达到一个顶峰,或者说明研究者们开始追求更高的复杂挑战。

  由于这种饱和,2023 年的 AI 指标报告中的一些测试没有出现在今年的报告中。下图显示了那些包含在 2023 年但今年未展示的基准测试,以及这些测试自 2022 年以来的进展。其中“NA”表示无明显进步。
在这里插入图片描述
  下图描绘了 2023 年 AI 指数报告中选定基准的年对年性能提升百分比。多数基准测试在初期会迅速实现显著性能增长,随后增速逐渐放缓。在最近几年,这些基准的进展微乎其微,甚至无任何提升。
在这里插入图片描述
  为了解决基准测试普遍性饱和的问题,人工智能 (AI) 研究者们开始转向更具挑战性的测试。2024 年 AI Index 报告涵盖了多个新设的基准测试,包括编程、高级推理和主动性行为等领域,这些领域在以往的报告中鲜有涉及 (图 2.1.19)。

  如上所述,近些年来,大语言模型已在包括 SQuAD(问题解答)和 SuperGLUE(语言理解)在内的传统英文基准测试中超越了人类。这种突飞猛进的发展促使我们需要更全面的评测标准。

  2022 年,斯坦福的研究人员推出了 HELM,这是一个旨在全面评估大语言模型在多种场景下的表现的评测体系,涵盖阅读理解、语言理解和数学推理等领域。HELM 通过评估 Anthropic、Google、Meta 和 OpenAI 等领先企业的模型,并使用“平均胜率”作为衡量各场景平均表现的指标。到 2024 年 1 月,GPT-4 以 0.96 的高平均胜率领先于 HELM 的总排名;不过,在不同的任务类型中,有不同的模型表现最佳。
在这里插入图片描述
  HELM 涵盖 10 种测试场景:包括 NarrativeQA(阅读理解)、两种 Natural Questions(开放书和封闭书的简答题回答)、OpenBookQA(常识问题回答)、MMLU(多学科理解)、GSM8K(小学级数学)、MATH(数学竞赛)、LegalBench(法律推理)、MedQA(医疗知识)和 WMT 2014(机器翻译)。
在这里插入图片描述
  大规模多任务语言理解 (MMLU) 基准测试是用来评估模型在零样本 (zero-shot) 或少样本 (few-shot) 情景下的性能,涵盖了 57 个学科,包括人文学科、STEM 和社会科学 (图 2.2.5)。MMLU 已经成为评估大语言模型 (LLM) 能力的首选基准:许多最先进的模型,如 GPT-4、Claude 2 和 Gemini,都已经在 MMLU 上进行了评估。

  2023 年初,GPT-4 在 MMLU 上取得了最先进的成绩,随后被 Google 的 Gemini Ultra 超越。图 2.2.6 显示了不同年份在 MMLU 基准测试上的顶尖模型分数。报告的分数是测试集的平均值。截至 2024 年 1 月,Gemini Ultra 保持最高分数 90.0%,自 2022 年以来增加了 14.8 个百分点,自 2019 年 MMLU 创立以来增加了 57.6 个百分点。Gemini Ultra 的分数是第一个超过 MMLU 的人类基线 89.8% 的。
在这里插入图片描述
  在 2022 年的 ACL 大会上首次介绍的真实问答(TruthfulQA)是一个测试大语言模型 (LLMs) 答案真实性的标准。这个测试涵盖了包括健康、政治和金融在内的 38 个领域,共有约 800 个问题。这些问题专门设计来检验人们普遍存在的一些错误认知,这些认知往往会使人给出错误的答案 (图 2.2.9)。虽然研究发现更复杂的模型通常答案不够真实,但最新发布的 GPT-4 (RLHF) 在 2024 年早期已在这一标准测试中取得了最佳成绩,得分为 0.6 (图 2.2.10),这个成绩几乎是 2021 年基于 GPT-2 的模型的三倍,显示出大语言模型在不断进步,越来越能提供真实的答案。
在这里插入图片描述
在这里插入图片描述
  正如我们之前提到的,大语言模型 (LLMs) 倾向于产生幻觉,这一点在它们被广泛应用于如法律和医疗这样的关键领域时尤其令人担忧。虽然很多研究都在探索幻觉的原因,但关于频繁发生幻觉的大语言模型及其特别容易出错的领域的研究还相对较少。

  HaluEval 是在 2023 年推出的一个新的基准测试,专门用来评估大语言模型中的幻觉问题。它包含了超过 35,000 个样本,这些样本既有幻觉的也有正常的,用来通过大语言模型进行分析和评价。研究显示,ChatGPT 在其回答中大约 19.5% 的内容是捏造的不可验证信息,涉及语言、气候和技术等多个领域。此外,该研究还检验了目前的大语言模型在识别这些幻觉上的能力。下图展示了一些顶尖的大语言模型在不同任务中识别幻觉的能力,包括问答、知识驱动对话和文本总结等。这些发现强调了幻觉是一个严重且持续的问题。

在这里插入图片描述

2.2 CV

  随着 AI 文字转图片系统的快速进步,人们开发了更为复杂的评估方法。2023 年,斯坦福的研究者推出了全方位评估文转图模型 (HEIM) 的基准测试,该测试全面地从 12 个关键维度对图像生成器进行评估,这些维度在实际应用中极为重要,如图像与文本的对齐 (image-text alignment)、图像的质量 (image quality) 和美观度 (aesthetics)。[9] 该模型的评估依赖于人工评价,这一点非常关键,因为很多自动化指标难以精确地评价图像的各个方面。

  HEIM 的研究结果显示,不存在一个模型能在所有标准上都是最佳的。在评估图像与文字的对齐度(即生成图像与输入文字的契合程度)时,OpenAI 的 DALL-E 2 表现最为出色。在图像质量(判断图像是否接近真实照片)、美观度(视觉吸引力的评估)及创新性(新颖图像生成和避免侵权的能力)上,基于 Stable Diffusion 的梦幻风格照相真实模型得分最高。
在这里插入图片描述

9 HEIM 的 12 个评价标准包括:(1) 对齐 (Alignment): 图像和给定文本的匹配程度有多高? (2) 质量 (Quality): 生成图像的质量如何? (3) 美感 (Aesthetic): 生成图像的审美水平怎样? (4) 创新性 (Originality): 图像展现了多少创意? (5) 推理能力 (Reasoning): 模型能否理解物体、数量及其空间关系? (6) 世界知识 (Knowledge): 模型对世界的了解程度如何? (7) 偏见 (Bias): 生成的图像中有无偏见? (8) 毒性 (Toxicity): 生成的图像是否包含不当内容? (9) 公正性 (Fairness): 生成图像是否有表现上的差异? (10) 稳健性 (Robust): 模型对输入变化的反应是否稳健? (11) 多语言支持 (Multilinguality): 模型是否支持多种语言? (12) 效率 (Efficiency): 模型处理速度快吗?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1664019.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

图片识别公式神器推荐_mathpix

你是否遇到在某个资料上看到一个很复杂的公式,但有懒得再 word 或者其他文件上打出来。 比如这个: 如果直接截图的话,只能说非常丑陋。 推荐一个网站 mathpix,点击 try for free,注册登录。 Mathpix: AI-powered doc…

【Pip】pip 安装第三方包异常:[SSL:CERTIFICATE_VERIFY_FAILED]解决方案

pip 安装第三方包异常:[SSL:CERTIFICATE_VERIFY_FAILED] 大家好 我是寸铁👊 总结了一篇pip 安装第三方包异常:[SSL:CERTIFICATE_VERIFY_FAILED]✨ 喜欢的小伙伴可以点点关注 💝 报错 今天在安装第三方包时报错如下: 解决方案 本质上是需要指定信任的镜像…

探索国外静态住宅代理:保护网络安全与隐私的利器

随着互联网的日益发展,网络安全和隐私保护成为越来越多用户关注的焦点。在这个信息爆炸的时代,如何确保网络活动的匿名性和安全性成为了我们必须面对的问题。国外静态住宅代理作为一种新兴的网络技术,为我们提供了有效的解决方案。 &#xf…

软考常见排序

1.桶排序 将需要排序的数组内容全都取出来放在另一个有序的数组中,然后在依次放回(菜鸟网原图) 2.冒泡排序 数组最前面的元素与之后的每个元素依次比较,后面的元素比前面的元素大,就获取后面的元素然后继续与后面元素比较,直到所有元素都比较过一遍. 3.选择排序 从待排序的数据…

信创应用软件之办公流版签

信创应用软件之办公流版签 文章目录 信创应用软件之办公流版签概述流式文件版式文件电子签章厂商金山办公永中-永中Office中标-中标普华Office福昕科技e签宝法大大 概述 办公流版签软件主要包括办公中常用到的流式软件、版式软件以及电子签章。 版式文件和流式文件都是文书类…

特征提取与深度神经网络DNN

OpenCV中的深度神经网络(DNN)模块,现在已经支持图像风格迁移、图像分类、对象检测、语义分割、实例分割、图像变换等。 只支持推理,不支持训练 支持主流的深度学习框架生成模型 推荐使用pytorch/onnx/tensorflow ResNet18的图像…

进程间通信 管道

前言 ubuntu系统的默认用户名不为root的解决方案(但是不建议):轻量应用服务器 常见问题-文档中心-腾讯云 (tencent.com) 进程间通信的基本概念 进程间通信目的:进程间也是需要协同的,比如数据传输、资源共享、通知事件…

LED显示屏的部件组成及相关知识

LED显示屏作为现代化信息传播的重要载体,在各种场所得到了广泛应用。其功能强大,效果生动,但其背后的部件组成却是复杂而精密的。本文将介绍LED显示屏的主要部件组成及相关知识,以帮助读者更好地理解LED显示屏的工作原理和构造。 …

营业执照OCR识别接口如何对接

营业执照OCR识别接口也叫营业执照文字识别OCR接口,指的是传入营业执照图片,精准识别静态营业执照图像上的文字信息。那么营业执照OCR识别接口如何对接呢? 首先我们找到一家有做营业执照OCR识别接口的服务商,数脉API,然后注册账户…

数据结构学习:栈(详细讲解)

🎁个人主页:我们的五年 🔍系列专栏:C语言基本概念 🌷追光的人,终会万丈光芒 🎉欢迎大家点赞👍评论📝收藏⭐文章 目录 🚗1.对栈概念理解: &a…

微信小程序知识点归纳(一)

前言:适用于有一定基础的前端开发同学,完成从网页开发到小程序开发的知识转换。 先立框架,后砌墙壁 回顾:了解微信小程序开发流程-CSDN博客 初始页面结构,三部分pages、utils、配置,分别存放页面、工具类…

闪耀2023“物联之星”,迈威通信荣膺中国物联网企业创新产品榜

近日,IOTE 2024中国智联网生态大会暨“2023物联之星”年度榜单颁奖典礼在沪召开,迈威通信凭借其出色的技术创新和产品实力,其千兆卡轨式工业级5G路由器MIR785R成功荣登物联之星2023年度榜单——“中国物联网行业创新产品”。这不仅是对迈威通…

网络安全与IP地址的关联

网络安全与IP地址之间存在着密不可分的关系。IP地址作为网络通信的基础,对于网络安全的保障具有至关重要的作用。以下将详细探讨网络安全与IP地址之间的关联,以及IP地址在网络安全中的应用。 一、IP地址与网络安全的关系 IP地址是网络通信的基础&#x…

ISIS的基本配置

1.IS-IS协议的基本配置(1) 2.IS-IS协议的基本配置(2) 3.IS-IS协议的基本配置(3) 4.案例:IS-IS配置 R1的配置如下: [AR1czy]isis 1 [AR1czy-isis-1]is-level level-1 [AR1czy-isis-…

动手学深度学习17 使用和购买gpu

动手学深度学习16 Pytorch神经网络基础) 5. GPUcolabNVIDIA GPUQA显存 5. GPU 课件: https://zh-v2.d2l.ai/chapter_deep-learning-computation/use-gpu.html 有GPU装cuda。 把模型参数放到指定设备上。 # 5.6. GPU # !nvidia-smi # 在命令行中&…

无限视差滚动(轮播)

无限视差滚动 无限视差滚动(轮播)可以给用户一种无限滚动的感觉,视觉效果非常的好。话不多说,先来看效果 这边因为得控制GIF图片大小在5MB以内,导致看着不太丝滑 这种效果在国外用得很多,不过最近几年国内也慢慢开始使…

融合Transformer与CNN,实现各任务性能巅峰,可训练参数减少80%

论文er看过来,今天给各位推荐一个热门创新方向:CNNTransformer。 众所周知,CNN通过多层卷积自动学习空间层级特征,能够有效提取图像局部特征。而Transformer通过自注意力机制全局建模,能够有效处理长距离依赖关系。 …

鸿蒙OpenHarmony南向:【Hi3516标准系统入门(IDE方式)】

Hi3516标准系统入门(IDE方式) 注意: 从3.2版本起,标准系统不再针对Hi3516DV300进行适配验证,建议您使用RK3568进行标准系统的设备开发。 如您仍然需要使用Hi3516DV300进行标准系统相关开发操作,则可能会出现…

静态分析-RIPS-源码解析记录-01

token流扫描重构部分,这一部分主要利用php的token解析api解析出来的token流,对其中的特定token进行删除、替换、对于特定的语法结构进行重构,保持php语法结构上的一致性 解析主要在lib/scanner.php中通过Tokenizer这个类来实现,也就是在main…

视频号小店做店的最新最全攻略,小白也能快速上手轻松变现!

大家好,我是电商花花。 从开始接触视频号小店到现在已经两年多时间了,关于视频号小店也有不少经验和感触。 最近越来越多的人开始进入视频号小店的电商赛道,有人日均销售额做到几万甚至十几万。 想在视频号上变现赚钱,但是苦于…