DeepMind的JEST技术:AI训练速度提升13倍,能效增强10倍,引领绿色AI革命

news2024/11/20 20:19:59

谷歌旗下的人工智能研究实验室DeepMind发布了一项关于人工智能模型训练的新研究成果,声称其新提出的“联合示例选择”(Joint Example Selection,简称JEST)技术能够极大地提高训练速度和能源效率,相比其他方法,性能提高了13倍,而能源效率则提升了10倍。这一进展对于当前担忧人工智能对电力需求激增可能带来的环境压力而言,无疑是一则潜在的好消息。

JEST技术颠覆了传统的AI训练方式,传统方法通常集中于利用单个数据点进行学习,而JEST则基于数据批次进行训练。具体来说,该方法首先构建一个小型AI模型,用于评估来自高质量数据源的数据质量并进行排序。随后,这个小模型会将高质量数据集的评分与一个较大、质量较低的数据集进行对比,挑选出最适合训练的数据批次。接着,大型模型依据小模型的筛选结果进行训练,从而实现更高效的模型学习。

DeepMind的研究人员强调,JEST成功的关键在于其引导数据选择过程朝向较小且精心策划的数据集分布的能力。实验结果显示,该方法相较于最前沿的模型,如SigLIP,在迭代次数和计算量上分别减少了最多13倍和10倍,显著提升了效率和速度。

然而,JEST方法的成功高度依赖于训练数据的质量。这种方法要求有一个由专家精心策划的高质量初始数据集作为基础,否则“垃圾进,垃圾出”的原则将严重影响其效果。这意味着对于业余爱好者或非专业AI开发者来说,要实现JEST的高效训练将面临更多挑战,因为它需要高级别的研究技能来准备数据集。

在当前背景下,JEST技术的出现正当其时。随着科技行业和各国政府开始讨论人工智能日益增长的巨大能源消耗问题,这一研究显得尤为重要。据统计,2023年AI工作负载消耗了大约4.3GW的电力,几乎相当于塞浦路斯一年的用电量。而未来发展趋势显示,AI能源需求将持续上升,例如单次ChatGPT请求的能耗是谷歌搜索的10倍,Arm公司CEO预测到2030年,AI将占据美国电网四分之一的电力。

至于JEST技术是否会被AI领域的大型企业采纳,以及如何采纳,目前尚待观察。考虑到训练大型模型如GPT-4的成本已高达1亿美元,未来规模更大的模型训练成本或将突破十亿美元大关,因此企业迫切需要寻找节省成本的方法。乐观人士希望JEST技术能够帮助维持现有的训练效率,同时大幅降低能耗,减轻AI成本并有利于环境保护。然而,现实可能是资本驱动下,企业利用JEST技术维持高能耗下的超高速训练产出,成本节约与产出规模之间的平衡将是一个复杂博弈。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1912173.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数字信号处理教程(3)——z变换

在连续时间域中的每一种分析方法,在离散时间域中想必也能得到对应一种分析方法。连续傅里叶变换对应着离散傅里叶变换(DFT),而在拉普拉斯变换则是对应着z变换。z变换能够将信号表示成离散复指数函数的线性组合。连续傅里叶变换可以…

NAT技术及其应用

网络地址转换(NAT,Network Address Translation)是一种广泛应用于现代网络中的技术,旨在解决IP地址短缺问题,同时增强网络的安全性和灵活性。本文将详细解释NAT技术的工作原理,并探讨其在家庭及企业网络中的…

华为HCIP Datacom H12-821 卷30

1.单选题 以下关于OSPF协议报文说法错误的是? A、OSPF报文采用UDP报文封装并且端口号是89 B、OSPF所有报文的头部格式相同 C、OSPF协议使用五种报文完成路由信息的传递 D、OSPF所有报文头部都携带了Router-ID字段 正确答案:A 解析: OSPF用IP报…

【大模型LLM面试合集】大语言模型架构_layer_normalization

2.layer_normalization 1.Normalization 1.1 Batch Norm 为什么要进行BN呢? 在深度神经网络训练的过程中,通常以输入网络的每一个mini-batch进行训练,这样每个batch具有不同的分布,使模型训练起来特别困难。Internal Covariat…

最佳 iPhone 解锁软件工具,可免费下载用于电脑操作的

业内专业人士表示,如果您拥有 iPhone,您一定知道忘记锁屏密码会多么令人沮丧。由于 Apple 的安全功能强大,几乎不可能在没有密码或 Apple ID 的情况下访问锁定的 iPhone。 “当我忘记密码时,如何在没有密码的情况下解锁iPhone&am…

来一组爱胜品1133DN PRO打印机的照片

刚拆箱的机器正面照片 打开前盖正准备要安装原装耗材 下图是原装耗材,硒鼓型号是DR2833、碳粉盒型号是TN2833,鼓组件打印页数12000页,TN2833标准容量粉盒打印页数1600页/5%覆盖率,TN2833H大容量粉盒打印页数3000页/5%覆盖率、TN2833L超大容量…

【LLM】三、open-webui+ollama搭建自己的聊天机器人

系列文章目录 往期文章回顾: 【LLM】二、python调用本地的ollama部署的大模型 【LLM】一、利用ollama本地部署大模型 目录 前言 一、open-webui是什么 二、安装 1.docker安装 2.源码安装 三、使用 四、问题汇总 总结 前言 前面的文章,我们已经…

Studying-代码随想录训练营day34| 62.不同路径、63.不同路径II、343.整数拆分、96.不同的二叉搜索树

第34天,动态规划part02,牢记五部曲步骤,编程语言:C 目录 62.不同路径 63.不同路径II 343.整数拆分 96.不同的二叉搜索树 总结 62.不同路径 文档讲解:代码随想录不同路径 视频讲解:手撕不同路径 题目…

红酒知识百科:从入门到精通

红酒,这个深邃而迷人的世界,充满了无尽的知识与奥秘。从葡萄的选择、酿造工艺,到品鉴技巧,每一步都蕴藏着深厚的文化底蕴和精细的技艺。今天,就让我们一起踏上这场红酒知识之旅,从入门开始,逐步…

2024年7月1日,公布的OpenSSH的漏洞【CVE-2024-6387】

目录 ■概要 ■概要(日语) ■相关知识 openssh 和 ssh 有区别吗 如何查看 openssh的版本 漏洞描述 glibc Linux是什么 如何查看系统是不是基于 Gibc RHEL Linux 是基于Glibc的Linux吗 还有哪些 Linux版本是基于 GNU C库(glibc&…

Github Actions 构建Vue3 + Vite项目

本篇文章以自己创建的项目为例,用Github Actions构建。 Github地址:https://github.com/ling08140814/myCarousel 访问地址:https://ling08140814.github.io/myCarousel/ 具体步骤: 1、创建一个Vue3的项目,并完成代…

谷粒商城 - 编写一个自定义校验注解

目录 开始 未来实现效果 第一步:编写自定义校验注解 第二步:编写自定义校验器 第三步:编写配置文件 效果演示 开始 未来实现效果 编写一个 ListValue 注解,可以实现功能有: 限定字段的值,例如指定只…

注解复习(java)

文章目录 注解内置注解**Deprecated**OverrideSuppressWarnings【不建议使用】Funcationallnterface 自定义注解元注解RetentionTargetDocumentedInherited 和 Repeatable 反射注解 前言:笔记基于动力节点 注解 注解可以标注在 类上,属性上&#xff0c…

LabVIEW中使用 DAQmx Connect Terminals作用意义

该图展示了如何在LabVIEW中使用 DAQmx Connect Terminals.vi 将一个信号从一个源端口连接到一个目标端口。这种处理有以下几个主要目的和作用: 同步操作: 在多任务、多通道或多设备系统中,可能需要不同的组件在同一时刻执行某些操作。通过将触…

深入理解循环神经网络(RNN)

深入理解循环神经网络(RNN) 循环神经网络(Recurrent Neural Network, RNN)是一类专门处理序列数据的神经网络,广泛应用于自然语言处理、时间序列预测、语音识别等领域。本文将详细解释RNN的基本结构、工作原理以及其优…

【鸿蒙学习笔记】创建自定义组件

官方文档:创建自定义组件 目录标题 [Q&A] 如何自定义组件?1・struct 自定义组件名 {...}2・build()函数:3・@Component4・Entry5・Reusable 自定义组件的参数 buil…

一篇经典Python编程常用的30个操作以及代码演示

这些案例将涵盖数据处理、算法、文件操作、数据可视化、网络编程、机器学习等多个领域. 以下是具体的操作步骤和示例代码: 基础操作 1. 计算两个数的和 def add(a, b): return a b print(add(3, 5)) 2. 判断一个数是否为偶数 def is_even(n): return n % …

谷歌+火狐浏览器——实现生成二维码并实现拖动——js技能提升

最新遇到的问题:前两个二维码拖动不了,只有第三个一维码生成后,才可以拖拽 【问题】:出现在都是绝对定位,但是没有指定z-index导致的。 解决办法:在方法中添加一个变量 renderDrag(id) {var isDragging f…

RDNet实战:使用RDNet实现图像分类任务(一)

论文提出的模型主要基于对传统DenseNet架构的改进和复兴,通过一系列创新设计,旨在提升模型性能并优化其计算效率,提出了RDNet模型。该模型的主要特点和改进点: 1. 强调并优化连接操作(Concatenation) 论文…

Java反射与Fastjson的危险反序列化

什么是Java反射? 在前文中,我们有一行代码 Computer macBookPro JSON.parseObject(preReceive,Computer.class); 这行代码是什么意思呢?看起来好像就是我们声明了一个名为 macBookPro 的 Computer 类,它由 fastjson 的 parseObje…