AI通用大模型 —— Pathways,MoE, etc.

news2024/11/20 12:43:12

文章目录

  • Pathways
    • 现有AI缺憾
    • Pathways Can Do
      • Multiple Tasks
      • Multiple Senses
      • Sparse and Efficient
  • Mixture of Experts(MoE)
    • Neural Computation'1991, Adaptive mixtures of local experts
    • ICLR'17, Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer
    • ICLR'21, GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding
    • JMLR'22, Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
    • 2021, GLaM: Efficient Scaling of Language Models with Mixture-of-Experts
    • AAAI'22, Go Wider Instead of Deeper
    • NAACL'22, MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided Adaptation

Pathways

google - Jaff Dean - Pathways
在这里插入图片描述

现今社会AI正在扮演越来越重要的角色,加之在很多领域里面AI也取得了很大的成功;
但为了与更多紧迫挑战任务的深度和复杂性相匹配,将需要新的、更强大的人工智能系统 —— 这些系统可以将人工智能的成熟方法与新兴的研究方向结合起来,从而能够解决我们今天无法解决的问题。为此,谷歌研究院的团队正在研究下一代人工智能架构的元素,called Pathways!一种通用网络的设计思路

现有AI缺憾

  • 目前AI模型都是为了解决某个或者某类问题而训练的
  • 目前AI模型往往都聚焦到单个感观上(sense)
  • 目前AI模型往往都是稠密且低效的

Pathways Can Do

Multiple Tasks

  • 模型能解决多种任务

现有的AI往往都是从随机参数开始训练的,这代表着不存在任何经验的积累;并且任务是无穷尽的,代表着我们需要训练不可计数的模型,而且模型都是从0到1,每个任务都得需要大量的数据,这是无比沉重的任务

相反,我们想要训练一个模型,它不仅可以处理许多单独的任务,还可以利用并结合现有的技能来更快、更有效地学习新任务。这样,一个模型通过训练完成一项任务——比如,学习航拍图像如何预测景观的高度——可以帮助它学习另一项任务——比如,预测洪水将如何流经该地形。

我们想要一个模型有不同的功能,可以根据需要调用,并拼接在一起执行新的,更复杂的任务-更接近哺乳动物大脑在任务之间进行概括的方式。

Multiple Senses

  • 模型能具有多种感知和直觉

人类对外界的感知往往都是多模态信息的整合,而目前AI模型往往都只聚集于单个模态,基本没有融合文本、语音和图像的AI

多感知的模型结果是一个更有洞察力的模型,更不容易出现错误和偏见。

当然,人工智能模型不需要局限于这些熟悉的感官,Pathways 应该需要处理更抽象的数据形式,帮助找到人类发现不同于现有感知的其他sense

Sparse and Efficient

  • 模型会变得稀疏连接且更加高效

我们的大脑有许多不同的部分专门负责不同的任务,但我们只在特定的情况下调用相关的部分。你的大脑中有近一千亿个神经元,但你依靠其中的一小部分来解释这个句子。而目前AI模型往往都是稠密的(因为是解决某个具体的任务)

人工智能也可以以同样的方式工作。我们可以建立一个“稀疏”激活的单一模型,这意味着只有通过网络的小路径在需要时被调用。事实上,模型动态地学习网络的哪个部分擅长哪些任务——它学习如何通过模型中最相关的部分路由任务。这种架构的一大好处是,它不仅具有更大的学习各种任务的能力,而且速度更快,更节能,因为我们不需要为每个任务激活整个网络。

例如,GShardSwitch Transformer是我们创建过的两个最大的机器学习模型,但由于它们都使用稀疏激活,因此它们消耗的能量不到类似大小的密集模型的1/10,同时与密集模型一样准确。

现有AI模型往往过于专注于单个任务,而它们本可以擅长许多任务。当他们可以合成几种输入时,他们依赖于一种输入形式。而且,当熟练和专业化的专业知识可以发挥作用时,他们往往会诉诸暴力(穷举)。

Pathways将使单个人工智能系统能够在数千或数百万个任务中进行泛化,以理解不同类型的数据,并以惊人的效率做到这一点——将我们从仅仅识别模式的单一用途模型时代推进到一个更通用的智能系统反映对我们世界的更深入理解并能够适应新需求的时代。

Pathways可以快速适应新的需求,解决世界各地出现的新问题,帮助人类充分利用我们面前的未来

Mixture of Experts(MoE)

Neural Computation’1991, Adaptive mixtures of local experts

  • 最早的一篇混合专家模型研究论文,理论基础论文

ICLR’17, Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer

  • 理论基础论文

ICLR’21, GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding

  • 经典工作论文

JMLR’22, Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

  • 经典工作论文

2021, GLaM: Efficient Scaling of Language Models with Mixture-of-Experts

  • 经典工作论文

AAAI’22, Go Wider Instead of Deeper

  • 网络设计

NAACL’22, MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided Adaptation

  • 网络设计

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/686382.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【已解决】ModuleNotFoundError: No module named ‘timm.models.layers.helpers‘

文章目录 错误信息原因解决方法专栏:神经网络精讲与实战AlexNetVGGNetGoogLeNetInception V2——V4ResNetDenseNet 错误信息 在使用timm库的时候出现了ModuleNotFoundError: No module named timm.models.layers.helpers’的错误,详情如下: …

Windows下安装ClickHouse图文教程

文章目录 1.安装WSL21.1启用适用于 Linux 的 Windows 子系统1.2启用Windows虚拟机功能1.3将WSL2设置为默认版本1.4下载Linux内核更新包1.5安装Linux子系统1.6设置账户和密码 2.安装Docker2.1下载与安装2.2设置镜像地址 3.安装Clickhouse3.1拉取镜像3.2启动clickhouse-server3.3…

Docker学习笔记7

启动一个运行httpd服务的容器: docker run -it --namec3 centos:latest /bin/bash 在容器中安装apache服务: yum install -y httpd 在这个过程中遇到一个问题: Error: Failed to download metadata for repo appstream: Cannot prepare …

关于PHP调用openAI chatGPT一些问题

我是直接使用gpt生成的curl代码区调用的 1:windows可能出现代理访问问题,报443端口问题 解决办法:开启代理后,需要到设置 确认这里打开状态 在curl请求里面加上对应的代码 curl_setopt($ch, CURLOPT_PROXY, "127.0.0.1&qu…

java spring cloud 企业工程项目管理系统源码-全面的工程项目管理

​ ​工程项目管理系统是指从事工程项目管理的企业(以下简称工程项目管理企业)受业主委托,按照合同约定,代表业主对工程项目的组织实施进行全过程或若干阶段的管理和服务。 如今建筑行业竞争激烈,内卷严重&#xff0c…

企业运维 | NFS、Samba服务在Docker容器环境中快速搭建部署实践

欢迎关注「全栈工程师修炼指南」公众号 设为「星标⭐」每天带你 基础入门 到 进阶实践 再到 放弃学习! 专注 企业运维实践、网络安全、系统运维、应用开发、物联网实战、全栈文章 等知识分享 “ 花开堪折直须折,莫待无花空折枝。 ” 作者主页&#xff1…

chatgpt赋能python:Python能自举吗?

Python能自举吗? Python是一门高级编程语言,由Guido van Rossum于1989年开发而来。Python被广泛用于Web开发、数据分析、人工智能等领域。因为Python语法简洁易懂,易于学习,许多人都称其为“入门语言”。 那么问题来了&#xff…

Spring Cloud——演进与应用的分布式系统开发利器

🌸作者简介:花想云,目前大二在读 ,C/C领域新星创作者、运维领域新星创作者、CSDN2023新星计划导师、CSDN内容合伙人、阿里云专家博主、华为云云享专家 🌸专栏推荐:C语言初阶系列 、C语言进阶系列 、C系列、…

Linux之CentOS 7.9部署Oracle 11g r2_p13390677_112040最终版简易安装实测验证(桌面模式)

前言: Linux之CentOS 7.9部署Oracle 11g r2最终版安装实测验证(桌面模式) 介于前段时间的Windows以及linux无桌面模式环境,之前的linux oracl源包因缺失会存在报错现象,这次主要以oracle 11gr2更新包来记录下部署方式&…

不挂脖、不入耳,南卡NANK-OE骨传开放式蓝牙耳机

蓝牙耳机几乎成为和手机相同的EDC设备,无论是在工作还是通勤过程,无论是娱乐还是线上办公,随身携带的蓝牙耳机都能提供更舒适、更便捷的听觉和通话体验。 目前主流的蓝牙耳机有头戴式、入耳式和骨传耳机三类,考虑到使用的便携性普…

JavaScript:一门强大的脚本语言,掌握它,开启前端开发之路

目录 一、JavaScript的发展历史背景 二、JavaSxript的组成 三、javascript的基本特点 四、javascript的特性 五、Javascript的使用方式 六、JavaScript与Java的区别 七、JavaScript与JScript的区别 一、JavaScript的发展历史背景 JavaScript的发展历史可以追溯到20世纪9…

4 带你学MATLAB图像处理关键技术(matlab代码)

学习目标:学习图像处理关键技术知识点 %% 获取RGB图像中具体的3个像素点的像素值 clear all; RGBimread(peppers.png); r[12 23 36]; c[35 40 60]; pimpixel(RGB,r,c) %% 获取任意一点的像素值 非常方便 clear all; close all; imshow(peppers.png); himpixelin…

生产模块-多计量单位防坑提示

文章目录 一、概述二、数据案例2.1、物料主数据:2.2、业务数据准备2.3、库存数据查看2.3.1库存数据:基本计量单位:KG库存2.3.2、辅助单位单位:EA库存2.3.3、出库操作:以562方式为例场景1:场景2:…

进阶课程1:jvm内存模型

目录 JVM内存结构转换总结一下 JVM整体结构线程栈 JVM栈内存结构栈帧操作数栈局部变量表 JVM堆内存结构堆内存非堆内存 JMM内容:讲解JMM的三大特性1.原子性2.可见性3.有序性 视频 JVM内存结构 JVM内部由线程栈和堆内存组成。 简单描述就是我们的原生类型的局部变量…

Redis学习基础篇

目录 初识Redis 认识NoSQL 关联的 非关联的​编辑 认识Redis 安装Redis 1.1.安装Redis依赖 1.2.上传安装包并解压 该目录以及默认配置到环境变量,因此可以在任意目录下运行这些命令。其中: 图形化工具下载:Releases lework/RedisDe…

什么是 CSR,SSR,SSG 渲染

在Web开发中,网页渲染是一个重要的过程,它关系到网页的渲染速度和SEO排名,下面列举三种常见的网页渲染方式。 一、什么是浏览器端渲染 (CSR) CSR(Client-Side Rendering)是指将网页的内容生成和渲染都放在客户端&…

什么是真正的骨传导耳机,介绍几款高性价比的骨传导耳机

随着越来越多的人喜欢户外运动,骨传导耳机也逐渐被人们所熟知。骨传导耳机是通过颅骨和内耳传递声音到听觉中枢,所以听感相对较好,不会对耳朵造成任何损伤,因此在户外运动中使用骨传导耳机是一个很好的选择。接下来我会给大家介绍…

弟弟高考考了673分姐姐哭了一小时,大V竟然说是悲哀

大家好!我是老洪。 6月23日起,全国各地高考分数线陆续公布中,老洪也一直在关注着。 时常看到有一些分享高考成绩的话题出现在热搜榜上。 比如老洪昨天提到的 女生高考712分查完分就睡觉了 复读女生涨61分坐地嚎啕大哭 女生发烧考618分挨个房间…

Linux——FTP文件传输服务

个人简介:云计算网络运维专业人员,了解运维知识,掌握TCP/IP协议,每天分享网络运维知识与技能。座右铭:海不辞水,故能成其大;山不辞石,故能成其高。 个人主页:小李会科技的…

音视频BUG学习

找Bug流程 1、首先看出现概率是偶现还是必现 2、如果是必现,则复现整个bug过程,看Bug是否出现 如果是偶现,则分析问题视频 3、 问题一 【欧立】【远程抓拍】安卓-远程抓拍的视频,下载到手机本地相册,声音慢放 一、额…