2022 general purpose in-context learning by meta-learning transformers

news2025/1/12 20:46:13

wps: option + left 回到上一个视图

Kirsch L, Harrison J, Sohl-Dickstein J, et al. General-purpose in-context learning by meta-learning transformers[J]. arXiv preprint arXiv:2212.04458, 2022.

目录

  • Kirsch L, Harrison J, Sohl-Dickstein J, et al. General-purpose in-context learning by meta-learning transformers[J]. arXiv preprint arXiv:2212.04458, 2022.
    • 什么是meta-learning?
    • 这篇文章的主要贡献是什么?
      • 为了提高发现学习算法的generality:
    • 引入inductive bias有一些问题,
      • 什么是general-purpose in-context learning with transformers?与其它方法的区别?
      • 在meta-learning中有一个问题就是每个任务中的数量是不一致的,一些常见任务的数据量是比较少的(需要task,需要task中有足够的数量)。为了解决这个问题,有一些方法:
    • 总结一下,这篇文章的主要贡献是什么?
      • 作者分析了3个学习阶段:
      • Meta-train中遇到的困难,可以从以下几个方面中进行优化:
      • 这篇工作的limitation:

什么是meta-learning?

机器学习需要去显示地定义 losses, architectures, and optimizers,meta-learning(或者是learning to learn)目的是学习这些aspects,然后希望用尽可能少的手工操作来解锁更多的能力。

One particularly ambitious goal of meta-learning is to train general-purpose in-context learning algorithms from scratch, using only black-box models with minimal inductive bias.

这篇文章的主要贡献是什么?

  1. In this paper we show that Transformers and other black box models can be meta-trained to act as general-purpose in-context learners.

  2. 作者做了一下分类:

  • algorithms that generalize,

  • algorithms that memorize,

  • algorithms that fail to meta-train

    induced by changes in model size, number of tasks, and meta-optimization.

  1. They find the capabilities of meta-trained algorithms are bottlenecked by the accessible state size (memory) determining the next prediction, unlike standard models which are thought to be bottlenecked by parameter count.

作者发现,meta-trained算法的能力瓶颈是可访问的内存的大小(用来决定下一次预测),而不是我们传统认为的参数量。

  1. 做了一些实验用来提高meta-training的meta-generalization of general-purpose learning algorithms.

为了提高发现学习算法的generality:

  • 引入inductive bias
    • bottlenecking the architecture
    • hiding information
  • restrict learning rules
    • gradients
    • symbolic graphs
    • Parameter sharing

引入inductive bias有一些问题,

① inductive bisases 成为了设计这些系统的代价,② 潜在地限制了发现学习算法的空间。(①这个我没有太看懂什么意思,不过②说的是对的。inductive biases的设计成为了设计这个系统的代价,也就是设计inductive biases也需要付出一些努力,因为引入了inductive bias所以也就加了一个人为的限制,这就限制了发现学习算法的空间。 引出了这篇文章的目标==>

Instead, we seek to explore general-purpose meta-learning systems with minimal inductive bias.

(supervised)learning algorithm 的目的是找到一个函数满足x到y的mapping,meta-learning对应而言,是通过meta-optimization找到这些函数。

image-20230109160540408

什么是general-purpose in-context learning with transformers?与其它方法的区别?

image-20230109161525985

在meta-learning中有一个问题就是每个任务中的数量是不一致的,一些常见任务的数据量是比较少的(需要task,需要task中有足够的数量)。为了解决这个问题,有一些方法:

  • by building-in architectural or algorithmic structure into the learning algorithm, in effect drastically reducing the number of tasks required(但是这样的方法要特别对数据集做一些算法上的改进,这与这篇文章中主要研究的问题不相符)
  • 生成一些新任务:Unfortunately, it is not easy to generate a wide range of tasks that are both diverse and contain structure as it can be found in the real world.

最终,这篇文章中选择的方法是:take an intermediate step by augmenting existing datasets

具体上,这篇文章的做法是:generate a large number of tasks by taking existing supervised learning datasets, randomly projecting their inputs and permuting their classification labels. (随机投影在全连接网络中是没有问题的 https://arxiv.org/abs/2008.07545)

🤡 这种随机投影的技术是不是也可以用在很多数量分布不均匀的数据上呢?

好像是不行的,这种随机投影的技术好像只是可以用来扩充任务范围。

总结一下,这篇文章的主要贡献是什么?

We believe our findings open up new possibilities of data-driven general-purpose meta-learning with minimal inductive bias.

开启了一个使用最小minimal inductive进行meta-learning的新局面。

作者分析了3个学习阶段:

  • instance memorization

  • system identifification

  • general learning

Meta-train中遇到的困难,可以从以下几个方面中进行优化:

我们确定了元优化方面的困难,并提出了在优化器、超参数和有偏见的数据分布方面的干预措施

  • 优化器

    Adam优化器,Using smaller results in more than halving the plateau length。

  • 超参数

    batchsize

  • 有偏见的数据分布

    Instead of sampling label permutations uniformly at random, we bias towards a specifific permutation by using a fifixed permutation for a fraction of each batch.

这篇工作的limitation:

  • 不能处理任意长度的输入输出
  • 在黑盒模型中,transformer的参数量的增长也同样是一个问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/153668.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【高校节能】高校电力能源智能管理系统设计目标与原则

摘 要:高校构建电力能源智能管理系统,可以实现对高校电力能源消耗的实时监测、分析预警和辅助决策。系统通过能效管理技术监测各个设备的用电情况,并通过数据的取得、整合、汇总来实现能源的绩效管理。系统从全局出发,整体调控电…

CCF BDCI | 算能赛题决赛选手说明论文-03

基于TPU平台实现人群密度估计∗ ChaMd5-AI 唐晶机械工程&博士二年级 华中科技大学 中国-武汉 j_tanghust.edu.cn 团队简介 唐晶,2001年生,本科毕业于华中科技大学机械卓越工程师班,现为华中科技大学机械科学与工程学院陶波教授课题组博…

视频实时自然美颜, 无惧素颜上镜

华为HMS Core 视频编辑服务依托自身AI技术的核心优势,在最新版本HMS Core 6.8.0中上线了全新的视频美颜功能,能对指定图片或视频中的人脸实现磨皮、美白、大眼、瘦脸的美颜效果,适用于直播、相机、视频剪辑、图片处理等场景中,打造…

cubeIDE开发, stm32的GPIO原理、cubeMX配置及底层源码实现分析

一、GPIO介绍 1.1 GPIO 简述 GPIO(General purpose input/output,通用型输入输出),一个引脚可以用于输入、输出或其他特殊功能,PIN脚依现实需要可作为通用输入(GPI)或通用输出(GPO)或通用输入与…

鑫磊股份开启申购:资产负债率较高,实控人控制企业借款高企

1月10日,鑫磊压缩机股份有限公司(下称“鑫磊股份”,SZ:301317)开启申购,发行价格20.67元/股,市盈率58.65倍。据贝多财经了解,鑫磊股份将在深圳证券交易所创业板上市。 本次上市,鑫磊…

LinuxC—进程

进程 1 进程标识符pid 基本概念 类型pid_t,是一个有符号16位整数,进程号是顺次向下使用(fd是优先使用当前可用最小的) shell中的ps命令能够查看当前系统的进程信息快照 相关函数 getpid(2)获取当前进程的进程号 /* Get the process ID of the calling…

中断处理程序

文章目录前言前置知识中断概念中断分类实验操作实验一实验二实验三前言 博客记录《操作系统真象还原》第七章实验的操作~ 实验环境:ubuntu18.04VMware , Bochs下载安装 实验内容: 编写中断处理程序( 操作 8259A 打开中断&…

2023年浙江食品安全管理员考试真题题库及答案

百分百题库提供食品安全管理员考试试题、食品安全管理员考试预测题、食品安全管理员考试真题、食品安全管理员证考试题库等,提供在线做题刷题,在线模拟考试,助你考试轻松过关。 一、多选题 1.餐具清洗消毒水池与以下哪些水池应分开&#xff…

机器学习— —导入数据

DAY1集成开发环境原始数据展示主要函数介绍data.iloc()函数dataset.iloc[0]dataset.iloc[:,:-1]dataset.iloc[:,3]dataset.iloc[1:3,1]可执行代码导入结果展示我的写在最后集成开发环境 Spyder (前身是 Pydee) 是一个强大的交互式 Python 语言开发环境,提供高级的代…

如何搭建Python环境和安装Pycharm

1、 搭建Python的基础环境 Anaconda简介 Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。 因为包含了大量的科学包,Anaconda 的下载文件比较大(约 531 MB),如果只需要某些…

【Kotlin】标准库函数 ② ( run 标准库函数 | run 函数传入 Lambda 表达式作为参数 | run 函数传入函数引用作为参数 )

文章目录一、run 标准库函数1、run 函数传入 Lambda 表达式作为参数2、run 函数传入函数引用作为参数Kotlin 语言中 , 在 Standard.kt 源码中 , 为所有类型定义了一批标准库函数 , 所有的 Kotlin 类型都可以调用这些函数 ; 一、run 标准库函数 1、run 函数传入 Lambda 表达式作…

Odoo丨5步轻松实现在Odoo中打开企微会话框

文章目录一、前言二、实现方案三、接口调用步骤一、前言 企业微信作为一个很好的企业级应用发布平台,尤其是提供的数据和接口,极大地为很多企业级应用提供便利,在日常中应用广泛! 最近在项目中就遇到一个与企业微信相关的场景开…

商标异议解读

商标异议解读《商标法》第三十五条规定,对初步审定公告的商标提出异议的,商标局应当听取异议人和被异议人陈述事实和理由,经调查核实后,自公告期满之日起十二个月内做出是否准予注册的决定,并书面通知异议人和被异议人…

Python初次实现MapReduce——WordCount

前言 Hadoop 本身是用 Java 开发的,所以之前的MapReduce代码小练都是由Java代码编写,但是通过Hadoop Streaming,我们可以使用任意语言来编写程序,让Hadoop 运行。 本文用Python语言实现了词频统计功能,最后通过Hadoo…

Redis从青铜到王者,从环境搭建到熟练使用

一、常见的非关系型数据库NOSQL分类NOSQL类型主要数据库产品类型特色K-V键值对存储类型Redis、Memcached使用key可以快速的查询到value,Memcached可以支持String类型的值value,Redis支持的值的数据类型很多如:String\set\hash\sortset\list等…

1月重磅福利——Softing在线培训课程上线

尽管有标准化和界面友好的工具,但车辆诊断的复杂性仍需要或多或少的专业知识支持,其具体取决于应用领域和要求。无论是初学者还是高级工程师,我们都很乐意为您日常遇到的问题提供相关支持,并就车辆诊断、ODX和OTX标准以及工具的使…

LeetCode 179. 最大数

🌈🌈😄😄 欢迎来到茶色岛独家岛屿,本期将为大家揭晓LeetCode 179. 最大数,做好准备了么,那么开始吧。 🌲🌲🐴🐴 一、题目名称 LeetCode 179. …

01Hashmap并发问题-ConcurrentHashMap-线程安全集合类-并发编程(Java)

1 概述 线程安全类可以分为3个大类: 遗留的的线程安全集合Hashtable,Vector使用Collections装饰的线程安全集合,如: Collections.syncronizedCollectionCollections.syncronizedListCollections.syncronizedMapCollections.sync…

Linux系列文章 —— vim的基本操作(误入vim退出请先按「ESC」再按:q不保存退出,相关操作请阅读本文)

系列文章目录 文章目录系列文章目录前言一、vim的基本概念二、vim的基本操作1.退出vim编辑器2.进入vim编辑器3.模式功能及切换三、vim命令模式命令集1.光标移动2.查找字符3.复制粘贴删除4.撤销、重做与重复做5.插入模式6.保存与退出7.环境修改四、总结1.vim的三种基本模式2.vim…

springboot之webmvc和webflux浅析

webmvc和webflux作为spring framework的两个重要模块,代表了两个IO模型,阻塞式和非阻塞式。 1、webmvc webmvc是基于servlet的阻塞式模型,一个请求到达服务器后会单独分配一个线程去处理请求,如果请求包含IO操作,线程…