读 AI学者生存策略

news2024/12/27 13:57:33

链接:https://arxiv.org/pdf/2304.06035.pdf

作者:Julian Togelius and Georgios N. Yannakakis

随着大模型 和 大数据的出现, AI研究者 都会感到焦虑。 没有计算资源 ,没有标注的人力,很难做出突破性的研究。即使很多领域还没有出现大模型,但这个过程始终是在加速实现的。所以本文作者提出了一些想法。如作者最后所说的,(1) 分享一些想法给community,(2)提供一些guidelines ,讨论 学术届 与 工业界的AI赛道差异 (3)引发一些公开的讨论。

  1. Introduction

与公司比拼,对于研究人员(小作坊)来说 是不公平的。

  • Engineering的问题。很多工程问题也不是一个phd或者postdoc能解决的。
  • Scale的问题。 作者也提到了 Sutton 关于Bitter Lesson的例子,可能越简单的方法,scale大了,自然就好了,不需要很多ad-hoc的东西。
  • 类似,你开小镇杂货铺,对门来了沃尔玛。

基于这种情况下,我们要继续推动AI的发展,继续做出有意义的研究。我们该采用什么策略呢?

(读者按:确实,数据 和 算力是核心问题。)

2. 放弃

一种策略是保证先活下去,即使投一些mid-tier 期刊和会议,保证 Funding的来源。没有必要大幅度改变轨道。

3. 我也做大

尝试用一些GPU 和 CPU 去做更大的事情。但和大公司相比肯定还是少很多的。 而且还有调试成本。

同时对于PhD学生他们科研训练,要求独立的paper,而不是一个多作者的工程技术论文。也不符合Phd的需求。

(读者按:要和学生的interest匹配,而且要考虑学生的能力。)

4. Toy Data万岁

做一些toy data上的实验,来探寻机制。

这一种方法的缺点是:虽然往往会很惊艳,但是实际没啥人care。

(读者按:我会想到一个我很喜欢Uber的 paper, coord conv 当时在reddit上有很多讨论。这个paper 的video还是很不错的。)

5. 拿来主义

拿来主义,打不过就加入。

但大模型是否足够general, finetune或者其他post-hoc分析往往不足以达到惊艳的效果。

(读者按:(1)可能大模型连inference都做不了,一张卡也放不下。(2)prompt learning 等也应算在其中,作者好像没提到。 )

6. 分析大模型

其实目前我们也不了解大模型。可以从不同角度分析大模型,找到特别的点 或者机制。

(读者按:这方面我不了解,目前可能 也就 probe? 和CAM?应该还有空间?)

7. RL不需要标注数据

RL 可能相对不需要标注数据,但RL的训练时间 仍旧比较长,而且有很多tricks。可能是个难点。

(读者按:我知道早期2017,2018确实是,需要一点技术,但近期我也不确定有没有好一些。早期也有人喷openai的demo不稳定,但后续也解决了?)

8. 小模型减少计算

考虑到部署, edge AI 是最直接的想法,减少碳排放。 知识蒸馏等。

(读者按:还有联邦学习等。 最近我们也有两个工作,一个是有针对地训练难样本,加速训练的。郑哲东:TIP2022|领域迁移Adaboost,让模型“选择”学哪些数据! , 一个是用2.4M参数训练了一个小型reid网络 郑哲东:TNNLS22|在3D空间,用点云数据学行人重识别特征)

9. 特定领域

不是工业界直接关注(直接挣钱)的领域,提前布局。但结果是你的paper很难中。

maybe 可以考虑自己办个会(就像deep learning在cvpr以前也不待见)。

(读者按:老lecun人了)

10. 很少人关注的问题

类似上一点,找不紧急也不sexy的问题。可以和身边不做AI的人讨论一下。

(读者按:就像mu神说的,impact可能就很小。)

11. 尝试一些不work的事情

工业界大家都会尝试一些work的东西,不会尝试 不稳的方法。很多AI的发现和idea也是来自于试错。

(读者按:嗯就像coordconv的motivation。find what CNN can not do)

12.做一些“有坏印象”的事情

公司还是有会限制,在意reputation (比较圣母一些)。这也是为什么大公司会让startup做一些实验性的尝试,而不是自己下场。相比之下,研究者更自由,只要不违法乱纪,可以探索更多东西。

(读者按:我们近期也开了一个ACM MM2023 Workshop关于无人机多媒体的讨论,欢迎大家投稿4页短文 郑哲东:ACM MM23 Workshop|多媒体+无人机 )

13. 产学结合

把实验室的想法 通过 公司落地。有很多好处,你可以知道实际的问题,获得实际的数据。

但这也不是完美的。需要考虑(1)很多科研方向不适合start up ,或者做一个产品出来;(2) 需要的转化时间比较长,需要一些功能性产品展示;(3) 投资依旧有限,仍旧不能做大公司的实验; (4)不是所有人都爱冒险

14. 和大公司合作

把实验室开到大公司里(或者派phd去实习)。 缺点是 IP专利 。 另外可能也没人想去你的组,如果整组人都在,有点变味儿了。

15. 工业界大佬 能做啥?

公司关注收益。学术界不是他们的interest。

最基础的开源代码/模型,仍会对研究者有益。

培养实习生,建立联系。

16. 大学能做啥?

大学应该鼓励创新。目前有影响力的paper仍旧多数与大学合作。大学应该鼓励faculty 来take more risks.

每年发顶会 paper 可能是不合理,相比之下 工业界的lab 更容易。

目前的 grants 也是喜欢 safe and incremental research on popular topics,但这也限制了 很难与工业界的lab 竞争。如果大学想改变,应该更鼓励失败,提升high-risk研究的比例 。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/448281.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FFmpeg 中 RTSP推流桌面和Android设备延时测试

文章目录 1. FFMPEG 推流:1.1 FFmpeg 源码准备1.2 RTSP 推流服务器 2. 执行流程2.1 启动服务器2.2 执行桌面推流2.3 播放 3. 安卓测试 1. FFMPEG 推流: 1.1 FFmpeg 源码准备 官网,GitHub,CSDN中选一个就好: ● 官网…

在线图片编辑网站汇总

目录 前言一、在线抠图工具1. 佐糖2. remove.bg3. Clipping Magic4. 起兮深深5. BgSub6. 改图神器7. PIXLR 二、其他工具1. 压缩图2. AI人工智能图片放大 前言 本文收录了多个可以在线抠图、在线编辑图片的网站。 一、在线抠图工具 1. 佐糖 官网:链接 特点&#x…

一本通 3.4.4 并查集

1346:【例4-7】亲戚(relation) 【题目描述】 或许你并不知道,你的某个朋友是你的亲戚。他可能是你的曾祖父的外公的女婿的外甥女的表姐的孙子。如果能得到完整的家谱,判断两个人是否是亲戚应该是可行的,但如果两个人的最近公共祖…

企业想注销境外投资备案应该怎么做?

我们今天就来说一下关于境外投资备案的注销,有办理的需求,当然就有注销的需求。如果您当初想去海外投资并购一家公司,因此办理了境外投资备案,但是由于种种原因可能没有办法投资下去了,那么这个时候我们就需要做境外投…

【Linux网络服务】SSH远程访问及控制

一、openssh服务器 1.1ssh协议 SSH(Secure Shell)是一种安全通道协议,主要用来实现字符界面的远程登录、远程 复制等功能; SSH 协议对通信双方的数据传输进行了加密处理,其中包括用户登录时输入的用户口令&#xff1…

测试月入30K,Soeasy?测试这一行涨薪机制被我摸透了...

1.软件测试如何实现涨薪 首先涨薪并不是从8000涨到9000这种涨薪,而是从8000涨到15K加到25K的涨薪。基本上三年之内就可以实现。 如果我们只是普通的有应届毕业生或者是普通本科那我们就只能从小公司开始慢慢往上走。 有些同学想去做测试,是希望能够日…

nodejs+vue 智能餐厅菜品厨位分配管理系统

系统功能主要介绍以下几点: 本智能餐厅管理系统主要包括三大功能模块,即用户功能模块和管理员功能模块、厨房功能模块。 (1)管理员模块:系统中的核心用户是管理员,管理员登录后,通过管理员功能来…

BPF之前端工具BCC与bpftrace

BPF前端工具BCC与bpftrace 一、概述 BCC和bpftrace到底是什么,与BPF是什么关系呢? 经过上一篇的介绍,BPF是内核中的执行引擎,BCC和bpftrace则是两个前端工具,比如用户可以直接使用的命令行工具。 BCC与bpftrace又有…

Stable Diffusion Lora模型训练详细教程

1. 介绍 通过Lora小模型可以控制很多特定场景的内容生成。 但是那些模型是别人训练好的,你肯定很好奇,我也想训练一个自己的专属模型(也叫炼丹~_~)。 甚至可以训练一个专属家庭版的模型(fami…

JDK JRE JVM之间的关系

文章目录 1.从定义的角度解释JDK、JRE、JVM2、详细介绍JDK3、详细介绍JRE4、详细介绍JVM1、JVM内部区域划分 5、如何运行一个java程序? 本篇文章仅仅是个人片面观点,可能有错误或者表述不清的地方 1.从定义的角度解释JDK、JRE、JVM JDK:Java…

ArcGIS面要素最小外接矩形、外接圆的绘制方法

本文介绍在ArcMap软件中,基于一个面图层,绘制其中面要素的最小外接矩形、最小外接圆等的方法。 首先,我们来看一下本文需要实现的需求。现有一个面要素图层,其中包含多个面要素,如下图所示。我们希望绘制这个面要素图层…

【Redis】Redis十大数据类型—列表List

介绍 List列表是简单的字符串列表,按照插入顺序排序,可以从头部或尾部向List列表添加元素。 列表的最大长度是2^32-1,也就是每个列表支持超过40亿个元素。 实现 底层数据结构是由双向链表或压缩列表实现。 如果列表的元素个数小于 512 个…

Python获取某乎问答区计算机专业学生应聘保洁这一内容,看看为啥会有此事发生

前言 嗨喽,大家好呀~这里是爱看美女的茜茜呐 不知道现在还有多少人玩知某乎, 今天刷话题的时候看到这么一个问答, 这么有趣的话题,咱们就对其问答内容进行采集一下?? 效果展示 可以看到,数据…

Linux 远程访问控制 SSH SCP SFTP TCP-Wrappers

SSH&#xff08;secure shell&#xff09;协议 一种安全通道协议&#xff0c;主要用来实现字符界面的远程登录、远程复制等功能。 协议对通信双方的数据传输进行了加密处理&#xff0c;其中包括用户登录时输入的用户口令 SSH客户端<-----------------网络------------------…

android 布局优化

1.绘制和布局加载原理 本文仅供个人学习记录&#xff0c;详细介绍可查看下面链接 Android布局优化&#xff0c;多套方案全面解析 布局优化的原因&#xff1a;布局嵌套过深&#xff0c;或者其他原因导致布局渲染性能不佳&#xff0c;可能会导致应用卡顿。 android绘制原理&am…

5.3 牛顿-科茨公式

学习目标&#xff1a; 理解微积分基础知识&#xff0c;例如导数和微分的概念。学习牛顿-科茨公式的推导过程。这个公式实际上是使用泰勒公式对被积函数进行展开&#xff0c;并使用微积分的基本原理进行简化得到的。学习如何使用牛顿-科茨公式进行数值积分。这通常涉及到将被积…

Ajax超详解(新手入门指南)

文章目录 1. AJAX简介2. 前后端交互3. XHR3.1 XMLHttpRequest对象3.2 获取模拟的后端数据3.3 获取网络数据3.4 使用json-server模拟服务器3.4.1 安装node.js3.4.2 安装并使用json-server 3.5 常见的请求方式3.5.1 GET请求3.5.2 POST请求3.5.3 PUT请求3.5.4 PATCH请求3.5.5 DELE…

【图像分割】Segment Anything(Meta AI)论文解读

文章目录 摘要一、引言二、segment anything任务1.任务2.预训练3.zero shot transfer4.相关任务5.讨论 三*、Segment Anything 模型四、Segment Anything 数据引擎五、Segment Anything 数据集六、Segment Anything RAI分析七、Zero-Shot Transfer 实验1.zero shot 单点有效掩模…

springboot本地local配置覆盖远程Apollo配置(含Apollo配置加载顺序说明)

手打不易&#xff0c;如果转摘&#xff0c;请注明出处&#xff01; 注明原文&#xff1a;https://zhangxiaofan.blog.csdn.net/article/details/130302692 目录 前言 Apollo配置加载顺序 步骤 第一步&#xff1a;Apollo创建properties 第二步&#xff1a;添加namespaces&…

js的dom事件流、事件委托和阻止绑定事件触发

主要讲解事件绑定和事件委托&#xff0c;onclick事件和addEventListener的区别 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge">&l…