参会记录 | 北京智源大会-基础模型前沿技术论坛

news2024/9/27 21:29:12

2023年6月10日上午,线上参与了北京智源大会,主要观看了2023北京智源大会-基础模型前沿技术论坛,以下是论坛中比较感兴趣的点和思考。

本次论坛的演讲嘉宾如下:
在这里插入图片描述

上述嘉宾有来自业界的刘胤晗老师和周彦祺老师,也有来自学界的刘知远老师、刘鹏飞老师和刘静老师以及来自研究院的林咏华老师。这些嘉宾中,我最熟悉的莫过于提示学习(Prompt Learning)的缔造者刘鹏飞老师啦~ 听闻他现在已经入职上交开展后续研究工作。

各位老师报告的内容大家可以访问2023北京智源大会-基础模型前沿技术论坛自行回顾,在这里我重点谈论自己对于圆桌讨论这一环节中的内容比较感兴趣的研究点。PS:观看视频过程中,我们可以享受到百度AI同传技术带来的实时语音识别与翻译,大大提升了观感~

刘鹏飞老师提到,pretrain model & prompt learning 可以看作是“存 & 取” 的过程,这其中的要点在于不对等的信息差异。这个角度很新奇,是我之前没有想到过的。他目前比较感兴趣的点是 AI for Mathematics ,就是用 AI 来解数学题。此外,还提到 LLM 对于结构化数据如 json 和 html 数据的理解能力。

刘静老师站在学术研究的角度为我们讲述了大模型时代,在感知大模型与决策大模型的不断涌现下,科研的“可行路径”,其中之一便是与企业形成“互补” —— 虽然我们无从得知企业的 secret recipe,但可以通过合作的方式为产品落地增速,更好地服务大众。二是做探索性的研究,如 AI for science。此外,刘老师还提到 prompt 工程师可能是在未来几年会消失的职业,鉴于 soft prompt learning 已经发展得如火如荼。

刘胤晗老师,RoBERTa, BART, 和 mBART 的提出者,这次作为Brich.ai的核心创始人兼CTO进行报告。十分有幸在本次论坛中见到!她提到,LLM 生成质量的两个关键点在于 RLHF 和 reward model. 此外,通用人工智能(Artificial General Intelligence ,AGI)在专业领域并不必要,因为企业是有自己的模型的,而现有的大模型存在安全隐患,处于隐私保护的考虑,所以大模型并不会成为企业的首选。对于他们公司而言,接触到的是 health-care 这种类型的数据,训练过程中,对于海量数据,他们会采用 sliding window 的方式来提高训练效率。不知道这和我理解的并行有何相关性。

周彦祺老师,谷歌研究科学家,T5 模型的共同提出者,她研究的主要是 MoE,全称 Mixture-of-Experts,即混合专家系统,最新论文为Mixture-of-Experts with Expert Choice Routing (NIPS 2022)。这一概念在之前我从未听说过,简单了解发现原来已经有很多相关的研究了,比如视觉模型 V-MoE、语言模型 Switch Transformers 以及多模态模型LIMoE. 个人感觉 MoE 与 集成学习有一些相通之处,都是多个决策者的决策集合。此外,周老师提到关于 LLM 推理过程中使用的 auto-regression 是否可以 in parallel 是值得探索的一个方向。不过我认为,auto-regression 更符合人类进行语言表达的习惯,毕竟语言是时序信息,还有一种可能是,我们已经在大脑中完成了语言的并行化,只是需要在时序空间内依序表达出来,这就是认知科学需要研究的范畴了~

此外, 讨论过程中老师们还提到AI产生的 hallucination 问题,对此也有相关研究,这一问题也十分值得探索。

附本次论坛中学习到的一些专业术语:

SFT:有监督微调 Supervised Fine-Tuning,对应的训练数据就是 SFT data
ROI:投资回报率 Return On Investment


参考资料

  1. MoE in Large Model - 知乎 (zhihu.com)
  2. 稀疏大模型简述:从MoE、Sparse Attention到GLaM_夕小瑶的博客-CSDN博客
  3. Scaling Laws for Neural Language Models - 知乎 (zhihu.com)
  4. ChatGPT原理详解+实操(1)----SFT(GPT模型精调) - 知乎 (zhihu.com)
  5. GPT-4的“hallucination”(幻觉)相关对策 - 知乎 (zhihu.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/637389.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【06】STM32·HAL库开发-STM系统框架 | STM32寻址范围 | STM32存储器映射 | STM32寄存器映射

目录 1.STM32系统框架(了解)1.1Cortex M内核 & 芯片1.2F1系统架构1.2.1F1系统框架简图1.2.2F1系统框架总图 1.3F4系统架构1.3.1F4系统框架简图(F407为例)1.3.2F4系统框架总图 1.4F7系统架构1.4.1多重AHB总线矩阵1.4.2F7系统结…

如何防止U盘复制电脑文件?

在我们的工作中,经常需要将重要的文件存在电脑中,我们必须要妥善的保护这些重要数据,那么该如何防止U盘复制电脑中的文件呢? 要想防止U盘复制电脑文件,可从三个方面入手,分别是: 禁止电脑使用U…

吴恩达471机器学习入门课程1第2周——线性回归(单变量)

文章目录 Linear Regression1 导包2 - 问题陈述3 - 数据集可视化数据 4 - 线性回归复习5 - 计算代价代价函数模型预测实现 6 - 梯度下降批量梯度下降法学习参数 Linear Regression 您将使用一个变量实现线性回归,以预测餐厅特许经营的利润。 1 导包 首先&#xf…

【电路】电路与电子技术基础 课堂笔记 第12章 集成逻辑门电路

12.4 正逻辑与负逻辑 正负逻辑转换规则 正负逻辑符号

2023 华为 Datacom-HCIE 真题题库 (6月11新增部分)--含解析

单项选择题 1.[试题编号:263143] (单选题)华为CloudCampus位置服务(wifi方案),获取基于在wifi的位置数据,并上报至开发者的LBS应用。开发者可以使用数据,计算范围内的wi-fi终端位置信息。对于LBS位置应用和iMaster NCE的交互流程,以下哪项是错误的?(单选)单选 A、LBS…

Vue中如何进行Markdown编辑与渲染?

Vue中如何进行Markdown编辑与渲染? Markdown是一种轻量级的标记语言,广泛用于编写技术文档、博客、论坛等。Vue.js是一款流行的JavaScript框架,它提供了一些有用的工具来处理DOM元素和用户界面。在Vue中,我们可以使用一些库和组件…

除了Midjourney和Stable Diffusion,还有哪些AI模型可以使用

Midjourney是一款广受设计师和艺术家欢迎的人工智能图像生成器。然而,最近它停止提供免费试用,让许多用户开始寻找替代品。在本文中,我们为您编制了一个2023年可尝试的十大Midjourney替代品列表。我们包括了免费和付费选项,让您可…

Hutool工具类库之图片验证码

文章目录 一、介绍二、示例1、LineCaptcha 线段干扰的验证码2、CircleCaptcha 圆圈干扰验证码3、ShearCaptcha 扭曲干扰验证码4、GifCaptcha 验证码5、写出到浏览器(Servlet输出)6、自定义验证码 一、介绍 验证码功能位于 cn.hutool.captcha 包中&#x…

【电路】电路与电子技术基础 课堂笔记 第13章 组合逻辑电路的分析与设计

组合逻辑电路:任意时刻的输出稳定状态仅仅取决于该时刻的输入信号,而与输入信号作用前电路所处的状态无关。 13.1 组合逻辑电路分析 13.1.2 加法器电路分析 S就是Sum,CO 就是Carry-Over(进位)。 算术运算是数字系统的…

ROS学习——通信机制(参数服务器)

一、引言 参数服务器在ROS中主要用于实现不同节点之间的数据共享。参数服务器相当于是独立于所有节点的一个公共容器,可以将数据存储在该容器中,被不同的节点调用,当然不同的节点也可以往其中存储数据,关于参数服务器的典型应用场…

【c++】组合类+继承情况下构造顺序

组合类继承情况下构造顺序 构造顺序同普通继承&#xff0c;先父后子&#xff0c;内部类是最老的&#xff08;最先调用构造的&#xff09;。 示例代码 class A { public:A(int a 0):_a(a){cout << "A()" << endl;}~A(){cout << "~A()" …

如何将本地python项目部署到阿里云服务器上(完整版)

一、准备阿里云服务器 首先在阿里云服务器免费试用网站中选择相应的服务器&#xff0c;本次搭建选择的服务器是适合入门级开发者的服务器。在阿里云控制台上创建一个云服务器&#xff08; ECS 实例&#xff09;并获取访问凭证&#xff0c;包括主机 IP 地址、用户名和密码。在服…

K Shortest Paths算法之Eppstein algorithm

Eppstein的算法是David Eppstein于1998年提出的一种高效且易于实现的k条最短路径寻找方法。它的时间复杂度为O(m n log n k)&#xff0c;其中m是边的数量&#xff0c;n是节点的数量&#xff0c;k是要寻找的路径数。相较于其他方法&#xff0c;它具有较好的性能和实用性。 Epp…

路漫漫其修远兮

其实不仅是专业&#xff0c;AI冲击波才刚刚开启&#xff0c;包括博客、自媒体作用也在大幅度下降呢。 很多人看过如下这幅图&#xff1a; 提示工程师确实是在当前大型语言模型不够完善的情况下&#xff0c;通过微调输入的方式来提高模型的性能。随着模型的迭代&#xff0c;这些…

算法模板(8):网络流(1):最大流

算法模板&#xff08;8&#xff09;&#xff1a;网络流&#xff08;1&#xff09;&#xff1a;最大流 网络流基本概念 基本概念 流网络&#xff0c;不考虑反向边可行流&#xff0c;不考虑反向边 两个条件&#xff08;根据《算法导论》&#xff0c;这两个条件可以看作可行流的充…

mapbox实现线要素的文字标注功能

效果图 操作步骤 首先查看mapbox自己的api里面有没有&#xff0c;好像里面并没有类似于line-text的属性 然后打开mapbox studio&#xff0c;发现里面确实是有这种样式的&#xff0c;他的图层名字叫 然后我们下载下来这个样式 打开style.json文件之后&#xff0c;找到这个图…

【数据可视化】Plotly Express绘图库使用

Plotly Express是一个基于Plotly库的高级Python可视化库。它旨在使绘图变得简单且直观&#xff0c;无需繁琐的设置和配置。通过使用Plotly Express&#xff0c;您可以使用少量的代码创建具有丰富交互性和专业外观的各种图表。以下是Plotly Express的一些主要特点和优势&#xf…

Maven教学--上

Maven教程–上 先看一个问题&#xff0c;引出Maven 需求说明/图解 编写一个类, 有一个方法sum&#xff0c;可以返回两个数的和编写测试类TestSum, 可以测试sum 是否正确. 使用传统方式完成 创建传统的java 项目java-hello 创建Hello.java public class Hello {public S…

【30天熟悉Go语言】5 Go 基本数据类型

文章目录 一、前言二、数据类型总览1、基本数据类型1&#xff09;数值型-整数类型1> 有符号整数类型&#xff1a;2> 无符号整数类型&#xff1a;3> 其他整数类型&#xff1a;4> PS:Go的整数类型&#xff0c;默认声明为int类型&#xff1a;5> 变量占用的字节数 2…

PowerShell系列(六):PowerShell脚本执行策略梳理

目录 1、执行策略等级 2、执行策略范围 3、执行策略命令语法格式 4、执行策略常用命令 PowerShell 是一种用于操作 系统的命令行界面&#xff0c;支持跨平台&#xff0c;它提供了许多功能来自动化和优化各种任务。PowerShell 是由微软官方开发的&#xff0c;并作为 Windows Ser…