何恺明:在cuhk解答科研问题

news2024/9/21 3:22:13

文章目录

  • 1. 大模型的未来:数据效益是个问题
  • 2. 未来三年研究重点:视觉自监督学习
  • 3. 选择课题的标准:好奇心和热情
  • 4. AI将成为几乎所有事情的基础工具
  • 5. 用疑问解答AI模型可解释性问题
  • Acknowledgement
  • Reference

何恺明最近在香港中文大学参加一个讲座过程中所述:

在这里插入图片描述

1. 大模型的未来:数据效益是个问题

Q:您刚刚(演讲)展示的图片,呈现了深度网络加深时,性能先上升后下降的趋势。

图片

起初人们可能误认为是过拟合导致的,就增加数据量,问题确实得到了改善。但又发现当神经网络真的非常深入时,性能还是会再次下降。而你的研究揭示了这其实与某种优化并不是最佳解决方案有关,基本上涉及三大要素:数据量、网络深度、模型复杂度及其优化方式

考虑到现如今的大模型数据量比以前要大得多,那么您认为可能存在哪些局限性?或者接下来应该如何应对数据模型复杂性和优化带来的挑战?

何恺明:通常,我们认为增加网络的深度和宽度是提高神经网络模型性能的方法。而在机器学习中,拟合与泛化之间存在权衡,也就是说要实现适当的拟合并减少过拟合。

目前要想减少过拟合、提高泛化,最有效的方法就是增加数据量。

虽然大量数据的拟合和记忆仍是一个挑战,但大模型其实有足够的能力做到这一点,事实也证明增加数据量是减少过拟合的最佳解决方案

然而展望未来,数据带来的效益是否会降低是个问题。

比如说,语言数据不是凭空产生的,而是由人类创造出来的。你在写一些新的文本时,是带有想分享信息、创作新知识等某种目的的。所以文本数据中的信息可能比许多其它形式的数据中的信息都要更丰富。

而一张新的照片可能并不会增加太多新的信息。尽管它看起来可能包含更多的信息,但实际上你每天用手机拍摄的内容也许只是你的食物或是自拍。

所以不同类型的数据所含信息量不同,继续增加数据的回报可能会有所减少。我认为这将是未来的一个开放性的问题。

Q&#

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1163681.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MT8365安卓核心板—联发科MTK8365(I350)性能参数

MT8365安卓核心板是基于联发科MTK8365芯片开发的一款高性能核心板。该核心板模块板载内存容量为1GB8GB(也可选择2GB16GB、3GB32GB、4GB64GB),默认搭载谷歌的Android 11.0系统。它集成了丰富的功能接口,包括LCM接口、摄像头接口、触摸屏接口、麦克风接口、…

[计算机提升] Windows系统软件:娱乐类

3.3 系统软件:娱乐类 3.3.1 Windows Media Player:dvdplay Windows Media Player是Windows操作系统自带的多媒体播放软件,用于播放和管理电脑中的音频和视频文件。它提供了以下功能: 播放音频和视频文件:Windows Med…

hugetlb核心组件

1 概述 hugetlb机制是一种使用大页的方法,与THP(transparent huge page)是两种完全不同的机制,它需要: 管理员通过系统接口reserve一定量的大页,用户通过hugetlbfs申请使用大页, 核心组件如下图: 围绕着…

农业中的机器学习

机器学习训练模型推荐: UnrealSynth虚幻合成数据生成器 - NSDT 机器学习是一个不断发展的领域,在农业中有许多潜在的应用。农民和农业科学家正在探索如何转向机器学习开发来提高作物产量、减少用水量和预测病虫害。未来,机器学习可以帮助农民…

内存管理设计精要

系统设计精要是一系列深入研究系统设计方法的系列文章,文中不仅会分析系统设计的理论,还会分析多个实际场景下的具体实现。这是一个季更或者半年更的系列,如果你有想要了解的问题,可以在文章下面留言。 持久存储的磁盘在今天已经不…

多特征线性回归模型

一、预测目标和原始数据展示 (一)预测目标: 通过Economy..GDP.per.Capita.(GDP)和Freedom预测Happiness.Score (二)部分数据展示: 特征有很多,本文研究Economy..GDP.per.Capita.(GDP)和Freedom,也就是用Economy..GDP.per.Capita.(GDP)和Freedom预测Happ…

B端企业形象设计的正确姿势,你学会了吗?

如今,企业形象设计在B端市场中变得越来越重要。它是企业与客户之间建立联系的桥梁,也是吸引目标客户的重要方式。为了帮助您打造一个独特而专业的企业形象设计,我将为您提供十个步骤。 步骤1:了解企业定位和目标 在设计B端企业形…

Angular模板语法

1 Angular数据文本绑定 Angular 中使用{{}}绑定业务逻辑里面定义的数据 <div class"title"> {{title}}</div>2 Angular模板里面绑定属性 [title]"student"绑定动态属性 ts: public title: string zhaoshuai-lc html: <div [title]"…

自制目录扫描工具并由py文件转为exe可执行程序

心血来潮让ChatGPT写了一个目录扫描工具&#xff0c;然后进行了一定的修改和完善&#xff0c;可以实现对网站目录的一个简单扫描并输出扫描结果&#xff0c;主要包括存在页面、重定向页面和禁止访问页面。 虽然代码很简单&#xff0c;但是做这个东西的过程还是挺有意思的&…

Jmeter只能做性能测试吗?

Jmeter除了可以性能测试&#xff0c;还能做接口测试 1、Jmeter和Fiddler&#xff0c;Postman有什么区别? Fiddler&#xff1a;虽然有接口测试功能&#xff0c;很少用来做接口测试。 一般用Fiddle来做抓包和异常测试&#xff0c;辅助接口测试。Postman&#xff1a; 是接口调试…

求任意连续子段的最小值之和

一道超级经典的单调栈问题&#xff0c;本题的关键在于你不要同时两边取等号&#xff0c;不然相等的区间会重复计算 还有记得开long long #include<bits/stdc.h> using namespace std; using lllong long; const int N 2e510; int n; ll a[N]; ll l[N]; ll r[N]; int m…

cudnn too short

原因是libcudnn.so为软链接&#xff0c;相当于快捷键&#xff0c;但是没有映射到真正的libcudnn.so.8.9.5上 cd /usr/local/cuda-11.6/lib64 ln -s libcudnn.so.8.9.5 libcudnn.so.8 ln -s libcudnn.so.8.9.5 libcudnn.so

VMware安装RedHat8.3虚拟机

red hat enterprise linux 8.3 ios镜像 链接&#xff1a;https://pan.baidu.com/s/1HbgXTh8q_YWlVVs8VAa14g?pwdot10 提取码&#xff1a;ot10 Red Hat Enterprise Linux&#xff08;RHEL&#xff09; 是一款由红帽公司开发和支持的商业操作系统。RHEL 8.3是RHEL 8系列的一个…

数据库事务提交后才发送MQ消息解决方案

项目场景&#xff1a; 在项目开发中常常会遇到在一个有数据库操作的方法中&#xff0c;发送MQ消息&#xff0c;如果这种情况消息队列效率比较快&#xff0c;就会出现数据库事务还没提交&#xff0c;消息队列已经执行业务&#xff0c;导致不一致问题。举个应用场景&#xff0c;…

stm32 ADC

目录 简介 stm32的adc 框图 ①电压输入范围 ②输入通道 ​编辑③ADC通道 ④ADC触发 ⑤ADC中断 ⑥ADC数据 ⑦ADC时钟 ADC的四种转换模式 hal库代码 标准库代码 简介 自然界的信号几乎都是模拟信号&#xff0c;比如光亮、温度、压力、声音&#xff0c;而为了方便存储、…

容器:软件性能测试的最佳环境

容器总体上提供了一种经济的和可扩展的方法来测试产品在实际情况下的性能&#xff0c;同时还能保持较低的资源成本和开销成本。 软件性能和可伸缩性是我们谈论应用程序开发时经常遇到的话题。一个很大的原因是应用程序的性能和可伸缩性直接影响其在市场上的成功。一个应用程序…

搭建Qt5.7.1+kylinV10开发环境、运行环境

1.下载Qt源码 Index of / 2.编译Qt 解压缩qt-everywhere-opensource-src-5.7.1.tar.gz 进入到qt-everywhere-opensource-src-5.7.1/qtbase/mkspecs这个目录下&#xff0c; 2.1找到以下目录 复制他&#xff0c;然后改名linux-x86-arrch64&#xff0c;博主这里名字取的有些问…

历年网规上午真题(2017年)

解析:D/C 计算机主要性能指标:时钟频率(主频)、运算速度、运算精度、内存大小、数据处理速率(PDR)等 数据库主要指标:最大并发、负载均衡能力、最大连接数等 解析:A 敏捷开发是一种应对快速变化的需求的一种软件开发方法,是一种以人为核心、迭代、循序渐进的开发方…

深度学习之基于Yolov5闯红灯及红绿灯检测系统

欢迎大家点赞、收藏、关注、评论啦 &#xff0c;由于篇幅有限&#xff0c;只展示了部分核心代码。 文章目录 一项目简介 二、功能三、闯红灯及红绿灯检测系统![请添加图片描述](https://img-blog.csdnimg.cn/8f260c2ed5ed4d8596e27d38abe42745.jpeg)四. 总结 一项目简介 基于Y…