李沐讲座:大语言模型的实践经验和未来预测 | 上海交大

news2024/9/20 0:27:24

本文简介

本博客记录了李沐关于语言模型与职业生涯分享的精彩讲座,涵盖了大语言模型的核心要素、工程实践中的挑战,以及演讲者个人职业生涯中的心得体会。

李沐简介

李沐(Mu Li)是一位在人工智能与深度学习领域具有广泛影响力的计算机科学家。他拥有丰富的学术背景和产业经验,曾在百度和Amazon等知名科技公司工作,并有两次成功的创业经历。李沐以其在深度学习、分布式系统以及大规模机器学习方面的杰出贡献而闻名。他不仅在学术界有着深厚的研究积累,还致力于将前沿技术应用于实际场景,推动了许多关键技术的发展。

作为一位活跃的教育工作者和技术布道者,李沐在多个顶尖大学教授人工智能课程,并通过在线教育平台广泛传播人工智能与深度学习的知识。他的讲座和课程内容深受学生和工程师的欢迎,启发了众多年轻学者和开发者。

李沐在职业生涯中一直秉持着创新与实践并重的理念,积极探索和应用最新的技术,以应对全球范围内的技术挑战和商业机会。他的工作不仅推动了人工智能领域的进步,也对未来技术的发展方向产生了深远的影响。

视频地址

  • 讲座视频 url
    • https://www.bilibili.com/video/BV1dHWkewEWz/?vd_source=ab3bc32ecf95e626ff9c8dab4c9ec276
    • https://www.youtube.com/watch?v=ziHUcDh0DwM

语言模型

  • 语言模型最重要的三个模块:算法,数据,算力
    在这里插入图片描述
  • 水冷用来散热很重要。一个机架里面能放 72 张卡。带宽很重要。内存(应该就是显卡显存)目前能做到 192GB,未来大概率也超过不了 200G,因为工艺问题
    在这里插入图片描述
  • 一个芯片 1kW,很耗电。说是建个发电厂的价格可能比付电费低…
    在这里插入图片描述
  • 模型会变得越来越大、便宜、快
    在这里插入图片描述
  • 语言模型的训练数据量大概就是目前的 10-50T 量级了。模型大小大概率也是 100-500B
    在这里插入图片描述
  • video 生成比较贵,数据很重要,数据处理的成本可能比模型训练还要高
    在这里插入图片描述
  • 自动驾驶为什么能做好,认为是封闭路况里面开车相对来说比较简单,然后每个车上有大量的 sensor,能够采集大量的数据用于训练
    在这里插入图片描述
  • 目前能做文科的简单任务。理科只能做部分简单任务。蓝领工作目前做不了
    在这里插入图片描述
  • 只要有足够数据,就能被自动化
    在这里插入图片描述
  • 预训练是工程问题,后训练是算法问题,也很重要
    在这里插入图片描述
  • 垂类模型通用能力也不能差
    在这里插入图片描述
  • 自建机房更便宜。GPU 价格成本没区别,主要是存储会便宜很多
    在这里插入图片描述
  • 大语言模型没什么特别的,只是比ML model 大了 100 倍,工程和算法在模型大了之后有需要优化的地方
    在这里插入图片描述

个人职业生涯分享

  • 学习过的学校很多,工作过的大公司有百度和 Amazon,两次创业经历。
    加粗样式

工作、读博、创业的差别

  • 基本目标、要做的事、驱动力要求这三者是有区别的
    在这里插入图片描述

  • 打工人的好处和劣势,压力整体是最小的。有相对稳定的收入和空余时间
    在这里插入图片描述

  • PHD,写作演讲的能力很重要,读博能锻炼。很多公司要 PHD,也不是一定要 PHD 才行,只是市场上 PHD 量大管饱,所以就招 PHD。和导师不适应会很麻烦
    在这里插入图片描述

  • 创业有当海盗的乐趣,看哪里有船就去抢一把,抢到就爽一把,没抢到就死掉了。
    在这里插入图片描述

  • 从动机触发进行选择
    在这里插入图片描述

  • 持续提升自我的方法。多总结。
    在这里插入图片描述

  • 总结。认为会有很多新技术不断被发明出来,即便没有新技术,就是本代的 transformer 技术就已经能在未来几年给世界带来大的变革了。但也是最坏的时代,因为电梯上很多人,要更努力才行。
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2095100.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

电感的分类

电感作为电子电路中的重要元件,具有多种分类方式,每种类型的电感都有其独特的优缺点。以下是对电感分类及其优缺点的详细分析: 一、按工作频率分类 高频电感:适用于高频电路,具有较高的自谐振频率和较低的损耗。 优点…

【学习笔记】 陈强-机器学习-Python-Ch13 提升法

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-…

【python计算机视觉编程——图像聚类】

python计算机视觉编程——图像聚类 6.图像聚类6.1 K-means聚类6.1.2 图像聚类6.1.3 在主成分上可视化图像6.1.4 像素聚类 6.2 层次聚类6.3 谱聚类 6.图像聚类 6.1 K-means聚类 from scipy.cluster.vq import * import numpy as np from pylab import * matplotlib.rcParams[f…

第二篇——勾股定理:为什么在西方教毕达哥拉斯定理?

目录 一、背景介绍二、思路&方案三、过程1.思维导图2.文章中经典的句子理解3.学习之后对于投资市场的理解4.通过这篇文章结合我知道的东西我能想到什么? 四、总结五、升华 一、背景介绍 数学大厦的建立以及与自然科学的逻辑关系,以及他们的边界在这…

sql-libs第三关详细解答

首先看看and 12会不会正常显示 结果正常显示,说明存在引号闭合 加了一个引号,发现报错信息中还存在括号,说明sql语句中有括号,那我们还要闭合括号 现在就好了,and 11正常,and 12不正常,那就开始…

常用高性能架构模式

《从0开始学架构》里讲述了常用的高性能架构模式,这里面很多大家可能也都用过了,我应该也写过相关的技术文章。正好按照书里的思路重新梳理一次。 一、读写分离 读写分离的基本原理是将数据库读写操作分散到不同的节点上 感想: 读写分离应…

Go入门:gin框架极速搭建图书管理系统

Go入门:gin框架极速搭建图书管理系统 前言 本项目适合 Golang 初学者,通过简单的项目实践来加深对 Golang 的基本语法和 Web 开发的理解。 项目源码请私信,欢迎前往博主博客torna.top免费查看。 项目结构 D:. ├─ go.mod ├─ go.sum │ ├─ cmd │ └─ main │ …

Jenkins配置使用LDAP的用户和密码登录

# 检查配置文件是否正确 [rootlocalhost schema]# slaptest -u 62c6aafe ldif_read_file: checksum error on "/etc/openldap/slapd.d/cnconfig/olcDatabase{1}monitor.ldif" 62c6aafe ldif_read_file: checksum error on "/etc/openldap/slapd.d/cnconfig/olcD…

Java注解和JDK新特性

1. 注解 1.1. 认识注解 Annotation:JDK1.5新提供的技术 编译检查:比如SuppressWarnings, Deprecated和Override都具有编译检查的作用替代配置文件:使用反射来读取注解的信息 注解就是代码里的特殊标记,用于替代配置文件&#…

四大集合之Set

一、Set基础知识 1. Set集合 1.1 HashSet Set集合区别于其他三大集合的重要特性就是元素具有唯一性,南友们记不住这个特性的话,有个易记的方法。Set集合为什么要叫Set呢?因为Set集合的命名取自于我们小学数学里的集合论(Set Th…

SPI(硬件协议)

1 SPI硬件外设协议 2 SPI框图 3 硬件SPI数据收发流程 1 发送数据,同时接收数据,相互配合,可以实现数据流不间断 2 全双工SPI,发送和接收数据寄存器分开,可以同时进行 4 spi传输框图 1 速度快 2 速度慢,容…

软考中项拿证利器:系统集成项目管理工程师(第3版)一站通关

指尖疯编著的《系统集成项目管理工程师(适用第3版大纲)一站通关》目前现货已经上线各大电商平台,您可以在任一电商搜索《系统集成项目管理工程师(适用第3版大纲)一站通关》即刻找到。 出版中项一站通关完全是机缘巧合&…

Nginx: 性能优化之提升CPU效率以及TCP的三次握手和四次挥手

提升利用CPU的效率 1 )CPU的调度机制 现在来看下 linux中 CPU的一个调度机制 假设现在系统上有只有一颗CPU,而linux系统是一个多任务的一个操作系统 它允许我们各个不同的用户允许在同一个操作系统上执行很多个进程 单核CPU肯定不可能同时去执行这样一…

5.图论.题目2

5.图论.题目2 题目8.字符串接龙9.有向图的完全可达性10.岛屿的周长11.寻找存在的路径12.冗余连接113.冗余连接214.寻宝 题目 8.字符串接龙 题目链接 本题的直观思路如下图所示;但该题有两个问题:1.图中的线是如何连接起来的 2.如何确定起点到终点的最…

《JavaEE进阶》----4.<SpringMVC①简介、基本操作(各种postman请求)>

本篇博客讲解 MVC思想、及Spring MVC(是对MVC思想的一种实现)。 Spring MVC的基本操作、学习了六个注解 RestController注解 RequestMappering注解 RequestParam注解 RequestBody注解 PathVariable注解 RequestPart注解 MVC View(视图) 指在应⽤程序中…

数据同步的艺术:探索PostgreSQL和Redis的一致性策略

作者:后端小肥肠 🍇 我写过的文章中的相关代码放到了gitee,地址:xfc-fdw-cloud: 公共解决方案 🍊 有疑问可私信或评论区联系我。 🥑 创作不易未经允许严禁转载。 1. 前言 在当今高度数字化的世界中,应用程…

ACL学习笔记

1.ACL快速配置 需求:拒绝PC 1访问PC 3 (1)配置PC PC 1: PC 2: PC 3: (2)配置R1的接口IP信息 sys sysname R1 undo info-center enable interface GigabitEthernet0/0/0 ip address 192.168.1.1 255.255.255.0 qui…

超声波智能水表多少钱一个?

超声波智能水表的价格因品牌、功能、规格等因素而异,就拿深圳合众致达科技有限公司智能水电表厂家的超声波智能水表DN15口径产品举例,价格为399元起。具体价格需根据实际需求来确定。 一、影响价格的主要因素 -技术含量:具备远程数据传输、…

DSOJ-id12

1.保留几位小数 #include <iostream>#include <iomanip> //必须包含这个头文件using namespace std;void main( ){ double a 3.141596;cout<<fixed<<setprecision(3)<<a<<endl; //输出小数点后3位 2. 使用了未初始化的局部变量 Point* …

如何使用小乌龟清除认证缓存、还原版本、定位及常用开发工具集成

&#x1f600;前言 本篇博文是关于如何使用小乌龟清除认证缓存、还原版本、定位及常用开发工具集成&#xff0c;希望你能够喜欢 &#x1f3e0;个人主页&#xff1a;晨犀主页 &#x1f9d1;个人简介&#xff1a;大家好&#xff0c;我是晨犀&#xff0c;希望我的文章可以帮助到大…