Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

news2024/11/13 12:09:49

图片

 夕小瑶科技说 原创
 作者 | 海野

AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。

近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad Gil,展开一次关于AI、教育与认知的讨论。

在采访中他提到:

认知核心AI或许只需要10亿参数。AGI到来前,我建议多学习数学、物理、计算机科学。这对于培养逻辑推理非常有帮助。这些知识在AGI到来后依然受用。

图片

在此次No Priors采访中,Karpathy就AI+教育、AI发展瓶颈、机器人、自动驾驶 等领域,与主持人展开了一系列讨论。这也是Karpathy全职做AI原生教育后,第一次接受专栏采访。

图片

图片

机器人、AI的发展趋势

Karpathy离开Tesla自动驾驶之前,曾参与人形机器人项目。Karpathy认为,实际观察一下汽车,基本上与机器人没有什么差别。

Karpathy:

我认为特斯拉不是一家汽车公司,而是一家规模化的机器人公司。早期的Optimus机器人,还以为自己是辆车,并且它还可以运行汽车网络,还能“试图”识别可驾驶空间。当然这也说明它还缺乏微调。

主持人:你认为人形机器人或人形设备会首先应用在什么领域?

Karpathy:

我猜很多人会想让机器人率先通过B2C模式融入日常生活,比如做饭洗衣服什么的,但这不太现实,其中会牵扯到太多法律和道德的问题(比如自动驾驶汽车撞人到底该怎么评判)。机器人还不够完美,还需要改进。

机器人最好率先用在机器人公司自己的工作业务中。 首先在自己公司里搭建机器人的工作链,这样还能帮你节省一些劳务费用。然后你就可以进入B2B应用,跟其他公司签订契约,让这些机器人去其他公司工作。

以此你的机器人就可以发展到足以支撑B2C应用的水平,这样你才可以迈出这一步。当然这也涉及到非常多的工作量和技术突破,但我认为这一切都是可行的。

其中,Transformers是一个非常强大的技术支持,你可以让它做任何任务,只需要以正确的方式输入数据,就可以训练,部署,然后不断迭代。

实际上,Transformer比人脑性能更高,Transformer的记忆序列能力远远超过人脑。实际上,人脑的记忆性能是非常差的。与大脑的学习方式相比,将Transformer架构用于训练神经网络会更有效。只是现在缺少数据。

说到数据,互联网上的公开数据,并不是训练大语言模型的最适用数据。大语言模型要想做到突破,真正需要的是人脑活动,也就是大脑的思考路径。现在只要十亿条这种数据喂给模型,那现在就能实现AGI。

此外,合成数据绝对是不可或缺的一类数据。 但是,用合成数据处理数据集时,要确保合成数据的随机性和多样性,必须与真实世界的数据具有相同水平。

当前的模型浪费了大量的容量来记住不重要的信息,本质上是因为数据集不够好。最终一个具备认知核心的模型可能只要10亿参数就足够了,模型可以非常非常小。

主持人:我一直在想,最小、高效的模型是什么样子的?关于参数大小等数据,你有什么看法?

Karpathy:

我认为,模型参数可以非常非常小。现有的模型大部分都浪费了很多容量来记住不必要的内容。如果只是需要一个认知核心模型的话,我想蒸馏出10亿的参数就够了。 这个模型不需要所有的知识内容,只要在必要时调用其他模型或者工具就可以。但是这样想的话,即使是10亿的参数也有点多了。

图片

自动驾驶技术

主持人:你曾从事在Tesla的自动驾驶领域,而现在我们确实有了完全自动驾驶的汽车,以及一些的士。我们多久能看到这项技术的普及或者更新?

Karpathy:

我在Tesla的自动驾驶领域工作有五年之久,所以我想说汽车的自动驾驶有点类似于AGI,至少自动驾驶技术已经有一点点达到AGI的水平了。 但是这种技术是很难普及的,如果要具体问题具体分析的话,自动驾驶想要实现全球化还要很长很长的时间。

主持人:你认为这是因为监管因素,还是技术因素?

Karpathy:

我认为是技术因素。当你看到一个自动驾驶的实机演示时,说明它这个技术与当地的风土、环境、文化等因素相匹配。但是这项技术实际落地时,现实往往与演示视频有着巨大的差距。我想说,等到AGI出现演示视频的时候,它的落地也会像自动驾驶的落地一样难。

对于两个公司Waymo和Tesla,在自动驾驶方面,虽然目前Waymo更胜一筹,但我认为Tesla终将登峰造极。Tesla面临的是软件问题,而Waymo则面临硬件问题,其中软件问题是更容易解决的。我非常看好Tesla以及它的自动驾驶规划,毕竟Tesla已经打通了全球的汽车市场,这是Waymo望尘莫及的。从收入来源的角度看,我想这个结果10年后就可以见分晓了。

图片

AI+教育

图片

问到Karpathy目前在AI教育方面的工作,他表现出了极大地兴趣:

我想我会一直从事教育工作了,我一直都热衷于学习和教学。此外我还注意到,像AI这样的事物似乎有取代人类的倾向,但正因为我喜欢传授知识,所以我觉得AI也可以用来做一些,提高人们学识和力量的事情。

我不希望人们以后就只能依赖自动化,我更希望人们能有自主解决复杂问题的能力,甚至是出现“能超越过去或现在各种学者和大能”的人。

此外我还注意到,一个人到底能走多远,也要看他有没有一个好的导师。比如一些有钱人,他们真的有钱聘请一些很完美的导师一对一辅导,那这些人在特定的领域就真的可以走得很远。

现在有了AI,在这个由血统决定一切的世界中,我想AI可以稍稍打破这个僵局。更多的人可以通过AI来实现一对一辅导——老师只要出课件就可以了,前端问题交给AI来解决。这样也许能帮助到一些寒门书生。

主持人:关于Eureka Labs,你可以介绍一下吗?

Karpathy:

我想先把这个“学校”的课程做成本科水平的课程,所以如果你是技术专业的本科生,你应该会很感兴趣。

我做这些主要是因为我们现在的教育观念或许有些过时——在学校里上课、然后完成学业、然后就走向社会工作。我觉得随着AI的发展,这个观念会逐渐被淘汰。

现在技术变革非常迅速,人们很快就会想“我要回学校学新的技术”,并且频率会越来越高。但我想说,任何年龄都应该学习,活到老学到老。这也是我做Eureka Labs的目的,只是我还需要时间去完善它,可能到年底或者明年年初就能做好第一堂课。

主持人:最后一个问题。如果你现在有孩子,你认为他们应该学习什么,才能在未来社会中立足?

Karpathy:

在我看来,我大概会选数学、物理、计算机科学这些。因为我认为它对逻辑思维能力有帮助。当然,我有特定的背景,所以我会这么想。我觉得我上过的数学、物理课和其他课都塑造了我的思维方式。总的来说,如果我们处在一个AGI前的世界,这会有用。

在AGI之后,我想有能力的顶尖人才还可以在对应的领域发挥相应的作用。所以该学的知识,要么有用,要么好。很多不必要的知识可以稍缓缓再学,人们在一些时间节点,其注意力会更集中,思维会更敏捷,这些时间应该用来处理一些简单的操作密集型的任务,而不是记忆密集型的任务。

最后,附上完整的采访视频链接:

https://www.youtube.com/watch?v=hM_h0UA7upI&t

(PS:Karpathy的语速真的很快啊!笔者都要听晕了。)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2119251.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Transformer(Attention is all you need)网络结构

Transformer(Attention is all you need) Transformer结构 Transformer是一个从Encode到Decode的一个框架。Transformer的编码器和解码器是基于自注意力的模块叠加而成的,源(输入)序列和目标(输出)序列的嵌入&#x…

牛客周赛 Round 59 F范德蒙卷积

思路:对于计数问题,考虑两个数对于答案的贡献,考虑 a i a_i ai​ 和 a j a_j aj​ 作为子序列中的两个对称位置,其在多少个字符串中出现过,显然,若 a i a_i ai​ 距离子序列字符串s的首位距离为 x, 那么 …

儿童孤独症康复学校:打破孤岛,关爱与成长

在世界的某个角落,有一群孩子,他们如同夜空中最亮的星,却往往因孤独症的屏障,而难以与周围的世界建立连接。这些孩子,如同被无形的岛屿环绕,渴望着被理解、被接纳。而正是在这样的背景下,星贝育…

CSS媒体查询

媒体查询介绍 例如,同一个网页,在电脑上显示和在手机上显示有可能不一样的,因为电脑的屏幕更大,显示的东西可能更多。 为了适应不同设备的屏幕大小,就要写多种样式,例如在电脑上,ipad上&#x…

攻防世界 ics-05

ics-05 隐藏的变量传参,php弱类型比较 只有设备维护中心可以点击进去 查看源码,发现有个隐藏的超链接变量传参 看到变量传参,有可能存在文件包含漏洞读取源码,这个站是php的站,所以可以使用php伪协议读取源码 index.p…

编译安装redis运行注册服务脚本sh install_server.sh时报错。

在编译安装redis的时候,运行注册服务脚本sh install_server.sh时,报错。 Welcome to the redis service installer This script will help you easily set up a running redis server This systems seems to use systemd. Please take a look at the pro…

Django-Python网站框架(MVT三层架构实现)

1 新建项目 2.选择Django 3.选择解释器 4.等待安装 5. 安装完成后,点击终端 6.输入 python manage.py startapp djangoWeb 7.等待生成djangoWeb<

辉煌ERP的销售收入为何有一部分归入其他收入里面

管家婆辉煌ERP15.0&#xff0c;客户查询经营情况利润表时发现&#xff0c;在其他业务收入里面有销售单收入&#xff0c;为什么这些销售单没有归入销售收入里面&#xff1f; 经查&#xff0c;发现这些销售单销售的都是原材料或者劳务服务商品&#xff0c;而商品属性为原材料和服…

Spring Boot3项目的常见通用整体架构

Spring Boot 3 项目的整体架构。 1. IDEA创建项目 <properties><java.version>17</java.version></properties><dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-star…

500W逆变器(一)

EG8015_24V_500W 这款逆变器是基于 EG8015 SPWM 专用芯片而设计的方案。其额定的输出功率为 500 瓦, 最大输出功率为 600 瓦&#xff0c;输出电压为 220V10%&#xff0c;输出频率为 50Hz0.1Hz&#xff0c;额定输出电流为 2.3 安培。 穿越机降落的时候不要垂直降落&#xff0c;要…

✨机器学习笔记(三)—— 多元线性回归、特征缩放、Scikit-Learn(未完待续)

Course1-Week2: https://github.com/kaieye/2022-Machine-Learning-Specialization/tree/main/Supervised%20Machine%20Learning%20Regression%20and%20Classification/week2机器学习笔记&#xff08;三&#xff09; 1️⃣多元线性回归及矢量化2️⃣特征缩放&#xff08;Featur…

Java进阶13讲__第12讲_2/2

线程安全问题 线程同步方案 线程池 线程通信 理论补充 1. 线程安全问题 1.1 举例说明 1.2 代码实现 package com.itheima.a_线程安全;/* 线程安全:多个线程同时修改同一个资源取钱案例小明和小红是一对夫妻&#xff0c;他们有一个共同的账户&#xff0c;余额是10万元如…

西门子PLC与HMI之间的时间同步工控小周

HMI 时间同步功能工控人加入PLC工业自动化精英社群 HMI 设备具有时间同步功能&#xff0c;利用 HMI 设备的该功能&#xff0c;可实现 PLC 和 HMI 之间的时间同步&#xff0c;进而实现多个 PLC 之间的时间同步。 HMI 设备时间同步的属性&#xff1a; 1.HMI 设备既可作为主站对…

WinCC 中对 VBS 进行单步执行调试

以前应该写过文章给各位展示如何在WinCC 中通过自身控件对脚本&#xff08;C、VBS&#xff09;进行脚本诊断和排错。但是也有用户反馈说在编写了一些相对复杂的脚本后&#xff0c;WinCC自身控件无法做到单步调试&#xff0c;也会影响脚本的诊断调试效率。如果能够对WinCC 中的脚…

系统编程-多路IO复用

多路IO复用 目录 多路IO复用 三种方法实现多路IO复用 一、 select 函数 - 使用 select 来进行多路 io 复用的步骤 1、创建文件描述符集合 2、对集合进行清空操作 3、使用函数将要进行监测的文件描述符添加到集合中 4、对集合中的文件描述符进行监测 5、对哪个文件描述…

【网络安全】shortscan+ffuf+代码审计实现LFI和SSRF

未经许可,不得转载。 文章目录 正文正文 目标网页example.com: 使用IIS-ShortName-Scanner工具进行扫描: https://github.com/irsdl/IIS-ShortName-Scanner扫描结果如下: 这意味着目标容易受到IIS短文件名泄露的攻击。 IIS短文件名泄露: https://github.com/irsdl/IIS-S…

OpenCV-轮廓检测

文章目录 一、简介1. 意义2.具体步骤 二、代码实现三、总结 一、简介 1. 意义 在OpenCV中&#xff0c;轮廓检测是图像处理中一个非常重要的环节&#xff0c;它允许我们识别图像中的形状。这个过程通常涉及几个步骤&#xff1a;读取图像、转换为灰度图、应用阈值处理&#xff…

stm32驱动开发与linux驱动的区别

stm32&#xff0c;gpio设置原理 下图&#xff0c;定义了gpio E的基地址&#xff0c;只要将这个地址强制转换成gpiotypedf的类型&#xff0c;解析时&#xff0c;结构体地址就会自增。这样就可以对不同gpio组&#xff0c;就像定义。 全部gpio定义&#xff0c;强制为结构体类型…

C语言深度剖析--不定期更新的第六弹

extern关键字–最会帽子的关键字 看下面的代码&#xff1a; test.h #pragma once #include <stdio.h> extern int x;//声明不要进行初始化&#xff0c;也就是赋值&#xff0c;因为声明不开辟空间test.c #define _CRT_SECURE_NO_WARNINGS 1 #include "test.h&quo…

ESP-NETIF L2 TAP接口——启明云端乐鑫代理商

ESP-NETIF L2 TAP 概述 ESP-NETIF L2 TAP 接口是 ESP-IDF 访问用户应用程序中的数据链路层&#xff08;OSI/ISO 中的 L2&#xff09;以进行帧接收和传输的机制。在嵌入式开发中&#xff0c;它通常用于实现非 IP 相关协议&#xff0c;如 PTP 和 Wake on LAN 等。 Tips : 目前…