1.AI地图
- 人工智能的地图,x轴是不同模式,由符号学到概率模型 到机器学习,Y轴是我想做的东西,最底下的是感知,我得了解这是什么东西,然后做推理,形成自己的知识,最后做规划。最底层的就是感知,就是我能够看到这个物体,比如这个屏幕等,做推理是基于我现在看到的东西,会发现什么事情,第三个知识是比较难的事情,根据我看到的数据和现象,来形成我的知识,我能进行比较长远一点的规划,也就是我的未来怎么做。
- 这里对几个比较大的领域做了一点规划,第一是自然语言处理,自然语言处理在过去取得了比较大的进步,但是还是停留在比较简单的感知上面,比如自然语言处理应用比较多的是机器翻译,如中文翻译成英文,就是几秒的事情,很多是潜意识里面感知的问题,所以人在几秒内能够反应过来的范围都属于感知的范围。
- 计算机视觉能够稍微往前走一点,我在图片里面能够做一些推理。
- 自然语言处理最初是符号学,首先语言是一个符号,接下来发展为概率模型和机器学习。
- 计算机视觉因为图片里面都是一些像素,很难用符号学来解释,所以计算机视觉大部分是用概率模型或机器视觉。
- 深度学习是机器学习的一种,他能做机器视觉,也能做自然语言处理,也能做强化学习。
- 过去8年里,从Alexnet开始,最热的方向就是机器视觉和自然语言处理。
2.深度学习应用的突破
1.图像分类
- Imagenet是一个比较大的图片分类数据集,包含1000类物体的图片,大概有1000万张图片。
- 这张图展示的是从10年到17年,Y轴是错误率。每个点表示每个paper的错误率,10年的错误率还是挺高的,最好的是26%左右,
2012年有一个比较大的下降,这也是深度学习的开始,在接下来的五年里面,深度学习已经把图像分类的误差降到非常低。17年几乎所有的团队都能把误差降到5%以内。基本上可以达到人类在图片识别上的精度。在图片分类这个工作,深度学习已经做的非常好了。
2.物体检测与分割
- 物体检测:我们不仅仅想知道这个图片里面的内容,我们还想知道是什么,在什么位置。
- 物体分割:想知道每个像素是属于飞机,还是属于某个人,是更深层次的应用。
3.样式迁移
- 样式图片和内容图片合成一张,类似一个滤镜,可以任意切换风格。
4.人脸合成
- 人脸合成的图片都是假的,通过随机树开始合成的一些照片,人类难以分辨出这些图片是真还是假。
5.文字生成图片
- baby 萝卜遛狗的图片
- 牛油果椅子。
6.文字生成
- 如何来开一个比较有效的董事会议。
- SQL语言,编程,这也是非常强大的语言生成模型。
7.无人驾驶
8.案例研究–广告点击
- 问题:给你一个用户输入,如何给你一些广告。
- 这个问题可以分成三个阶段,第一输入一个关键词时,给你一些广告,接下来就是机器学习的模型,给你一个广告后,客户的点击概率是什么样子,p为人会点击这个广告的概率,根据点击率和广告主付你多少钱,然后一乘,点击率乘以竞价,会得到一个数字,把它作为一个排序,排名高的我会拍到前面,排名低的我会舍去。
- 这是广告点击的三个步骤,1.触发广告,2.预测一个点击率3.最后得到一个排序。
- 里面最重要的一个就是预测点击率,首先看到广告时要进行特征提取,包括广告主,产品描述和产品图片等信息,把这些特征放到模型之后,就可以预测出点击率的数据。主要包括两个步骤,特征提取和模型预测。
- 我们可以把过去所有的广告展现和用户点击数据存下来,因为我知道用户有没有点,所以我是有真实的用户点击行为,把它作为训练数据,放到一个模型里面进行训练.
- 一个完整的故事是这样的,我有些领域专家,模型控制用户展现,用户点击数据用反过来训练新的模型。
- 数据科学家拿到数据进行模型训练。
- AI专家主要提升模型精度和性能。
- 一个机器学习领域里面有三类人,领域专家【对应用有非常深的了解,知道一些机器学习的事情,更多是了解机器学习的给我的产品带来什么样的影响】,数据科学家【数学科学家会把原始数据转化成计算机能够理解的数据,然后训练模型】和AI专家【关注某几个点,然后进一步提升】。每个人既可以是领域专家,也可以是数据科学家。
3.QA
1.机器学习在图像分割领域为什么有效,有没有定论?
- 模型的可解释性是深度学习和机器学习比较关注的地方,因为它们是一个黑盒,你训练一个模型,你也不知道它为什么效果好,或者不好。对于深度学习来讲,其可解释性做的并不好,对于机器学习来说,对于一些简单的模型,我们有一些简单的理解,对于比较复杂的模型,我们基本是放弃其可解释性的研究。
- 有效性和可解释性是两个概念。为什么有效,当然我可以给出很多解释, 但是可解释性是另外一个概念,人是不是能够理解这个模型,它为什么能够工作,它什么时候不工作,以及在什么时候出现偏差,这是可解释性要理解的问题。一个模型在一个什么样的问题上有应用,会有一些解释,什么样的模型会考虑空间信息,什么样的模型会考虑时间的信息,什么样的模型泛化性能好一些,这是是不是工作的可解释性,但是更一般的,目前还没有太多的进展。
2.领域专家什么意思?
我想去做农业上的物体识别,我想去看一下今年的收成怎么样?我用一个无人机,去把图片拍下来,然后就会看到树的一些图片,作为数据科学家,我不懂二月份树要长成什么样子,领域专家会告诉你,这个树长多少叶子是比较好的,数据科学家就会把领域专家的一些需求翻译成能够做的一些任务,所以说领域专家是提需求的一些人,是甲方,数据科学家是乙方。
3.MXnet要装GPU版本,必须要卸载CPU版本吗?
需要。该课程是基于pytorch,会有一些不一样。
4.深度学习不能用数学规范表述,只能直觉上理解是吗?
这个不一定,深度学习模型是可以用数学来表述的,接下来也是会介绍很多数学的东西,但是用数学来解释,它为什么工作,为什么不工作,这是目前做的不好的一个地方。
5.符号学可以与机器学习融合起来吗?
这个确实是可以的,符号学在深度学习目前有一些新的进展,比如符号学就是做一些符号学的推理,目前图神经网络可以做一些复杂的推理过程,模型够复杂的情况下,确实可以做一些推理的工作。
6.数据科学家和AI专家的区别在哪里?
- 没有太多区别,数据科学家,给一个数据,我赶紧出一个模型,能工作就很好了,我关心的是如何把一个领域专家问题,抽象为实际的业务问题,变成机器学习能够完成的一个任务,训练一个还不错的模型,AI专家有可能也是数据科学家,我不仅能够把模型训练出来能用,而且能够把模型做的精度很高,资深数据科学家你可以认为是AI专家。
- 数据科学家是有两条路,一条是不断开发新的领域,比如说机器学习在农业上的应用,在医疗上的应用,这是往广的方向上走,往深的方向上走的话,可以成为AI的专家。在某一块,我可以成功这一块了解最多的人。
7.Mac是不是支持Pytorch
可以支持Pytorch,只能用CPU,简单的任务是可以做的,负责的任务是比较难一些。
8.自然语言仅仅在感知层面似乎不太合适,因为语言的理解和产出,不仅仅是感知,也涉及语言知识,也涉及到规划,比如机器对话,下一步要做些什么。
语言是一个很复杂的过程,自然语言处理,我们做的还很一般,虽然能做一些感知,不如深度学习在机器视觉的领域做的应用好一些,地图是一个大致的分类,不用特别纠结。
9.如何寻找自己领域的paper的经验。
后面会讲。
10.无人驾驶,误判率在下降,但是误判的影响非常严重。
- uncertainty或者roubustness,我的数据在数据发生偏移或者极端情况下,我会不会做出很不好的答案。解决方法之一就是把不同的模型融合到一起,通过多个模型来进行投票。在竞赛中,我们会提到如何通过多个模型来提