AI 地图
X 轴:不同的模式(越往右时间越新)
- 符号学
- 概率模型:统计学模型
- 机器学习
Y 轴:问题领域(先要了解一个东西,然后通过推理形成知识,最后做规划)
- 感知:所能看到的物体
- 推理:根据所看到的东西想象未来可能会发生什么
- 知识:根据所看到的数据或者是现象形成自己的知识
- 规划:在知道所有东西的情况下能够进行一个比较长远的规划
自然语言处理:虽然取得了很大的进展,但是还是停留在最简单的感知上
- 自然语言处理中机器翻译用的比较多
- 人任何几秒钟之内能够反映过来的行为都可以认为是感知的范围
- 自然语言处理最早是符号学,因为语言是一种符号,接下来才是概率模型和机器学习
计算机视觉:能够在一些图片中进行推理
- 图片都是由像素组成的,很难用符号学来解释,所以计算机视觉大部分使用概率模型和机器学习
深度学习:机器学习的一种
深度学习在应用上的突破
图片分类
- ImageNet 数据集是一个比较大的图片分类数据集,包含1000类的自然物体的图片,大约有100万张图片
- 上图表示了从 2010 年到 2017 年的 ImageNet 分类的错误率
- X轴表示时间
- Y轴表示错误率
- 图中的点表示一些工作的错误率
- 在2012年的时候错误率有一个比较大的下降,也是深度学习的开始,在接下来的5年中,深度学习将整个图片分类的误差已经降到非常低了,2017年的时候,基本上所有的团队都能将错误率达到 5% 以内,基本上可以达到人类对图片识别的精度,因此,深度学习在图片分类上已经做的非常好了
物体检测和分割
- 当不仅仅希望知道图片中有什么内容,还想要知道是什么、在什么地方,这就需要物体检测
- 物体分割是想要知道每一个像素是属于哪一个物
样式迁移
- 将样式图片和内容图片进行合成,也可以认为就是滤镜,这样的好处是只要找到某一种样式的图片就可以把内容图片换成任意所想要的形式
人脸合成
- 图中所有的人脸都是假的,是通过算法随机合成的照片
文字生成图片
- 通过描述性的文字来生成对应的图片
文字生成
无人驾驶
案例研究:广告点击
- 问题:给定用户输入“baby toy”,如何推送合适的广告
大致可以分为以下三个阶段:
1、触发
- 在输入关键词之后,立即找到一些相应的广告
2、点击率预估
- 建议一个预测模型,预测用户在看到广告之后的点击情况,p表示用户点击广告的概率
3、排序
- 跟据广告的点击率和每次用户点击之后广告主所付的报酬,利用用户点击率*竞价作为广告排序的依据,数值越大的排名越靠前,排名较低的可能会进行舍弃
上述三个阶段中最重要的是预测用户点击率的机器学习模型,步骤如下图所示:
1、在看到一个广告之后,首先需要进行特征提取:广告主、产品描述信息、产品图片
2、将上述特征放入预测模型之后就能够得到点击率的预测
3、另外,可以将过去所有用户的广告点击数据存下来,然后将其作为用户真实的点击行为进行特征提取,然后对模型进行训练
- 领域专家:对应用领域有非常深的了解,并且了解机器学习,关注点在机器学习的模型对产品的影响
- 数据科学家:将原始数据变成机器学习模型所能理解的数据,然后进行训练出模型
- AI专家:关注某几个点进行进一步精度和性能提升
领域专家是对某些特定领域比较了解的人,比如说在农业上,想知道一棵树什么时候长得比较好,这就需要领域专家来判断,可以认为是“提需求的甲方”,数据科学家会把领域专家的业务问题和需求翻译成机器学习能做的任务,训练出一个还不错的模型,可以认为是“乙方”。
课代表(含问答):笔记
视频:
深度学习介绍 QA_哔哩哔哩_bilibili
深度学习介绍_哔哩哔哩_bilibili