【深度学习入门】深度学习概述

一、什么是人工智能

机器人能够通过“眼睛”看到这个世界，并对这个世界加以理解，最后做出一些决策。因此人工智能具有 感知+理解+决策的能力。

人类能够站在食物链顶端的关键是具有学习的能力，这是智能的本质。

简而言之，人工智能就是让机器具备人的思维和行为的技术。

二、机器学习

（1）什么是机器学习

人工智能技术是为了实现让机器模拟人的学习行为、情感、生物特征等。机器学习就是人工智能的一个子领域，它专门研究计算机如何模拟人的学习行为。

为什么要有机器学习呢？如果让计算机识别一只猫，它的耳朵是怎样的、眼睛是怎样的、是不是有胡子、有些猫没有胡子呢、毛绒绒怎么定义？对于这些定性的问题，如果仅用if-else的逻辑让计算机理解，实现起来是非常困难的，需要大量的逻辑专家耗时耗力。因此，我们开始研究机器学习，让计算机模拟人的学习方式去学习，使计算机学习的实现变得更容易。

人的学习方式是怎样的呢？

比如：判断重庆人能不能吃辣，外地人会根据从网上听来的经验，总结出重庆人能吃辣的规律（经验归纳为规律）。碰到一个重庆人过后（新问题），推断出他肯定能吃辣（结论）。但是这个重庆人是一个小孩或者老人，他不能吃辣，所以又会对规律进行更新，重庆人里面的小孩和老人不能不吃辣（根据误差更新规律）。

机器学习模拟人的学习方式：

模型就相当于是一个f(x)函数，输入新数据x，就能得到输出y。我们想要得到模型，就需要将历史数据交给算法，通过运算获得，这一个过程也称为训练。模型预测的输出不一定与新数据的真实值百分百一致，为了提高预测的正确率，就需要再次根据这个不一致的程度对模型进行调整，也就是优化。

（2）机器学习的流程

数据收集：做菜需要先准备食材，买来鸡蛋和西红柿。
数据清洗：然后去掉不吃的蛋壳和西红柿蒂。比如对缺失的数据、错误的数据（年龄不可能是200，也不可能是负数）进行处理。
特征工程：如果直接炒食材，会因为太大而味道不好、不易熟，所以还要打蛋、西红柿切片。比如对数据进行归一化、降维，提取出更精炼有用的特征。
数据建模：接着选择合适的做法，做出西红柿炒鸡蛋。对于数据就是选择适合的算法训练模型。
模型评估和应用：最后对训练好的模型进行评价和改进，并运用于其它的数据中（测试数据）。

因为数据特征决定了模型的上限，而算法和参数的选择决定了如何逼近这个上限，所以预处理和特征提取（特征工程）是最核心的部分。

（3）机器学习中的数据是怎样的

像文本、图像、语音等，这些没有固定的数据结构的数据都叫做非结构数据，进行机器学习前要将数据转化为结构化数据，即二维表的形式。如下图将学生的所有成绩转化为二维表的形式，以成绩的好坏来评定是否为好学生。

x1就是一个特征，张三的x1~x4特征组成一个特征向量。

（4）机器学习按学习方法分类

① 监督学习

训练样本有标签。用猫和狗的分类任务举例，流程图如下：

监督学习根据完成的任务不同，又分为：

分类任务：根据数据的一系列已有属性（特征向量），来预测数据的类别，预测的是离散的数值。比如根据一个苹果的大小、形状、颜色等，来预测这个苹果是好是坏。
回归任务：根据数据的一系列已有属性，来预测数据的未来变化趋势，预测的是连续的数值。比如房价预测、气温预测等。

② 无监督学习

输入数据没有标签。相当于没有标准答案地自学，相较于监督学习更难。对一组不带标签的猫狗数据分组的流程图如下：

③ 半监督学习

训练样本中，有一小部分是有标签数据（有监督），一大部分是无标签数据（无监督）。之所以存在半监督学习，是因为有标签的数据的采集需要耗费人工的大量时间和精力，而采集无标签数据更容易。如下图是对输入的无标签数据进行预测（预测出的结果也称为伪标签），然后合并原有的有标签数据和预测出的伪标签数据，获得新的有标签数据的过程。

最后使用合并的带标签的数据集再次训练模型，将这个最终训练好的模型对测试数据进行最终预测。

③ 强化学习

机器（代理）根据环境中的状态和奖励做出行动，因此环境发生改变，给机器提供新的状态和奖励的循环过程，以最大化奖励为目标。比如，战胜世界围棋冠军的 Alpha-Go ，把当前的棋盘布局作为环境中的状态，把棋局的输赢作为环境中的奖励。

三、深度学习

（1）深度学习的兴起

实际上，深度学习并不是近十几年才有的。在90年代就已经存在传统神经网络和卷积神经网络了。那时有国外银行为了减少人工的检验支票工作，训练了网络识别手写字体，识别效果挺好，但是效率太低，主要原因是计算机的性能太低。而现在的计算机性能很高，这也是促进深度学习兴起的原因之一。

现在是一个大数据的时代，大数据推进了人工智能的发展，进而推进了深度学习的发展。比如，给机器提供大量的猫、狗的数据，首先它会把大量数据读入（感知），然后学习什么是猫、什么是狗（理解），最后就能对猫狗进行分类（决策）。

深度学习正真火起来，是在2012年，Alex在ImageNet比赛（主要任务是将上千万张图片分为上千类，数据量大具有挑战性）中提出了AlexNet，AlexNet正是深度学习领域中最常使用的卷积神经网络，它的比赛效果比传统的机器学习高了十几个百分点。之后，卷积神经网络大火，每年都会有新的卷积神经网络产生。

百度有很多产品，百度的深度学习研究院 IDL 针对这些产品分别用传统的机器学习算法和深度学习算法实现，得出上面的一张图：当数据规模较小时，传统机器学习算法跟深度学习的效果差不多，但是深度学习计算速度比较慢，因此传统机器学习更优。当数据规模较大时（上万，甚至上百万），深度学习的效果明显比传统机器学习更优，随着数据规模的提升，传统机器学习的效果仿佛达到上限停滞不前，而深度学习的效果随之显著提升。上百万规模的数据也不用担心难以获取，可以通过平移旋转等对图像进行变换，从而获得新的图像。

（2）各种概念以及概念之间的关系

① 人工神经网络

人脑中的神经元相互连接组成神经网络，帮助人类思考和行动。人工神经网络就是模拟人脑中的神经网络，进行数学建模。人工神经网络是机器学习的一个子领域，如果说监督学习、无监督学习等是机器学习的学习方法，那么人工神经网络就是实现这些学习方法的一种工具、模型。

人工神经网络中，将原始数据（比如一张猫的图像）进行预处理后，变成一个一维向量作为输入层，再经过隐藏层处理，最后将预测值作为输出层。

② 深度学习

人工神经网络的隐藏层有浅有深，深度学习就是有很多层隐藏层的人工神经网络，因此，深度学习是人工神经网络的子领域。隐藏层多，信息处理得越多，能处理的问题就更复杂，计算量更大，对计算机硬件的要求更大。

③ 关系图

（3）深度学习与机器学习最核心的区别

数据收集、数据清洗、特征工程可以统称为数据准备阶段，这个阶段的主要目的就是为了得到一个尽量好的数据。其中特征工程的作用是提取出短小精悍的特征，这一步也是深度学习和机器学习最核心的区别。如何提取有用的特征，在传统机器学习中是人工操作的，而深度学习却做到了真正的智能，它能够自动地选择如何将特征降维、融合等。

为什么说传统机器学习算法是人工操作的？以Fast特征提取为例：从图像中选取一点P，如下图。按以下步骤判断该点是不是特征点：以P为圆心画一个半径为3 pixel的圆；对圆周上的像素点进行灰度值比较，找出灰度值超过 l（P）+h 和低于 l（P）-h 的像素，其中l（P）是P点的灰度， h是给定的阈值；如果有连续n个像素满足条件，则认为P为特征点。一般n设置为9。为了加快特征点的提取，首先检测1、9、5、13位置上的灰度值，如果P是特征点，那么这四个位置上有3个或3个以上的像素满足条件。如果不满足，则直接排除此点。