机器学习概要

文章目录

一、什么是机器学习

二、机器学习的种类

1. 有监督学习

2. 无监督学习

3.强化学习

三、机器学习的应用

四、机器学习的步骤

1. 数据的重要性

2. 数据和学习的种类

3. 可视化

一、什么是机器学习

机器学习指的是计算机根据给定的问题、课题或环境进行学习，并利用学习结果解决问题或课题等的一整套机制。

与机器学习共同成为热门话题的还有人工智能和深度学习。这里梳理一下它们之间的关系。人工智能的含义很广泛，是一个综合性系统。机器学习是实现人工智能的一种方法。也就是说，机器学习并非实现人工智能的唯一方法，但是近年来人工智能的研究一般使用机器学习。实现人工智能的方法还有很多，比如根据事先定好的规则进行数理统计预测等方法。

近年来，一种被称为深度学习的机器学习算法备受关注，以至于出现了这样的误解：提起人工智能，人们想到的就是深度学习。然而，深度学习只不过是机器学习算法的其中一种而已。深度学习在图像识别领域取得了划时代的成果，是当前热门的算法。目前在图像识别领域之外，深度学习也取得了许多成绩。

在进行机器学习时会用到各种各样的算法，需要根据机器学习对象的不同进行选择。本系列文章的目标就是帮助读者学会选择合适的算法。在理解了各算法的特性后，读者就能实际处理机器学习问题了。

二、机器学习的种类

机器学习包含不同的种类。根据不同的输入数据，分类如下：
1. 有监督学习
2. 无监督学习
3. 强化学习

1. 有监督学习

有监督学习是将问题的答案告知计算机，使计算机进行学习并给出机器学习模型的方法。这种方法要求数据中包含表示特征的数据和作为答案的目标数据。如图所示，已有表示特征的身高和体重数据，作为答案的数据是性别（男/女）。我们向计算机提供这些数据的组合，使计算机进行学习并给出预测模型。然后，将新的身高和体重数据提供给模型，由模型预测出性别。

预测性别这样的类别的问题叫作分类问题。由于这次是将数据分类到两个类别中，所以叫二元分类；还有将数据分类到更多类别，比如10个类别的情况，这样的情况叫作多元分类。这种答案变量不是连续值，而是作为类别数据的离散值的问题就是分类问题。

此外，表示特征的数据叫作特征值或者特征变量，作为答案的数据叫作目标变量或者标签。我们身边的一个分类问题的例子就是垃圾邮件过滤。用户判断邮件是否为垃圾邮件的过程就是打标签的过程，标签数据就是目标变量，邮件的发件人和内容则为特征值。打了标签的数据越多，机器学习的效果就越好，得到的结果的精度越高。

除了分类问题之外，有监督学习还包括回归问题。如图所示，已有表示特征的性别和身高数据，以及答案数据——鞋的尺码。在分类问题中，男和女的标签分别被数值化为0和1，这两个数值之间的大小关系是没有意义的。与之相对，鞋的尺码26.5 cm和24 cm之间的大小关系则是有意义的。对这样的数据进行预测的问题就是回归问题。在回归问题中，目标变量是作为连续值处理的，所以预测值有可能是23.7 cm这种不存在的尺码。

2. 无监督学习

有监督学习是将特征值和目标变量（答案）作为一套数据进行学习的方法，而无监督学习的数据中没有作为答案的目标变量。

没有答案，该如何去学习呢？无监督学习将表示特征的数据作为输入，通过将数据变形为其他形式或者找出数据中的部分集合，来理解输入数据的构造。此外，与有监督学习相比，无监督学习的结果难以解释，或者要求分析者基于经验加以主观的解释。有监督学习以“能否正确预测目标变量”为指标，相比之下，为了能够对结果进行解释，在进行无监督学习时，用户需要对输入数据的前提知识有一定程度的了解。

这里举一个无监督学习的例子。我们思考一下对某个中学的学生成绩进行分析的场景。假设各科目之间存在着这样的关联性：擅长数学的学生也擅长理科，但不擅长语文和文科。对于这样的输入数据，在使用无监督学习的代表性算法主成分分析（Principal Component Analysis，PCA）时，我们引入了新的轴，以说明被称为第一主成分的数据。在第一主成分上的坐标可以解释为“小值表明该生擅长理科，大值表明该生擅长文科”，如表所示，可以将数学、理科、语文、文科这4个特征值归纳在1个轴上加以展示。

这个例子使用PCA通俗易懂地解释了分析结果，但是需要根据输入数据选择合适的算法。近年来，无监督学习的研究在图像和自然语言处理方面取得了进展，是当前备受瞩目的领域。这里介绍的PCA属于降维算法。降维是以更少的特征值来理解数据的算法。无监督学习中也包括聚类算法。聚类是将数据分类为几个簇（相似数据的集合）的算法。人类很难直接理解多变量数据（由3个以上的变量构成的数据），通过聚类，数据能够以簇这种简单的形式进行展现。

3.强化学习

强化学习是以在某个环境下行动的智能体获得的奖励最大化为目标而进行学习的方法。

比如说：在主机游戏（环境）中，玩家（智能体）为了获得赛点（奖励）并取得最终的胜利，会无数次地重复尝试。我们也可以把强化学习看作有监督学习的目标变量被作为奖励提供的情况。拿主机游戏的例子来说，由于全部场景下所有操作的组合实在太多，很难通过人力进行评估，所以可以将游戏的场景和操作作为特征值，将游戏赛点作为目标变量，玩家无须依赖人力，通过无数次的游戏即可自行收集特征值和目标变量的数据组。强化学习在重复地玩游戏、查看结果中不断学习更恰当的行动。

三、机器学习的应用

机器学习在各领域的应用都取得了较大进展，比如自动驾驶领域的研究就很有名。在文章的自动分类和自动翻译方面，机器学习成果颇丰。在医疗领域，机器学习对X射线影像的分析有助于疾病的早期发现。此外，很早之前人们就将机器学习应用在气象信息领域了。

近年来，随着计算机越来越便宜，数量越来越多，机器学习的研究也在不断加速。互联网产业的发达和物联网（Internet of Things，IoT）等技术的应用也为机器学习带来了丰富的数据。根据数据的特性选择合适的算法，就会有前所未有的发现，这是机器学习领域有意思的地方。

四、机器学习的步骤

1. 数据的重要性

在使用机器学习时，必须要有汇总并整理到一定程度的数据。以数据为基础，按规定的法则进行学习，最终才能进行预测。
没有数据，就不能进行机器学习。换言之，收集数据是首先要做的事情。
本系列文章使用的是主流机器学习库scikit-learn包内置的数据，这个数据便于入手，可自由使用。

在实际用机器学习解决问题之前，要先收集数据，有时还需要做问卷调查，甚至购买数据。然后，需要为收集到的数据人工标注答案标签，或者将其加工为机器学习算法易于处理的形式，删除无用的数据，加入从别的数据源获得的数据等。另外，基于平均值和数据分布等统计观点查看数据，或者使用各种图表对数据进行可视化，把握数据的整体情况也很重要。此外，有时还需要对数据进行正则化处理。这些操作被称为数据预处理。有这样一种说法：机器学习工作80%以上的时间花在了数据预处理上。

scikit-learn 是一个机器学习库，包含了各种用于机器学习的工具。这个库以BSD许可证开源，谁都可以免费、自由地使用。scikit-learn 实现了许多有监督学习和无监督学习的算法，是一套包含了用于评估的工具、方便的函数、示例数据集等的工具套件。在机器学习领域，scikit-learn已成为事实上的标准库，它具有两大优点：一是操作方法统一；二是易于在Python中使用。

2. 数据和学习的种类

机器学习需要的是二维的表格形式的数据（根据解决问题的目的不同，存在例外的情况）。表格的列中含有表示数据本身特征的多种信息，行则是由多个信息构成的数据集。接下来，看一个更具体的例子：学校的某个社团有4名学生，下面的表是每个学生的姓名、身高、体重、出生日期和性别信息的数据。

思考一下用机器学习进行性别预测的问题。
因为要预测的是性别，所以性别列的男或女的数据就是预测对象。把预测对象的数据称为目标变量。不过，根据分类的场景的不同，有时也称为标签或类别标签数据，英文单词为target。除了性别之外的4个列（姓名、身高、体重、出生日期）是用于预测的原始数据。将用于预测的原始数据称为特征值，根据场景的不同，有时也称为特征变量或输入变量，英文单词为feature。

3. 可视化

使用常用的Python可视化工具Matplotlib。Matplotlib具有许多可视化功能。在可视化时，为了使图形美观，需要编写多行Python代码来设置坐标轴、标签、布局和配色等。代码行数的增加容易让人觉得晦涩难懂，但其实用于输出图形的重要部分的代码只有寥寥几行。
在使用Matplotlib实现可视化后，我们就能很容易地把握数据的偏差和特征等信息，所以要掌握它的用法。
Python 的可视化工具不只有Matplotlib，还有以下几种。
pandas 是处理数组数据的库，也具有可视化功能。
seaborn 在 Matplotlib 的基础上强化了表现力，用起来更简单。
Bokeh 使用了JavaScript，可用于显示动态图形。