《零基础学机器学习》读书笔记一
一、机器学习快速上手路径
1.1 机器学习的家族谱
人工智能,可以被简单地定义为努力将通常由人类完成的智力任务自动化。
AI效应的2个阶段:
(1)AI将新技术、新体验带进人类的生活,完成了一些原本需要人类智慧才能完成的工作,此时舆论会对AI期待极高,形成一种让人觉得“真正的”AI时代麻黄素那个就要到来的氛围。
(2)一旦大家开始习惯这些新技术,就又开始认为这些技术没什么了不起,根本代表不了真正的人类智慧,此时又形成一种对AI的现状十分失望的氛围。
机器学习是AI的分支,而深度学习是机器学习的技术之一。
AI的发展离不开数据和硬件:
(1)数据。数据是燃料,有了算法所需要的海量数据,机器才能够运转。
(2)硬件。存储能力、计算能力的增强,以及云服务、GPU等。
技术的可达性和实用性,才是机器学习和深度学习的真正价值所在。
1.1.1 入门机器学习
在入门阶段,需要一些数学基础,包括函数、概率统计,线性代数和微积分最基础的内容。机器学习中的数学内容重在理解,不重在公式的推演。
机器学习,注重模型的选择、整合、参数的调试。这要求的主要是逻辑分析与判断能力,再加上点直觉和运气。
1.1.2 机器学习就是从数据中发现规律
使用正确的特征来构建正确的模型,以完成既定的任务。
——Peter Flach《机器学习》
机器学习的关键内涵之一在于利用计算机的运算能力从大量的数据中发现一个“函数”或:“模型”,并通过它来模拟现实世界事物间的关系,从而实现预测或判断的功能。
这个过程的关键是建立一个正确的模型。
特征:自变量(x1,x2,x3,…xn);
标签:因变量y。
训练数据集 training dataset,测试数据集 test dataset。
机器学习,就是在已知数据集的基础上,通过反复的计算,选择最贴切的函数去描述数据集中自变量(x1,x2,x3,…xn)和因变量y之间的关系。
从数据中发现关系,归纳成函数,以实现从A到B的推断。
机器学习的另外一个特质是从错误中学习。
机器找到一个函数去拟合(fit)它要解决的问题,一直到找到相对最为合适的函数为止,机器通过机器学习算法自己摸索出来。机器从已知数据中不断试错之后,归纳出规则。
训练步骤:
(1)选定模型的类型,也就是算法;
(2)通过fit方法来训练机器,进行函数的拟合;
(3)预测验证集的y值;
(4)计算验证集中预测值和真值之间的差异,评估预测结果;
拟合意味着找到最优的函数去模拟训练集中的输入特征和目标标签的关系,确定模型的参数。
要比较不同的模型,都应采用相同的评估指标,在同样的标准下,哪个分数更高,就说明哪个模型更好。
学习重点在于解释这些算法,并应用它们建立机器学习模型(函数)来解决具体问题。
1.1.3 机器学习的类别
最常见的分类为 监督学习、无监督学习和半监督学习。
监督学习的训练需要标签数据,而无监督学习不需要标签数据,半监督学习介于两者之间。
半监督学习使用大量的无标签数据,同时使用部分有标签数据来进行建模。
另一种分类方式,监督学习、无监督学习和强化学习。
1.1.4 机器学习的重要分支
深度学习,是根据机器学习的模型或训练机器时所采用的算法进行分类。
监督学习或无监督学习,着眼点在于数据即问题的本身;
传统机器学习还是深度学习,着眼点在于解决问题的方法。
人工神经网络,是数据结构和算法形成的机器学习模型,由大量的所谓人工神经元相互联结而成,这些神经元都具有可以调整的参数,可以实现监督学习或无监督学习。
现在把层数较多、结构比较复杂的神经网络的机器学习技术叫作深度学习。
深度学习的另一大好处是对数据特征的要求降低,自动地实现非结构化数据的结构化,无须手工获取特征,减少特征工程。
特征工程是指对数据特征的整理和优化工作,让它们更易于被机器所学习。
数据结构化的目标:使数据变得**“计算机友好”**。
深度学习通过神经网络把特征提取和分类任务一并解决了。
1.1.5 机器学习新热点
强化学习研究的目标是智能体如何基于环境而做出行动反应,以取得最大化的累积奖励。智能体通过所得到的奖励(或惩罚)、环境反馈回来的状态以及动作与环境互动。
强化学习和普通机器学习的差异在于:普通机器学习是在开放的环境中学习;而强化学习的环境是封闭的。
强化学习和监督学习的差异在于:监督学习是从数据中学习,而强化学习是从环境给它的奖惩中学习。监督学习中数据的标签就是答案,强化学习得到惩罚后,没人告诉它具体哪里做错了,所以它调整策略的时候需要的智能更强,要求它的思路也更加广阔、更为长远。智能体不一定每次都明确地选择最优动作,而是要在探索(未知领域)和利用(当前知识)之间找到平衡。
其他机器学习方法(算法),例如集成学习、在线学习、迁移学习等。
1.1.6 机器学习的两大应用场景
回归和分类是两种最常见的机器学习问题类型。
回归问题通常用来预测一个值,其标签的值是连续的。常见的回归算法是线性回归算法以及深度学习中的神经网络等。
分类问题是将事物标记一个类别标签,结果为离散值,也就是类别中的一个选项。分类有二元分类和多元分类,每类的最终正确结果只有一个。
分类是机器学习的经典应用领域,很多种机器学习算法都可以用于分类,包括最基础的逻辑回归算法、经典的决策树算法,以及深度学习中的神经网络等。
1.1.7 机器学习的其他应用场景
无监督学习中最常见的聚类问题是在没有标签的情况下,把数据按照其特征的性质分成不同的簇(数据分类);还有一种无监督学习是关联规则,通过它可以找到特征之间的影响关系。
时间序列,指在内部结构随时间呈规律性变化的数据集,如趋势性数据、随季节变化的数据等。时间序列问题其实就是和时间、周期紧密关联的回归问题。
结构化输出,通常机器学习都是输出一个答案或者选项,而有时需要通过学习输出一个结构。
生成式学习,比如AI画画。
当机器学习的目标是做出决定时,叫决策性问题。决策性问题本质上仍然是分类问题,因为每一个决策实际上还是在用最适合的行为对环境的某一个状态进行分类。在很多决策性问题中,机器必须学习哪些决策是有效的、可以带来回报的,哪些是无效的、会带来负回报的,以及哪些是对长远目标有利的。因此,强化学习是这种情况下的常用技术。
机器学习的诀窍在于要了解自己的问题,并针对自己的问题选择最佳的机器学习方法(算法),也就是找到哪一种技术最有可能适合这种情况。
机器学习不是万能的,它只能作用于和已知数据集类似的数据,不能抽象推广。机器的优势仍在于计算量、速度和准确性,尚无法形成类似人类的智力思维模式。