《机器学习》周志华-CH1（绪论）

news2025/2/26 22:55:08

1.1引言

机器学习（Matchine-Learning）所研究的主要内容是关于在计算机上从数据中产生“模型”（model）的算法，即“学习算法”（learning algorithm）。可以说机器学习（Matchine-Learning）是研究关于“学习算法”的学问。
在这里插入图片描述

1.2基本术语

一组记录的集合称为一个“数据集”（data set），其中每条记录是关于一个事件或对象的描述，称为一个“示例”（instance）或“样本”（sample）。反映事件或对象在某方面的表现或性质的事项，称为“属性”（attribute）或“特征”（feature），属性上的取值称为“属性值”（attribute value），属性张成的空间称为“属性空间”（attribute space）、“样本空间”（sample space）或“输入空间”。
由于空间中的每个点对应一个坐标向量，因此也把一个示例称为一个“特征向量”（feature vector）。每个示例由d个属性描述，则d称为样本的“维数”（dimensionality）。
从数据中学得模型的过程称为“学习”（learning）或“训练”（training）。训练过程中使用的数据称为“训练数据”（training data），其中每个样本称为一个“训练样本”（training sample），训练样本组成的集合称为“训练集”（training set）。
关于示例结果的信息称为“标记”（label），拥有了标记信息的示例称为“样例”（example），所有标记的集合称为“标记空间”（label space）或“输出空间”。
若预测的是离散值，此类学习任务称为“分类”（classification），如“好瓜”，“坏瓜”；若预测的是连续值，例如西瓜成熟度0.95、0.37，此类学习任务称为“回归”。
对只涉及两个类别的“二分类”（binary classification）任务，通常称其中一个类为“正类”（positive class），另一个为“反类”（negative class）；涉及多个类别时，则称为“多分类”（multi-class classification）任务。
学得模型后，使用其进行预测的过程称为“测试”（testing），被预测的样本称为“测试样本”（testing sample）。
“聚类”（clustering）有助于我们了解数据的内在规律，能为更深入地分析数据建立模型。
根据训练数据是否拥有标记信息，学习任务大致分为两大类：“监督学习”（supervised learning）和“无监督学习”（unsupervised learning），分类和回归是前者的代表，而聚类则是后者的代表。
10.学得模型适用于新样本的能力，称为“泛化”（generalization）能力。

1.3假设空间

归纳与演绎是科学推理的两大基本手段。前者是从特殊到一般的“泛化”（generalization）过程，即从具体的事实归结出一般性的规律；后者则是从一般到特殊的“特化”（speacialization）过程，即从基础原理推演出具体状况。

1.4归纳偏好

机器学习（Matchine-Learning）算法在学习过程中对某种类型的偏好，称为“归纳偏好”，或称为“偏好”。任何一个有效的机器学习（Matchine-Learning）算法必有其归纳偏好。
“奥卡姆剃刀”是一种常用的、自然科学研究中最基本的原则，即“若有多个假设与观察一致，则选最简单的那个”。
在具体问题现实问题中，算法的归纳偏好是否与问题本身匹配，大多数时候直接决定了算法能否取得好的性能。

**

1.5发展历程

机器学习（Matchine-Learning）是人工智能（AI）研究发展到一定阶段必然的产物。
决树学习技术由于简单易用，到今天仍是最常用的机器学习（Matchine-Learning）技术之一。事实上，BP算法一直是应用的最广泛的机器学习（Matchine-Learning）之一。
连接主义学习的最大局限性是其“试错性”，简单地说，其学习过程涉及大量参数，而参数的设置缺乏理论指导，主要靠手工“调参”，夸张一点说，参数调节差之毫，学习结果可能失之千里。
以往机器学习（Matchine-Learning）技术在应用中取得好性能，对使用者的要求较高；而深度学习技术涉及的模型复杂度非常高，以至于只要下功夫“调参”，把参数调节好，性能往往就好。因此，深度学习虽然缺乏严格的理论基础，但它显著降低了机器学习（Matchine-Learning）应用者的门槛，为机器学习（Matchine-Learning）技术走向工程实践带来了便利。
深度学习火起来原因有二：

数据大了
计算能力强了

1.6应用现状

今天，在技术科学的主动分支学科领域中，无论是多媒体、图形学，还是网络通信、软件工程，乃至体系结构、芯片设计都能找到机器学习（Matchine-Learning）技术的身影，尤其是在计算机视觉、自然语言处理（NLP）等“计算机应用技术”领域，机器学习（Matchine-Learning）已成为最重要的技术进步源泉之一。
“计算”的目的往往是数据分析，而数据科学的核心也恰恰是通过分析数据来获得价值。
若要列出目前计算机科学技术中最活跃、最受瞩目的研究分支，那么机器学习（Matchine-Learning）必居其中。
美国国家科学基金会在加州大学伯克利分校启动加强计划，强调要深入研究和整合大数据时代的三个关键技术：机器学习（Matchine-Learning）、云计算、众包。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2050538.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！