统计机器学习基础知识

news2026/2/11 17:50:04

一、统计机器学习定义

统计机器学习（Statistical Machine Learning）又称为统计学习（Statistical Learning），是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科，是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科，具有独自的理论体系与方法论。

严格来讲，统计机器学习是机器学习的一个分支，但由于统计机器学习在机器学习领域的地位，现在人们提及机器学习时，往往就是指统计机器学习。

二、统计学习的研究对象和目的

统计学习研究的对象是数据，它基于同类数据具有一定的统计规律性作为前提，即同类数据是独立同分布的，用随机变量描述数据中的特征，用概率分布描述数据的统计规律。

统计学习从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，又回到对数据的分析与预测中去。因此统计学习用于对数据的预测与分析，特别是对未知新数据的预测与分析。

在统计学习中，对数据的预测与分析是通过构建概率统计模型来实现的。

三、统计学习方法及类型

统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法，模型（Model）、策略（Strategy）和算法（Algorithm）为统计学习方法三要素。

模型是一个能够从数据中学习并做出预测或决策的算法或数学函数，用于表示输入到输出的映射，模型输入和输出所有可能的集合分别称为输入空间和输出空间。每个具体的输入是一个实例，通常有特征向量表示，所有特征向量存在的空间称为特征空间（Feature Space），特征空间的每一维对应一个特征。

模型定义在特征空间上，有时假设输入空间和特征空间为相同的空间，有时不同，不同时需要将输入空间映射到特征空间。

统计学习的方法可以概括为：

从给定的有限的用于学习的训练数据（Training Data）集合出发，假设数据是独立同分布产生的，并假设学习的模型属于某个函数的集合（称为假设空间，Hypothesis Space），应用某个评价准则（Evaluation Criterion）从假设空间中通过算法选取一个最优模型，使得它对已知的训练数据和未知的测试数据（Test Data）在给定的评价准则下有最优的预测。

统计学习可以分为几种主要类型：

监督学习：在监督学习中，模型从标记的训练数据中学习，以便预测未知数据的输出。例如，我们可以使用标记好的图像数据集训练一个图像分类模型，使其能够识别新的未标记图像中的物体。
监督学习的训练数据和测试数据由输入输出对组成，输入输出对称为样本（sample）或样本点。
监督学习中输入变量X和输出变量Y可以是连续的或离散的，X和Y都连续的预测问题称为回归问题，X为连续变量Y为离散变量的预测问题为分类问题，X和Y都为离散的预测问题为标注问题。
无监督学习：与监督学习不同，无监督学习中的模型在没有标记响应的情况下，从数据中学习模式或结构。例如，聚类算法就是一种无监督学习方法，它可以将数据集中的相似项分组在一起。
强化学习：强化学习是一种通过试错来学习的方法，模型通过与环境的交互来最大化累积奖励。这种方法在机器人控制、游戏AI等领域有广泛应用。

四、统计学习的过程步骤

数据收集：获取用于训练模型的有限数据集合。这些数据可以来自各种来源，如数据库、传感器、互联网等。
数据预处理：收集到的数据通常需要经过清洗、转换和格式化等预处理步骤，以便模型可以更好地学习
确定假设空间：确定包含所有可能的模型的假设空间，即学习的模型的集合；
老猿注：老猿理解模型为某种表达形式的函数，其表达式中除因变量、自变量外的其他内容因子（如系数、指数、常数等）为函数的参数，假设空间即表示函数参数所有可能取值组合形成的函数集合，在统计学习中，模型可以带有限固定参数（称为参数化模型）或不固定参数（称为非参数化模型），如线性假设空间是固定参数模型，是由所有不同a、b取值的线性函数y=ax+b构成的集合。
确定模型选择准则：模型的选择准则即模型的评价准则，也即学习策略；
学习算法：实现求解最优模型的算法，即学习的算法；
训练模型：使用数据训练选定的算法，以找到最佳参数确认模型结构，如线性模型中找到合适的a和b的值；
评估模型：使用独立的测试数据评估模型的性能，以确保模型在实际应用中具有良好的泛化能力；
参数调优：根据评估结果，对模型的参数进行调整和优化，以提高性能。
部署模型：将训练好的模型应用于实际问题中，实现自动化决策、预测等任务。

小结

本文介绍了人工智能特别是机器学习的一些基础知识，机器学习是人工智能的一个分支，而借助于机器学习中的神经网络，通过多层神经网络进行知识学习的深度学习是机器学习领域中的一个重要研究方向。

更多人工智能知识学习请关注专栏《零基础机器学习入门》后续的文章。

写博不易，敬请支持：

如果阅读本文于您有所获，敬请点赞、评论、收藏，谢谢大家的支持！

关于老猿的付费专栏

付费专栏《https://blog.csdn.net/laoyuanpython/category_9607725.html 使用PyQt开发图形界面Python应用》专门介绍基于Python的PyQt图形界面开发基础教程，对应文章目录为《 https://blog.csdn.net/LaoYuanPython/article/details/107580932 使用PyQt开发图形界面Python应用专栏目录》；
付费专栏《https://blog.csdn.net/laoyuanpython/category_10232926.html moviepy音视频开发专栏 )详细介绍moviepy音视频剪辑合成处理的类相关方法及使用相关方法进行相关剪辑合成场景的处理，对应文章目录为《https://blog.csdn.net/LaoYuanPython/article/details/107574583 moviepy音视频开发专栏文章目录》；
付费专栏《https://blog.csdn.net/laoyuanpython/category_10581071.html OpenCV-Python初学者疑难问题集》为《https://blog.csdn.net/laoyuanpython/category_9979286.html OpenCV-Python图形图像处理》的伴生专栏，是笔者对OpenCV-Python图形图像处理学习中遇到的一些问题个人感悟的整合，相关资料基本上都是老猿反复研究的成果，有助于OpenCV-Python初学者比较深入地理解OpenCV，对应文章目录为《https://blog.csdn.net/LaoYuanPython/article/details/109713407 OpenCV-Python初学者疑难问题集专栏目录》
付费专栏《https://blog.csdn.net/laoyuanpython/category_10762553.html Python爬虫入门》站在一个互联网前端开发小白的角度介绍爬虫开发应知应会内容，包括爬虫入门的基础知识，以及爬取CSDN文章信息、博主信息、给文章点赞、评论等实战内容。

前两个专栏都适合有一定Python基础但无相关知识的小白读者学习，第三个专栏请大家结合《https://blog.csdn.net/laoyuanpython/category_9979286.html OpenCV-Python图形图像处理》的学习使用。

对于缺乏Python基础的同仁，可以通过老猿的免费专栏《https://blog.csdn.net/laoyuanpython/category_9831699.html 专栏：Python基础教程目录）从零开始学习Python。

如果有兴趣也愿意支持老猿的读者，欢迎购买付费专栏。