机器学习简介--NLP(二)

news2026/2/15 3:24:51

机器学习简介

机器学习简介
- 机器学习例子
- 机器学习分类
- - 有监督学习
  - - 有监督学习的应用
  - 无监督学习
- 机器学习常见概念
- - 数据集
  - k折交叉验证
  - 过拟合
  - 欠拟合
  - 评价指标

机器学习简介

机器学习例子

问题： 2，4，6，8，？，？已知前面的数，求后面的数是什么？
机器学习解决方案 从前四个数，即前4个示例，找到一个函数（模型，公式）满足前四个数的规律；后面的数则使用这个函数去推理得到。

1.找到一个函数y=f(x)使得将其满足上面的已知数据
2.得到这个函数，去预测其他的未知的数
上面的函数为：y=2*x

引申：上面是简单的数字，这个数字可以变成复杂的向量、矩阵；这个函数也可以是多个公司拼接，从而就可以符合更加复杂任务的规律。其中2就是我们在数字中找到的规律，y=2x就是我们训练出来的模型。

机器学习概念： 通过观察有限数量的样本，去找到一个规律或者公式，满足已知样板的x、y的关系的过程。

数据的重要性： 上面的案例中，如果只给了2，4两个已知的数，那么规律就有可能是：y=2x;也可以是y=x^2 ;所以规律正确与数据有很大的关系。

困难点： 上面的规律是非常简单的，但是对于复杂的事情，我们人都很难去梳理出规律，所以我们希望把数据交给机器，让机器把规律找出来。

机器学习分类

有监督学习

核心目标： 建立一个模型（函数），来描述输入（x）与输出（y）之间的关系；从而使新的输入来临时时，我们可以预测输出。
要求：需要一定输入与输出有关联关系并且能够数值化表示的训练样本。
在这里插入图片描述

有监督学习的应用

任务类型1：文本分类任务

输入：文本
输出：类别
关系：文本的内容决定着文本的类别

比如判断一句话是不是曹贼所说

任务类型2：机器翻译

输入：A语种文本
输出：B语种文本
关系：A语种表达的意思，在B语种中有对应得意思

比如太阳，英文就是son

无监督学习

**释义：**给与机器得数据是没有标注信息得，简单理解就是只有输入，这种情况也可以让机器进行一些分析
应用场景：聚类、降维、找特征值等等
聚类
**释义：**比如将一系列水果，按照大小、颜色、口味对应不同得数字，把水果转换为向量数子表示，这个时候通过空间向量得计算，可以判断那些向量比较接近，那么按照一定得算法就可以将它们分类，虽然我们不清楚分得是什么类
在这里插入图片描述
降维
释义： 我们在整理了1000个人的各项数据，包括用100个维度去表示他们各自的信息：身高、是否结婚、工作、胖瘦、年龄、手长、腰围等；但是对于我们某一个任务来说，某些维度的信息没有用，比如是否结婚不关注，那么我们通过一定的算法，将其中某些不用的维度去除掉，降低的数据的复杂性，这就是降维。
在这里插入图片描述