机器学习知识点

news2024/11/23 19:14:08

1鸢尾花分类

鸢尾花分类问题是一个经典的机器学习问题,旨在根据鸢尾花的花萼长度、花萼宽度、花瓣长度和花瓣宽度等特征,将鸢尾花分成三个品种:山鸢尾(setosa)、变色鸢尾(versicolor)和维吉尼亚鸢尾(virginica)。

这个问题常用的解决方法是使用机器学习算法来构建一个分类器,然后使用该分类器对新的鸢尾花样本进行分类。常用的分类算法包括支持向量机(SVM)、K近邻(K-Nearest Neighbors)、决策树(Decision Tree)等。

在解决鸢尾花分类问题时,通常采取以下步骤:

  1. 数据获取与准备: 首先,需要收集包含鸢尾花样本的数据集,常用的是经典的鸢尾花数据集,例如iris数据集。然后,对数据进行预处理,包括数据清洗、特征选择、特征缩放等。

  2. 选择模型: 选择适合问题的分类模型,常见的包括支持向量机(SVM)、K近邻(K-Nearest Neighbors)、决策树(Decision Tree)、随机森林(Random Forest)等。

  3. 训练模型: 使用训练数据对选择的模型进行训练,这一过程会使模型根据数据学习到相应的规律或模式。

  4. 模型评估: 使用测试数据评估模型的性能,通常使用准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1值等指标来评估模型的表现。

  5. 模型调优: 根据评估结果,对模型进行调优,例如调整模型的超参数、选择更合适的特征等,以提高模型的性能。

  6. 模型应用: 最终,将训练好的模型用于实际问题中,对新的鸢尾花样本进行分类预测。

题目描述:

要求: 鸢尾花分类问题,我们可以通过python的sklearn库,给出预测结果和实际值的对比,并且给出正确率评分。

  • 1、导入sklearn库,包括需要用到的数据集dataset.load_iris()、svm分类器工具和、模型用到的数据集拆分工具。
  • 2、使用python命令导入数据,并且设置好训练集和测试集。
  • 3、创建svm.LinearSVC分类器
  • 4、使用分类器clf的fit方法进行拟合训练
  • 5、使用分类器clf的predict方法对测试集数据进行预测
  • 6、对比测试集的预测结果和测试集的真实结果,并且使用clf的score方法获得预测准确率。

代码:

from sklearn import datasets  # 导入数据集模块
from sklearn import svm  # 导入支持向量机模块
from sklearn.model_selection import train_test_split  # 导入数据集拆分工具
# 加载鸢尾花数据集
iris = datasets.load_iris()
X = iris.data  # 特征数据
y = iris.target  # 类别标签
# 将数据集拆分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
# 创建线性支持向量机分类器
clf = svm.LinearSVC()
# 使用训练集训练分类器
clf.fit(X_train, y_train)
# 对测试集进行预测
y_predict = clf.predict(X_test)
# 对比预测结果和真实结果,并输出
comparison = ['预测值: ' + str(a) + ' 实际类别: ' + str(b) for a, b in zip(y_predict, y_test)]
for comp in comparison:
    print(comp)
# 输出分类器在测试集上的准确率
print(f'准确率:{clf.score(X_test, y_test)}')

 结果如图:

 2 KNN算法

K近邻(K-Nearest Neighbors,KNN)算法是一种基本的分类和回归方法。其基本思想是:对于新的样本数据,通过计算其与训练集中的样本的距离,然后选取距离最近的K个样本,根据这K个样本的类别(对于分类问题)或者值(对于回归问题),通过多数表决或者加权平均的方式确定新样本的类别或者值。

在KNN算法中,K是一个用户定义的常数,表示选择最近邻的数量。K的选择会直接影响到算法的性能,一般来说,K值越小,模型对噪声和孤立点的敏感度越高,而K值越大,模型的平滑程度越高,但也可能导致模型欠拟合。

KNN算法不需要显式的训练过程,而是将训练集中的数据保存起来,当需要对新的样本进行预测时,直接在保存的数据集中进行搜索和计算。因此,KNN算法是一种懒惰学习(lazy learning)算法。

KNN算法的优点包括简单易懂、易于实现以及在训练集较大的情况下表现良好。然而,KNN算法的缺点也很明显,主要包括对数据集的高度依赖、计算复杂度高、对于高维数据和大规模数据集的效率低下等。

题目描述:

使用K近邻算法,构建一个预测鸢尾花种类的模型。

要求

  1. 加载鸢尾花数据集
  2. 对数据集进行划分:参数test_size=0.2,random_state=2
  3. 构建KNN模型:调用sklearn中的函数进行构建
  4. 训练模型
  5. 预测模型:选取测试集中的第3组数据(下标为2)进行预测
  6. 输出得到的预测值和真实值

代码:

from sklearn import datasets  # 导入数据集模块

# 加载鸢尾花数据集
iris = datasets.load_iris()
x = iris.data  # 特征数据
y = iris.target  # 类别标签

# 划分数据集
from sklearn.model_selection import train_test_split
# 将数据集划分为训练集和测试集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=2)

# 构建模型
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=3)  # 使用K近邻算法,设置邻居数为3

# 训练模型
knn.fit(x_train, y_train)

# 模型预测
x_to_predict = x_test[2].reshape(1, -1)  # 选取测试集中的第3组数据(下标为2)进行预测
y_predicted = knn.predict(x_to_predict)

# 输出预测值和真实值
print("预测值:" + str(y_predicted))  # 输出预测的类别
print("真实值:" + str(y_test[2]))  # 输出该样本在测试集中的真实类别

结果如图:

 3策树分类模型

决策树是一种基于树状结构的监督学习算法,用于解决分类和回归问题。在决策树中,每个内部节点表示一个特征属性上的判断条件,每个分支代表一个判断结果,每个叶子节点表示最终的分类结果或数值预测结果。

决策树的构建过程是一个递归地选择最佳特征进行分裂的过程,直到满足停止条件为止。在构建决策树时,一般会使用信息增益、基尼不纯度等指标来选择最佳的特征进行分裂,以使得每次分裂后的数据集更加纯净(即同一类别的样本更加集中)。

以下是决策树分类的一些重要知识点:

  1. 节点与叶子节点:决策树由节点和叶子节点组成。节点表示一个特征属性上的判断条件,叶子节点表示最终的分类结果。

  2. 分裂准则:在构建决策树时,需要确定节点分裂的准则。常用的准则包括信息增益、基尼不纯度等,用于选择最佳的特征进行分裂。

  3. 剪枝:为了避免过拟合,决策树需要进行剪枝操作。剪枝可以分为预剪枝(在构建树的过程中进行剪枝)和后剪枝(在构建完整棵树后再进行剪枝)。

  4. 特征选择:在每个节点上,需要选择最佳的特征进行分裂。常用的特征选择方法有信息增益、基尼指数、方差等。

  5. 决策树的优缺点

    • 优点:易于理解和解释,可视化效果好,能够处理数值型和类别型数据,对缺失值不敏感。
    • 缺点:容易过拟合,对噪声数据敏感,不稳定,需要进行剪枝操作。
  6. 集成学习中的应用:决策树常被用于集成学习方法中,如随机森林和梯度提升树。这些方法通过组合多个决策树来提高分类准确率和泛化能力。

题目描述:

对红酒数据集创建决策树分类模型,并输出每个特征的评分。

要求

  1. 从sklearn的datasets模块中导入load_wine 包,读取红酒数据集,
  2. 转换为DataFrame格式,将数据集划分为特征样本和标签样本,
  3. 使用该数据集建立决策树分类模型,树深设置为5,随机种子设置为1,其他值设置为默认值
  4. 将数据放入模型中进行训练,要求输出每个特征的评分。

代码:

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_wine

# 加载红酒数据集
wine = load_wine()

# 创建DataFrame格式的特征样本和标签样本
x_train = pd.DataFrame(data=wine["data"], columns=wine["feature_names"])  # 特征样本
y_train = wine["target"]  # 标签样本

# 建立决策树分类模型
model = DecisionTreeClassifier(max_depth=5, random_state=1)
model.fit(x_train, y_train)  # 模型训练

# 输出每个特征的评分(特征重要性)
print("每个特征的评分(特征重要性):")
for feature, importance in zip(wine["feature_names"], model.feature_importances_):
    print(f"{feature}:{importance:.4f}")  # 对每个特征列进行评分

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1579512.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

云服务器的特点

云服务器是一种基于云计算技术的服务器服务,它提供了可灵活扩展的计算资源和环境。Rak部落小编为您整理发布云服务器的特点,希望对您有帮助。 以下是云服务器的一些主要特点: 1. **灵活性**:云服务器允许用户根据业务需求灵活地配…

经纬恒润首个重卡车身域控制器成功量产

近日,经纬恒润自主研发的首个商用车车身域控制器已搭载江淮格尔发K7成功量产。此次量产成功,将助力江淮格尔发K7的智能舒适性提升,配合江淮L2级智能驾驶系统,大大提高终端用户的使用体验。 伴随软件定义汽车和汽车智能化、网联化…

达梦关键字(如:XML,EXCHANGE,DOMAIN,link等)配置忽略

背景:在使用达梦数据库时,查询SQL中涉及XML,EXCHANGE,DOMAIN,link字段,在达梦中是关键字,SQL报关键词不能使用的错误。 解决办法: 配置达梦安装文件E:\MyJava\dmdbms\data\DAMENG\dm.ini 忽略这些关键词,…

windows安装使用nacos

1.下载安装包 网址:Releases alibaba/nacos GitHub 2.解压,bin目录下修改启动脚本为单机 3.修改数据库配置,使用本地mysql数据库 3.1 创建nacos数据库 3.2 执行 nacos\conf 目录下数据库脚本 4.修改nacos\conf目录下数据库配置 5.点击运…

【AOP入门案例深解析】

AOP 1.AOP简介 AOP(Aspect Oriented Programming)面向切面编程,是一种编程范式,指导开发者如何组织程序结构 OOP(Object Oriented Programming)面向对象编程 作用:在步惊动原始设计的基础上进行…

第二证券|“元素周期表”行情延续 资源股牛市引发激辩

4月8日,以黄金等贵金属、铜等工业金属为首的周期板块继续狂飙。无论是现货,仍是商品期货,抑或是股票商场的资源股,价格均在继续扬升。赛道股和周期股的“跷跷板”效应接连,医药、光伏、芯片等板块普跌。 截至收盘&…

统信UOS系统初识--研发岗

第一步 获取root权限 配置环境等都需要用到root权限,所以我们先获取到root权限,方便下面的操作 下载软件 在UOS应用商店下载的所需应用 版本都比较低 安装node 官网下载了【arm64】的包,解压到指定文件夹,设置链接&#xff0…

Codeforces Round 938 (Div. 3) (A~E)

Codeforces Round 938 (Div. 3) (A~E) 目录:A B C D E A题:Yogurt Sale 标签: 数学(math) 题目大意 酸奶价格, a 元一份,b元两份n问:买n份最少多少钱 思路 a元一份,b元两份&#…

css实现各级标题自动编号

本文在博客同步发布,您也可以在这里看到最新的文章 Markdown编辑器大多不会提供分级标题的自动编号功能,但我们可以通过简单的css样式设置实现。 本文介绍了使用css实现各级标题自动编号的方法,本方法同样适用于typora编辑器和wordpress主题…

【C++】C++11可变参数模板

👀樊梓慕:个人主页 🎥个人专栏:《C语言》《数据结构》《蓝桥杯试题》《LeetCode刷题笔记》《实训项目》《C》《Linux》《算法》 🌝每一个不曾起舞的日子,都是对生命的辜负 目录 前言 可变参数模板的定义…

简化您的实验室:用于样品瓶库存跟踪的高级批量扫描

在实验室工作需要精确和高效。跟踪小瓶库存至关重要但很耗时。忘记手动扫描并使用 Dynamsoft Barcode Reader进行自动批量扫描。 点击下载Dynamsoft最新版https://www.evget.com/product/3691/download 具有批量扫描功能的管式和架式扫描仪 批量扫描在扫描托盘上的小瓶时特别…

微信小程序自定义tabbar,页面切换存在闪动【解决方案】

需求: 自定义tabbar,在需要的几个主页面都加入这么一个组件,但是有个情况;而组件中使用照片(svg或png)和文字;在切换tabbar的时候,跳转相应的页面,运行到真机或是模拟器,…

中国国家博物馆古代钱币展

第一部分,以时间为线介绍四次变革 贝壳 春秋战国:刀币布币圆钱。从春秋时期进入金属铸币阶段到战国时期已确立布币,刀币,蚁鼻钱,环钱四大货币体系。 秦:圆形方孔(直到清末机器铸钱变为无孔&a…

上海晶珩树莓派工业智能机械臂,亮相2024年embedded world博览会!

上海晶珩树莓派工业智能机械臂,亮相2024年embedded world博览会! 工业智能机械臂是上海晶珩(EDATEC)团队基于树莓派工业相机ED-AIC2000和树莓派工业触摸屏ED-HMI2320开发的创新应用案例。 工业智能机械臂具备卓越的定位能力&…

【CVE复现计划】CVE-2024-0195

CVE-2024-0195 简介: SpiderFlow是新一代开源爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。基于springbootlayui开发的前后端不分离,也可以进行二次开发。该系统/function/save接口存在RCE漏洞,攻击者可以构造恶意命…

最简单知识点PyTorch中的nn.Linear(1, 1)

一、nn.Linear(1, 1) nn.Linear(1, 1) 是 PyTorch 中的一个线性层(全连接层)的定义。 nn 是 PyTorch 的神经网络模块(torch.nn)的常用缩写。 nn.Linear(1, 1) 的含义如下: 第一个参数 1:输入特征的数量…

爬虫入门教程(一)

爬虫入门教程 1.什么是爬虫 爬虫是一种自动获取网站数据的程序或脚本。它可以自动模拟人类访问网站,获取网页源代码,解析并提取出所需的数据。 爬虫的工作原理类似于搜索引擎的索引程序,它们会按照预定的规则和算法在互联网上不断地爬取网页,收集信息…

蓝桥杯 交通信号 2022研究生组

问题: Dijstra算法变形题,有向边分正行和逆行方向,注意逆行的绿灯时间是正行的红灯时间。 这题的关键是理清从当前节点出发,到下一个节点是哪一时刻,理清这一点后,再跑Dijstra算法求最短路。 假设curr_t时…

STC89C52学习笔记(三)

STC89C52学习笔记(三) 综述:本文讲述了通过51单片机控制LED闪烁、流水灯、按键控制LED亮灭、按键控制LED实现二进制、按键控制LED左右移。 一、LED 1.LED闪烁 1)LED电路原理 LED采用共阳极,当LED另一端为低电平时…

【CSDN活动】人工智能:前沿科技中的创业机遇与挑战

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 人工智能:前沿科技中的创业机遇与挑战一、AI技术的快速发展与应用拓…