一文了解python机器学习Sklearn

news2025/2/23 20:15:17

1.3 安装和配置Sklearn

要使用Sklearn库,首先需要安装Python和相应的库。在本教程中,我们将使用Python 3.x版本。可以使用以下命令安装Sklearn库:

pip install scikit-learn

安装完成后,可以在Python代码中导入Sklearn库:

import sklearn

2. 数据预处理

2.1 数据加载与查看

在进行机器学习任务之前,通常需要对数据进行预处理。首先,我们需要加载数据。以下是使用pandas库加载CSV和Excel格式数据的示例:

import pandas as pd

# 加载CSV数据
csv_data = pd.read_csv("data.csv")

# 加载Excel数据
excel_data = pd.read_excel("data.xlsx")

加载数据后,我们可以查看数据的基本信息,如形状、数据类型等。以下是使用pandas库查看数据信息的示例:

# 查看数据形状
print("数据形状:", csv_data.shape)

# 查看数据类型
print("数据类型:", csv_data.dtypes)

# 查看数据前5行
print("数据前5行:", csv_data.head())

2.2 数据清洗

在实际应用中,数据通常包含缺失值、重复值等异常情况。我们需要对数据进行清洗,以提高模型的准确性和泛化能力。以下是使用pandas库处理缺失值和重复值的示例:

# 处理缺失值
csv_data.fillna(csv_data.mean(), inplace=True)  # 使用平均值填充缺失值

# 处理重复值
csv_data.drop_duplicates(inplace=True)  # 删除重复行

2.3 特征工程

特征工程是机器学习中的关键步骤,可以提高模型的性能。以下是使用pandas库进行特征选择、特征提取和特征缩放的示例:

# 特征选择
selected_features = csv_data[["feature1", "feature2", "feature3"]]

# 特征提取
from sklearn.feature_extraction import DictVectorizer

data_dict = [{"feature1": 1, "feature2": 2}, {"feature1": 3, "feature2": 4}]
vectorizer = DictVectorizer()
extracted_features = vectorizer.fit_transform(data_dict)

# 特征缩放
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaled_features = scaler.fit_transform(selected_features)

3. 监督学习

3.1 分类问题

分类问题是机器学习中最常见的任务之一。以下是使用Sklearn库进行分类的示例:

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建K近邻分类器
knn = KNeighborsClassifier(n_neighbors=3)

# 训练模型
knn.fit(X_train, y_train)

# 预测
y_pred = knn.predict(X_test)

# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print("准确率:", accuracy)

3.2 回归问题

回归问题是机器学习中另一种常见的任务。以下是使用Sklearn库进行回归的示例:

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# 加载数据集
boston = load_boston()
X = boston.data
y = boston.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建线性回归模型
lr = LinearRegression()

# 训练模型
lr.fit(X_train, y_train)

# 预测
y_pred = lr.predict(X_test)

# 评估模型
mse = mean_squared_error(y_test, y_pred)
print("均方误差:", mse)

3.3 模型训练与调优

在实际应用中,我们需要对模型进行训练和调优,以提高模型的性能。以下是使用Sklearn库进行模型训练和调优的示例:

from sklearn.model_selection import GridSearchCV

# 创建K近邻分类器
knn = KNeighborsClassifier()

# 设置参数网格
param_grid = {"n_neighbors": [1, 3, 5, 7, 9]}

# 创建网格搜索对象
grid_search = GridSearchCV(knn, param_grid, cv=5, scoring="accuracy")

# 拟合数据
grid_search.fit(X_train, y_train)

# 获取最佳参数
best_params = grid_search.best_params_
print("最佳参数:", best_params)

# 使用最佳参数训练模型
best_knn = KNeighborsClassifier(**best_params)
best_knn.fit(X_train, y_train)

# 预测
y_pred = best_knn.predict(X_test)

# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print("准确率:", accuracy)

4. 无监督学习

4.1 聚类问题

聚类问题是无监督学习中的常见任务。以下是使用Sklearn库进行聚类的示例:

from sklearn.cluster import KMeans

# 创建K-means聚类模型
kmeans = KMeans(n_clusters=3, random_state=42)

# 训练模型
kmeans.fit(X)

# 预测聚类结果
y_pred = kmeans.predict(X)

# 评估聚类结果
from sklearn.metrics import silhouette_score

silhouette = silhouette_score(X, y_pred)
print("轮廓系数:", silhouette)

4.2 降维问题

降维问题是无监督学习中另一种常见的任务。以下是使用Sklearn库进行降维的示例:

from sklearn.decomposition import PCA

# 创建PCA模型
pca = PCA(n_components=2)

# 训练模型
pca.fit(X)

# 降维
X_reduced = pca.transform(X)

# 可视化降维结果
import matplotlib.pyplot as plt

plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y)
plt.show()

5. 模型评估与选择

5.1 模型评估

模型评估是衡量模型性能的重要环节。以下是常见的分类和回归评估指标:

  • 分类问题评估指标:准确率、召回率、F1分数等
  • 回归问题评估指标:均方误差、R²分数等

5.2 模型选择

模型选择是选择最优模型的过程。以下是常见的模型选择方法:

  • 交叉验证:将数据集划分为k个子集,每次取k-1个子集作为训练集,剩下的一个子集作为测试集,重复k次,计算k次模型性能的平均值
  • 网格搜索:遍历参数组合,找到最优参数组合
  • 随机搜索:随机采样参数组合,找到最优参数组合

6. 集成学习

集成学习是将多个模型结合起来,以提高整体性能的方法。以下是常见的集成学习方法:

  • Bagging:并行训练多个模型,每个模型使用不同的训练数据子集
  • Boosting:串行训练多个模型,每个模型使用前一个模型的残差作为训练数据
  • Stacking:训练多个模型,将每个模型的预测结果作为新模型的输入特征
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1641508.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

WIN10 anaconda 安装 CondaError: Run ‘conda init‘ before ‘conda activate‘

1 下载 https://www.anaconda.com/download/success 2 安装 3 修改环境变量 安装后修改环境变量 4 winrun 进入命令窗口 输入cmd 输入 conda info 5 创建 虚拟环境 conda create -n yolov8 python3.8 -y 6 CondaError: Run ‘conda init’ before ‘conda activate’ c…

架构每日一学 2:架构师六个生存法则之一:架构必须有且仅有一个目标(一)

本文首发于公众号:腐烂的橘子 为什么有的架构活动没有正确的目标? 在每个架构活动启动之前,必须有且仅有一个正确的目标,这是架构设计的起点[1]。何为正确?正确就是要与公司的战略目标相匹配。否则系统会变得复杂和无…

基于Spring Boot的医疗服务系统设计与实现

基于Spring Boot的医疗服务系统设计与实现 开发语言:Java框架:springbootJDK版本:JDK1.8数据库工具:Navicat11开发软件:eclipse/myeclipse/idea 系统部分展示 医疗服务系统首页界面图,公告信息、医疗地图…

RHCE shell-第一次作业

要求: 1、判断当前磁盘剩余空间是否有20G,如果小于20G,则将报警邮件发送给管理员,每天检査- 次磁盘剩余空间。 2、判断web服务是否运行(1、查看进程的方式判断该程序是否运行,2、通过查看端口的方式 判断该程序是否运…

基于FPGA的数字信号处理(8)--RTL运算的溢出与保护

前言 在做加、减、乘、除等运算时,经常会发生 溢出 的情况。比如1个4bits的计数器(每个时钟累加1),在4’b1111 1 后,原本其期望值应该是 151 即16,但是4bits的寄存器能表示的最大值只是4‘b1111即15&…

Server 2022 IIS10 PHP 7.2.33 升级至 PHP 8.3 (8.3.6)

下载最新版本 PHP 8.3 (8.3.6),因为是 FastCGI 执行方式,选择 Non Thread Safe(非线程安全)。 若有以下提示: The mysqli extension is missing. Please check your PHP configuration. 或者 PHP Fatal error: Uncaught Error: Class &qu…

PDF Shaper Ultimate 免安装中文破姐版 v14.1

软件介绍 PDF Shaper是一套完整的多功能PDF编辑工具,可实现最高的生产力和文档安全性。它允许你分割,合并,水印,署名,优化,转换,加密和解密您的PDF文件,也可插入和移动页&#xff0…

每日OJ题_DFS爆搜深搜回溯剪枝①_力扣784. 字母大小写全排列

目录 力扣784. 字母大小写全排列 解析代码1_path是全局变量 解析代码2_path是函数参数 力扣784. 字母大小写全排列 784. 字母大小写全排列 难度 中等 给定一个字符串 s ,通过将字符串 s 中的每个字母转变大小写,我们可以获得一个新的字符串。 返回…

SpringSecurity6 学习

学习介绍 网上关于SpringSecurity的教程大部分都停留在6以前的版本 但是,SpringSecurity6.x版本后的内容进行大量的整改,网上的教程已经不能够满足 最新的版本使用。这里我查看了很多教程 发现一个宝藏课程,并且博主也出了一个关于SpringSec…

解决: 0x803f7001 在运行Microsoft Windows 非核心版本的计算机上,运行“ slui.exe 0x2a 0x803f7001 “以显示错误文本,激活win10步骤流程。

一. 解决 0x803F7001在运行Microsoft Windows非核心版本的计算机错误 首先,按下winR打开"运行",输入 regedit 后回车,打开注册表。   然后再注册表下输入地址HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows NT\CurrentVersion\SoftwareProt…

ssh远程访问windows系统下的jupyterlab

网上配置这一堆那一堆,特别乱,找了好久整理后发在这里 由于既想打游戏又想做深度学习,不舍得显卡性能白白消耗,这里尝试使用笔记本连接主机 OpenSSH 最初是为 Linux 系统开发的,现在也支持包括 Windows 和 macOS 在内…

【第三版 系统集成项目管理工程师】第2章 信息技术发展(知识总结)

持续更新。。。。。。。。。。。。。。。 【第2章】 信息技术发展 考情分析2. 1信息技术及其发展2.1.1 计算机软硬件-P501.计算机硬件2.计算机软件-P51 2.1.2计算机网络1.通信基础-P522.网络基础-P534.网络标准协议-P543.网络设备-P535.软件定义网络-P576.第五代移动通信技术-P…

【论文阅读】Tutorial on Diffusion Models for Imaging and Vision

1.The Basics: Variational Auto-Encoder 1.1 VAE Setting 自动编码器有一个输入变量x和一个潜在变量z Example. 获得图像的潜在表现并不是一件陌生的事情。回到jpeg压缩,使用离散余弦变换(dct)基φn对图像的底层图像/块进行编码。如果你给…

【Redis面试题】Redis常见的一些高频面试题

分享几个Redis入门级常见面试过程中遇到的题目! 你项目中哪里使用到了redis?可以讲一讲嘛 这个题目无论是大公司还是小公司都经常考,建议大家根据自己的项目做总结 redis的几种基础数据结构 redis为什么那么快? 1.基于内存实现:我们都知道内存读写是…

50个前端实战项目之04:隐藏的搜索小组件

大家好,我是宝哥。 今天讲50个前端实战项目之04:隐藏的搜索小组件。 源码下载地址 https://github.com/bradtraversy/50projects50days/tree/master/hidden-search 前端实战项目系列正在更新:04/50 01:可展开卡片02:进…

Springboot+Vue项目-基于Java+MySQL的图书商城管理系统(附源码+演示视频+LW)

大家好!我是程序猿老A,感谢您阅读本文,欢迎一键三连哦。 💞当前专栏:Java毕业设计 精彩专栏推荐👇🏻👇🏻👇🏻 🎀 Python毕业设计 &…

中国各省地图(高清晰一亿像素)

hello,我是小索奇 不知道大家有没有使用地图的习惯,反正小索奇去一个地方,就会使用地图,也会经常看世界地图,因为地理学得不好,有时候也记不住部分省份在哪里。所以会经常使用到地图 但去百度搜索里面寻找…

windows驱动开发-PNP管理器

PNP技术是由Microsoft提出的,英文Plug and play的缩写,中译即插即用,意思是系统自动侦测周边设备和板卡并自动安装设备驱动程序,做到插上就能用,无须人工干预,是Windows自带的一项技术。所谓即插即用是指将…

阿里云API网关 产品的使用笔记

阿里云的产品虽多,还是一如既往的一用一个看不懂,该模块的文档依旧保持“稳定”发挥,磕了半天才全部跑通。 用阿里云API网关的原因是,在Agent中写插件调用API的时候,需要使用Https协议,又嫌搞备案、证书等事…

关于YOLO8学习(三)训练自定义的数据集

前文 关于YOLO8学习(一)环境搭建,官方检测模型部署到手机 关于YOLO8学习(二)数据集收集,处理 简介 本文将会讲解: (1)如何通过PyCharm,进行训练数据,实现人脸检测 开发环境 win10、python 3.11、cmake、pytorch2.0.1+cu117、pycharm、ultralytics==8.0.134 要特…