Python中的机器学习:从入门到实战

news2024/9/29 2:57:59

在这里插入图片描述

机器学习是人工智能领域的一个重要分支,它通过构建模型来使计算机从数据中学习并做出预测或决策。Python凭借其丰富的库和强大的生态系统,成为了机器学习的首选语言。本文将从基础到实战,详细介绍如何使用Python进行机器学习,涵盖数据预处理、模型训练、模型评估和实际应用等多个方面。

1. 安装必要的库

在开始机器学习之前,需要安装一些常用的库。这些库包括用于数据处理的pandas,用于数值计算的numpy,用于机器学习的scikit-learn,以及用于数据可视化的matplotlibseaborn

pip install pandas numpy scikit-learn matplotlib seaborn
2. 数据预处理

数据预处理是机器学习的重要步骤,包括数据清洗、特征选择、特征缩放等。

导入数据
import pandas as pd

# 读取CSV文件
data = pd.read_csv('data.csv')

# 查看前5行数据
print(data.head())
处理缺失值
# 检查缺失值
print(data.isnull().sum())

# 删除含有缺失值的行
data = data.dropna()

# 填充缺失值
data = data.fillna(0)
特征选择
# 选择特征和目标变量
X = data[['feature1', 'feature2', 'feature3']]
y = data['target']
特征缩放
from sklearn.preprocessing import StandardScaler

# 创建标准化对象
scaler = StandardScaler()

# 拟合和转换特征
X_scaled = scaler.fit_transform(X)
3. 模型训练

选择合适的模型并进行训练是机器学习的核心步骤。scikit-learn提供了多种机器学习算法,包括线性回归、逻辑回归、决策树、随机森林等。

线性回归
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# 创建线性回归模型
model = LinearRegression()

# 训练模型
model.fit(X_train, y_train)
决策树
from sklearn.tree import DecisionTreeClassifier

# 创建决策树模型
model = DecisionTreeClassifier()

# 训练模型
model.fit(X_train, y_train)
随机森林
from sklearn.ensemble import RandomForestClassifier

# 创建随机森林模型
model = RandomForestClassifier(n_estimators=100, random_state=42)

# 训练模型
model.fit(X_train, y_train)
4. 模型评估

模型训练完成后,需要对其性能进行评估。常用的评估指标包括准确率、精确率、召回率、F1分数等。

评估回归模型
from sklearn.metrics import mean_squared_error, r2_score

# 预测
y_pred = model.predict(X_test)

# 评估模型
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse}")
print(f"R^2 Score: {r2}")
评估分类模型
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# 预测
y_pred = model.predict(X_test)

# 评估模型
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='weighted')
recall = recall_score(y_test, y_pred, average='weighted')
f1 = f1_score(y_test, y_pred, average='weighted')

print(f"Accuracy: {accuracy}")
print(f"Precision: {precision}")
print(f"Recall: {recall}")
print(f"F1 Score: {f1}")
5. 模型调优

通过调整模型的超参数,可以进一步提高模型的性能。scikit-learn提供了网格搜索(Grid Search)和随机搜索(Random Search)等方法来进行超参数调优。

网格搜索
from sklearn.model_selection import GridSearchCV

# 定义参数网格
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10]
}

# 创建随机森林模型
model = RandomForestClassifier(random_state=42)

# 创建网格搜索对象
grid_search = GridSearchCV(model, param_grid, cv=5, scoring='accuracy')

# 执行网格搜索
grid_search.fit(X_train, y_train)

# 获取最佳参数和最佳模型
best_params = grid_search.best_params_
best_model = grid_search.best_estimator_

print(f"Best Parameters: {best_params}")
随机搜索
from sklearn.model_selection import RandomizedSearchCV

# 定义参数分布
param_dist = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10]
}

# 创建随机森林模型
model = RandomForestClassifier(random_state=42)

# 创建随机搜索对象
random_search = RandomizedSearchCV(model, param_distributions=param_dist, n_iter=10, cv=5, scoring='accuracy', random_state=42)

# 执行随机搜索
random_search.fit(X_train, y_train)

# 获取最佳参数和最佳模型
best_params = random_search.best_params_
best_model = random_search.best_estimator_

print(f"Best Parameters: {best_params}")
6. 实际应用

机器学习在实际应用中有着广泛的应用场景,如客户细分、推荐系统、欺诈检测等。

客户细分
from sklearn.cluster import KMeans

# 选择特征
X = data[['feature1', 'feature2', 'feature3']]

# 创建KMeans模型
kmeans = KMeans(n_clusters=3, random_state=42)

# 训练模型
kmeans.fit(X)

# 获取聚类标签
labels = kmeans.labels_

# 添加聚类标签到数据集中
data['cluster'] = labels

# 查看每个聚类的特征分布
print(data.groupby('cluster').mean())
推荐系统
from sklearn.metrics.pairwise import cosine_similarity

# 选择用户-物品评分矩阵
ratings = data.pivot(index='user_id', columns='item_id', values='rating')

# 计算相似度矩阵
similarity_matrix = cosine_similarity(ratings.fillna(0))

# 获取用户1的相似用户
user_similarities = similarity_matrix[0]

# 推荐物品
recommendations = ratings.iloc[user_similarities.argsort()[::-1][:10]].mean(axis=0).sort_values(ascending=False)

print(recommendations)
欺诈检测
from sklearn.ensemble import IsolationForest

# 选择特征
X = data[['feature1', 'feature2', 'feature3']]

# 创建Isolation Forest模型
model = IsolationForest(contamination=0.05, random_state=42)

# 训练模型
model.fit(X)

# 预测异常值
anomalies = model.predict(X)

# 添加异常标签到数据集中
data['anomaly'] = anomalies

# 查看异常数据
print(data[data['anomaly'] == -1])
结语

Python在机器学习领域具有强大的生态系统,通过使用pandasnumpyscikit-learn等库,可以轻松实现从数据预处理到模型训练、模型评估和实际应用的全流程。希望本文能帮助你更好地理解和应用Python进行机器学习,提升你的数据分析和建模能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2175619.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

论文解读 | ACL'24最佳论文:利用扩散模型破译甲骨文语言

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 点击 阅读原文 观看作者讲解回放! 作者简介 管海粟,华中科技大学本科生在读。 主要研究方向为图像生成、图像分割、多模态大模型。获得国家奖学金、校三好学生奖学金、华中科技大学本科特…

开源AI智能名片小程序源码:私域电商构建独特竞争力的新机遇

摘要:本文旨在探讨私域电商如何利用开源AI智能名片小程序源码构建独特竞争力。在强调独特性是通向成功的必要条件的基础上,分析开源AI智能名片小程序源码在私域电商发展独特性方面的作用及相关策略。 一、引言 在竞争激烈的商业环境中,让自己…

西陆家政系统V1.0.1

微信小程序开发的西陆家政服务管理系统小程序 V1.0.1bug修复优化 1.修复首页轮播不能自动轮播问题;2.修复订单详情价格显示问题;3.修复在开放城市模式下,其他城市可以下单问题;4.修复个人二维码跳转小程序路径异常问题;5.修复小程序编辑我的地址选择定位后不刷新问题&#xf…

LeetCode 每周算法 8(栈、堆)

LeetCode 每周算法 8(栈、堆) 栈算法: class Solution { public: // 判断括号是否有效的函数 bool isValid(string s) { int n s.size(); // 获取字符串s的长度 // 如果字符串长度为奇数,则括号无法有效匹配,直…

利用多模态输入的自我中心运动跟踪与理解框架:EgoLM

随着增强现实(AR)和虚拟现实(VR)技术的发展,对自我中心(第一人称视角)运动的精确跟踪和理解变得越来越重要。传统的单一模态方法在处理复杂场景时存在诸多局限性。为了解决这些问题,研究者们提出了一种基于多模态输入的自我中心运动跟踪与理解框架——EgoLM。本文将详细…

群晖套娃:群晖+飞牛fnOS二合一,群晖nas安装飞牛fnOS系统实录(飞牛fnOS初体验,如何挂载网盘视频,轻松实现影视刮削)

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 飞牛fnOS 📒📝 什么是飞牛fnOS?📝 准备工作📝 安装飞牛fnOS📝 影视刮削⚓️ 相关链接 ⚓️📖 介绍 📖 最近有一款很火的国产NAS系统吸引了不少用户的注意。你是否曾想过,将这种新兴系统安装到你的群晖设备上,实…

选读算法导论5.2 指示器随机变量

为了分析包括包括雇佣分析在内的许多算法,我们将使用指示器随机变量,它为概率和期望之间的转换提供了一个便利的方法,给定一个样本空间S和事件A,那么事件A对应的指示器随机变量: Xa 1 如果A发生    0 如果…

EEditor中的redo/uodo机制

本文分析EEditor中的redo/undo机制,并比较与常见的C中的undo/redo机制的区别。 内容 和传统的C中Command设计模式一致,EcommandManager管理命令,同时提供了命令类ECommand。其中EcommandManager中存在两个列表,一个为可撤销命令列…

网页设计进阶:favicon 图标、CSS 隐藏样式与鼠标样式

目录 非 VIP 用户可前往公众号回复“css”进行免费阅读 favicon图标 CSS 隐藏样式 鼠标样式 非 VIP 用户可前往公众号回复“css”进行免费阅读 favicon图标 在网页中引入 favicon 图标时,可采用如下的页面引入方法: <link rel="shortcut icon" hre…

3种解决Docker容器中配置运行环境的方法

1. dockerfile用于通过脚本生成镜像 2.进入docker容器后&#xff0c;配置环境完&#xff0c;导出容器快照为镜像&#xff0c;拷贝到另一个主机&#xff0c;再进行加载&#xff1b; 3.在本地将依赖库等需要的文件按照目录整理好&#xff0c;映射到docker中。 1. dockerfile用于…

衡石分析平台系统管理手册-功能配置之资源管理

资源管理​ 系统管理员可以对系统中的所有资源进行查看、转移所有权、删除操作&#xff1b; 可以查看特定用户持有的资源&#xff0c;从而可用在资源转移/删除后&#xff0c;删除用户、释放系统资源&#xff1b; 在组织用户变动较大时&#xff0c;可以实现资源的整理和回收。…

力扣 最小覆盖子串

最小覆盖子串 https://leetcode.cn/problems/minimum-window-substring/ 题目描述 题目分析f 覆盖子串&#xff1a;首先根据题意&#xff0c;要求目标字符串的元素必须都在子串中出现过&#xff0c;这表明可以是乱序出现。所以在解决问题是我们需要对子串和目标字符串做匹配&a…

408数据结构解析模版

第一题&#xff1a; 解析&#xff1a; 答案选A。 第二题&#xff1a; 解析&#xff1a; 答案选A。 第三题&#xff1a; 解析&#xff1a; 答案选A。 第四题&#xff1a; 解析&#xff1a; 答案选A。 第五题&#xff1a; 解析&#xff1a; 答案选A。 第六题&#xff1a; 解析…

数据结构与算法——Java实现 22.有效的括号

目录 22. 有效的括号 思路 接口 数组实现类 有效的括号 力扣 直到有一天&#xff0c;我不会再问离开的人为什么 —— 24.9.28 22. 有效的括号 给定一个只包括 (&#xff0c;)&#xff0c;{&#xff0c;}&#xff0c;[&#xff0c;] 的字符串 s &#xff0c;判断字符串是否有效。…

鸿蒙开发(NEXT/API 12)【硬件(传感器开发)】传感器服务

使用场景 Sensor Service Kit&#xff08;传感器服务&#xff09;使应用程序能够从传感器获取原始数据&#xff0c;并提供振感控制能力。 Sensor&#xff08;传感器&#xff09;模块是应用访问底层硬件传感器的一种设备抽象概念。开发者可根据传感器提供的相关接口订阅传感器…

新电脑需要安装杀毒软件吗?

以下是关于新电脑是否需要安装杀毒软件的建议&#xff1a; 如果您经常访问各类网站&#xff0c;下载未知来源的文件&#xff0c;或者使用外部存储设备交换数据&#xff0c;那么安装杀毒软件是有必要的。 操作步骤&#xff1a;选择一款知名的杀毒软件&#xff0c;如 360 杀毒、腾…

KaiOS statusbar 更新代码逻辑

简介 状态栏在system APP,KaiOS上面的代码路径是 gaia/apps/system。 statusbar.js 代码结构 gaia\apps\system\js\statusbar.js 状态栏逻辑 statusbar.js代码结构-1-变量 statusbar.js代码结构-2-detail StatuBar 对象 var StatusBar = {serviceState: function sb_updat…

[spring]SpringBoot拦截器 统一数据返回格式 统一异常处理

文章目录 一. 拦截器1. 什么是拦截器2. 拦截器的使用自定义拦截器注册配置器拦截路径 3. 适配器模式 二. 统一数据返回格式异常处理 三. 统一异常处理 一. 拦截器 1. 什么是拦截器 例如, 图书管理系统, 在访问图书list页面之前, 需要先进行登录, 如果没登录, 就需要进行强制跳…

SpringCloud入门(九)Feign实战应用和性能优化

一、Feign实战应用 Feign的客户端与服务提供者的controller代码非常相似&#xff1a; 有没有一种办法简化这种重复的代码编写呢&#xff1f; 方式一&#xff1a;继承 优点&#xff1a; 简单。实现了代码共享。 缺点&#xff1a;服务提供方、服务消费方紧耦合。参数列表中的注解…

【Docker】如何让docker容器正常使用nvidia显卡

首先确保宿主机正常安装了显卡驱动 nvidia-smi打印显卡信息如下&#xff1a; 安装nvidia-container-toolkit工具 sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit sudo systemctl restart docker运行如下命令测试显卡是否在容器内可用 …