【Python】在【数据挖掘】与【机器学习】中的应用:从基础到【AI大模型】

news2024/9/21 19:07:26

目录

💗一、Python在数据挖掘中的应用💕

💖1.1 数据预处理💞

💖1.2 特征工程💕

💗二、Python在机器学习中的应用💕

💖2.1 监督学习💞

💖2.2 非监督学习💞

💗三、Python在深度学习中的应用💕

💖3.1 深度学习框架💞

💗四、Python在AI大模型中的应用💕

💖4.1 大模型简介💞

💖4.2 GPT-4o实例💞

💗五、实例验证💕

💖5.1 数据集介绍💞

💖5.2 模型构建与训练💞

💖5.3 模型优化💞

💗六、总结💕


在大数据时代,数据挖掘与机器学习成为了各行各业的核心技术。Python作为一种高效、简洁且功能强大的编程语言,得到了广泛的应用。

💗一、Python在数据挖掘中的应用💕

cb120410bbd14d46a1b702c6484653ae.png

💖1.1 数据预处理💞

数据预处理是数据挖掘中不可或缺的一步。它包括数据清洗、数据变换、数据归一化等步骤。Python的pandas库提供了强大的数据处理功能。

import pandas as pd
from sklearn.preprocessing import StandardScaler

# 读取数据
data = pd.read_csv('data.csv')

# 数据清洗
data = data.dropna()  # 去除缺失值
data = data.drop_duplicates()  # 去除重复值

# 数据变换
data['date'] = pd.to_datetime(data['date'])  # 日期格式转换

# 数据归一化
scaler = StandardScaler()
data[['feature1', 'feature2']] = scaler.fit_transform(data[['feature1', 'feature2']])

读取了一个CSV文件,然后使用pandas库进行数据清洗,包括去除缺失值和重复值。接着,我们将日期列转换为日期格式,并对两个特征列进行归一化处理,使其符合标准正态分布。

💖1.2 特征工程💕

特征工程是提升模型性能的重要手段。Python提供了多种工具来实现特征选择和特征提取。

from sklearn.feature_selection import SelectKBest, f_classif

# 特征选择
X = data.drop('target', axis=1)
y = data['target']
selector = SelectKBest(score_func=f_classif, k=5)
X_new = selector.fit_transform(X, y)

# 特征提取
from sklearn.decomposition import PCA

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

首先进行了特征选择,使用了SelectKBest选择评分最高的5个特征。通过主成分分析(PCA)进行特征提取,将特征降维到两个维度。

💗二、Python在机器学习中的应用💕

c6c67eee5ae6409d966e123e84509cf0.png

💖2.1 监督学习💞

监督学习是机器学习的主要方法之一,包括分类和回归。Scikit-learn是Python中常用的机器学习库,提供了丰富的模型和工具。

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 构建随机森林分类器
clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)

# 预测
y_pred = clf.predict(X_test)

# 评估
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

使用随机森林分类器进行分类任务。首先,将数据集划分为训练集和测试集,然后构建随机森林分类器并进行训练,最后在测试集上进行预测并计算准确率。

💖2.2 非监督学习💞

非监督学习主要用于聚类和降维。KMeans和DBSCAN是常用的聚类算法。

from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# 构建KMeans模型
kmeans = KMeans(n_clusters=3, random_state=42)
data['cluster'] = kmeans.fit_predict(data)

# 可视化聚类结果
plt.scatter(data['feature1'], data['feature2'], c=data['cluster'])
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('KMeans Clustering')
plt.show()

使用KMeans算法进行聚类,并将结果可视化。首先,构建KMeans模型并进行聚类,然后使用matplotlib库绘制聚类结果的散点图。

💗三、Python在深度学习中的应用💕

340f9e14f9244ceb9dface78149c2139.png

💖3.1 深度学习框架💞

TensorFlow和PyTorch是Python中最常用的深度学习框架。它们提供了构建和训练神经网络的丰富工具。

import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# 构建神经网络模型
model = Sequential([
    Dense(128, activation='relu', input_shape=(X_train.shape[1],)),
    Dense(64, activation='relu'),
    Dense(1, activation='sigmoid')
])

# 编译模型
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 训练模型
model.fit(X_train, y_train, epochs=10, batch_size=32, validation_split=0.2)

# 评估模型
loss, accuracy = model.evaluate(X_test, y_test)
print(f'Accuracy: {accuracy:.2f}')

使用TensorFlow构建了一个简单的全连接神经网络。模型包括两个隐藏层和一个输出层。我们使用Adam优化器和二元交叉熵损失函数,并在训练集上进行训练,最终在测试集上进行评估。

💗四、Python在AI大模型中的应用💕

💖4.1 大模型简介💞

AI大模型如GPT-4o和BERT已经在自然语言处理、图像识别等领域取得了突破性进展。构建和训练这些大模型需要强大的计算资源和先进的算法。

💖4.2 GPT-4o实例💞

OpenAI的GPT-4o是目前最先进的自然语言处理模型之一。使用GPT-4o可以进行文本生成、翻译、摘要等任务。

import openai

# 设置API密钥
openai.api_key = 'YOUR_API_KEY'

# 使用GPT-4o生成文本
response = openai.Completion.create(
    engine="gpt-4",
    prompt="Once upon a time in a land far, far away",
    max_tokens=50
)

print(response.choices[0].text.strip())

使用OpenAI的GPT-4o模型进行文本生成。通过设置API密钥并调用GPT-4o的文本生成接口,我们可以生成连续的文本。

💗五、实例验证💕

💖5.1 数据集介绍💞

使用UCI机器学习库中的Iris数据集来进行分类任务的实例验证。

from sklearn.datasets import load_iris
import pandas as pd

# 加载Iris数据集
iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = pd.Series(iris.target, name='target')

# 显示数据集信息
print(X.head())
print(y.head())

Iris数据集是一个经典的数据集,包含三种鸢尾花的特征和类别信息。我们首先加载数据集并将其转换为pandas的DataFrame和Series格式,方便后续处理。

💖5.2 模型构建与训练💞

构建一个决策树模型来分类Iris数据集。

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 构建决策树模型
clf = DecisionTreeClassifier(random_state=42)
clf.fit(X_train, y_train)

# 预测
y_pred = clf.predict(X_test)

# 评估
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

使用决策树分类器进行分类任务。首先,将数据集划分为训练集和测试集,然后构建决策树模型并进行训练,最后在测试集上进行预测并计算准确率。

💖5.3 模型优化💞

通过调整模型参数和使用交叉验证来优化模型性能。

from sklearn.model_selection import GridSearchCV

# 定义参数网格
param_grid = {
    'max_depth': [3, 5, 7, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# 网格搜索
grid_search = GridSearchCV(estimator=clf, param_grid=param_grid, cv=5, n_jobs=-1, verbose=2)
grid_search.fit(X_train, y_train)

# 最优参数和模型
best_params = grid_search.best_params_
best_clf = grid_search.best_estimator_

# 评估最优模型
y_pred = best_clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Optimized Accuracy: {accuracy:.2f}')
print(f'Best Parameters: {best_params}')

使用网格搜索来优化决策树模型的参数。通过定义参数网格并进行交叉验证,找出最优参数组合并训练最优模型,最终在测试集上进行评估。

💗六、总结💕

Python在数据挖掘和机器学习中的应用,涵盖了数据预处理、特征工程、监督学习、非监督学习和深度学习。Python凭借其强大的库和工具,成为了数据科学家和机器学习工程师的首选语言,不仅提供了丰富的功能,还拥有广泛的社区支持和不断更新的生态系统,使其在快速发展的AI领域中始终处于领先地位。ef673d7407724f32881917b7330d75a2.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1808350.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

cs与msf权限传递

cs传递到msf 1,先启动cs ┌──(root㉿ring04h)-[~/cobalt_strike_4.7] └─# ./teamserver 192.168.196.144 123456 ​ ┌──(root㉿ring04h)-[~/cobalt_strike_4.7] └─# ./start.sh ​ 2,上传木马,上线主机 3,msf配置一个…

Springboot健身房管理系统-计算机毕业设计源码44394

摘 要 大数据时代下,数据呈爆炸式地增长。为了迎合信息化时代的潮流和信息化安全的要求,利用互联网服务于其他行业,促进生产,已经是成为一种势不可挡的趋势。在健身房管理的要求下,开发一款整体式结构的健身房管理系统…

Unity HoloLens2 MRTK 空间锚点 基础教程

Unity HoloLens2 MRTK 空间锚点 基础教程 Unity HoloLens2 空间锚点MRTK 空间锚点 准备Unity 工程创建设置切换 UWP 平台UWP 平台设置 下载并安装混合现实功能工具导入混合现实工具包和 OpenXR 包 Unity 编辑器 UWP 设置Unity 2019.4.40 设置Unity 2022.3.0 设置Unity 2022.3.0…

【数据结构(邓俊辉)学习笔记】图04——双连通域分解

文章目录 0. 概述1 关节点与双连通域2 蛮力算法3 可行算法4 实现5 示例6 复杂度 0. 概述 学习下双连通域分解,这里略微有一点点难,这个算是DFS算法的非常非常经典的应用,解决的问题也非常非常有用。 1 关节点与双连通域 连通性很好理解&am…

C语言——字符数组

一、字符数组的定义 语言字符数组的定义是指在C语言中可以使用一组连续的字符来存储和处理字符串。在定义字符数组时,需要指定数组的大小,并且可以初始化数组的内容。 1、字符数组方式: char str[] "Hello,world!";2、指针方式…

13- 函数的定义与使用+形参实参区分

13- 函数的定义与使用形参实参区分 文章目录 13- 函数的定义与使用形参实参区分一、函数的定义与使用1.1 函数的结构1. 函数头2. 函数体 1.2 示例代码例子 1:无参数和无返回值的函数例子 2:带参数和返回值的函数 1.3 函数的基本语法1.4 函数的使用示例例…

「动态规划」如何计算能获得多少点数?

740. 删除并获得点数https://leetcode.cn/problems/delete-and-earn/description/ 给你一个整数数组nums,你可以对它进行一些操作。每次操作中,选择任意一个nums[i],删除它并获得nums[i]的点数。之后,你必须删除所有等于nums[i] …

统信UOS1070上配置文件管理器默认属性02

原文链接:统信UOS 1070上配置文件管理器默认属性01 Hello,大家好啊!今天给大家带来一篇在统信UOS 1070上配置文件管理器默认属性的第二篇文章——配置工作区视图。文件管理器中的工作区视图配置可以帮助我们更好地组织和管理文件,…

“群模时代”,国产AI大模型的进击

近期,国内多款大模型重磅消息不断。 1 3月,月之暗面的Kimi升级迭代后,长文本能力达到尚未上线的GPT-4.5Turbo的10倍。 2 4月,商汤科技发布的“日日新SenseNova”5.0多模态大模型在主流客观评测上,中文理解、知识储…

arm开发板移植sshd

移植sshd 文章目录 移植sshd1、准备工作2、编译zlib3、编译openssl4、编译openssh5、其他旧版本6、部署测试7、多用户配置8、sshd_config示例 1、准备工作 准备openssh-9.5p1.tar.gz openssl-1.1.1w.tar.gz zlib-1.2.11.tar.gz 我在http://10.45.156.100/IG2100/IG2100.git …

栈的实现和括号匹配问题

1.什么是栈 栈:一种特殊的线性表,其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的一端 称为栈顶,另一端称为栈底。栈中的数据元素遵守后进先出LIFO(Last In First Out)的原则。 压栈&#xf…

数据中心智能化运维发展研究报告(2023)解读

数据中心智能化运维发展研究报告(2023)解读 《数据中心智能化运维发展研究报告(2023)》探讨了数据中心智能化运维的概念、核心内容、实际应用和发展建议。报告指出,通过人工智能、大数据等新一代信息技术的深度应用&a…

【recast-navigation-js】使用three.js辅助绘制Agent寻路路径

目录 说在前面setAgentTarget绘制寻路路径结果问题其他 说在前面 操作系统:windows 11浏览器:edge版本 124.0.2478.97recast-navigation-js版本:0.29.0golang版本:1.21.5上一篇:【recast-navigation-js】使用three.js辅…

STM32CubeIDE使用过程记录

最近在做一款机器人的开发,使用到了STM32CubeIDE,这里记录一些使用技巧方便后续查阅。 STM32CubeIDE使用过程记录 快捷键开启代码自动补全功能看门狗设置CRC设置IO口取反定时器设置 及 定时器中断外部中断GPIO配置STC15单片机GPIO模式配置片内闪存&#…

PyTorch学习7:加载数据集

文章目录 前言一、epoch,batch-size和iteration二、示例1.说明2.代码示例 总结 前言 介绍PyTorch中加载数据集的相关操作。Dataset和DataLoader 一、epoch,batch-size和iteration epoch:所有训练数据完成一次前馈和反馈 batch-size&#x…

深度学习革命-AI发展详解

深度学习革命 《深度学习革命》是一部引人深思的作品,详细讲述了深度学习技术的发展历程及其对各个行业的深远影响。由杰出的计算机科学家、深度学习专家撰写,这本书不仅适合科技领域的专业人士阅读,也为普通读者提供了一个理解人工智能革命…

Vue TypeScript 实战:掌握静态类型编程

title: Vue TypeScript 实战:掌握静态类型编程 date: 2024/6/10 updated: 2024/6/10 excerpt: 这篇文章介绍了如何在TypeScript环境下为Vue.js应用搭建项目结构,包括初始化配置、创建Vue组件、实现状态管理利用Vuex、配置路由以及性能优化的方法&#x…

【电机控制】FOC算法验证步骤——电流环PI参数、速度环PI参数

【电机控制】FOC算法验证步骤——电流环PI参数、速度环PI参数 文章目录 前言一、电流环PI1.TI手册 二、速度环PI1.TI手册——根据稳定性和带宽计算速度环PI参数2.TI手册——根据稳定性和带宽计算速度环PI参数 三、参考文献总结 前言 【电机控制】直流有刷电机、无刷电机汇总—…

Python私教张大鹏 Vue3整合Vue Router之编程式导航

除了使用 <router-link> 创建 a 标签来定义导航链接&#xff0c;我们还可以借助 router 的实例方法&#xff0c;通过编写代码来实现。 导航到不同的位置 注意: 下面的示例中的 router 指代路由器实例。在组件内部&#xff0c;你可以使用 $router 属性访问路由&#xff…

vue-cli是什么?和 webpack是什么关系?

前言 Vue CLI是Vue.js项目的官方脚手架&#xff0c;基于Node.js与Webpack构建。安装Vue CLI前需确保Node.js已安装&#xff0c;随后通过npm全局安装。Vue CLI能迅速创建和管理Vue.js项目&#xff0c;提升开发效率。而Webpack则负责资源打包&#xff0c;通过配置文件管理依赖、插…