Python在数据科学与机器学习中的应用

news2024/9/22 22:38:48

Python 是数据科学与机器学习领域的首选语言之一,广泛应用于数据处理、分析、建模以及预测任务中。Python 拥有丰富的库和工具,能够帮助开发者高效处理数据,并构建各种机器学习模型。下面我们将详细介绍 Python 在数据科学与机器学习中的应用,从基础的数据处理、可视化到复杂的模型训练和预测。

一、Python 数据科学的核心库

在数据科学领域,Python 的三大核心库是 PandasNumPyMatplotlib/Seaborn。它们用于数据的读取、处理、分析和可视化。

1.1 Pandas

Pandas 是用于数据处理和分析的最常用库,主要提供 DataFrameSeries 这两种数据结构,方便处理结构化数据(如表格、CSV 文件等)。

  • 安装 Pandas

    pip install pandas
    
  • 读取和处理数据

    import pandas as pd
    
    # 读取 CSV 文件
    df = pd.read_csv('data.csv')
    
    # 查看数据的前几行
    print(df.head())
    
    # 数据筛选和过滤
    filtered_data = df[df['age'] > 30]
    
    # 添加新列
    df['new_column'] = df['salary'] * 0.1
    
    # 缺失值处理
    df.fillna(0, inplace=True)
    
    # 分组统计
    grouped_data = df.groupby('department')['salary'].mean()
    print(grouped_data)
    
1.2 NumPy

NumPy 是用于数值计算的基础库,特别适合处理大规模的多维数组和矩阵运算。Pandas 数据处理的底层数据结构其实基于 NumPy。

  • 安装 NumPy

    pip install numpy
    
  • 基本数组操作

    import numpy as np
    
    # 创建数组
    arr = np.array([1, 2, 3, 4])
    
    # 生成 2D 矩阵
    matrix = np.array([[1, 2], [3, 4]])
    
    # 数组运算
    arr_squared = arr ** 2
    matrix_sum = matrix + 10
    
    # 数组统计
    mean_value = np.mean(arr)
    std_dev = np.std(arr)
    print(mean_value, std_dev)
    
1.3 数据可视化(Matplotlib 和 Seaborn)

Matplotlib 是 Python 最基础的可视化库,Seaborn 则是在其基础上构建的高级可视化库,提供更为简洁的绘图接口。

  • 安装 Matplotlib 和 Seaborn

    pip install matplotlib seaborn
    
  • 使用 Matplotlib 绘图

    import matplotlib.pyplot as plt
    
    # 绘制折线图
    x = [1, 2, 3, 4]
    y = [10, 20, 25, 30]
    
    plt.plot(x, y)
    plt.xlabel('X轴')
    plt.ylabel('Y轴')
    plt.title('折线图')
    plt.show()
    
  • 使用 Seaborn 绘图

    import seaborn as sns
    import matplotlib.pyplot as plt
    
    # 加载示例数据集
    tips = sns.load_dataset("tips")
    
    # 生成一个散点图
    sns.scatterplot(x="total_bill", y="tip", data=tips)
    plt.show()
    

二、Python 机器学习中的应用

Python 的机器学习库如 Scikit-learnTensorFlowPyTorch 能够帮助开发者快速构建、训练和评估机器学习模型。机器学习的常见任务包括分类、回归、聚类、降维等。

2.1 Scikit-learn

Scikit-learn 是 Python 最常用的机器学习库,提供了大量经典的机器学习算法和数据预处理工具。适合用来快速构建传统的机器学习模型(如回归、分类、聚类等)。

  • 安装 Scikit-learn
    pip install scikit-learn
    
2.2 使用 Scikit-learn 构建分类模型

我们以鸢尾花数据集为例,构建一个简单的分类模型。

  • 加载数据集

    from sklearn.datasets import load_iris
    from sklearn.model_selection import train_test_split
    from sklearn.ensemble import RandomForestClassifier
    
    # 加载数据集
    iris = load_iris()
    X, y = iris.data, iris.target
    
    # 划分训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
  • 训练模型

    # 构建随机森林分类器
    model = RandomForestClassifier()
    
    # 训练模型
    model.fit(X_train, y_train)
    
  • 预测与评估

    from sklearn.metrics import accuracy_score
    
    # 预测测试集
    y_pred = model.predict(X_test)
    
    # 计算准确率
    accuracy = accuracy_score(y_test, y_pred)
    print(f"模型准确率: {accuracy}")
    
2.3 深度学习库:TensorFlow 和 Keras

TensorFlow 是一个开源的深度学习框架,适合构建复杂的神经网络和深度学习模型。Keras 是基于 TensorFlow 的高级 API,简化了模型的构建过程。

  • 安装 TensorFlow
    pip install tensorflow
    
使用 TensorFlow/Keras 构建神经网络模型
  • 构建简单的神经网络模型
    import tensorflow as tf
    from tensorflow.keras import layers
    
    # 构建一个三层神经网络
    model = tf.keras.Sequential([
        layers.Dense(64, activation='relu', input_shape=(4,)),
        layers.Dense(64, activation='relu'),
        layers.Dense(3, activation='softmax')
    ])
    
    # 编译模型
    model.compile(optimizer='adam',
                  loss='sparse_categorical_crossentropy',
                  metrics=['accuracy'])
    
    # 训练模型
    model.fit(X_train, y_train, epochs=10)
    
    # 评估模型
    loss, accuracy = model.evaluate(X_test, y_test)
    print(f"测试集准确率: {accuracy}")
    
2.4 深度学习库:PyTorch

PyTorch 是另一个流行的深度学习框架,以动态计算图的灵活性著称,广泛应用于学术研究和工业应用中。

  • 安装 PyTorch
    pip install torch
    
使用 PyTorch 构建简单的模型
  • 构建和训练一个简单的线性模型
    import torch
    import torch.nn as nn
    import torch.optim as optim
    
    # 构建简单的线性回归模型
    class SimpleModel(nn.Module):
        def __init__(self):
            super(SimpleModel, self).__init__()
            self.linear = nn.Linear(4, 3)
    
        def forward(self, x):
            return self.linear(x)
    
    # 初始化模型、损失函数和优化器
    model = SimpleModel()
    criterion = nn.CrossEntropyLoss()
    optimizer = optim.SGD(model.parameters(), lr=0.01)
    
    # 训练模型
    for epoch in range(100):
        optimizer.zero_grad()
        outputs = model(torch.tensor(X_train, dtype=torch.float32))
        loss = criterion(outputs, torch.tensor(y_train, dtype=torch.long))
        loss.backward()
        optimizer.step()
    
    print("模型训练完成")
    

三、数据预处理与模型评估

在机器学习中,数据预处理和模型评估是非常重要的环节。Scikit-learn 提供了许多工具用于标准化、特征选择、交叉验证等。

3.1 数据预处理

数据预处理是保证模型性能的重要步骤,常见的预处理方法包括归一化、标准化和数据转换。

  • 数据标准化

    from sklearn.preprocessing import StandardScaler
    
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)
    
  • 独热编码

    from sklearn.preprocessing import OneHotEncoder
    
    encoder = OneHotEncoder()
    y_train_encoded = encoder.fit_transform(y_train.reshape(-1, 1))
    
3.2 模型评估与交叉验证
  • 交叉验证:在模型训练过程中,使用交叉验证可以有效评估模型的泛化能力。

    from sklearn.model_selection import cross_val_score
    
    scores = cross_val_score(model, X, y, cv=5)
    
    
    print(f"交叉验证分数: {scores}")
    
  • 混淆矩阵:用于评估分类模型的性能。

    from sklearn.metrics import confusion_matrix
    
    cm = confusion_matrix(y_test, y_pred)
    print(cm)
    

四、项目实战:基于 Python 的机器学习项目

项目目标:预测房价

假设我们有一组房屋数据,包括房屋面积、房间数、楼层等特征。我们将使用这些数据构建一个线性回归模型来预测房价。

  • 步骤1:加载数据并处理

    import pandas as pd
    from sklearn.model_selection import train_test_split
    
    # 加载数据
    data = pd.read_csv('housing.csv')
    
    # 特征选择与目标变量
    X = data[['Area', 'Rooms', 'Floor']]
    y = data['Price']
    
    # 划分训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
  • 步骤2:训练线性回归模型

    from sklearn.linear_model import LinearRegression
    
    # 创建线性回归模型
    model = LinearRegression()
    
    # 训练模型
    model.fit(X_train, y_train)
    
  • 步骤3:评估模型

    from sklearn.metrics import mean_squared_error
    
    # 预测房价
    y_pred = model.predict(X_test)
    
    # 计算均方误差
    mse = mean_squared_error(y_test, y_pred)
    print(f"均方误差: {mse}")
    

总结

Python 在数据科学和机器学习领域的应用非常广泛,它拥有大量强大的库和工具,能够轻松应对从数据处理到模型构建的全流程。Pandas 和 NumPy 使得数据预处理和分析变得高效,而 Scikit-learn、TensorFlow 和 PyTorch 等库则提供了丰富的机器学习和深度学习算法,帮助开发者构建复杂的模型。通过合理使用这些工具,开发者可以快速完成各种数据科学和机器学习项目。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2156029.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

电气自动化入门07:开关电源、三相异步电动机多地与顺序控制电路

视频链接:3.5 电工知识:三相交流异步电动机多地与顺序控制及开关电源选型_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1PJ41117PW?p9&vd_sourceb5775c3a4ea16a5306db9c7c1c1486b5 1.开关电源功能与选型说明: 2.三相异步电动机…

数据结构与算法之间有何关系?

相信很多人都应该上个《数据结构与算法》这门课吧,而这两个概念也如孪生兄弟一样经常被拿出来一起讨论。那它们究竟是一个什么样子的关系呢? 听到数据结构与算法我第一反应是想到了Pascal 语言之父尼古拉斯沃斯在他的《Algorithms Data Structures Pro…

esp32s3分区表配置及读写

一、分区表介绍 每片 ESP32-S3 的 flash 可以包含多个应用程序,以及多种不同类型的数据(例如校准数据、文件系统数据、参数存储数据等)。因此,在 flash 的 默认偏移地址 0x8000 处烧写一张分区表。 分区表中的每个条目都包括以下…

【d47】【Java】【力扣】997.找到小镇的法官

思路 记录入度和出度 一个人可以连接多个,一个人也可以被多个人连接,就是图的性质 一个人可以信任多人,一个人也可以被多个人信任 统计入度出度, 法官:入度n-1,出度0 其他人:因为被所有其他人信任的 只能…

JS执行机制(同步和异步)

JavaScript语言的一大特点就是单线程,也就是说,同一个时间只能做一件事。 异步:在做这件事的同时,你还可以去处理其他事 他们的本质区别:这条流水线上各个流程的执行顺序不同。 同步任务 同步任务都在主线程上执行,形成一个执行栈。 异步…

7、论等保的必要性

数据来源:7.论等保的必要性_哔哩哔哩_bilibili 等级保护必要性 降低信息安全风险 等级保护旨在降低信息安全风险,提高信息系统的安全防护能力。 风险发现与整改 开展等级保护的最重要原因是通过测评工作,发现单位系统内外部的安全风险和脆弱…

【计网】从零开始掌握序列化 --- JSON实现协议 + 设计 传输\会话\应用 三层结构

唯有梦想才配让你不安, 唯有行动才能解除你的不安。 --- 卢思浩 --- 从零开始掌握序列化 1 知识回顾2 序列化与编写协议2.1 使用Json进行序列化2.2 编写协议 3 封装IOService4 应用层 --- 网络计算器5 总结 1 知识回顾 上一篇文章我们讲解了协议的本质是双方能够…

【JavaEE】多线程编程引入——认识Thread类

阿华代码,不是逆风,就是我疯,你们的点赞收藏是我前进最大的动力!!希望本文内容能帮到你! 目录 引入: 一:Thread类 1:Thread类可以直接调用 2:run方法 &a…

SpringBoot+thymeleaf竞赛报名系统

一、介绍 > 这是一个基于Spring Boot的后台管理系统。 > 使用了Mybatis Plus作为持久层框架,EasyExcel用于Excel操作,Thymeleaf作为前端模板引擎。 > 界面简洁,功能丰富,完成度比较高,适用于JAVA初学者作…

安国U盘量产工具系列下载地址

来源地址(访问需要科学工具):AlcorMP (Последняя версия ALCOR U2 MP v23.08.07.00.H) – [USBDev.ru] 版本列表: AlcorMP(最新版本的 ALCOR U2 MP v23.08.07.00.H) AlcorMP是在Alcor Mic…

SpringBoot项目License证书生成与验证(TrueLicense) 【记录】

SpringBoot项目License证书生成与验证(TrueLicense) 【记录】 在非开源产品、商业软件、收费软件等系统的使用上,需要考虑系统的使用版权问题,不能随便一个人拿去在任何环境都能用。应用部署一般分为两种情况: 应用部署在开发者自己的云服务…

数据集-目标检测系列-火车检测数据集 train >> DataBall

数据集-目标检测系列-火车检测数据集 train >> DataBall 数据集-目标检测系列-火车检测数据集 数据量:1W 想要进一步了解,请联系 DataBall。 DataBall 助力快速掌握数据集的信息和使用方式,会员享有 百种数据集,不断增加…

跟李沐学AI:注意力机制、注意力分数

目录 不随意线索 随意线索 注意力机制 非参注意力池化层 参数化的注意力机制 注意力机制总结 注意力分数 拓展到高维度 加性模型(Additive Attention) 点积注意力机制(Dot Product Attention) 注意力分数总结 不随意线…

vscode 顶部 Command Center,minimap

目录 vscode 顶部 Command Center 设置显示步骤: minimap设置 方法一:使用设置界面 方法二:使用命令面板 方法三:编辑 settings.json 文件 左侧目录树和编辑器字体不一致: vscode 顶部 Command Center Visual Studio Code (VSCode) 中的 Command Center 是一个集中…

240912-设置WSL中的Ollama可在局域网访问

A. 最终效果 B. 设置Ollama(前提) sudo vim /etc/systemd/system/ollama.service[Unit] DescriptionOllama Service Afternetwork-online.target[Service] ExecStart/usr/bin/ollama serve Userollama Groupollama Restartalways RestartSec3 Environme…

Python redis 安装和使用介绍

python redis安装和使用 一、Redis 安装1.1、Windows安装 二、安装 redis 模块二、使用redis 实例1.1、简单使用1.2、连接池1.3、redis 基本命令 String1.3.1、ex - 过期时间(秒)1.3.2、nx - 如果设置为True,则只有name不存在时,当…

fiddler抓包08_抓Android手机请求

课程大纲 手机抓包,电脑端的设置和IOS端相同,设置一次即可,无需重复设置。 前提:电脑和手机连接同一个局域网 土小帽电脑和手机都连了自己的无线网“tuxiaomao”。 Step1. 电脑端设置 ① 打开Fiddler - 开启抓包(F12…

django项目——图片上传到阿里云OSS对象存储

文章目录 实现图片上传到阿里云OSS对象存储1. 创建阿里云OSS对象存储2. 查询获取接口访问key和秘钥3. 安装阿里云的SDK集成到项目中使用3.1 python直接操作oss23.2 django配置自定义文件存储上传文件到oss 实现图片上传到阿里云OSS对象存储 1. 创建阿里云OSS对象存储 开发文档…

重磅!人工智能等级考试来了,考试免费,上海落户可以加分

目录 简要介绍 一、关心的问题 1. 什么是上海市高等学校信息技术水平考试? 2. 考试分几个级别?有哪些科目? 3. 哪些人可以进行报名? 4. 每名学生可以报考几个科目? 5. 有没有考试大纲? 6. 考试是否有…

[笔记]23年度展会信息— 吊钩 起升机构

1.吊钩的规格参数 5吨吊钩重26公斤 10吨64公斤。 另外一套型号,更轻: 不确定是结构设计还是用钢材质达到了减重效果。 看看重载双滑轮吊钩: 50吨,400公斤,只是吊钩。 然后是行车吊钩与钢丝绳的直径。这在计算空载吊…