Python 科学计算与机器学习入门:NumPy + Scikit-Learn 实战指南

news2025/3/17 0:22:25

Langchain系列文章目录

01-玩转LangChain:从模型调用到Prompt模板与输出解析的完整指南
02-玩转 LangChain Memory 模块:四种记忆类型详解及应用场景全覆盖
03-全面掌握 LangChain:从核心链条构建到动态任务分配的实战指南
04-玩转 LangChain:从文档加载到高效问答系统构建的全程实战
05-玩转 LangChain:深度评估问答系统的三种高效方法(示例生成、手动评估与LLM辅助评估)
06-从 0 到 1 掌握 LangChain Agents:自定义工具 + LLM 打造智能工作流!

python系列文章目录

01-Python 基础语法入门:从变量到输入输出,零基础也能学会!
02-Python 流程控制终极指南:if-else 和 for-while深度解析
03-Python 列表与元组全攻略:从新手到高手的必备指南
04-Python 字典与集合:从入门到精通的全面解析
05-Python函数入门指南:从定义到应用
06-Python 函数高级特性:从默认参数到闭包的全面解析
07-Python 模块与包:从零到自定义的全面指南
08-Python异常处理:从入门到精通的实用指南
09-Python 文件操作:从零基础到日志记录实战
10-Python面向对象编程入门:从类与对象到方法与属性
11-Python类的方法与属性:从入门到进阶的全面解析
12-Python继承与多态:提升代码复用与灵活性的关键技术
13-掌握Python魔法方法:如何用__add__和__len__自定义类的行为
14-python面向对象编程总结:从基础到进阶的 OOP 核心思想与设计技巧
15-掌握 Python 高级特性:深入理解迭代器与生成器
16-用 Python 装饰器提升效率:日志与权限验证案例
17-再也不怕资源泄漏!Python 上下文管理器,with语句全攻略
18-Python 标准库必备模块:math、random、os、json 全解析
19-Python 性能优化:从入门到精通的实用指南
20-Python内存管理与垃圾回收全解析
21-Python 代码调试与测试:从 pdb 到 TDD 的全面指南
22-Python 代码风格终极指南:从 PEP 8 到最佳实践全解析
23-Python实现网络通信:Socket模块与TCP/IP协议全解析
24-Python如何用requests库实现HTTP请求与响应?从零到实战全解析
25-并发编程基础:从线程到进程的Python实践
26-Python 网络编程实战:5分钟实现多线程下载工具与 Web 服务器
27-Python 数据处理基础:从 CSV 到可视化,一文掌握
28-Python 科学计算与机器学习入门:NumPy + Scikit-Learn 实战指南


文章目录

  • Langchain系列文章目录
  • python系列文章目录
  • 前言
  • 一、科学计算:使用 `numpy` 进行数值计算
    • 1.1 什么是 `numpy`?
      • 1.1.1 `numpy` 的核心优势
      • 1.1.2 安装与导入
    • 1.2 `numpy` 的基础操作
      • 1.2.1 创建数组
      • 1.2.2 数组运算
      • 1.2.3 索引与切片
    • 1.3 `numpy` 的高级特性
      • 1.3.1 广播(Broadcasting)
      • 1.3.2 通用函数(ufuncs)
      • 1.3.3 常见问题与解决
  • 二、机器学习:使用 `scikit-learn` 实现模型
    • 2.1 什么是 `scikit-learn`?
      • 2.1.1 安装与导入
      • 2.1.2 适用场景
    • 2.2 机器学习基础
      • 2.2.1 监督与无监督学习
      • 2.2.2 数据拆分
    • 2.3 实现机器学习模型
      • 2.3.1 分类:Iris 数据集
      • 2.3.2 回归:房价预测
        • (1)特征缩放的重要性
        • (2)可视化结果
  • 三、实际案例:综合应用
    • 3.1 科学计算的应用
      • 3.1.1 矩阵运算
      • 3.1.2 物理模拟
    • 3.2 机器学习案例:房价预测
      • 3.2.1 数据预处理
      • 3.2.2 模型训练与评估
  • 四、总结

前言

在 Python 的数据科学生态中,科学计算机器学习是两个核心领域,广泛应用于数据分析、建模和预测等场景。作为第七周第32天的内容,本文将带你探索如何使用 numpy 进行高效的数值计算,以及如何借助 scikit-learn 实现机器学习模型。无论你是刚接触 Python 的初学者,还是希望深入机器学习的高阶开发者,本文都将为你提供清晰的学习路径和实用的代码示例。


一、科学计算:使用 numpy 进行数值计算

1.1 什么是 numpy

numpy 是 Python 中用于科学计算的基础库,提供了一个高效的多维数组对象(ndarray)和丰富的数学函数。它是数据分析和机器学习的基石,支持快速的数值运算和大规模数据处理。

1.1.1 numpy 的核心优势

  • 高效性:相比 Python 原生列表,numpy 使用 C 语言实现,运算速度更快。
  • 数组操作:支持向量化计算,避免显式循环,提升代码简洁性。
  • 广泛应用:从矩阵运算到统计分析,numpy 无处不在。

1.1.2 安装与导入

确保你已安装 numpy,可以通过以下命令安装:

pip install numpy

导入库:

import numpy as np

1.2 numpy 的基础操作

1.2.1 创建数组

数组是 numpy 的核心数据结构,以下是几种常见创建方式:

  • 从列表创建
import numpy as np
a = np.array([1, 2, 3])  # 一维数组
b = np.array([[1, 2], [3, 4]])  # 二维数组
print(a)  # [1 2 3]
print(b)  # [[1 2] [3 4]]
  • 使用内置函数
zeros = np.zeros((2, 3))  # 2x3 全零数组
ones = np.ones((2, 2))    # 2x2 全一数组
print(zeros)  # [[0. 0. 0.] [0. 0. 0.]]

1.2.2 数组运算

numpy 支持元素级的运算,简单高效:

  • 加减乘除
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
print(a + b)  # [5 7 9]
print(a * b)  # [4 10 18]
  • 统计计算
print(np.mean(a))  # 2.0
print(np.sum(b))   # 15

1.2.3 索引与切片

访问和修改数组元素非常直观:

  • 一维数组
print(a[0])    # 1
print(a[1:3])  # [2 3]
  • 二维数组
print(b[0, 1])  # 2
print(b[:, 0])  # [1 3],获取第一列

1.3 numpy 的高级特性

1.3.1 广播(Broadcasting)

广播允许在不同形状的数组间进行运算:

  • 示例
c = a + 10  # 标量 10 被广播到每个元素
print(c)    # [11 12 13]

1.3.2 通用函数(ufuncs)

通用函数对数组元素逐一应用数学运算:

  • 示例
sin_a = np.sin(a)
print(sin_a)  # [0.8415 0.9093 0.1411]

1.3.3 常见问题与解决

  • 问题:初学者常混淆数组形状(如 (3,) vs (3,1))。
  • 解决:使用 array.shape 检查形状,确保运算兼容。

二、机器学习:使用 scikit-learn 实现模型

2.1 什么是 scikit-learn

scikit-learn 是 Python 中最流行的机器学习库,提供简单高效的工具,支持分类、回归、聚类等任务。它与 numpy 无缝集成,适合快速构建模型。

2.1.1 安装与导入

安装命令:

pip install scikit-learn

导入示例:

from sklearn.linear_model import LinearRegression

2.1.2 适用场景

  • 分类:识别物体类别。
  • 回归:预测连续值,如房价。

2.2 机器学习基础

2.2.1 监督与无监督学习

  • 监督学习:使用带标签数据训练,例如预测房价(回归)或分类花卉(分类)。
  • 无监督学习:发现数据中的隐藏模式,如聚类。

2.2.2 数据拆分

机器学习需要将数据分为训练集测试集

from sklearn.model_selection import train_test_split
X, y = np.random.rand(100, 2), np.random.rand(100)  # 模拟数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

2.3 实现机器学习模型

2.3.1 分类:Iris 数据集

使用逻辑回归分类 Iris 数据:

from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 加载数据
iris = load_iris()
X, y = iris.data, iris.target

# 拆分数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练模型
model = LogisticRegression(max_iter=200)  # max_iter 避免收敛警告
model.fit(X_train, y_train)

# 预测与评估
y_pred = model.predict(X_test)
print(f"准确率: {accuracy_score(y_test, y_pred):.2f}")

2.3.2 回归:房价预测

使用线性回归预测房价:

from sklearn.datasets import fetch_california_housing
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# 加载数据
housing = fetch_california_housing()
X, y = housing.data, housing.target

# 拆分数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练模型
model = LinearRegression()
model.fit(X_train, y_train)

# 预测与评估
y_pred = model.predict(X_test)
print(f"均方误差: {mean_squared_error(y_test, y_pred):.2f}")
(1)特征缩放的重要性
  • 问题:特征范围差异大时,模型性能可能下降。
  • 解决:使用 StandardScaler 标准化数据:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
(2)可视化结果

使用 Matplotlib(上篇文章已介绍)绘制预测结果:

import matplotlib.pyplot as plt
plt.scatter(y_test, y_pred, alpha=0.5)
plt.xlabel("实际值")
plt.ylabel("预测值")
plt.show()

三、实际案例:综合应用

3.1 科学计算的应用

3.1.1 矩阵运算

计算矩阵乘法:

A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])
C = np.dot(A, B)  # 矩阵乘法
print(C)  # [[19 22] [43 50]]

3.1.2 物理模拟

模拟简单的自由落体:

t = np.linspace(0, 5, 100)  # 时间
g = 9.8  # 重力加速度
h = 0.5 * g * t**2  # 距离

3.2 机器学习案例:房价预测

3.2.1 数据预处理

使用 numpy 清洗数据:

X = np.array([[50, 2], [60, 3], [70, 4]])  # 面积、房间数
y = np.array([150, 180, 210])  # 房价

3.2.2 模型训练与评估

model = LinearRegression()
model.fit(X, y)
y_pred = model.predict(X)
print(f"均方误差: {mean_squared_error(y, y_pred):.2f}")

四、总结

本文从 numpy 的数值计算入手,介绍了数组创建、运算和高级特性,随后通过 scikit-learn 展示了机器学习的基础知识和模型实现方法。通过实际案例,你可以将这些技术应用到真实场景中。希望你能继续探索 Python 在科学计算和机器学习中的无限可能!


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2316314.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PyTorch 深度学习实战(14):Deep Deterministic Policy Gradient (DDPG) 算法

在上一篇文章中,我们介绍了 Proximal Policy Optimization (PPO) 算法,并使用它解决了 CartPole 问题。本文将深入探讨 Deep Deterministic Policy Gradient (DDPG) 算法,这是一种用于连续动作空间的强化学习算法。我们将使用 PyTorch 实现 D…

Angular由一个bug说起之十四:SCSS @import 警告与解决⽅案

SCSS import 警告与解决⽅案 ⚠ 警告信息 在 SCSS 中,使⽤ import 可能会产⽣以下警告: Deprecation Warning: Sass import rules are deprecated and will be removed in Dart Sass 3.0.0. ? 为什么会有这个警告? Sass 官⽅已经废弃 imp…

PyTorch系列教程:基于LSTM构建情感分析模型

情感分析是一种强大的自然语言处理(NLP)技术,用于确定文本背后的情绪基调。它常用于理解客户对产品或服务的意见和反馈。本文将介绍如何使用PyTorch和长短期记忆网络(LSTMs)创建一个情感分析管道,LSTMs在处…

SEO新手基础优化三步法

内容概要 在网站优化的初始阶段,新手常因缺乏系统性认知而陷入技术细节的误区。本文以“三步法”为核心框架,系统梳理从关键词定位到内容布局、再到外链构建的完整优化链路。通过拆解搜索引擎工作原理,重点阐明基础操作中容易被忽视的底层逻…

Tcp网络通信的基本流程梳理

先来一张经典的流程图 接下介绍一下大概流程,各个函数的参数大家自己去了解加深一下印象 服务端流程 1.创建套接字:使用 socket 函数创建一个套接字,这个套接字后续会被用于监听客户端的连接请求。 需要注意的是,服务端一般有俩…

PHP函数缺陷详解

无问社区-官网:http://www.wwlib.cn 本期无人投稿,欢迎大家投稿,投稿可获得无问社区AI大模型的使用红包哦! 无问社区:网安文章沉浸式免费看! 无问AI大模型不懂的问题随意问! 全网网安资源智…

深度学习GRU模型原理

一、介绍 门控循环单元(Gated Recurrent Unit, GRU) 是一种改进的循环神经网络(RNN),专为解决传统RNN的长期依赖问题(梯度消失/爆炸)而设计。其核心是通过门控机制动态控制信息的流动。与LSTM相…

网络空间安全(31)安全巡检

一、定义与目的 定义: 安全巡检是指由专业人员或特定部门负责,对各类设施、设备、环境等进行全面或重点检查,及时发现潜在的安全隐患或问题。 目的: 预防事故发生:通过定期的安全巡检,及时发现并解决潜在的…

基于Python+SQLite实现(Web)验室设备管理系统

实验室设备管理系统 应用背景 为方便实验室进行设备管理,某大学拟开发实验室设备管理系统 来管理所有实验室里的各种设备。系统可实现管理员登录,查看现有的所有设备, 增加设备等功能。 开发环境 Mac OSPyCharm IDEPython3Flask&#xff…

面试系列|蚂蚁金服技术面【2】

今天继续分享一下蚂蚁金服的 Java 后端开发岗位真实社招面经,复盘面试过程中踩过的坑,整理面试过程中提到的知识点,希望能给正在准备面试的你一些参考和启发,希望对你有帮助,愿你能够获得心仪的 offer ! 第一轮面试完…

【JavaEE】网络原理之初识

1.❤️❤️前言~🥳🎉🎉🎉 Hello, Hello~ 亲爱的朋友们👋👋,这里是E绵绵呀✍️✍️。 如果你喜欢这篇文章,请别吝啬你的点赞❤️❤️和收藏📖📖。如果你对我的…

Vscode工具开发Vue+ts项目时vue文件ts语法报错-红波浪线等

Vscode工具开发Vuets项目时vue文件ts语法报错-红波浪线等 解决方案 问题如题描述,主要原因是开发工具使用的代码检查与项目的中的ts不一致导导致,解决办法,修改 vscode 中, 快捷键:command shift p, 输入&#xff…

ROS实践(五)机器人自动导航(robot_navigation)

目录 一、知识点 1. 定位 2. 路径规划 (1)全局路径规划 (2)局部路径规划 3. 避障 二、常用工具和传感器 三、相关功能包 1. move_base(决策规划) 2. amcl(定位) 3. costmap_2d(代价地图) 4. global_planner(全局规划器) 5. local_planner(局部规划器…

【小沐学Web3D】three.js 加载三维模型(React)

文章目录 1、简介1.1 three.js1.2 react.js 2、three.js React结语 1、简介 1.1 three.js Three.js 是一款 webGL(3D绘图标准)引擎,可以运行于所有支持 webGL 的浏览器。Three.js 封装了 webGL 底层的 API ,为我们提供了高级的…

软考教材重点内容 信息安全工程师 第19章 操作系统安全保护

19.1.1 操作系统安全概念 一般来说,操作系统的安全是指满足安全策略要求,具有相应的安全机制及安全功能,符合特定的安全标准,在一定约束条件下,能够抵御常见的网络安全威胁,保障自身的安全运行及资源安全。…

【机器学习】基于t-SNE的MNIST数据集可视化探索

一、前言 在机器学习和数据科学领域,高维数据的可视化是一个极具挑战但又至关重要的问题。高维数据难以直观地理解和分析,而有效的可视化方法能够帮助我们发现数据中的潜在结构、模式和关系。本文以经典的MNIST手写数字数据集为例,探讨如何利…

【Pycharm】Pycharm无法复制粘贴,提示系统剪贴板不可用

我也没有用vim的插件,检查了本地和ubutnu上都没有。区别是我是远程到ubutnu的pycharm,我本地直接控制windowes的pycharm是没问题的。现象是可以从外部复制到pycharm反之则不行。 ctl c ctlv 以及右键 都不行 参考:Pycharm无法复制粘贴&…

Flink-学习路线

最近想学习一下Flink,公司的实时需求还是不少的,因此结合ai整理了一份学习路线,记录一下。 当然,公司也有Scala版本Flink框架,也学习了一下。这里只说Java版本 1. Java基础 目标: 掌握Java编程语言的基础知识。 内容…

Atcoder ABC397-D 题解

https://atcoder.jp/contests/abc397/tasks/abc397_dhttps://atcoder.jp/contests/abc397/tasks/abc397_d 题目描述: 确定是否存在一对正整数,使得 思路: 首先对方程进行转化 设 即 接下来确定的范围 根据立方差公式 因此,我们可以从到来…

K8S学习之基础二十七:k8s中daemonset控制器

k8s中DaemonSet控制器 ​ DaemonSet控制器确保k8s集群中,所有节点都运行一个相同的pod,当node节点增加时,新节点也会自动创建一个pod,当node节点从集群移除,对应的pod也会自动删除。删除DaemonSet也会删除创建的pod。…