再见,Python 循环,向量化已超神

news2025/1/11 4:03:04

使用向量化 -- Python中循环的超级快速替代品

我们在几乎所有的编程语言中都学习过循环。所以,默认情况下,只要有重复性的操作,我们就会开始实施循环。但是当我们处理大量的迭代(数百万/数十亿行)时,使用循环真是遭罪啊~,你可能会被卡住几个小时,后来才意识到这是行不通的。这就是在Python中实现向量化变得超级关键的地方。

什么是向量化?

向量化是在数据集上实现(NumPy)数组操作的技术。在后台,它对数组或系列的所有元素一次性进行操作(不像'for'循环那样一次操作一行)。

在这篇博客中,我们将看看一些用例,在这些用例中,我们可以很容易地用向量化代替Python循环。这将帮助你节省时间,并在编码方面变得更加熟练。

使用案例1:
寻找数字的总和

首先,我们来看看一个基本的例子,即在Python中使用循环和向量来寻找数字的总和。

使用循环

import time 
start = time.time()

# 遍历之和
total = 0
# 遍历150万个数字
for item in range(0, 1500000):
    total = total + item

print('sum is:' + str(total))
end = time.time()

print(end - start)

#1124999250000
#0.14 Seconds

使用向量化

import numpy as np

start = time.time()

# 向量化和--使用numpy进行向量化
# np.range创建从0到1499999的数字序列
print(np.sum(np.arange(1500000)))

end = time.time()
print(end - start)

##1124999250000
##0.008 Seconds

与使用范围函数的迭代相比,向量化的执行时间约18倍。在使用Pandas DataFrame时,这种差异将变得更加明显。

使用案例2:
DataFrame数学运算

在数据科学中,当使用Pandas DataFrame时,开发者会使用循环来创建新的数学运算的派生列。

在下面的例子中,我们可以看到,在这样的用例中,循环可以很容易地被向量化所取代。

创建DataFrame

DataFrame是以行和列的形式存在的表格数据。

我们正在创建一个有500万行和4列的pandas DataFrame,其中充满了0到50之间的随机值。

import numpy as np
import pandas as pd
df = pd.DataFrame(np.random.randint(0, 50, 
                                    size=(5000000, 4)),
                  columns=('a','b','c','d'))
df.shape
# (5000000, 5)
df.head()

我们将创建一个新的列'ratio',以找到列'd''c'的比率。

使用循环

import time 
start = time.time()

# Iterating through DataFrame using iterrows
for idx, row in df.iterrows():
    # creating a new column 
    df.at[idx,'ratio'] = 100 * (row["d"] / row["c"])  
end = time.time()
print(end - start)
### 109 Seconds

使用向量化

start = time.time()
df["ratio"] = 100 * (df["d"] / df["c"])

end = time.time()
print(end - start)
### 0.12 seconds

我们可以看到DataFrame有了明显的改进,与python中的循环相比,向量化几乎快了1000倍

使用案例3:
DataFrame上If-else语句

我们实现了很多需要我们使用 "if-else" 类型逻辑的操作。我们可以很容易地用python中的向量化操作代替这些逻辑。

看一下下面的例子来更好地理解它(我们将使用在用例2中创建的DataFrame)。

想象一下,如何根据退出的列'a'的一些条件来创建一个新的列'e'

使用循环

import time 
start = time.time()

# Iterating through DataFrame using iterrows
for idx, row in df.iterrows():
    if row.a == 0:
        df.at[idx,'e'] = row.d    
    elif (row.a <= 25) & (row.a > 0):
        df.at[idx,'e'] = (row.b)-(row.c)    
    else:
        df.at[idx,'e'] = row.b + row.c

end = time.time()

print(end - start)
### Time taken: 177 seconds

使用向量化

start = time.time()
df['e'] = df['b'] + df['c']
df.loc[df['a'] <= 25, 'e'] = df['b'] -df['c']
df.loc[df['a']==0, 'e'] = df['d']end = time.time()
print(end - start)
## 0.28007707595825195 sec

与带有if-else语句的python循环相比,向量化操作要比循环快600倍

使用案例4:
解决机器学习/深度学习网络

深度学习要求我们解决多个复杂的方程,而且是针对数百万和数十亿行的方程。在Python中运行循环来解决这些方程是非常慢的,此时,向量化是最佳的解决方案。

例如,要计算以下多线性回归方程中数百万行的y值。

我们可以用向量化代替循环。

m1,m2,m3...的值是通过使用对应于x1,x2,x3...的数百万个值来解决上述方程而确定的(为了简单起见,只看一个简单的乘法步骤)

创建数据

>>> import numpy as np
>>> # 设置 m 的初始值 
>>> m = np.random.rand(1,5)
array([[0.49976103, 0.33991827, 0.60596021, 0.78518515, 0.5540753]])
>>> # 500万行的输入值
>>> x = np.random.rand(5000000,5)

使用循环

import numpy as np
m = np.random.rand(1,5)
x = np.random.rand(5000000,5)

total = 0
tic = time.process_time()

for i in range(0,5000000):
    total = 0
    for j in range(0,5):
        total = total + x[i][j]*m[0][j] 
        
    zer[i] = total 

toc = time.process_time()
print ("Computation time = " + str((toc - tic)) + "seconds")

####Computation time = 28.228 seconds

使用向量化

tic = time.process_time()

#dot product 
np.dot(x,m.T) 

toc = time.process_time()
print ("Computation time = " + str((toc - tic)) + "seconds")

####Computation time = 0.107 seconds

np.dot在后端实现了向量的矩阵乘法。与python中的循环相比,它的速度提高了165倍

Python中的向量化是非常快的,当在处理非常大的数据集时,建议你应该优先考虑向量化而不是循环。这样,随着时间的推移,你会逐渐习惯于按照向量化的思路来编写代码。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/149835.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

啊哈哈哈,2023年Python学习清单来喽;这清单都上齐了,怎么不收藏啊

不知不觉已经在CSDN写了三百多篇博客&#xff0c;这些博客中&#xff0c;Python相关的内容占了绝大多数&#xff0c;而这些与Python有关的内容中&#xff0c;绝大多数又都是我个人学习的总结&#xff0c;本文希望把我的Python学习过程做一个总结&#xff0c;也希望能够帮助不同…

【Java】阻塞队列

【Java】阻塞队列 什么是阻塞队列&#xff1f; 阻塞队列&#xff08;BlockingQueue&#xff09;是一个支持两个附加操作的队列。这2个附加的操作支持阻塞的插入和移除方法。 支持阻塞的插入方法&#xff1a;当队列满时&#xff0c;队列会阻塞插入元素的线程&#xff0c;直到…

4.3 集成运放电路简介

从本质上看&#xff0c;集成运放是一种高性能的直接耦合放大电路。尽管品种繁多&#xff0c;内部结构也各不相同&#xff0c;但是它们的基本组成部分、结构形式和组成原则基本一致。因此&#xff0c;对于典型电路的分析具有普遍意义&#xff0c;一方面可以从中理解集成运放的性…

MapGIS用投影变换功能绘制多条测线

1 问题的提出 在做测线设计的时候,经常要在MapGIS里投点,投线。投点可以用section自带功能实现,但投线还是另有讲究的。可以用MapGIS自带的投影变换功能来实现。 先看下我已知线在奥维地图里是什么样的。 下面就来对这些线,进行投影变换,生成wl线文件,从而可以放入设计…

1. 【prometheus 学习】架构Architecture

prometheus是开源的系统监控及告警系统&#xff0c;很多企业、互联网公司应用prometheus&#xff0c;搭配可视化的grafana&#xff0c;实现对系统的全面度量。 prometheus应用的场景&#xff1a; 1&#xff09;对于数据准确率要求不高&#xff0c;可以粗略反映监控数据走势的场…

前端实战:Vue实现数据导出导入案例

❤️作者主页&#xff1a;IT技术分享社区 ❤️作者简介&#xff1a;大家好,我是IT技术分享社区的博主&#xff0c;从事C#、Java开发九年&#xff0c;对数据库、C#、Java、前端、运维、电脑技巧等经验丰富。 ❤️荣誉&#xff1a; CSDN博客专家、数据库优质创作者&#x1f3c6;&…

linux内核调度浅析

目录 进程控制块PCB 就绪队列结构体 调度队列成员 下一个进程的选择 进程切换 加入就绪队列 linux进程调度相关的知识再重新梳理一遍。抽取主要数据结构中的主要成员&#xff0c;以最简单的方式实现进程调度。 进程控制块PCB task_struct /* 进程PCB */ struct task_s…

人脸识别速度超高识别度超高项目,可实时进行检测,一看就会!

1.本项目属于pytorch-facenet项目&#xff0c;核心代码是facenet算法&#xff0c;经过1周的代码修改&#xff0c;可以进行入库和识别的连续操作&#xff0c;经过测试&#xff0c;识别效果很好&#xff0c;在GPU环境中可以进行实时摄像头的识别&#xff0c;同时项目将放在百度网…

知行之桥传输带附件的文件示例

在大多数的项目中&#xff0c;交易伙伴往往只要求传输报文消息&#xff0c;业务数据经由报文内容来进行传输。但有些交易伙伴也会要求传输带附件的文件&#xff0c;比如在与大众和延锋汽车YFAI对接的项目当中&#xff0c;交易伙伴要求传输VDA4951 ENGDAT报文&#xff0c;该业务…

vue3 销毁组件方法

问题描述&#xff1a;使用elementplus的dialog,当关闭弹窗后不刷新页面&#xff0c;直接再次打开发现弹窗中还存留上一次的数据。尝试定义关闭事件&#xff0c;或者使用api中提供的属性destroy-on-close 都不行。后来发现这是一个误区。弹窗关闭时并不代表这个组件已经被销毁了…

Linux测试主机之间连通性和端口是否开放的方法

文章目录测试主机之间的连通性测试端口是否开放(curl)测试端口是否开放(wget)测试端口是否开放(ssh)下面每一种测试方式都给出了成功通信的截图&#xff0c;如果与截图不相符可以根据你控制台的报错调试。测试主机之间的连通性 测试两个主机之间是否可以通信&#xff0c;通常使…

Odoo 16 企业版手册 - 库存管理之规则与路线

规则和路线 产品上定义的路线将帮助您理解和跟踪产品的每一次调拨。它是用于库存调拨的操作规则或路线。没有适当的策略&#xff0c;就很难监控和管理公司的库存变动。根据您的公司政策&#xff0c;您可以设置某些操作规则来定义库存中的产品调拨。使用这些规则&#xff0c;Odo…

何为 Vue3 组件标注 TS 类型,看这篇文章就够了!

文章目录前言一、为 props 标注类型使用 < script setup >非 < script setup >二、为 emits 标注类型使用 < script setup >非 < script setup >三、为 ref() 标注类型默认推导类型通过接口指定类型通过泛型指定类型四、为 reactive() 标注类型默认推导…

什么真无线蓝牙耳机值得入手?蓝牙耳机全方位挑选攻略

从我们的日常生活中可以看到&#xff0c;蓝牙耳机的使用频率真的是越来越高了&#xff0c;这主要得益于蓝牙耳机的使用便捷性以及近几年的快速发展。很多人在选择时不禁有些疑问&#xff0c;不知道哪款真无线蓝牙耳机值得入手&#xff1f; 都说买新不买旧&#xff0c;所以&…

黑马2022新版SSM框架教程(SpringMVC_day01)

SpringMVC_day01 文章目录SpringMVC_day011&#xff0c;SpringMVC简介1.1 SpringMVC概述2&#xff0c;SpringMVC入门案例2.1 需求分析2.2 案例制作步骤1:创建Maven项目&#xff0c;并导入对应的jar包步骤2:创建控制器类步骤3:创建配置类步骤4:创建Tomcat的Servlet容器配置类步骤…

网上流行短视频运营方法验证和试错,这些坑你踩过吗?

网上流行短视频运营方法验证和试错,这些坑你踩过吗&#xff1f; 人到中年&#xff0c;35岁以后找份工作不容易&#xff0c;这不刚刚有了一份短视频运营的工作。 在网上找了一些短视频运营技巧&#xff0c;看网上的评论有说有用的有说没用的。 只好自己去试一下错了&#xff…

升级win11后,此电脑中原来7个文件夹的恢复

目录前言问题描述解决方法新建一个.reg文件在.reg文件中添加代码执行.reg文件效果展示P.S. 添加部分文件夹参考文献链接前言 这个方法需要向注册表添加一些项。只需要新建一个.reg文件然后执行即可。 问题描述 更新win11后&#xff0c;以前的文件夹都消失不见了 解决方法 …

一文读懂JVM类加载机制过程及原理万字详解

JVM加载机制详解 文章目录JVM加载机制详解类装载子系统类加载子系统介绍类加载器ClassLoader角色类加载的执行过程加载链接初始化< cinit > 方法和 < init > 方法有什么区别&#xff1f;类加载器类加载器的作用类加载器分类启动类加载器扩展类加载器系统类加载器用…

STM32 TIM PWM高阶操作:刹车及状态约束

STM32 TIM PWM高阶操作&#xff1a;刹车及状态约束 刹车及状态约束是STM32 TIM PWM控制里面比较复杂的一部分&#xff0c;涉及到PWM波形产生前&#xff0c;中&#xff0c;后的管脚状态输出。 这里先引入两个描述&#xff0c;一个是“半高阻”&#xff0c;意思是STM32管脚输出…

我的基于 JamStack 的新博客

概述 今天心血来潮&#xff0c;介绍一下我的新博客站点 —— https://EWhisper.cn。 我是做基础平台 PaaS 运维和架构的&#xff0c;挺喜欢把工作中学到的新知识写下来、记笔记&#xff0c;突然有一天就抱着「资源共享、天下为公」的理念&#xff0c;分享我的学习心得&#x…