Python 代码中的 yield 到底是什么鬼?

news2024/11/19 9:37:32

在Python编程中,有一个强大而神秘的关键字,那就是yield。初学者常常被它搞得晕头转向,而高级开发者则借助它实现高效的代码。到底yield是什么?它又是如何在Python代码中发挥作用的呢?让我们一起来揭开它的面纱。

Python里的一个非常重要但也颇具迷惑性的关键词——yield

什么是yield?为什么我们需要在Python中使用它?


来,让我们一起来拆解一下,看看yield到底是个啥。

迭代与可迭代对象

要搞明白yield,咱们先得弄清楚什么是可迭代对象(iterables)。

所谓可迭代对象,简单来说,就是你可以逐个读取其元素的对象,比如列表、字符串、文件等等。举个例子,当你创建一个列表时,你可以用for循环一个个地读取它的元素:

mylist = [1, 2, 3]
for i in mylist:
    print(i)

输出会是:

1
2
3

这里的mylist就是一个可迭代对象。你还可以用列表推导式(list comprehension)来创建一个列表,它同样也是可迭代的:​​​​​​​

mylist = [x*x for x in range(3)]
for i in mylist:
    print(i)

输出是:​​​​​​​

0
1
4

凡是你可以用for... in...来操作的东西,都是可迭代对象,包括列表、字符串、文件等等。

可迭代对象非常方便,因为你可以任意多次地读取它们的值,但前提是你得把所有值都存储在内存里。这就带来了一个问题:当数据量很大时,这种方式显然不太合适。

生成器

生成器(generators)是迭代器的一种,你只能遍历它们一次。生成器不像列表那样把所有的值都存储在内存里,而是即用即生成。来看看生成器的例子:​​​​​​​

mygenerator = (x*x for x in range(3))
for i in mygenerator:
    print(i)

输出和列表推导式一样:​​​​​​​

0
1
4

但注意了,生成器只能使用一次,因为它们会“边用边忘”:计算0后忘记0,计算1后忘记1,最后计算4后结束。再用同一个生成器对象做for循环就没有结果了。

 

 

yield关键词

说到yield,这是个类似于return的关键词,但它返回的不是一个值,而是一个生成器。看看这个例子:​​​​​​​

def create_generator():
    mylist = range(3)
    for i in mylist:
        yield i*i

mygenerator = create_generator() # 创建一个生成器
print(mygenerator) # mygenerator 是一个生成器对象!

输出是:

<generator object create_generator at 0xb7555c34>

通过for循环遍历这个生成器:​​​​​​​

for i in mygenerator:
    print(i)

输出:​​​​​​​

0
1
4

这个例子看起来简单,但它在处理大量数据时特别有用,因为生成器只在需要时生成值,而不是一次性生成所有值然后存储在内存中。

深入理解yield

为了彻底掌握yield,我们需要理解当调用生成器函数时,函数体内的代码并不会立即执行。函数返回的是一个生成器对象,然后你的代码会在每次调用for循环时从上次中断的地方继续执行,直到遇到下一个yield。

第一次调用for循环时,生成器对象会从头开始运行函数中的代码,直到遇到yield,然后返回循环中的第一个值。随后的每次调用都会执行函数中循环的下一次迭代,直到生成器不再有值返回。这可能是因为循环结束了,或者条件不再满足。

来看看一个实际的例子:​​​​​​​

def _get_child_candidates(self, distance, min_dist, max_dist):
    if self._leftchild and distance - max_dist < self._median:
        yield self._leftchild
    if self._rightchild and distance + max_dist >= self._median:
        yield self._rightchild

这里的代码在每次使用生成器对象时都会被调用:

  1. 如果节点对象还有左子节点并且距离合适,返回下一个子节点。

  2. 如果节点对象还有右子节点并且距离合适,返回下一个子节点。

  3. 如果没有更多子节点,生成器会被认为是空的。

调用这个生成器的方法如下:​​​​​​​


result, candidates = list(), [self]
while candidates:
    node = candidates.pop()
    distance = node._get_dist(obj)
    if distance <= max_dist and distance >= min_dist:
        result.extend(node._values)
    candidates.extend(node._get_child_candidates(distance, min_dist, max_dist))

return result

这里的代码有几个巧妙之处:

  • 循环遍历一个列表,而列表在循环过程中会扩展。这样可以方便地遍历所有嵌套的数据,虽然有些危险,因为可能会陷入无限循环。在这个例子中,candidates.extend(node._get_child_candidates(distance, min_dist, max_dist))用尽生成器的所有值,但while循环不断创建新的生成器对象,因为它们作用在不同的节点上会产生不同的值。

  • extend()方法是列表对象的方法,它期望一个可迭代对象,并将其值添加到列表中。通常我们传递一个列表给它,但在代码中,它接收一个生成器,这是个好主意,因为:

    • 你不需要读取值两次。

    • 你可能有很多子节点,不想全部存储在内存中。

这段代码展示了Python为何如此酷:它不在乎方法的参数是列表还是其他可迭代对象。这种特性叫鸭子类型(duck typing),也是Python灵活性的一个体现。

高级用法

再来看一个更高级的用法——控制生成器的耗尽:​​​​​​​


class Bank():
    crisis = False
    def create_atm(self):
        while not self.crisis:
            yield "$100"

hsbc = Bank()
corner_street_atm = hsbc.create_atm()
print(next(corner_street_atm)) # 输出 $100
print(next(corner_street_atm)) # 输出 $100
print([next(corner_street_atm) for _ in range(5)]) # 输出 ['$100', '$100', '$100', '$100', '$100']

hsbc.crisis = True
print(next(corner_street_atm)) # 输出 StopIteration

这里我们模拟了一个ATM机,在银行没有危机时,你可以不断取钱,但一旦危机来了,ATM机就会停止工作,即使是新的ATM机也不能再取钱了。

itertools模块

最后,给大家介绍一个非常有用的模块——itertools。这个模块包含了很多操作可迭代对象的特殊函数。如果你曾经希望复制一个生成器、连接两个生成器、用一行代码将值分组到嵌套列表中,或者在不创建另一个列表的情况下使用map和zip,那么就应该导入itertools。

举个例子,我们看看四匹马比赛的可能到达顺序:​​​​​​​

import itertools

horses = [1, 2, 3, 4]
races = itertools.permutations(horses)
print(list(itertools.permutations(horses)))

输出:

[(1, 2, 3, 4), (1, 2, 4, 3), (1, 3, 2, 4), (1, 3, 4, 2), (1, 4, 2, 3), (1, 4, 3, 2), (2, 1, 3, 4), (2, 1, 4, 3), (2, 3, 1, 4), (2, 3, 4, 1), (2, 4, 1, 3), (2, 4, 3, 1), (3, 1, 2, 4), (3, 1, 4, 2), (3, 2, 1, 4), (3, 2, 4, 1), (3, 4, 1, 2), (3, 4, 2, 1), (4, 1, 2, 3), (4, 1, 3, 2), (4, 2, 1, 3), (4, 2, 3, 1), (4, 3, 1, 2), (4, 3, 2, 1)]

itertools模块简直是Python程序员的好伙伴,可以让你在处理迭代对象时如虎添翼。

总结

yield是Python中一个强大的工具,它可以帮助你以一种高效的方式处理大量数据。理解yield的工作原理对于掌握Python编程至关重要。

在大数据时代,处理海量数据已成为常态。生成器作为一种高效的数据处理方式,因其优越的内存管理能力,受到了越来越多开发者的青睐。无论是日志处理、数据流分析,还是实时数据处理,生成器都展现了不可替代的价值。

通过对yield的详解,我们不仅理解了它的基本概念和用法,还认识到它在高效数据处理中的重要性。掌握yield,将为你的Python编程之旅增添一把利器。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1955245.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Chrome浏览器设置暗黑模式 - 护眼模式 - 亮度调节 - DarkReader - 地址栏和书签栏设置为黑色背景

效果图 全黑 浅灰 &#xff08;DarkReader设置开启亮色亮度-25&#xff09; 全白 前言 主要分两部分需要操作&#xff0c; 1&#xff09;地址栏和书签栏 》 需要修改浏览器的外观模式 2&#xff09;页面主体 》 需要安装darkreader插件进行设置 步骤 1&#xff09;地址栏和…

Unity UGUI 实战学习笔记(3)

仅作学习&#xff0c;不做任何商业用途 不是源码&#xff0c;不是源码! 是我通过"照虎画猫"写的&#xff0c;可能有些小修改 不提供素材&#xff0c;所以应该不算是盗版资源&#xff0c;侵权删 拼UI 提示面板的逻辑 using System.Collections; using System.Col…

加密溢出问题

今天编写程序&#xff0c;使用一个非常简单的对256取模的运算&#xff0c;但是总是得不到正确的结果。 后来发现&#xff0c;是数据的值的范围问题。 例如&#xff0c;处理图像时&#xff0c;值的范围是【0,255】. 异或等等运算都是没有问题的。 但是&#xff0c;如果进行加法…

websocket通信问题排查思路

websocket通信问题排查思路 一、websocket连接成功&#xff0c;但数据完全推不过来。 通过抓包发现&#xff0c;是回包时间太长超过了1分钟导致的。这种通常是推送数据的线程有问题导致的。 正常抓包的情况如下&#xff1a; 二、大量数据可以正常推送成功&#xff0c;不定时…

C++从入门到起飞之——内存管理(万字详解) 全方位剖析!

&#x1f308;个人主页&#xff1a;秋风起&#xff0c;再归来~&#x1f525;系列专栏&#xff1a;C从入门到起飞 &#x1f516;克心守己&#xff0c;律己则安 目录 1. C/C内存分布 2. C语言中动态内存管理方式&#xff1a;malloc/calloc/realloc/free 3. C内存管理…

AI大模型大厂面试真题:「2024大厂大模型技术岗内部面试题+答案」

AI大模型岗的大厂门槛又降低了&#xff01;实在太缺人了&#xff0c;大模型岗位真的强烈建议各位多投提前批&#xff0c;▶️众所周知&#xff0c;2025届秋招提前批已经打响&#xff0c;&#x1f64b;在这里真心建议大家6月7月一定要多投提前批&#xff01; &#x1f4bb;我们…

数字音频工作站(DAW)软件FL Studio 24.1.1.4234中文版

在数字化音乐制作的浪潮中&#xff0c;FL Studio 24.1.1.4234的发布无疑又掀起了一股新的热潮。这款由Image-Line公司开发的数字音频工作站&#xff08;DAW&#xff09;软件&#xff0c;以其强大的功能和易用的界面&#xff0c;赢得了全球无数音乐制作人的青睐。本文将深入探讨…

git cherry-pick用法

git cherry-pick 如何将我另一个分支上的某个提交合并到新的分支上 首先切换到新分支上git cherry-pick <commit_hash>例如&#xff1a;git cherry-pick f8a70c9

Linux--Socket编程TCP

前文&#xff1a;Socket套接字编程 TCP的特点 面向连接&#xff1a;TCP 在发送数据之前&#xff0c;必须先建立连接。可靠性&#xff1a;TCP 提供了数据传输的可靠性。面向字节流&#xff1a;TCP 是一个面向字节流的协议&#xff0c;这意味着 TCP 将应用程序交下来的数据看成是…

简单的数据结构:栈

1.栈的基本概念 1.1栈的定义 栈是一种线性表&#xff0c;只能在一端进行数据的插入或删除&#xff0c;可以用数组或链表来实现&#xff0c;这里以数组为例进行说明 栈顶 &#xff1a;数据出入的那一端&#xff0c;通常用Top表示 栈底 :相对于栈顶的另一端&#xff0c;也是固…

【无标题】shell脚本的基本命令+编写shell脚本

shell脚本 一.shell基础 1.shell概念 2.shell脚本 3.shell脚本编写注意事项 二.编写shell脚本 1.编写一个helloworld脚本&#xff0c;运行脚本 [rootshell ~]# vim helloworld.sh #!/bin/bash //声明 echo "hello world!" ls -lh /etc/ 运行脚本(四种方式)&…

react版本判断是否面包含

react-admin: react版本 import { useState,useEffect } from react import ./Secene.css import { Checkbox } from "antd"; import* as turf from turf/turf; import type { CheckboxProps } from antd; // const onChange: CheckboxProps[onChange] (e) >…

bugku-web-cookies

进来以后看到一个巨长的字符串, 源码同样,发现url后面是base64编码解码得keys.txt 还有一个line参数&#xff0c;修改并没有发生任何变化。我想不到要改keys.txt成index.php&#xff08;base64加密格式&#xff1a;aW5kZXgucGhw&#xff09; line1时&#xff1a; line2时&…

Linux系统编程(2):信号

Linux内核提供了各种各样的内核对象用于协调进程间的通讯&#xff0c;如信号、管道、消息队列等&#xff0c; 本章针对Linux内核的信号对象进行讲解。 1. 信号的基本概念 1.1. 概述 信号&#xff08;signal&#xff09;&#xff0c;又称为软中断信号&#xff0c;用于通知进程…

Go语言垃圾回收GC(完整)

垃圾回收的概念 GC(垃圾回收)是 Go 语言中的一个重要机制&#xff0c;用于自动管理内存 在 Go 语言中&#xff0c;GC 会自动发现和回收那些不再被使用的内存空间&#xff0c;从而防止内存泄漏和有 效利用内存。 内存垃圾怎样产生 程序在内存上被分为堆区、栈区、全局数据区、…

黑马头条vue2.0项目实战(一)——项目初始化

1. 图标素材&#xff08;iconfont简介&#xff09; 制作字体图标的工具有很多&#xff0c;推荐使用&#xff1a;iconfont-阿里巴巴矢量图标库。 注册账户 创建项目 可以根据项目自定义 class 前缀 上传图标到项目 生成链接&#xff0c;复制 css 代码&#xff0c;在项目中使用…

数组与链表谁访问更快

一、线性表 线性表是数据结构中的一种基本类型&#xff0c;它由一组线性排列的元素组成。线性表的特点是可以进行顺序访问&#xff0c;但不支持随机访问。 二、非线性表 非线性表是数据结构中另一种类型&#xff0c;如树和图&#xff0c;它们由多个节点组成&#xff0c;节点…

【云原生】Docker搭建知识库文档协作平台Confluence

目录 一、前言 二、企业级知识库文档工具部署形式 2.1 开源工具平台 2.1.1 开源工具优点 2.1.2 开源工具缺点 2.2 私有化部署 2.3 混合部署 三、如何选择合适的知识库平台工具 3.1 明确目标和需求 3.2 选择合适的知识库平台工具 四、Confluence介绍 4.2 confluence特…