025—pandas 根多列判断不在其他列的数据

news2026/2/11 18:34:43

思路

是有两个相同结构的数据表，已知第二个表是第一个表的部分数据，需要以其中两列为单位，判断在第一个表中存在，在另外一个表中不存在的数据。

思路：

我们先将 df1 和 df2 的 x、y 列取出，组合为元组形成，这样就先成为一个整体，形成了两个 Series，然后我们用
Series 的 isin 方法来判断是否存在。
得到是不否存在的布尔序列后，再应用到 df1，这里我们需要不存在的可以用 ~ 取反，具体可以看代码实现。

二、使用步骤

1.引入库

代码如下（示例）：

import pandas as pd

2.读入数据

代码如下（示例）：

# 数据1
df1 = pd.DataFrame({
    'x': ['a', 'b', 'c', 'd', 'e'],
    'y': [1, 2, 3, 2, 1],
    'z': ['how', 'are', 'you', 'fine', 'thanks']
})
df1

在这里插入图片描述

# 数据2
df2 = pd.DataFrame({
    'x': ['a', 'b', 'c'],
    'y': [1, 2, 3],
    'z': ['what', 'is', 'you']
})
df2
# 如以上数据，df1 中包含了 df2 的内容，现在需要以 x、y 列组合为整体，看 df1 中存在，在 df2 中不存在的数据。其中，z 列的内容认为信息过载的数据，我们不用关心。
# 很明显，df1 最后两行，不在 df2 中。

在这里插入图片描述

#根据以上思路，先将 x 和 y 列转为一个序列：
df1[['x','y']].apply(tuple, axis=1)

在这里插入图片描述

#再将 df2 的两列做以上操作后转为列表，方便使用 isin 检测操作：
df2[['x','y']].apply(tuple, axis=1).to_list()

在这里插入图片描述

#最后是整个判断检测结果：
slice_lable = (
    df1[['x','y']].apply(tuple, axis=1)
    .isin(df2[['x','y']].apply(tuple, axis=1)
          .to_list()
         )
)

slice_lable

在这里插入图片描述

# 最后，再应用到筛选操作上
# 在 df1 中存在，df2 中不存在的
df1[~slice_lable]

在这里插入图片描述

总结

以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1508181.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

025—pandas 根多列判断不在其他列的数据

思路

思路：

二、使用步骤

1.引入库

2.读入数据

总结

相关文章

深入探索HAProxy：高性能负载均衡器的奥秘

教你实现微信公众号消息每日自动推送-俘获妹子芳心

高端竞赛活动，财会知识竞赛复赛方案

分享软件项目实施方案模板

redis源码分析

JavaEE--SpringBoot配置⽂件

算法项目（7）—— 文本检索图片

OD_2024_C卷_200分_9、园区参观路径【JAVA】【动态规划】

RK3568 xhci主控挂死问题

SQLiteC/C++接口简介

利用yaml文件部署NacosXxl-job到阿里云的ACK

zeta新增三个任务教程，即将刷新，速撸

文本向量评测MTEB和C-MTEB

基于51单片机超声波测距

华为手机的备忘录怎么传到苹果15手机上?

脱围：使用 ref 保存值及操作DOM

伪分布HBase的安装与部署

蜂窝物联：智慧水产养殖解决方案

鸿蒙Harmony应用开发—ArkTS声明式开发（基础手势：Navigation）

[虚拟机]