「Python数据分析」Pandas进阶,使用merge()函数合并数据

news2024/11/15 6:53:53

在使用python语言进行数据分析的过程中,我们的数据,有很大一部分是结构化数据,也就是比较整齐的数据。

这里,我不展开讲什么是结构化数据,因为这个范围太过于庞大。但是,有一个知识点,必须要讲一下。这个知识点就是,数据的主键。

之前,我们讲过利用concat函数进行数据合并操作。通常情况下,concat函数只是把各种原始数据集,一股脑的按照行,或者是列,进行合并。

通俗点讲,就是把数据直接一锅粥的放在一起,不考虑数据的结构问题,因为行和列缺失的话,都可以通过缺失值来进行填补。

数据的主键

而今天要讲的merge函数,等同于SQL语言中的连接语句,需要使用到数据的主键,也就是需要满足关系型数据库的第二范式。

这部分内容,过于抽象,我们使用merge函数进行数据连接操作,只需要知道数据的主键。也就是说,我们的数据集中,至少要有一列(通常是放在第一列),这一列中的数据,不允许出现重复值,能够唯一标识我们数据集中,每一行的值。

比如说,我们的人员信息表中的数据集,可能会有:身份证号码,姓名,年龄,等等数据。那么,身份证号码这一列,就是我们人员信息表的主键列,我们每个人,都可以通过身份证号码来唯一标识,因为我们每一个人,都只有一个身份证号码,不会重复。

数据连接的类型

使用merge函数连接数据,和使用sql语言命令连接数据,基本一致,也是有三种连接的类型。

一对一连接

这种连接方式,适用于同一批数据,分散在不同的数据集中的情况。

比如说,我们的个人信息,可能就会分为基本信息部分,教育信息部分,工作信息部分等等。每一部分信息,都是通过身份证号码的关键字来唯一标识。

这样,我们就可以通过一对一连接,把这几部分,都是表示我们个人信息的数据集,连接起来,以便后续进行分析和处理。

多对一连接

这里,我举例来进行说明。比如说,假设我们是订单处理员,我们每天会处理很多个订单。那么,订单和处理员的关系,就是多对一的关系。

在订单中,需要加入处理员的身份证号码,用来确认这个订单是某个处理员完成的。这样的话,我们就可以通过身份证号码,把订单数据和处理员数据,连接起来,形成一个新的数据集。

多对多连接

多对多连接,是比较抽象的一种连接过程。我还是通过例子,来帮助大家了解这种连接方式。

比如说,我们的政府部门,会有就业数据。在就业数据中,求职者可以向多个公司求职,而公司呢,也可以接受多个求职者的求职请求。

这种情况下,求职者和公司之间,就是多对多的关系。我们的政府,如果需要对就业数据进行分析处理的话,就需要把求职者和公司,通过多对多的连接方式,把数据连接起来。

一对一连接例子

我们先来看一个一对一连接的简单例子。

连接过程如下图所示

原始数据生成

原始数据集

使用merge函数,通过key连接

以上,就是一个一对一数据集连接的例子。在数据集left和right中,key完全一致,即表示两个数据集是一对一关系。

这样,就可以通过key关键字,把两个数据集中的数据,按照列的顺序,连接在一起,key关键字列保持不变。

左连接

在左连接中,merge函数的方法是:left,SQL语句的连接名称是:LEFT OUTER JOIN。

左连接表示的含义是,以左边数据集中的关键字为参照,连接左右两边的数据集。连接完成后的新数据集,保留左边数据集中的数据。右边数据集的列加入左边数据集,并且右边数据集中的关键字和左边数据集相等的话,填充加入列的数据。

我们还是通过例子进行说明

连接过程图示

生成原始数据集

原始数据格式

连接过程

我们可以观察数据,这里是通过left方法进行连接,所以保留left数据集中的数据。然后,我们是用联合主键的形式,也就是key1和key2联合起来进行连接。K1和K0,在left数据集中出现了一次,在right数据集中出现了两次,所以结果数据集中,就有两行K1和K0标识的数据集。

右连接

在右连接中,merge函数的方法是:right,SQL语句的连接名称是:RIGHT OUTER JOIN。

连接过程图示

连接过程

注意这里是以右侧数据集right为基准,所以保留right数据集中的数据,把left中的列,加入到right中,通过联合主键key1和key2进行连接。

外连接

在外连接中,merge函数的方法是:outer,SQL语句的连接名称是:FULL OUTER JOIN。

连接过程图示

连接过程

外连接,其实就是把左边和右边的主键全部放在一起,两边都有的主键,就回填所有列的数据。如果left没有的主键,则left的列,在新数据集中回填空值,right则相反。

内连接

在内连接中,merge函数的方法是:inner,SQL语句的连接名称是:INNER JOIN。

连接过程图示

连接过程

内连接可以这样理解,那就是左侧数据集和右侧数据集,联合主键相等,也就是左侧和右侧,同时出现的主键的数据行保留,最后生成新数据集。

总结

以上4种连接方式,是数据连接中的主要连接方式,也是merge函数中的主要连接方法。在实际数据分析和处理过程中,左连接和右连接运用场景更多一些,希望大家对照图示,参照代码,灵活熟练掌握这4种常用的数据连接方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2098987.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

前端代码注释风格 - CSS篇

本文基于《阿里巴巴CSS编程规约》、stylelint rules进行编写,涉及预编译语言(Sass、Less)的编码风格和最佳实践。 1.1 编码风格 空格的使用 选择器和{之间保留一个空格。.selector-disabled { 在使用逗号分隔的属性中,逗号后保…

Python检测和识别车牌-python经典练手项目

车牌检测与识别技术用途广泛,可以用于道路系统、无票停车场、车辆门禁等。这项技术结合了计算机视觉和人工智能。 本文将使用Python创建一个车牌检测和识别程序。该程序对输入图像进行处理,检测和识别车牌,最后显示车牌字符,作为…

专利复现_基于ngboost和SHAP值可解释预测方法

大家好,我是重庆未来之智的Toby老师,最近看到一篇专利,名称是《基于NGBoost和SHAP值的可解释地震动参数概率密度分布预测方法》。该专利申请工日是2021年3月2日。 专利复现 我看了这专利申请文案后,文章整体布局和文字内容结构不错…

c++修炼之路之C++11

目录 一:使用列表初始化 二:decltype和nullptr 三:右值引用和移动语义 四:新的类功能 五:可变参数模板 六:lambda表达式 七:包装器 1.function包装器 2.bind包装器 接下来的日子会顺…

《深度学习》OpenCV 图像轮廓检测、轮廓处理及代码演示

目录 一、图像轮廓检测 1、边缘检测和轮廓检测 2、常用的图像轮廓检测方法包括: 1)基于梯度的方法 2)基于边缘检测器的方法 3)基于阈值的方法 3、查找轮廓的函数 4、轮廓的绘制 5、轮廓特征 1)轮廓面积 2&a…

呵,老板不过如此,SQL还是得看我

2018年7月,大三暑假进行时,时间过得飞快,我到这边实习都已经一个月了。 我在没工作之前,我老是觉得生产项目的代码跟我平时自学练的会有很大的区别。 以为生产项目代码啥的都会规范很多,比如在接口上会做很多安全性的…

自己开发完整项目一、登录功能-05(动态权限控制)

一、上节回顾 在上一节中,我们介绍了如何通过数据库查询用户的权限,并对方法级别的接口使用注解的方式进行权限控制,之后通过用户携带的tocken进行解析权限,判断是否可以访问。 具体步骤: 1.在查询用户信息的时候将用户…

神经网络中激活函数介绍、优缺点分析

本文主要介绍神经网络中的常用的激活函数 激活函数是神经网络中用于引入非线性模型,提升模型泛化能力的函数 非线性激活函数至关重要,它可以让神经网络学习复杂特征、提供模型复杂度 1、激活函数定义 激活函数是神经网络模型中的一种非线性函数&#xf…

教学能力知识

第一章课程理论知识 一、课程理念 二、课程目标 1.核心素养 2.课程总目标 三、教学建议 四、教学环节 第二章教学实施 第一节导入新课类 二.导入方法 第二节教学方法类 教学方法的选择依据 第三节教法实施原则类 设计意图 第四节设计意图类 1.教学目标 2.教学重难点 3.教学…

【安当产品应用案例100集】014-使用安当TDE实现达梦数据库实例文件的透明加密存储

随着数据安全重要性的不断提升,数据库文件的落盘加密已成为数据保护的一项基本要求。达梦数据库作为一款高性能的国产数据库管理系统,为用户提供了一种高效、安全的数据存储解决方案。本文将详细介绍如何利用安当KSP密钥管理平台及TDE透明加密组件来实现…

[数据集][目标检测]灭火器检测数据集VOC+YOLO格式3255张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):3255 标注数量(xml文件个数):3255 标注数量(txt文件个数):3255 标注…

c++多线程下崩溃一例分析 ACTIONABLE_HEAP_CORRUPTION heap failure block not busy DOUBLE

之前的三个代码接口使用了同一把锁,共享资源的访问是有序执行的没有问题。最近改成各个接口使用单独的锁,结果漏掉了共享资源的保护,于是出现了崩溃。最近与这个崩溃做斗争并定位找到的原因,成功复现了。这里总结下,后…

[YM]课设-C#-WebApi-Vue-员工管理系统 (六)前后端交互

Http状态码: 终于也是到了前端 上文提到http状态码 这里详细说一下 1xx 表示临时响应并需要请求者继续执行操作 2xx 成功,操作被成功接收并处理 3xx 表示要完成请求,需要进一步操作。 通常,这些状态代码用来重定向 4…

LiveQing视频点播流媒体RTMP推流服务用户手册-分屏展示:单分屏、四分屏、九分屏、十六分屏、轮巡播放、分组管理、记录加载

LiveQing视频点播流媒体RTMP推流服务用户手册-分屏展示:单分屏、四分屏、九分屏、十六分屏、轮巡播放、分组管理、记录加载 1、分屏展示1.1、分组管理1.1.1、新建分组1.1.2、选择资源1.1.3、编辑分组1.1.4、删除资源 1.2、多分屏1.2.1、选择资源1.2.2、单分屏1.2.3、四分屏1.2.…

【多模态大模型】的正确打开方式——图片

早期痛点 识别图片中的物体,早期可以使用Yolo 但是缺点也很明显: 训练时间长成本高泛华性能差通用识别领域覆盖有限 优点: 特殊领域识别 大模型出现 大模型出现后,一些大模型对接了图片识别相关的模型,实现了图片…

利用衍射进行材料分析--Muad

软件介绍 MAUD是一款免费软件,使用组合 Rietveld 方法分析衍射数据。其功能不仅限于衍射,还包括荧光和反射率。 它可以分析来自 X 射线源以及中子、TOF 和 TEM 电子的数据。相含量和晶体结构、微观结构特征(如尺寸和应变)、晶体…

沉浸式体验亚马逊云科技上私有化部署零一万物AI大模型

小李哥将继续带大家沉浸式体验亚马逊云科技上的国产AI大模型。最近亚马逊云科技的机器学习模型管理平台Amazon SageMaker JumpStart 上线了由零一万物提供的基础模型 Yi-1.5 6B/9B/34B,这也是首批登陆中国区 Amazon SageMaker JumpStart 的中文基础模型,…

【多线程】并发编程wait和sleep的区别

notyfy、notifyAll、wait的使用:sleep/wait/notify/notifyAll分别有什么作用 背景:之前的博客讲解到了notify的使用,那并发编程的时候,到底该用 sleep还是notify呢?本篇我们来一起梳理一下区别 所属类与方法类型 wait…

vscode+django开发后端快速测试接口(轻量版,免postman安装)

目录 背景 步骤 安装插件 编写测试文件 示例一:get接口类型 示例二:post接口类型 示例三:delete接口类型 如何运行test.http测试文件 背景 在最近工作中涉及到使用Django框架开发后端,写完接口后,不可避免需要…

php法律事务综合管理系统Java律师事务所业务流程管理平台python法律服务与案件管理系统(源码、调试、LW、开题、PPT)

💕💕作者:计算机源码社 💕💕个人简介:本人 八年开发经验,擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等,大家有这一块的问题可以一起交流&…