Datatable:Python数据分析提速高手,飞一般的感觉!

news2024/12/22 20:46:36

1

前言

Datatable是一个Python库:

详细介绍大家可以去官网查看:

https://datatable.readthedocs.io/en/latest/?badge=latest

Datatable的有点包括:

  • 高效的多线程算法

  • Memory-thrifty

  • 内存映射磁盘上的数据集

  • 本地C++实现

  • 完全开源

Datatable主要语法

在Datatable中,所有这些操作的主要工具是方括号表示法,其灵感来自传统的矩阵索引。

i是行选择器,j是列选择器。…表示附加修饰符。当前可用的修饰符是by()、join()和sort()。这个工具包与pandas非常相似,但更侧重于速度和大数据支持。

2

案例分析

我们利用机器学习来预测房利美获得的贷款是否会丧失抵押品赎回权。

数据集

使用2014年第三季度的数据集。下载的数据集包含两个名为Acquisition.txt和Performance.txt的文件:

  • Acquisition:包含每个借款人的个人信息,包括个人的债务收入比、信用评分和贷款金额等。

  • Performance:包含关于贷款支付历史的信息,以及借款人最终是否会拖欠贷款。

目标

我们的目标是通过这些数据来预测,那些最有可能拖欠抵押贷款的借款人。在开始分析之前,我们将使用Python Datatable来获得基本分析。

import datatable as dt

接下来,我们将使用Datatable的fread函数读取获取和性能文件。下面的fread()函数既强大又非常快。它可以自动检测和解析大多数文本文件的参数,从.zip档案或url加载数据,读取Excel文件等等。

现有数据没有列标头,我们需要从列文件手动输入这些列标头。

col_acq = ['LoanID','Channel','SellerName','OrInterestRate','OrUnpaidPrinc','OrLoanTerm','OrDate','FirstPayment','OrLTV','OrCLTV','NumBorrow','DTIRat','CreditScore','FTHomeBuyer','LoanPurpose','PropertyType','NumUnits','OccStatus','PropertyState','Zip','MortInsPerc','ProductType','CoCreditScore','MortInsType','RelocationMort']  
col_per = ['LoanID','MonthRep','Servicer','CurrInterestRate','CAUPB','LoanAge','MonthsToMaturity','AdMonthsToMaturity','MaturityDate','MSA','CLDS','ModFlag','ZeroBalCode','ZeroBalDate','LastInstallDate','ForeclosureDate','DispositionDate','ForeclosureCosts','PPRC','AssetRecCost','MHRC','ATFHP','NetSaleProceeds','CreditEnhProceeds','RPMWP','OFP','NIBUPB','PFUPB','RMWPF', 'FPWA','SERVICING ACTIVITY INDICATOR']  
  
df_acq = dt.fread('../input/Acquisition_2014Q3.txt',columns=col_acq)  
df_per = dt.fread('../input/Performance_2014Q3.txt', columns=col_per)
print(df_acq.shape)  
print(df_per.shape)  
--------------------------------------------------------------------  
(394356, 25)  
(17247631, 31)

与pandas不同,.head()函数显示前10行,不过大家可以指定序号。

df_acq.head()

进度条的颜色表示数据类型,其中红色表示字符串,绿色表示整数,蓝色表示浮点数。

在Performance数据集中,我们只对LoanID和ForeclosureDate列感兴趣,因为这将为我们提供借款人身份证号,以及它们最终是否会违约。

选择特定列

因此,让我们只选择LoanID和ForeclosureDate列,并丢弃其余部分:

df_per = df_per[:,['LoanID','ForeclosureDate']]  
df_per.head(5)

删除重复项

dt.unique(df_per[:,"LoanID"]).head(5)

分组

根据唯一的贷款ID对dataframe进行分组。这将确保数据集中只存在唯一的贷款ID。

df_per = df_per[-1:,:, dt.by(dt.f.LoanID)]  
df_per.head(5)

f-expression支持算术运算以及各种数学和聚合函数。

join Acquisition and Performance数据frames

现在,让我们通过使用theLoanID列执行内部连接来组合Acquisition和Performance frames。将结果Dataframe命名为df。我们将使用它作为我们的目标变量。并将这一列重命名为Will_Default,以避免混淆。

df_per.names = ['LoanID','Will_Default']  
df_per.key = 'LoanID'  
df= df_acq[:,:,dt.join(df_per)]

格式化目标列

Will Default列由日期组成。例如,如果借款人已经偿还了贷款,则会提到偿还贷款的日期。但是,如果还没有偿还贷款,则字段为空,将空白值替换为0。字段的值为1,这意味着借款人没有违约。他已经在某一天还清了贷款。

# Replacing the dates in the Will_Default column with '0' and null values with 1  
df[:,'Will_Default'] = df[:, {'Will_Default': dt.f['Will_Default']==""}]  
df.head(5)

最后,让我们看看处理过的数据集的shape:

df.shape  
-------------------------------------------------------  
(394356, 26)

Dataframe有394356行和26列,其中包含关于贷款利率、付款日期、属性状态和每个属性邮政编码的最后几个数字的信息。从这里开始,就可以将数据输入模型进行训练。大家还可以将其转换为pandas dataframe、CSV文件或二进制文件:

df.to_pandas()  
df.to_csv("out.csv")  
df.to_jay("data.jay")

3

总结

如今,在数据科学生态系统中存在大量类似数据库的工具。为了比较它们的性能,我们建立了一个基准,该基准定期针对这些包的最新版本运行并自动更新。这对包的开发人员和用户都是有益的。

例如,下面是在5GB和50GB数据集上执行的join函数的基准测试,可以看到,Datatable的性能非常好。

5GB数据集:

50GB数据集:

当处理大数据时,Datatable包确实很出色。Datatable强调对大数据的支持,并且可以真正提高在数据集上执行数据处理任务所需的时间

---------------------------END---------------------------

题外话

在这里插入图片描述

感兴趣的小伙伴,赠送全套Python学习资料,包含面试题、简历资料等具体看下方。

👉CSDN大礼包🎁:全网最全《Python学习资料》免费赠送🆓!(安全链接,放心点击)

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

img
img

二、Python必备开发工具

工具都帮大家整理好了,安装就可直接上手!img

三、最新Python学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

img

四、Python视频合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

img

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

img

六、面试宝典

在这里插入图片描述

在这里插入图片描述

简历模板在这里插入图片描述

👉CSDN大礼包🎁:全网最全《Python学习资料》免费赠送🆓!(安全链接,放心点击)

若有侵权,请联系删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/938551.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

iTunes怎么备份?1招教你轻松搞定

相比于苹果手机的iCloud备份,使用iTunes备份具有以下优点:1、备份容量不受限制;2、备份后的文件就像普通文档一样,可以随时进行查看和管理。本文将为大家介绍itunes怎么备份、如何对备份进行加密以及怎么删除备份的方法&#xff0…

nginx配置keepalive长连接

nginx之keepalive详解与其配置_keepalive_timeout_恒者走天下的博客-CSDN博客 为什么要有keepalive? 因为每次建立tcp都要建立三次握手,消耗时间较长,所以为了减少tcp建立连接需要的时间,就可以设置keep_alive长连接。 nginx中keep_alive对…

Java:Map集合的三种遍历方式和常见案例

Map集合的遍历方式 方式一:键找值 遍历方式二:键值对 遍历方式三:Lambda表达式 Map集合的常见案例 需求 某个班级80名学生,现在需要组织秋游活动,班长提供了四个景点依次是(A、B、C、D),每个学生只能选择一个景点&am…

阿里云CDN缓存预热与刷新以及常见的故障汇总

文章目录 1.为CDN缓存的文件增加过期时间2.CDN缓存预热配置3.CDN缓存刷新配置4.常见故障 CDN缓存预热指的是主动将要缓存的文件推送到全国各地的CDN边缘加速器上,减少回源率,提供命中率。 缓存刷新指的是后期上传了同名的文件,之前的缓存已经…

常见前端面试之VUE面试题汇总十

28. Vuex 和 localStorage 的区别 (1)最重要的区别 vuex 存储在内存中 localstorage 则以文件的方式存储在本地,只能存储字符串类型的 数据,存储对象需要 JSON 的 stringify 和 parse 方法进行处理。 读 取内存比读取硬盘速度要…

LVGL学习 stm32f407-board-lvgl v8.3移植

LVGL学习 stm32f407-board-lvglv8.3移植 移植过程有问题,请参考正点原子的教程或者视频 硬件平台 STM32F407ZGT6核心板3.2寸屏幕 LVGL LVGL(Light and Versatile Graphics Library)是一个免费的开源图形库,提供创建具有易 于…

知识学爆——日常开发中的疑问

1.为什么说刷新页面vuex的数据会丢失 刷新页面vuex的数据会丢失属于正常现象,因为JS的数据都是保存在浏览器的堆栈内存里面的,刷新浏览器页面,以前堆栈申请的内存被释放,这就是浏览器的运行机制,那么堆栈里的数据自然就…

用NeRFMeshing精确提取NeRF网络中的3D网格

准确的 3D 场景和对象重建对于机器人、摄影测量和 AR/VR 等各种应用至关重要。 NeRF 在合成新颖视图方面取得了成功,但在准确表示底层几何方面存在不足。 推荐:用 NSDT编辑器 快速搭建可编程3D场景 我们已经看到了最新的进展,例如 NVIDIA 的…

解析代理IP在跨境电商和社媒营销中的关键作用

跨境电商和社媒营销领域的从业者深知,代理IP的价值愈发凸显。在推广营销的过程中,频繁遇到因IP关联而封禁账号的情况,或因使用不安全IP而导致异常问题。 这些问题促使人们开始高度重视代理IP的作用。但实际上,代理IP究竟是何物&a…

从C语言到C++_35(异常)C++异常的使用+异常体系+异常优缺点

目录 1. 异常的基本使用 1.1 异常的概念 1.2 异常的抛出和匹配原则 1.3 函数调用链中异常栈展开匹配原则 1.4 异常的重新抛出 1.5 异常的安全问题 1.6 C98和C11的异常规范 2. 自定义异常体系 2.1 异常继承体系 2.2 异常体系中的重新抛出 3. C标准库的异常体系 4. C…

每天一分享#读up有感#——云原生——持续学习

今日话题,云原生,看到两位大佬,就一起做下学习记录,爱了爱了。 江湖有缘,江湖见 https://blog.csdn.net/jks212454?typeblog 时间周期 第一篇文章:2021.04.17 粗略算,大佬不到2年就十万了…

YOLO目标检测——水果蔬菜数据集下载分享

水果蔬菜数据集共同90000图片,131类别分别存放在不同文件中,可应用于果蔬分类和种类识别等等 数据集点击下载:YOLO水果蔬菜数据集90000图片131类别.rar

【Linux的成长史】Linux的发展史

🎬 博客主页:博主链接 🎥 本文由 M malloc 原创,首发于 CSDN🙉 🎄 学习专栏推荐:LeetCode刷题集 数据库专栏 初阶数据结构 🏅 欢迎点赞 👍 收藏 ⭐留言 📝 如…

有哪些CAD转低版本软件?教你版本转换方法

当不同的人使用不同版本的CAD软件时,可能会出现不兼容的情况。例如,我们可能在使用较新版本的CAD软件,但是其他人可能仍在使用较早版本的软件。在这种情况下,就需要将您的CAD文件转换为较早的版本,也就是低版本&#x…

RT_Thread内核机制学习(一)

ARM架构及汇编 ARM芯片属于精简指令集计算机(RISC:Reduced Instruction Set Computer),它所使用的指令比较简单,有如下特点: 对内存只有读、写指令。对于数据的运算实在CPU内部实现。使用RISC指令的CPU复杂…

0基础学习VR全景平台篇 第92篇:智慧景区-智慧景区常见问题

Q:怎么编辑景区里面各个景点的介绍和推荐该景点A:在下方素材栏中该景点(素材)的右上角选择【编辑场景】里面就可以在场景介绍中编辑该场景的介绍并且在该选项中可以将此场景设置为推荐景点。 Q:景区项目可不可以离线浏…

【位运算进阶之----右移(>>)】

😄嘻嘻,朋友们,大家好!昨天我们学习了左移,今天我们来谈谈右移>>。 ⭐️简单来说,右移就是将一个数二进制表达整体向右移动,也就是去掉一个数的二进制表达的末位,右移一位就去…

apex和pl/sql学习记录2

验证后过程函数代码插眼儿 -- 登录后验证过程3 create or replace PROCEDURE TEST_USER_WXX3_PRO ASV_USER_ID NUMBER(20);V_ROLE_ID NUMBER(20);V_PERM_ID NUMBER(20);V_DEPT_ID NUMBER(20);V_USER_NAME NVARCHAR2(64);V_JOB_NUMBER NVARCHAR2(32);V_M…

破除“中台化”误区,两大新原则考核中后台

近年来,“中台化”已成为许多企业追求的目标,旨在通过打通前后台数据和业务流程,提升运营效率和创新能力。然而,在实施过程中,一些误解可能导致“中台化”未能如预期般发挥作用。本文将探讨这些误解,并提出…

Exploring Unreal Engine New Free Archviz Explorer Project 视频笔记

链接: https://www.bilibili.com/video/BV1Q34y1Z7he/ 场景中没有太阳,也没有定向光 该蓝图用来控制光线的显示 删除这个蓝图 添加这个蓝图 顶部会出现时间滑块 该项目还有扩展插件,用户可以自由下载 它是由一个8k的卫星图做的地形底图 …