1
前言
Datatable是一个Python库:
详细介绍大家可以去官网查看:
https://datatable.readthedocs.io/en/latest/?badge=latest
Datatable的有点包括:
-
高效的多线程算法
-
Memory-thrifty
-
内存映射磁盘上的数据集
-
本地C++实现
-
完全开源
Datatable主要语法
在Datatable中,所有这些操作的主要工具是方括号表示法,其灵感来自传统的矩阵索引。
i是行选择器,j是列选择器。…表示附加修饰符。当前可用的修饰符是by()、join()和sort()。这个工具包与pandas非常相似,但更侧重于速度和大数据支持。
2
案例分析
我们利用机器学习来预测房利美获得的贷款是否会丧失抵押品赎回权。
数据集
使用2014年第三季度的数据集。下载的数据集包含两个名为Acquisition.txt和Performance.txt的文件:
-
Acquisition:包含每个借款人的个人信息,包括个人的债务收入比、信用评分和贷款金额等。
-
Performance:包含关于贷款支付历史的信息,以及借款人最终是否会拖欠贷款。
目标
我们的目标是通过这些数据来预测,那些最有可能拖欠抵押贷款的借款人。在开始分析之前,我们将使用Python Datatable来获得基本分析。
import datatable as dt
接下来,我们将使用Datatable的fread函数读取获取和性能文件。下面的fread()函数既强大又非常快。它可以自动检测和解析大多数文本文件的参数,从.zip档案或url加载数据,读取Excel文件等等。
现有数据没有列标头,我们需要从列文件手动输入这些列标头。
col_acq = ['LoanID','Channel','SellerName','OrInterestRate','OrUnpaidPrinc','OrLoanTerm','OrDate','FirstPayment','OrLTV','OrCLTV','NumBorrow','DTIRat','CreditScore','FTHomeBuyer','LoanPurpose','PropertyType','NumUnits','OccStatus','PropertyState','Zip','MortInsPerc','ProductType','CoCreditScore','MortInsType','RelocationMort']
col_per = ['LoanID','MonthRep','Servicer','CurrInterestRate','CAUPB','LoanAge','MonthsToMaturity','AdMonthsToMaturity','MaturityDate','MSA','CLDS','ModFlag','ZeroBalCode','ZeroBalDate','LastInstallDate','ForeclosureDate','DispositionDate','ForeclosureCosts','PPRC','AssetRecCost','MHRC','ATFHP','NetSaleProceeds','CreditEnhProceeds','RPMWP','OFP','NIBUPB','PFUPB','RMWPF', 'FPWA','SERVICING ACTIVITY INDICATOR']
df_acq = dt.fread('../input/Acquisition_2014Q3.txt',columns=col_acq)
df_per = dt.fread('../input/Performance_2014Q3.txt', columns=col_per)
print(df_acq.shape)
print(df_per.shape)
--------------------------------------------------------------------
(394356, 25)
(17247631, 31)
与pandas不同,.head()函数显示前10行,不过大家可以指定序号。
df_acq.head()
进度条的颜色表示数据类型,其中红色表示字符串,绿色表示整数,蓝色表示浮点数。
在Performance数据集中,我们只对LoanID和ForeclosureDate列感兴趣,因为这将为我们提供借款人身份证号,以及它们最终是否会违约。
选择特定列
因此,让我们只选择LoanID和ForeclosureDate列,并丢弃其余部分:
df_per = df_per[:,['LoanID','ForeclosureDate']]
df_per.head(5)
删除重复项
dt.unique(df_per[:,"LoanID"]).head(5)
分组
根据唯一的贷款ID对dataframe进行分组。这将确保数据集中只存在唯一的贷款ID。
df_per = df_per[-1:,:, dt.by(dt.f.LoanID)]
df_per.head(5)
f-expression支持算术运算以及各种数学和聚合函数。
join Acquisition and Performance数据frames
现在,让我们通过使用theLoanID列执行内部连接来组合Acquisition和Performance frames。将结果Dataframe命名为df。我们将使用它作为我们的目标变量。并将这一列重命名为Will_Default,以避免混淆。
df_per.names = ['LoanID','Will_Default']
df_per.key = 'LoanID'
df= df_acq[:,:,dt.join(df_per)]
格式化目标列
Will Default列由日期组成。例如,如果借款人已经偿还了贷款,则会提到偿还贷款的日期。但是,如果还没有偿还贷款,则字段为空,将空白值替换为0。字段的值为1,这意味着借款人没有违约。他已经在某一天还清了贷款。
# Replacing the dates in the Will_Default column with '0' and null values with 1
df[:,'Will_Default'] = df[:, {'Will_Default': dt.f['Will_Default']==""}]
df.head(5)
最后,让我们看看处理过的数据集的shape:
df.shape
-------------------------------------------------------
(394356, 26)
Dataframe有394356行和26列,其中包含关于贷款利率、付款日期、属性状态和每个属性邮政编码的最后几个数字的信息。从这里开始,就可以将数据输入模型进行训练。大家还可以将其转换为pandas dataframe、CSV文件或二进制文件:
df.to_pandas()
df.to_csv("out.csv")
df.to_jay("data.jay")
3
总结
如今,在数据科学生态系统中存在大量类似数据库的工具。为了比较它们的性能,我们建立了一个基准,该基准定期针对这些包的最新版本运行并自动更新。这对包的开发人员和用户都是有益的。
例如,下面是在5GB和50GB数据集上执行的join函数的基准测试,可以看到,Datatable的性能非常好。
5GB数据集:
50GB数据集:
当处理大数据时,Datatable包确实很出色。Datatable强调对大数据的支持,并且可以真正提高在数据集上执行数据处理任务所需的时间。
题外话
感兴趣的小伙伴,赠送全套Python学习资料,包含面试题、简历资料等具体看下方。
👉CSDN大礼包🎁:全网最全《Python学习资料》免费赠送🆓!(安全链接,放心点击)
一、Python所有方向的学习路线
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。
二、Python必备开发工具
工具都帮大家整理好了,安装就可直接上手!
三、最新Python学习笔记
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、Python视频合集
观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
六、面试宝典
简历模板
👉CSDN大礼包🎁:全网最全《Python学习资料》免费赠送🆓!(安全链接,放心点击)
若有侵权,请联系删除