kaggle竞赛实战3

news2024/10/5 13:41:11

接前文,本文主要做以下几件事:

1、把前面处理完的几个表拼成一个大表

2、做特征衍生(把离散特征和连续特征两两组合得出)


# In[89]:


#开始拼接表
transaction = pd.concat([new_transaction, history_transaction], axis=0, ignore_index=True)#最后一个参数表示产生新的索引


# In[91]:


transaction['purchase_month'] = transaction['purchase_date'].apply(lambda x:'-'.join(x.split(' ')[0].split('-')[:2]))#先提取出月份和小时


# In[92]:


transaction['purchase_hour_section'] = transaction['purchase_date'].apply(lambda x: x.split(' ')[1].split(':')[0]).astype(int)


# In[95]:


transaction['purchase_month'] = change_object_cols(transaction['purchase_month'].fillna(-1).astype(str))


# In[96]:


cols = ['merchant_id', 'most_recent_sales_range', 'most_recent_purchases_range', 'category_4']


# In[98]:


#做合并
transaction=pd.merge(transaction,merchant[cols],how='left',on='merchant_id')


# In[99]:


numeric_cols = ['purchase_amount', 'installments']


# In[100]:


category_cols = ['authorized_flag', 'city_id', 'category_1','category_3',
                 'merchant_category_id','month_lag','most_recent_sales_range',
                 'most_recent_purchases_range', 'category_4',
                 'purchase_month', 'purchase_hour_section', 'purchase_day']


# In[101]:


id_cols = ['card_id', 'merchant_id']


# In[102]:


#对合成的表再做一下异常值处理
transaction[cols[1:]] = transaction[cols[1:]].fillna(-1).astype(int)


# In[103]:


transaction[category_cols] =transaction[category_cols].fillna(-1).astype(str)


# In[104]:


#导出成csv
transaction.to_csv("d:/transaction_d_pre.csv",index=False)


# In[105]:


del transaction


# In[106]:


gc.collect()


# In[107]:


#开始特征工程,这里用两两特征组合的方式,使得一个卡号就一条记录。具体来说,看各个卡号A特征取值为1时,C特征的和
from datetime import datetime


# In[108]:


#搞个小数据集玩一下
d1={'card_id':[1,2,1,3],'A':[1, 2, 1, 2],
    'B':[2, 1, 2, 2], 'C':[4, 5, 1, 5], 'D':[7, 5, 4, 8]}


# In[110]:


t1=pd.DataFrame(d1)


# In[111]:


numeric_cols = ['C', 'D']
category_cols = ['A', 'B']


# In[112]:


t1


# In[113]:


#创建以id为key的空字典
features={}
card_all=t1['card_id'].values.tolist()#拿出所有catd_id
for card in card_all:
    features[card]={}


# In[114]:


features


# In[115]:


columns=t1.columns.tolist()#把所有字段名称拿出


# In[116]:


columns


# In[129]:


idx = columns.index('card_id')
idx


# In[122]:


#拿出离散型字段的索引值
category_cols_index=[columns.index(col)for col in category_cols]


# In[123]:


numeric_cols_index=[columns.index(col)for col in numeric_cols]


# In[130]:


#开始吧离散字段和连续字段两两组合
for i in range(t1.shape[0]):
    va=t1.loc[i].values#取出每行的值
    card=va[idx]#取出cardid
    for cate_ind in category_cols_index:
        for num_ind in numeric_cols_index:
            col_name = '&'.join([columns[cate_ind], str(va[cate_ind]), columns[num_ind]])
            features[card][col_name] = features[card].get(col_name, 0) + va[num_ind]
    


# In[131]:


features


# In[135]:


#转化为df
df = pd.DataFrame(features).T.reset_index()#再设置个索引


# In[137]:


cols = df.columns.tolist()


# In[139]:


df.columns = ['card_id'] + cols[1:]#这两句作用就是把第一列索引名改为card_id

最终输出的结果是两两组合的特征及对应值,如图所示:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1699861.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

STM32 USART的字符编码(发送器的实现逻辑)

目录 概述 1 字符编码 1.1 USART 字符说明 1.2 字长编程 2 发送器 2.1 字符发送 2.2 可配置的停止位 2.3 配置停止位方法 3 单字节通信 4 中断字符 5 空闲字符 概述 本文主要讲述STM32 USART的发送端功能实现的原理,包括字节编码长度,发送器…

Cyber Weekly #8

赛博新闻 1、微软召开年度发布会Microsoft Build 2024 本周(5.22)微软召开了年度发布会,Microsoft Build 2024,发布了包括大杀器 Copilot Studio 在内的 50 项更新。主要包括: 硬件层面:与英伟达 & A…

网络空间安全数学基础·群

重点: 1. 群及子群的定义及相关结论 2. 群的判断,子群的判断 3. 群的阶,元素的阶,它们的相互关系 4. 同态,同构,核子群 2.1群的定义 定义:设G是一非空集合。如果在G上定义了一个代数运算,称为乘法,记为ab,而且这个运…

【STL】C++ vector基本使用

目录 一 vector常见构造 1 空容器构造函数(默认构造函数) 2 Fill 构造函数 3 Range 构造函数 4 拷贝构造函数 5 C11构造 二 vector迭代器 1 begin && end 2 rbegin && rend 3 补充排序 三 vector 容量操作 1 size 2 resize …

进程信号(1)

目录 一、信号 1.1、生活中的信号 1.2、Linux中的信号 二、信号处理常见方式 三、信号的产生 3.1、简单理解信号的保存和发送 3.2、键盘产生信号 3.3、核心转储 3.4、系统调用接口产生信号 3.4.1、kill 3.4.2、raise 3.4.3、abort 3.5、软件条件产生信号 3.6、硬…

【操作系统】发展与分类(手工操作、批处理、分时操作、实时操作)

2.操作系统发展与分类 思维导图 手工操作阶段(此阶段无操作系统) 需要人工干预 缺点: 1.用户独占全机,资源利用率低; 2.CPU等待手工操作,CPU利用不充分。 批处理阶段(操作系统开始出现&#x…

firewalld 防火墙

firewalld概述 Linux系统防火墙从CentOS7开始的默认防火墙工作在网络层,属于包过滤防火墙 Firewalld和iptables的关系 netfilter 位于Linux内核中的包过滤功能体系称为Linux防火墙的“内核态” firewalld Centos默认的管理防火墙规则的工具称为防火墙的“用…

【C++】右值引用 移动语义

目录 前言一、右值引用与移动语义1.1 左值引用和右值引用1.2 右值引用使用场景和意义1.3 右值引用引用左值及其一些更深入的使用场景分析1.3.1 完美转发 二、新的类功能三、可变参数模板 前言 本篇文章我们继续来聊聊C11新增的一些语法——右值引用,我们在之前就已…

sqli-lib4-6关教程

SERIES-4 输入?id1 输入?id2-1,说明该数据类型为字符型 输入?id1’ 输入?id1",说明闭合符号为" 输入?id1")– 输入?id1") order by 3– 输入?id1") order by 4– 数据共三列,输入?id-1") union selec…

InfLLM的笔记

文件中提供的代码是一个Python函数chat_loop,它是聊天系统的核心循环。以下是对这段代码逻辑的梳理: 函数定义与参数 chat_loop函数接收多个参数,用于配置聊天模型和聊天环境。参数包括模型路径、设备类型、GPU数量、最大GPU内存、数据类型…

K8s的kubectl的基本操作

K8s的kubectl的基本操作 K8s基本信息的查看 查看版本信息 kubectl versio查看资源对象简写 kubectl api-resources查看集群信息 kubectl cluster-info配置kubectl自动补全 source <(kubectl completion bash)查看master节点状态 kubectl get cs查看命名空间 kubectl…

Elastic Cloud 将 Elasticsearch 向量数据库优化配置文件添加到 Microsoft Azure

作者&#xff1a;来自 Elastic Serena Chou, Jeff Vestal, Yuvraj Gupta 今天&#xff0c;我们很高兴地宣布&#xff0c;我们的 Elastic Cloud Vector Search 优化硬件配置文件现已可供 Elastic Cloud on Microsoft Azure 用户使用。 此硬件配置文件针对使用 Elasticsearch 作…

<el-table>根据后端返回数据决定合并单元格的数量(521特别版)

文章目录 一、需求说明二、用到的方法三、代码&#xff08;只展示了本文章重点代码&#xff09; 一、需求说明 &#x1f49d;仅合并第一列&#xff0c;其余为固定列 二、用到的方法 &#x1f48c;合并单元格可以采用三种方法 &#x1f495;1. 手写表格 简单 但没有饿了么写…

力扣HOT100 - 136. 只出现一次的数字

解题思路&#xff1a; class Solution {public int singleNumber(int[] nums) {int single 0;for (int num : nums) {single ^ num;}return single;} }

生命在于学习——Python人工智能原理(1.1)

说明&#xff1a;今年学一部分人工智能方向的知识&#xff0c;网安也会穿插&#xff0c;看后续如何将二者结合起来。 一、人工智能的基本知识 1、人工智能的起源 1956年美国达特茅斯学院召开了一个夏季论班&#xff0c;首次提出人工智能的概念。 1950年图灵提出了图灵测试&a…

Jenkins + github 自动化部署配置

1 Jenkins安装 AWS EC2安装Jenkins&#xff1a;AWS EC2 JDK11 Jenkins-CSDN博客 AWS EC2上Docker安装Jenkins&#xff1a;https://blog.csdn.net/hhujjj2005/article/details/139078402 2 登录jenkins http://192.168.1.128:8080/ $ docker exec -it d1851d9e3386 /bin/ba…

ChatGPT-4o 实战 如何快速分析混淆加密和webpack打包的源码

ChatGPT-4o 几个特点 一个对话拥有长时间的记忆&#xff0c;可以连续上传文件&#xff0c;让其分析&#xff0c;最大一个代码文件只能3M&#xff0c;超出3M的文件&#xff0c;可以通过split-file可以进行拆分 其次ChatGPT-4o可以生成文件的下载链接&#xff0c;这有利于大文件的…

Nginx 的原理解析 worker 配置及相关问题 -细节狂魔

文章目录 前言Nginx 的最基本的执行过程&#xff08;master & worker&#xff09;worker 是如何进行工作的 一个 master 和 多个 woker 有哪些好处1、可以使用 nginx 热部署2、节省资源 && worker 进程之间互不影响 && nginx 服务不会中断 woker 设置多少才…

如何查看哪些组策略应用于你的电脑和用户帐户?这里有详细步骤

如果你希望在电脑上查看所有有效的组策略设置,以下是操作方法。 什么是Windows中的组策略 在Windows世界中,组策略为网络管理员提供了一种将特定设置分配给用户组或计算机组的方法。然后,无论何时组中的用户登录到联网的PC,或无论何时启动组中的PC,都会应用这些设置。 …

Linux系统之GoAccess实时Web日志分析工具的基本使用

Linux系统之GoAccess实时Web日志分析工具的基本使用 一、GoAccess介绍1.1 GoAccess简介1.2 GoAccess功能1.3 Web日志格式 二、本地环境介绍2.1 本地环境规划2.2 本次实践介绍 三、检查本地环境3.1 检查本地操作系统版本3.2 检查系统内核版本3.3 检查系统镜像源3.4 更新软件列表…