基于统计检验与机器学习研究客户对保险兴趣的因素

news2024/9/24 14:24:50

1.项目背景

保险单是一种安排,公司承诺为特定的损失、损坏、疾病或死亡提供赔偿保证,以换取支付指定的保费。保费是客户需要定期向保险公司支付的一笔钱,以提供此保证,与医疗保险一样,也有车辆保险,客户每年都需要向保险公司支付一定金额的保险费,以便在车辆不幸发生事故时,保险公司将向客户提供赔偿(称为“保额”)。现在需要建立一个模型,以预测过去一年的投保人(客户)是否也会对公司提供的车辆保险感兴趣。

本项目通过对训练集和测试集进行一致性检验,确保它们在特征分布上的一致性。接着进行了客户感兴趣的影响因素分析,并建立了随机森林模型和XGBoost模型,可能对新的车辆保险产品感兴趣,从而有效地规划其营销策略和优化业务模式。

2.数据说明

英文特征名中文翻译描述
id客户ID客户的唯一标识符
Gender性别客户的性别(男/女)
Age年龄客户的年龄
Driving_License驾照如果客户有驾驶执照,则为1,否则为0
Region_Code地区代码客户所在地区的代码
Previously_Insured之前投保如果客户之前已投保车辆保险,则为1,否则为0
Vehicle_Age车辆年龄车辆的年龄
Vehicle_Damage车辆损坏如果客户的车辆曾经损坏,则为1,否则为0
Annual_Premium年保费客户每年需要支付的保费金额
Policy_Sales_Channel保单销售渠道与客户接触的渠道的匿名代码,即不同的代理、邮件、电话、面对面等
Vintage客户关系天数客户与公司关系的天数
Response响应客户是否对车辆保险感兴趣,如果客户对车辆保险感兴趣,则为1,否则为0

3.Python库导入及数据读取

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import chi2_contingency,ks_2samp,spearmanr
from sklearn.model_selection import train_test_split,RandomizedSearchCV
from imblearn.over_sampling import RandomOverSampler
from sklearn.ensemble import RandomForestClassifier
import xgboost as xgb
from sklearn.metrics import classification_report,confusion_matrix,roc_curve, auc,precision_recall_curve,precision_recall_fscore_support
from joblib import Parallel, delayed
train_data = pd.read_csv("/home/mw/input/08054086/train.csv")
test_data = pd.read_csv("/home/mw/input/08054086/test.csv")

4.数据一致性检验

通过对训练集与测试集进行分析,确保测试集和训练集在特征分布上是一致的,这有助于确认模型在训练过程中学到的规律在测试数据上也是适用的。

4.1数据预览

训练集信息:

测试集信息:

4.2可视化分析

通过对两个数据集进行可视化分析,可以初步认为两个数据具有一致性,当然为了进一步验证两个数据之间的一致性,接下来将使用统计检验确保两个数据的一致性。

4.3卡方检验

对于分类变量,可以使用卡方检验(Chi-Square Test)来检验两个数据集在分类变量上的分布是否一致。

通过卡方检验,发现所有分类变量的p值均大于0.05,说明训练集和测试集在这些特征上的分布没有显著差异。

4.4KS检验

Kolmogorov-Smirnov检验(KS检验):用于检验两个样本是否来自相同的分布。

通过KS检验,所有数值变量的p值均大于0.05,说明训练集和测试集在这些特征上的分布没有显著差异。

综上所述,可以认为训练集和测试集在特征分布上是一致的,因此可以只对训练集进行进一步的分析和模型训练,将简化分析过程,并确保模型在测试集上的评估具有代表性。

5.客户感兴趣的影响因素分析

5.1可视化分析

通过可视化分析,可以直观的观察到:

  1. 男性客户比女性客户对车辆保险感兴趣的占比更大。

  2. 对汽车保险感兴趣的客户年龄分布中位数更高,不感兴趣的客户年龄分布更广,这可能反映了中年客户对汽车保险的需求较高。

  3. 有驾照的客户更有可能拥有车辆,因此对汽车保险更感兴趣。

  4. 已经投过车险的客户明显对这个汽车保险不感兴趣,因此,后续营销推广的时候,可以减少与这些客户的接触。

  5. 老旧车辆的客户对汽车保险需求更大,因此,可以多接触这类客户进行推广。

  6. 经历过车辆损坏的客户更倾向于购买保险。

  7. 对汽车保险感兴趣的客户和不感兴趣的客户在年度保费的分布上没有显著差异,分布形态较为相似,表明年保费对客户兴趣的影响较小。

  8. 对汽车保险感兴趣的客户和不感兴趣的客户在与公司建联的天数上没有显著差异,表明客户与公司的关系长短对其兴趣影响不大。

5.2斯皮尔曼相关性分析

  • 年龄与客户对车辆保险的兴趣呈正相关,即年龄越大,客户对车辆保险的兴趣越高。

  • 是否有驾照与客户对车辆保险的兴趣显著,但是相关性才0.01,这种情况通常发生在样本量非常大的时候,因为即使是非常微小的相关性在大样本中也可能被检测为显著。

  • 之前是否投保与客户对车辆保险的兴趣呈负相关,之前有投保的客户对新车保险的兴趣较低。

  • 车龄与客户对车辆保险的兴趣呈正相关,即车辆越老,客户对车辆保险的兴趣越高。

  • 车辆是否损坏与客户对车辆保险的兴趣呈正相关,即曾经损坏过车辆的客户对车辆保险的兴趣较高。

  • 年度保费与客户对车辆保险的兴趣显著,但是相关性才0.03,同理也可能是大样本导致的。

  • 与公司建联的天数与客户对车辆保险的兴趣没有相关性。

5.3卡方检验

123这个与客户接触的渠道的匿名代码共有:1条。 43这个与客户接触的渠道的匿名代码共有:1条。

通过卡方检验发现:性别、客户所在地区的代码、与客户接触的渠道的匿名代码与客户是否对车辆保险感兴趣有显著关系,并且地区38、28、19客户感兴趣的占比比其他地区大,123、43这两个与客户接触的渠道的匿名代码才1条,不具有代表性,27、28、36、155、163这5个与客户接触的渠道能较大可能的让客户感兴趣。

6.随机森林

6.1数据预处理

客户感兴趣的样本共有:46710条,占比:0.12。

6.2建立模型

6.3优化参数

最佳参数: {'n_estimators': 50, 'min_samples_split': 2, 'min_samples_leaf': 1, 'max_features': 'log2', 'max_depth': 30}

6.4调整决策阈值

默认情况下,分类模型使用0.5作为决策阈值,即预测概率大于等于0.5的样本被分类为正类,反之为负类。然而,这个默认阈值未必总是最佳的。通过调整决策阈值,可以改变模型的分类决策,从而优化特定评估指标。例如:

  • 提高阈值可以减少假阳性,从而提高精确率。

  • 降低阈值可以减少假阴性,从而提高召回率。

最佳阈值: 0.6338067939336395

6.5重要度分析

优化后的模型,提升并不明显,但是通过调整策略阈值后,预测准确率也还及格,最终输出了影响模型的重要因素,“客户的车辆曾经是否损坏”、“客户之前是否已投保车辆保险”这两个因素在模型预测的时候比较重要。

7.XGBoost

7.1建立模型

7.2优化参数

最佳参数: {'subsample': 0.8, 'n_estimators': 400, 'min_child_weight': 1, 'max_depth': 10, 'learning_rate': 0.1, 'gamma': 0.1, 'colsample_bytree': 0.9}

7.3调整决策阈值

最佳阈值: 0.6731685

7.4重要度分析

XGBoost模型一开始预测的准确率略低于随机森林模型,但是随着不断的调整优化,略高于随机森林模型了,并且输出重要特征为:“客户的年龄”、“客户所在地区的代码”、“与客户接触的渠道的匿名代码”。

8.对测试集预测

8.1数据预处理

仿照处理训练集的方法一样,只不过这里不用划分数据了,后续用建好的模型就可以预测了。

8.2使用随机森林和XGBoost预测

9.总结

本项目通过对训练集和测试集进行一致性检验,确保它们在特征分布上的一致性。接着进行了客户感兴趣的影响因素分析,并建立了随机森林模型和XGBoost模型。通过不断优化模型和调整策略阈值,得到了最终的模型和最优阈值,并对测试集进行了预测。具体结论如下:

  1. 数据一致性检验:通过可视化分析、卡方检验和KS检验,确认训练集和测试集在特征分布上是一致的,确保模型在测试集上的评估具有代表性。

  2. 影响因素分析:利用可视化分析、斯皮尔曼相关性分析和卡方检验发现以下结论:
    • 男性客户比女性客户对车辆保险更感兴趣。

    • 中年客户对汽车保险的需求较高。

    • 有驾照的客户对汽车保险更感兴趣。

    • 已经投过车险的客户对这个汽车保险明显不感兴趣。

    • 老旧车辆的客户对汽车保险需求更大。

    • 车辆曾经损坏的客户更倾向于购买保险。

    • 客户所在地区的代码以及与客户接触的渠道的匿名代码与客户是否对车辆保险感兴趣有显著关系。其中,地区代码38、28、19的客户对保险的兴趣占比高于其他地区,渠道代码27、28、36、155、163的接触方式能较大可能引起客户的兴趣。

  3. 随机森林模型:在该模型中,重要特征包括“客户的车辆曾经是否损坏”和“客户之前是否已投保车辆保险”。

  4. XGBoost模型:在该模型中,重要特征包括“客户的年龄”、“客户所在地区的代码”和“与客户接触的渠道的匿名代码”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1989471.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Python】requests获取网络响应的时候,遇到url超过最大重试次数的解决方法

我们在使用requests连接网址后,获取网络响应的时候,有时候可能会遇到这样的问题: 问题: Maxretries exceeded with url: /tags-%E9%A1%B9%E7%9B%AE-5.html(Caused by SSLError(SSLEOFError(8,‘EOFoccurred in violation of prot…

大模型层数过多影响

当层数过多时候,梯度是累乘关系,如100 最后可能超过f16精度 梯度爆炸 后面梯度和权重值特别大 梯度消失 后台梯度和权重趋近于0 梯度合理范围e-6 到 e3 优化方法 1、优化点 乘法改为加法 resnet lstm 2、归一 梯度归一,大于小于阈值…

防范 Active Directory 攻击

关注公众号网络研究观获取更多内容。 Active Directory (AD) 是组织 Windows 网络的核心,可默默协调用户访问、身份验证和安全性。 但您真的了解它的工作原理吗?本博客将揭开 AD 的层层面纱,揭示其核心组件以及它们如何实现集中控制。探索 …

【ARM CoreLink 系列 4.2 -- NIC-400 控制器详细介绍】

请阅读【ARM AMBA 总线 文章专栏导读】 文章目录 NIC-400 TopNIC-400 Terminology(术语介绍)AMBA Slave Interface BlockSwitchDefault SlaveInterface BlockGlobal Programmers ViewAMBA Master interface BlockNIC-400 GPV(Global Programmers View)NIC-400 SwitchNIC-400 …

为什么用代理IP访问不了网站?如何解决?

代理IP可以为用户在访问网站时提供更多的便利性和匿名性,但有时用户使用代理IP后可能会遇到无法访问目标网站的问题。这可能会导致用户无法完成所需的业务要求,给用户带来麻烦。使用代理IP时,您可能会因为各种原因而无法访问您的网站。下面小…

柏林噪声(Perlin Noise)

要获得看起来很酷的实心纹理,大多数人使用某种形式的Perlin噪声。Perlin噪声返回类似下图的噪声。 Perlin噪声的一个关键部分是它是可重复的:它接受一个3D点作为输入,并总是返回相同的随机数字。附近的点返回相似的数字。Perlin噪声的另一个重…

Spacedrive :开源跨平台文件管理器!!【送源码】

项目介绍 Spacedrive 是一款革命性的开源跨平台文件管理器,它采用先进的虚拟分布式文件系统 (VDFS) 技术,为你带来前所未有的文件管理体验。无论是云端服务还是离线硬盘,Spacedrive 都能将它们统一在一个易于使用的界面中,让你轻松…

超声波清洗机哪个牌子的好?推荐四款性价比高的超声波眼镜清洗机

眼镜是现代生活中的必需品,但很多人对如何正确清洁眼镜感到困扰。传统清洁方法可能会在清洗过程中损伤眼镜,比如用普通肥皂或清水清洗时容易划伤镜片。为了解决这个问题,家用眼镜超声波清洗机应运而生。然而,市场上品牌繁多&#…

亲测好用!2024年四大ai智能写作工具推荐!

在快节奏的工作生活中,我一直在寻找能够提升写作效率的工具。经过一番探索,我发现了四款AI智能写作工具。它们不仅极大地提升了我的写作速度,还保证了内容的质量。 笔灵AI写作 链接:https://ibiling.cn 作为一名自媒体人&#…

免费高清图片素材库,我推荐这8个~赶紧收藏

找高清图片素材就上这8 个网站,我强推。免费、付费、商用的素材都能找到,赶紧先收藏起来吧! 菜鸟图库 美女图片|手机壁纸|风景图片大全|高清图片素材下载网 - 菜鸟图库 网站主要为新手设计师提供免费素材,这些素材的质量都很高…

CSDN博文中的数学公式显示——LaTeX数学公式一般语法

$MarkDown支持,HTML5文本也是支持$定制的。 (笔记模板由python脚本于2024年08月07日 21:18:36创建,本篇笔记适合初通Python,熟悉六大基本数据(str字符串、int整型、float浮点型、list列表、tuple元组、set集合、dict字典)的coder翻阅) 【学习…

explorer.exe没有注册类

管理员身份进入cmd面板 输入sfc /scannow 进行扫描,会自动修复异常文件 验证100% 后,输入 start explorer.exe 进行验证 这个问题就解决了

【Week-G6】CycleGAN-风格迁移网络-pytorch

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 | 接辅导、项目定制 本次学习内容为适用于风格迁移的CycleGAN网络 一、说明 本地文件目录: 程序修改的部分: 二、训练 等待训练完成…

相机标定——小孔成像、相机模型与坐标系

小孔成像 用一个带有小孔的板遮挡在墙体与物之间,墙体上就会形成物的倒影,我们把这样的现象叫小孔成像。 用一个带有小孔的板遮挡在墙体与物之间,墙体上就会形成物的倒影,我们把这样的现象叫小孔成像。前后移动中间的板&#xff…

聚贤国际商会成都分部盛大启航,助力中小企业共克时艰。

近日,聚贤国际商会成都分部在万众瞩目中正式成立,标志着聚贤国际在助力全球中小企业应对经济挑战、实现共同发展的征途上又迈出了坚实的一步。此次成都分部的设立,不仅是对聚贤国际全球布局的重要补充,更是对西南地区中小企业发展…

微信小程序开发【从0到1~入门篇完结】

目录 1.使用 npm 包1.1Vant Weapp1.2API Promise化传统回调函数风格Promise化优势注意事项实现API Promise化 2.全局数据共享3.分包4.案例--自定义tabBar 谢谢您能够坚持看到最后的一篇文章,读完这篇文章后,您已经学会了微信小程序开发的基础知识&#x…

GHOST重装系统分区丢失:成因解析与高效数据恢复指南

开篇:GHOST重装下的数据挑战 在计算机技术日新月异的今天,GHOST重装系统以其高效、便捷的特点,成为了众多用户解决系统问题、快速恢复系统环境的首选方案。然而,这一看似简单的操作背后,却隐藏着数据安全的巨大挑战&a…

ip地址冲突会影响整个网络吗

在数字化时代,网络已成为连接世界的桥梁,而IP地址则是这座桥梁上不可或缺的“门牌号”。然而,当这个独特的身份标识出现冲突时,整个网络的稳定运行将面临严峻挑战。IP地址冲突,这一看似微小的技术问题,实则…

【数据结构】算法的时间复杂度与空间复杂度

计算机考研408-数据结构笔记本之——第一章 绪论 1.2 算法和算法评价 1.2.2 算法效率的度量 算法效率的度量是通过时间复杂度和空间复杂度来描述的。 1.空间复杂度 算法的空间复杂度S(n)定义为该算法所需的存储空间,它是问题规模n的函数,记为 S(n) …

CCF编程能力等级认证GESP—C++7级—20240629

CCF编程能力等级认证GESP—C7级—20240629 单选题(每题 2 分,共 30 分)判断题(每题 2 分,共 20 分)编程题 (每题 25 分,共 50 分)黑白翻转区间乘积 单选题(每题 2 分,共 …