case客户续保预测中用到的特征工程、回归分析和决策树分析的总结

news2025/4/19 2:31:47

文章目录

    • @[toc]
    • 1. 回归分析概述
      • 1.1 基本概念
      • 1.2 与分类的区别
    • 2. 常见回归算法
      • 2.1 线性回归
      • 2.2 决策树回归
      • 2.3 逻辑回归(Logistic Regression)
      • 2.3 其他算法
      • 补充:通俗版:决策树 vs 随机森林
      • 🌳 决策树:像玩「20个问题」游戏
        • 基本逻辑
      • 🌲🌳🌴 随机森林:一群专家投票
        • 核心思想
      • 💡 生活类比
    • 3. 建模流程
      • 3.1 数据预处理
      • 3.2 特征工程
      • 3.3 训练与验证
    • 4. 模型评估
      • 4.1 常用指标
      • 4.2 可视化方法
    • 5. 常见问题
      • Q1: 如何处理过拟合?
      • Q2: 非线性数据怎么办?
      • Q3: 类别特征如何处理?
    • 6. 示例
  • 保险客户续保预测实战案例
    • 1. 数据准备
      • 数据概览
      • 字段说明
    • 2. 特征工程
      • 2.1 数据预处理
      • 2.2 特征可视化
    • 3. 模型训练
      • 3.1 逻辑回归
      • 3.2 决策树回归
    • 4. 模型评估
      • 4.1 性能对比
      • 4.2 分类报告
    • 5. 业务应用
      • 5.1 续保概率分布
      • 5.2 关键特征分析

1. 回归分析概述

1.1 基本概念

  • 定义:通过建立自变量(X)与因变量(Y)之间的数学模型,预测连续型数值
  • 应用场景:房价预测、销量预估、温度预测等

1.2 与分类的区别

回归问题分类问题
输出连续值输出离散标签
评估指标:MSE/R²评估指标:准确率/F1

2. 常见回归算法

2.1 线性回归

用于预测连续数值的监督学习算法,通过拟合最佳直线(或超平面)建立输入特征与输出值之间的线性关系。

from sklearn.linear_model import LinearRegression
model = LinearRegression()

特点

  • 简单易解释
  • 假设数据线性可分

2.2 决策树回归

from sklearn.tree import DecisionTreeRegressor
model = DecisionTreeRegressor(max_depth=3)

特点

  • 可处理非线性关系
  • 易过拟合

2.3 逻辑回归(Logistic Regression)

虽然名字含"回归",但实际是处理二分类问题的算法,通过Sigmoid函数将线性结果转换为0~1之间的概率值,常用于预测事件发生的可能性。

from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression(penalty='l2', C=1.0)

特点

  • 输出概率结果:通过Sigmoid函数输出0-1之间的概率值,适合需要概率预测的场景(如风险评估)
  • ​强解释性:模型参数可直接解释为特征对对数几率(log-odds)的影响,便于业务分析
  • ​线性决策边界:本质是线性模型(可通过特征工程扩展非线性),对简单模式的数据效率极高

2.3 其他算法

  • 随机森林回归
  • SVM回归
  • XGBoost回归

补充:通俗版:决策树 vs 随机森林

🌳 决策树:像玩「20个问题」游戏

基本逻辑
  1. 游戏规则:通过一系列是/否问题逐步缩小范围
    (比如:“是动物吗?→ 会飞吗?→ 有羽毛吗?”)

  2. 现实例子

    • 判断水果好坏:
      ① 表面有黑点吗? → 有 → 坏果
      ② 没有 → 闻起来香吗? → 香 → 好果
  3. 优缺点
    ✅ 简单直观,像流程图一样好懂
    ❌ 容易钻牛角尖(比如遇到一个特例就乱改规则)

🌲🌳🌴 随机森林:一群专家投票

核心思想
  1. 组建专家团

    • 随机找100个普通人(每人都用部分数据训练)
    • 每人给不同的答题线索(每人随机看部分特征)
  2. 民主决策

    • 判断水果:
      ① 专家A看颜色 → 觉得是坏果
      ② 专家B摸硬度 → 觉得是好果

      👉 最终按多数意见决定
  3. 为什么更好
    ✅ 不容易被误导(个别人判断失误不影响整体)
    ✅ 能处理复杂情况(综合多种角度)
    ❌ 需要更多计算资源(要训练很多树)

💡 生活类比

场景决策树随机森林
看病一个老中医把脉诊断专家会诊(各科医生共同判断)
天气预报只看云层厚度预测综合温度/湿度/气压等多因素
点菜只看招牌菜决定参考大众点评TOP10推荐

简单记住:

  • 单棵树 = 个人直觉判断
  • 森林 = 群众智慧(三个臭皮匠顶个诸葛亮)

3. 建模流程

3.1 数据预处理

# 标准化示例
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

3.2 特征工程

  • 特征选择:剔除共线性特征
  • 特征构造:多项式特征

3.3 训练与验证

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

4. 模型评估

4.1 常用指标

指标公式说明
MSE 1 n ∑ ( y i − y i ^ ) 2 \frac{1}{n}\sum(y_i-\hat{y_i})^2 n1(yiyi^)2越小越好
1 − S S r e s S S t o t 1-\frac{SS_{res}}{SS_{tot}} 1SStotSSres[0,1]越近1越好

4.2 可视化方法

import matplotlib.pyplot as plt
plt.scatter(y_test, predictions)
plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], 'r--')

5. 常见问题

Q1: 如何处理过拟合?

  • 增加训练数据
  • 使用正则化(L1/L2)

Q2: 非线性数据怎么办?

  • 使用多项式回归
  • 切换树模型或神经网络

Q3: 类别特征如何处理?

  • One-Hot编码
  • 目标编码

6. 示例

(可参见前文用Cursor AI编程工具完成case客户续保预测)
由于前文是Cursor生成的代码,因此这里又用AI进行了一次示例总结的撰写,帮助自己理解整个实战过程:

保险客户续保预测实战案例

1. 数据准备

数据概览

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 读取数据
train = pd.read_excel('training.xlsx')
test = pd.read_excel('test.xlsx')

print("训练集形状:", train.shape)
print("测试集形状:", test.shape)
print("\n训练集前5行:")
display(train.head())

字段说明

字段名类型描述
age数值客户年龄
policy_age数值保单年限
claim_history数值历史理赔次数
premium数值年缴保费
income数值年收入
renewal类别是否续保(0/1)

2. 特征工程

2.1 数据预处理

# 处理缺失值
train.fillna(train.median(), inplace=True)

# 特征标准化
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
num_features = ['age', 'policy_age', 'claim_history', 'premium', 'income']
train[num_features] = scaler.fit_transform(train[num_features])
test[num_features] = scaler.transform(test[num_features])

2.2 特征可视化

# 数值特征分布
plt.figure(figsize=(12, 6))
for i, col in enumerate(num_features):
    plt.subplot(2, 3, i+1)
    sns.histplot(train[col], kde=True)
plt.tight_layout()
plt.show()

# 特征相关性
plt.figure(figsize=(8, 6))
sns.heatmap(train.corr(), annot=True, cmap='coolwarm')
plt.title('特征相关性矩阵')
plt.show()

3. 模型训练

3.1 逻辑回归

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report 准备数据
X_train = train.drop('renewal', axis=1)
y_train = train['renewal']
X_test = test.drop('renewal', axis=1)
y_test = test['renewal']

# 训练模型
lr = LogisticRegression(penalty='l2', C=1.0)
lr.fit(X_train, y_train)

# 预测概率
y_prob = lr.predict_proba(X_test)[:, 1]

3.2 决策树回归

from sklearn.tree import DecisionTreeClassifier

dt = DecisionTreeClassifier(max_depth=3, min_samples_leaf=20)
dt.fit(X_train, y_train)

# 特征重要性
plt.figure(figsize=(10, 4))
pd.Series(dt.feature_importances_, index=X_train.columns).sort_values().plot.barh()
plt.title('决策树特征重要性')
plt.show()

4. 模型评估

4.1 性能对比

from sklearn.metrics import roc_curve, auc

# ROC曲线
plt.figure(figsize=(8, 6))
for model, name in [(lr, '逻辑回归'), (dt, '决策树')]:
    y_score = model.predict_proba(X_test)[:, 1]
    fpr, tpr, _ = roc_curve(y_test, y_score)
    plt.plot(fpr, tpr, label=f'{name} (Aauc(fpr, tpr):.2f})')

plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC曲线对比')
plt.legend()
plt.show()

4.2 分类报告

print("逻辑回归性能:")
print(classification_report(y_test, lr.predict(X_test)))

print("\n决策树性能:")
print(classification_report(y_test, dt.predict(X_test)))

5. 业务应用

5.1 续保概率分布

plt.figure(figsize=(10, 5))
sns.kdeplot(y_prob[y_test==0], label='未续保客户', fill=True)
sns.kdeplot(y_prob[y_test==1], label='续保客户', fill=True)
plt.xlabel('续保概率预测值')
plt.title('续保概率分布')
plt.legend()
plt.show()

5.2 关键特征分析

# 逻辑回归系数
coef_df = pd.DataFrame({'特征':X_train.columns, '系数':lr.coef_[0]})
coef_df.sort_values('系数', ascending=False)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2337659.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

重学Redis:Redis常用数据类型+存储结构(源码篇)

一、SDS 1,SDS源码解读 sds (Simple Dynamic String),Simple的意思是简单,Dynamic即动态,意味着其具有动态增加空间的能力,扩容不需要使用者关心。String是字符串的意思。说白了就是用C语言自己封装了一个字符串类型&a…

js原型和原型链

js原型: 1、原型诞生的目的是什么呢? js原型的产生是为了解决在js对象实例之间共享属性和方法,并把他们很好聚集在一起(原型对象上)。每个函数都会创建一个prototype属性,这个属性指向的就是原型对象。 …

OpenHarmony - 小型系统内核(LiteOS-A)(五)

OpenHarmony - 小型系统内核(LiteOS-A)(五) 六、文件系统 虚拟文件系统 基本概念 VFS(Virtual File System)是文件系统的虚拟层,它不是一个实际的文件系统,而是一个异构文件系统之…

PyTorch进阶学习笔记[长期更新]

第一章 PyTorch简介和安装 PyTorch是一个很强大的深度学习库,在学术中使用占比很大。 我这里是Mac系统的安装,相比起教程中的win/linux安装感觉还是简单不少(之前就已经安好啦),有需要指导的小伙伴可以评论。 第二章…

proteus8.17 环境配置

Proteus介绍 Proteus 8.17 是一款功能强大的电子设计自动化(EDA)软件,广泛应用于电子电路设计、仿真和分析。以下是其主要特点和新功能: ### 主要功能 - **电路仿真**:支持数字和模拟电路的仿真,包括静态…

Java对接Dify API接口完整指南

Java对接Dify API接口完整指南 一、Dify API简介 Dify是一款AI应用开发平台,提供多种自然语言处理能力。通过调用Dify开放API,开发者可以快速集成智能对话、文本生成等功能到自己的Java应用中。 二、准备工作 获取API密钥 登录Dify平台控制台在「API密…

极狐GitLab GEO 功能介绍

极狐GitLab 是 GitLab 在中国的发行版,关于中文参考文档和资料有: 极狐GitLab 中文文档极狐GitLab 中文论坛极狐GitLab 官网 Geo (PREMIUM SELF) Geo 是广泛分布的开发团队的解决方案,可作为灾难恢复策略的一部分提供热备份。Geo 不是 开箱…

云原生(Cloud Native)的详解、开发流程及同类软件对比

以下是云原生(Cloud Native)的详解、开发流程及同类软件对比: 一、云原生核心概念 定义: 云原生(Cloud Native)是基于云环境设计和运行应用程序的方法论,强调利用云平台的弹性、分布式和自动化…

学习笔记:减速机工作原理

学习笔记:减速机工作原理 一、减速机图片二、减速比概念三、减速机的速比与扭矩之间的关系四、题外内容--电机扭矩 一、减速机图片 二、减速比概念 即减速装置的传动比,是传动比的一种,是指减速机构中,驱动轴与被驱动轴瞬时输入速…

《UE5_C++多人TPS完整教程》学习笔记36 ——《P37 拾取组件(Pickup Widget)》

本文为B站系列教学视频 《UE5_C多人TPS完整教程》 —— 《P37 拾取组件(Pickup Widget)》 的学习笔记,该系列教学视频为计算机工程师、程序员、游戏开发者、作家(Engineer, Programmer, Game Developer, Author) Steph…

《空间复杂度(C语言)》

文章目录 前言一、什么是空间复杂度?通俗理解: 二、空间复杂度的数学定义三、常见空间复杂度举例(含C语言代码)🔹 O(1):常数空间🔹 O(n):线性空间🔹 O(n^2):平…

智能合约安全审计平台——以太坊虚拟机安全沙箱

目录 以太坊虚拟机安全沙箱 —— 理论、设计与实战1. 引言2. 理论背景与安全原理2.1 以太坊虚拟机(EVM)概述2.2 安全沙箱的基本概念2.3 安全证明与形式化验证3. 系统架构与模块设计3.1 模块功能说明3.2 模块之间的数据流与安全性4. 安全性与密码学考量4.1 密码学保障在沙箱中…

【MCP教程】Claude Desktop 如何连接部署在远程的remote mcp server服务器(remote host)

前言 最近MCP特别火热,笔者自己也根据官方文档尝试了下。 官方文档给的Demo是在本地部署一个weather.py,然后用本地的Claude Desktop去访问该mcp服务器,从而完成工具的调用: 但是,问题来了,Claude Deskto…

多个路由器互通(静态路由)无单臂路由(简单版)

多个路由器互通(静态路由)无单臂路由(简单版) 开启端口并配ip地址 维护1 Router>en Router#conf t Router(config)#int g0/0 Router(config-if)#no shutdown Router(config-if)#ip address 192.168.10.254 255.255.255.0 Ro…

OpenCV 图形API(38)图像滤波-----Sobel 算子操作函数Sobel()

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 cv::gapi::Sobel 函数是 OpenCV 的 G-API 模块中用于执行 Sobel 算子操作的一个函数,主要用于图像的边缘检测。Sobel 算子通过计算图…

windows系统安装驱动、cuda和cudnn

一、首先在自己的电脑里安装了nvidia的独立显卡 显卡的查找方式: CtrlShiftEsc打开任务管理器,点击性能,点击GPU 0查看显卡型号,如下图所示: 只要电脑中有nvidia的独立显卡,就可以暗转显卡驱动、cuda和cu…

嵌入式开发--STM32软件和硬件CRC的使用--续篇

本文是《嵌入式开发–STM32软件和硬件CRC的使用》的续篇,又踩到一个坑,发出来让大家避一下坑。 按照G0系列的设置,得出错误的结果 前文对应的是STM32G0系列,今天在用STM32G4系列时,按照前文的设置,用硬件…

【Git】git的简单使用

文章目录 1. 基础概念2. 简单使用2.1 git配置2.1.1 git的配置文件2.1.2 .gitignore文件 2.2 创建仓库2.2.1 创建本地仓库2.2.2 github创建远程仓库step1:github新建一个代码仓step2:创建密钥远程仓库相关指令2.2.3 本地仓库 关联 远程仓库 2.3 分支2.3.1…

[Web 安全] Web 信息收集 —— 信息收集流程

🌟 想系统化学习 Web 渗透?看看这个:[Web 安全] Web 安全攻防 学习手册 提示:本章不涉及任何具体信息收集技术,仅仅是讲解收集这些信息我能干啥,以及如何才能比较全面的收集信息。 0x01:信息收…

内部聊天软件,BeeWorks-安全的企业内部通讯软件

企业在享受数据便利的同时,如何保障企业数据安全已经成为无法回避的重要课题。BeeWorks作为一款专为企业设计的内部通讯软件,通过全链路的安全能力升维,为企业提供了一个安全、高效、便捷的沟通协作平台,全面保障企业数据安全。 …