机器学习实战：银行客户是否认购定期存款

项目结构与步骤

1. 项目概述

项目名称：葡萄牙银行电话营销活动分析与定期存款认购预测
目标：通过分析银行的电话营销数据，构建模型预测客户是否会认购定期存款。
数据来源：葡萄牙银行营销活动数据集
关键挑战：数据不平衡，数据中认购定期存款的客户较少。

2. 问题定义

业务问题：提高银行电话营销活动的成功率，优化客户名单，减少不必要的联系，提高存款认购率。
任务：分类问题，预测目标变量 y（客户是否认购定期存款）。

3. 变量说明与分析

# 数据来源于国外的数据库

分析过程

1、导数数据，看一下并一下数据的相关信息，检测有没有缺失值。

import pandas as pd
data0 = pd.read_csv("bank.csv")
# 数据分析前最好拷贝一份数据
data = data.copy()
print(data.info())

就结果来看，一个4521条数据，16个特征变量，一个目标变量y，每一特征列都没有缺失值。数据量不算很大（<1w条，小规模数据集），如果对精度有要求，可以直接用CatBoost模型，但是训练速度较慢。

2、我们输出最后10行看看数据大概长什么样。

3、发现类别特征为英文文本（比如job），二分类特征（比如default）也为英文文本（"Yes" or "No"），因此我们要对这些变量进行编码，转换成计算机能处理的数值型变量。

# 将部分二元分类特征转换为数值（yes -> 1, no -> 0）
binary_columns = ['default', 'housing', 'loan', 'y']
for col in binary_columns:
    data[col] = data[col].map({"yes": 1, "no": 0})

# 对类别特征进行独热编码
data = pd.get_dummies(data, columns=['job', 'marital', 'education', 'contact', 'poutcome'], drop_first=True)

# 将月份映射为数值
month_mapping = {
    "jan": 1, "feb": 2, "mar": 3, "apr": 4, "may": 5, "jun": 6, "jul": 7,
    "aug": 8, "sep": 9, "oct": 10, "nov": 11, "dec": 12
}
data['month'] = data['month'].map(month_mapping)

# 分离特征和目标变量
X = data.drop("y", axis=1)
y = data['y']

4、由于数据集目标变量y类别不平衡，会影响模型效果，我们先处理类别不平衡，这里我们使用欠采样（减少多数类数据）来处理。

from imblearn.under_sampling import RandomUnderSampler

# 处理类别不平衡问题（欠采样）
rus = RandomUnderSampler(random_state=40)
X, y = rus.fit_resample(X, y)

# 检查一下是否平衡
print(y.value_counts())
# 输出后10条数据，检查一下类别变量是否都成功编码
print(X.tail(10))

类别平衡了，编码也没问题。

5、这里我们用普通决策树分类器、随机森林、GBDT、CatBoost练练手。

我们先使用决策树分类器（CART算法）训练模型，并利用网格搜索 + 交叉验证来优化超参数。根据我们的任务需求，我们模型预测准确度要尽可能高，因此我们用准确的来评估模型。

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import accuracy_score
import time

# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y)

# 决策树分类器 + 超参数网格搜索
dt = DecisionTreeClassifier(random_state=40)

param_grid = {
    'criterion': ['gini', 'entropy'],  # 分裂标准
    'max_depth': [None, 9, 10, 11],  # 树的最大深度
    'min_samples_split': [2, 4, 5, 7, 10],  # 节点分裂的最小样本数
    'min_samples_leaf': [1, 2, 3, 4, 5, 10],    # 叶节点的最小样本数
}

# 开始计时
start_time = time.time()

# 网格搜索 + 5折交叉验证
grid_search = GridSearchCV(estimator=dt, param_grid=param_grid, scoring='accuracy', cv=5, n_jobs=-1)
grid_search.fit(X_train, y_train)

# 输出最佳参数和模型
best_params = grid_search.best_params_
best_model = grid_search.best_estimator_

# 预测和评估
y_pred = best_model.predict(X_test)
end_time = time.time()

# 打印结果
print("最佳参数:", best_params)
print("训练时间: {:.2f}秒".format(end_time - start_time))
print("测试集准确率:", accuracy_score(y_test, y_pred))

单颗决策树，得出最好的模型准确率80%，效果还可以，我们希望可以更高一些。

6、我们这次选用随机森林来预测。

import time
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import accuracy_score

# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y, random_state=42)

start_time = time.time()

# 模型构建
rf = RandomForestClassifier(random_state=42)

# 设置超参数搜索网格
param_grid = {
    'n_estimators': [34, 36, 38, 40, 42],
    'max_depth': [18, 20, 22, 24, 26],
    'min_samples_split': [8, 10, 12, 15, 18],
    'min_samples_leaf': [2, 3, 4, 5, 6],
    'bootstrap': [True, False]
}

# 超参数调优
grid_search = GridSearchCV(estimator=rf, param_grid=param_grid, scoring='accuracy', cv=5, n_jobs=-1)
grid_search.fit(X_train, y_train)

# 模型评估
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)
end_time = time.time() 
training_time = end_time - start_time

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"训练时间: {training_time:.2f} 秒")
print("最优参数:", grid_search.best_params_)
print("测试集准确率:", accuracy)

随机森林模型准确率在85%左右，提高了很大，效果已经很好了。

8、不妨再试试GBDT模型。

import time
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import accuracy_score


# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y, random_state=42)

start_time = time.time()
# 定义 GBDT 模型
gbdt_model = GradientBoostingClassifier(random_state=42)

# 设置超参数搜索网格
param_grid = {
    'n_estimators': [100, 200, 250],        # 弱学习器（树）的数量
    'learning_rate': [0.01, 0.05, 0.1],    # 学习率
    'max_depth': [3, 4, 5],                # 每棵树的深度
    'min_samples_split': [5,10, 15],     # 内部节点划分的最小样本数
    'min_samples_leaf': [1, 3, 5],         # 叶节点的最小样本数
}

# 使用 GridSearchCV 进行超参数调优
grid_search = GridSearchCV(estimator=gbdt_model, param_grid=param_grid, scoring='accuracy', cv=5, n_jobs=-1)
grid_search.fit(X_train, y_train)


# 模型评估、预测
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
end_time = time.time() 

# 输出最优参数
print("最优参数:", grid_search.best_params_)
print("测试集准确率:", accuracy)
training_time = end_time - start_time
print(f"训练时间: {training_time:.2f} 秒")

效果跟随机森林差不多。

9、由于数据集中，类别特征较多，非常适合使用CatBoost模型。对于catboost而言，不用对类别进行独热编码，只要进行简单的标签编码即可。

import time
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from imblearn.under_sampling import RandomUnderSampler
from catboost import CatBoostClassifier
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import accuracy_score, precision_score

# 数据加载
data = pd.read_csv("bank.csv").copy()

# 将部分二元分类特征转换为数值（yes -> 1, no -> 0）
binary_columns = ['default', 'housing', 'loan', 'y']
for col in binary_columns:
    data[col] = data[col].map({"yes": 1, "no": 0})

# 使用 LabelEncoder 对类别特征进行标签编码
label_columns = ['job', 'marital', 'education', 'contact', 'poutcome', 'month']
label_encoders = {}

for col in label_columns:
    le = LabelEncoder()
    data[col] = le.fit_transform(data[col])
    label_encoders[col] = le  # 保存每个列的编码器（如果需要解码）

# 分离特征和目标变量
X = data.drop("y", axis=1)
y = data['y']

# 处理类别不平衡问题（欠采样）
rus = RandomUnderSampler(random_state=40)
X, y = rus.fit_resample(X, y)

# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y, random_state=42)

# 定义 CatBoost 模型
start_time = time.time()
catboost_model = CatBoostClassifier(verbose=0, random_state=42)

# 设置超参数搜索网格
# 这是我多次测试的数据，已经是经过压缩的，所以只有一个参数
param_grid = {
    'iterations': [285,290,295],
    'depth': [6],
    'learning_rate': [0.05],
    'l2_leaf_reg': [6]
}

# 使用 GridSearchCV 进行超参数调优
grid_search = GridSearchCV(estimator=catboost_model, param_grid=param_grid, scoring='accuracy', cv=5, n_jobs=-1)
grid_search.fit(X_train, y_train)

# 模型评估、预测
best_model = grid_search.best_estimator_
best_params = grid_search.best_params_
y_pred = best_model.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
end_time = time.time()

print("最佳参数:", best_params)
print("训练时间: {:.2f}秒".format(end_time - start_time))
print("测试集准确率:", accuracy_score(y_test, y_pred))