人力资源数据集分析(二)_随机森林与逻辑回归

数据入口：人力资源分析数据集 - Heywhale.com

数据说明

字段	说明
EmpID	唯一的员工ID
Age	年龄
AgeGroup	年龄组
Attrition	是否离职
BusinessTravel	出差：很少、频繁、不出差
DailyRate	日薪
Department	任职部门：研发部门、销售部门、人力资源部门
DistanceFromHome	通勤距离
Education	教育等级
EducationField	专业领域：生命科学、医学、市场营销、技术、其他
EnvironmentSatisfaction	工作环境满意度
Gender	性别
HourlyRate	时薪
JobInvolvement	工作参与度
JobLevel	工作级别
JobRole	工作角色
JobSatisfaction	工作满意度
MaritalStatus	婚姻状况
MonthlyIncome	月收入
SalarySlab	工资单
MonthlyRate	月薪
NumCompaniesWorked	工作过的公司数量
PercentSalaryHike	加薪百分比
PerformanceRating	绩效评级
RelationshipSatisfaction	关系满意度
StandardHours	标准工时
StockOptionLevel	股票期权级别
TotalWorkingYears	总工作年数
TrainingTimesLastYear	去年培训时间
WorkLifeBalance	工作生活平衡评价
YearsAtCompany	在公司工作年数
YearsInCurrentRole	担任现职年数
YearsSinceLastPromotion	上次晋升后的年数
YearsWithCurrManager	与现任经理共事年数

import pandas as pd
data = 'HR_Analytics.csv'
data = pd.read_csv(file_path)
# 打印每一列的唯一值
for column in data.columns:
    print(f"Unique values in {column}:")
    print(data[column].unique())

通过这段代码可以了解每一列的唯一值。观察到某些列含有缺失值且缺失值的行数较少，可以直接删去。

data_cleaned = data.dropna()

本文将通过随机森林与逻辑回归预测员工晋升路径和潜在的流失风险。

一：预测员工晋升路径

数据理解：首先，需要查看CSV文件的内容，以了解数据的结构和可用特征。这将帮助确定哪些特征可能与员工晋升路径相关。
数据预处理：基于数据理解，可能需要进行数据清洗，处理缺失值，转换分类数据，以及进行特征选择。
模型选择：选择一个合适的机器学习模型来预测员工晋升路径。考虑到这是一个分类问题，逻辑回归、决策树或随机森林等模型可能适用。
模型训练与评估：使用历史数据训练模型，并使用适当的评估指标（如准确率、召回率、F1分数）来评估模型性能。
结果解释：最后，我将解释模型结果，并提供关于员工晋升路径的预测。

首先检查数据集中的分类特征，以便进行适当的编码：

categorical_features = data.select_dtypes(include=['object', 'category']).columns.tolist()

categorical_features

数据集中有多个分类特征，包括员工ID、年龄组、离职情况、出差频率、部门、教育领域、性别、工作角色、婚姻状况和薪资等级。为了在机器学习模型中使用这些特征，我们需要对它们进行编码。常见的编码方法包括独热编码（One-Hot Encoding）和标签编码（Label Encoding）。独热编码适用于具有多个类别且类别之间没有顺序关系的特征，而标签编码适用于具有顺序关系的特征。

接下来，我将使用独热编码处理具有多个类别的分类特征。然后，我将选择与员工晋升路径相关的特征，并准备数据集以进行模型训练。

data_encoded = pd.get_dummies(data, columns=categorical_features, drop_first=True)

data_encoded.head()

数据集经过独热编码后，现在包含了1522个特征。这个特征数量对于建立一个有效的机器学习模型来说可能太多了，可能会导致过拟合。因此，我们需要进行特征选择，只保留与员工晋升路径最相关的特征。

为了选择相关特征，我们可以使用不同的特征选择方法，例如基于模型的特征选择（如使用随机森林的特征重要性）或使用统计测试（如卡方检验）来选择与目标变量最相关的特征。在这个案例中，我们的目标变量是员工是否晋升，这需要我们首先定义晋升的标准。例如，我们可以根据员工的工作等级（JobLevel）是否增加来定义晋升。

接下来，我将定义晋升的标准，并使用随机森林模型来确定哪些特征与晋升最相关。然后，我将选择这些特征来训练模型。

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
import numpy as np

data_encoded['Promotion'] = np.where(data_encoded['JobLevel'] > data_encoded['JobLevel'].shift(-1), 1, 0)

data_encoded.dropna(subset=['Promotion'], inplace=True)

relevant_features = [
    'Education', 'TotalWorkingYears', 'TrainingTimesLastYear',
    'YearsAtCompany', 'YearsInCurrentRole', 'YearsSinceLastPromotion',
    'YearsWithCurrManager'
]

features = data_encoded[relevant_features]
target = data_encoded['Promotion']

X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)

rf_classifier = RandomForestClassifier(n_estimators=100, random_state=42)

rf_classifier.fit(X_train, y_train)

y_pred = rf_classifier.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)

accuracy, classification_report(y_test, y_pred)

使用随机森林模型，我们得到了大约70%的准确率，可以使用该随机森林模型对数据进行预测。

此外，从分类报告中我们可以看到，模型在预测晋升（标签1）方面的召回率较低，这意味着它可能没有很好地识别出所有晋升的案例。这可能是因为晋升事件相对较少，导致数据集不平衡。在未来的工作中，可以考虑使用过采样或欠采样技术来处理这种不平衡，或者使用不同的评估指标，如F1分数，来更好地衡量模型性能。

二：预测员工流失风险

1：判断特征重要性

首先进行一些基本的特征工程，例如从现有特征中创建新的特征。

categorical_features = ['EmpID', 'AgeGroup', 'Attrition', 'BusinessTravel', 'Department', 
                        'EducationField', 'Gender', 'JobRole', 'MaritalStatus', 'SalarySlab']
data[categorical_features] = data[categorical_features].astype('category')

data_types_updated = data.dtypes

data['Experience'] = data['TotalWorkingYears'] - data['YearsAtCompany']

data_types_updated, data['Experience'].head()

我已经将分类特征转换为正确的数据类型，并创建了一个新的特征Experience，它表示员工的总工作经验减去在当前公司的年数。

接下来，将进行特征选择，确定哪些特征对于预测流失风险最为重要。这可以通过多种方法来完成，例如使用相关性分析、基于模型的特征重要性等。在这里，我将使用随机森林模型的特征重要性来选择特征。

from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score
import matplotlib.pyplot as plt

X = data.drop(['EmpID', 'Attrition'], axis=1)
y = data['Attrition']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

rf_clf = RandomForestClassifier(n_estimators=100, random_state=42)

le = LabelEncoder()

for feature in categorical_features:
    if feature != 'Attrition': 
        data[feature] = le.fit_transform(data[feature])

X = data.drop(['EmpID', 'Attrition'], axis=1)
y = data['Attrition']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

rf_clf.fit(X_train, y_train)

feature_importances = rf_clf.feature_importances_

feature_importances_df = pd.DataFrame({'Feature': X_train.columns, 'Importance': feature_importances})

feature_importances_sorted = feature_importances_df.sort_values(by='Importance', ascending=False)

top_features = feature_importances_sorted.head(10)

plt.figure(figsize=(12, 8))
plt.barh(top_features['Feature'], top_features['Importance'], color='skyblue')
plt.xlabel('Feature Importance')
plt.ylabel('Feature')
plt.title('Top 10 Most Important Features for Attrition Prediction')
plt.gca().invert_yaxis()
plt.show()

top_features

根据随机森林模型的特征重要性，我们可以看到MonthlyIncome（月收入）是预测员工流失风险最重要的特征，其次是Age（年龄）、DailyRate（日薪）、MonthlyRate（月薪）等。这些特征对于预测员工是否流失具有显著的影响。

接下来，我将使用这些特征来训练一个逻辑回归模型，并评估其在测试集上的性能。逻辑回归是一种常用的分类算法，特别适用于二元分类问题。

这段代码是一个使用Python语言和scikit-learn库进行数据预处理、模型训练、特征重要性评估和可视化的完整流程。以下是这段代码的详细解释：

from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score
import matplotlib.pyplot as plt
import pandas as pd

LabelEncoder 用于将分类特征转换为数值型数据。
RandomForestClassifier 是随机森林分类器，用于分类任务。
train_test_split 用于将数据集分割为训练集和测试集。
classification_report 和 accuracy_score 用于评估模型的性能。
matplotlib.pyplot 用于数据可视化。

X = data.drop(['EmpID', 'Attrition'], axis=1)
y = data['Attrition']

这部分代码从数据集中移除了不需要的列（例如员工ID和目标变量），并将剩余的数据作为特征集（X）和目标变量（y）。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

使用 train_test_split 函数将数据集分割为训练集和测试集，其中测试集占总数据的20%，random_state 确保结果的可重复性。

rf_clf = RandomForestClassifier(n_estimators=100, random_state=42)

le = LabelEncoder()

初始化一个随机森林分类器，其中包含100棵树。
初始化一个 LabelEncoder 实例。

for feature in categorical_features:
    if feature != 'Attrition': 
        data[feature] = le.fit_transform(data[feature])

遍历分类特征列表，使用 LabelEncoder 对每个特征进行编码，排除目标变量。

X = data.drop(['EmpID', 'Attrition'], axis=1)
y = data['Attrition']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

由于数据已经经过编码处理，再次执行特征和目标变量的分割以及训练集和测试集的分割。

rf_clf.fit(X_train, y_train)

使用训练集数据训练随机森林分类器。

feature_importances = rf_clf.feature_importances_

feature_importances_df = pd.DataFrame({'Feature': X_train.columns, 'Importance': feature_importances})

feature_importances_sorted = feature_importances_df.sort_values(by='Importance', ascending=False)

top_features = feature_importances_sorted.head(10)

从训练好的模型中获取特征重要性。
创建一个DataFrame来存储特征和它们的重要性。
按照特征重要性对DataFrame进行排序。
显示最重要的前10个特征。

plt.figure(figsize=(12, 8))
plt.barh(top_features['Feature'], top_features['Importance'], color='skyblue')
plt.xlabel('Feature Importance')
plt.ylabel('Feature')
plt.title('Top 10 Most Important Features for Attrition Prediction')
plt.gca().invert_yaxis()
plt.show()

使用条形图可视化最重要的前10个特征。
设置图表的大小、颜色、标签和标题。
反转y轴，使得最重要的特征在上方。

top_features

显示排序后的特征重要性DataFrame的前10行。

2：建立逻辑回归预测模型

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, roc_auc_score

log_clf = LogisticRegression(random_state=42)

log_clf.fit(X_train, y_train)

y_pred = log_clf.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
roc_auc = roc_auc_score(y_test, log_clf.predict_proba(X_test)[:, 1])

accuracy, conf_matrix, roc_auc

逻辑回归模型在测试集上的准确率为83.16%，混淆矩阵显示有48个实际流失的样本被错误地预测为未流失。模型的ROC AUC得分为0.709，这意味着模型在区分流失和非流失员工方面的性能是中等偏上。可以利用该逻辑回归根据员工数据预测员工是否流失。

注：roc_auc_score(y_test, log_clf.predict_proba(X_test)[:, 1])：

roc_auc_score是一个用于计算接收者操作特征曲线下面积（Receiver Operating Characteristic Area Under the Curve，简称 ROC AUC）的函数。ROC AUC 是一种衡量二分类模型性能的指标，它的值介于 0.5（随机猜测）和 1（完美分类）之间，值越接近 1 表示模型性能越好。

y_test是真实的测试集目标变量值，通常是 0 和 1 表示的二分类结果。

log_clf.predict_proba(X_test)是使用已经训练好的分类器（这里假设 log_clf 是一个逻辑回归分类器）对测试集 X_test 进行预测，得到的是一个概率矩阵，其中每一行表示一个样本属于不同类别的概率。

[:, 1]表示取这个概率矩阵的第二列，通常对应着正类（1）的概率预测值。

整体而言，这段代码是计算使用逻辑回归分类器对测试集进行预测得到的正类概率与真实的测试集目标变量之间的 ROC AUC 值，以评估该分类器在测试集上的性能表现。