通过主成分分析实现检测金融中的异常交易模式

news2025/4/2 11:50:52

主成分分析（PCA）是一种在机器学习和数据科学中广泛使用的降维技术。它的主要目的是将高维数据转换为低维数据，同时尽可能保留原始数据中的信息。以下是PCA的一些关键点：
1. 基本概念：PCA的核心思想是将n维特征映射到k维上，这k维是在原有n维特征的基础上重新构造出来的，它们被称为主成分。这些主成分是相互正交的，即彼此之间没有相关性。
2. 工作原理：
- 标准化数据：首先对数据进行标准化处理，确保每个特征具有相同的量纲。
- 计算协方差矩阵：计算标准化数据的协方差矩阵，该矩阵反映了原始数据各维度之间的相关性。
- 特征值分解：对协方差矩阵进行特征值分解，得到特征值和对应的特征向量。
- 选择主成分：选择前k个最大的特征值对应的特征向量，它们构成了新的坐标轴，即主成分。
- 降维：将原始数据投影到这k个主成分上，得到降维后的数据。
3. 实际应用：PCA在多个领域都有应用，包括数据降维、特征提取、数据压缩和异常检测等。例如，在图像处理中，PCA可以用于降维和特征提取，帮助识别和分类图像；在金融领域，它可以用于检测异常交易模式。
总的来说，PCA是一种强大的数据分析工具，能够帮助我们从复杂数据中提取关键信息，简化数据结构，而不会显著损害原始数据的完整性。

以下是一个简化的示例，展示如何使用Python和PCA来识别潜在的异常交易。通过这个例子了解主成分分析的使用方法。

首先，你需要准备交易数据，这里假设我们有一组股票的交易数据，包括交易量、价格波动等特征。

以下是使用Python实现PCA进行异常检测的基本步骤：

数据预处理：包括数据清洗、标准化。
应用PCA：计算主成分并选择最重要的几个。
异常检测：基于主成分得分来识别异常。

Step1：构建符合有异常交易的数据

先导入库：

import pandas as pd
import numpy as np

这里，我们导入了pandas和numpy库，它们是Python中进行数据处理和数值计算的常用库。

设置随机种子：

np.random.seed(42)

通过设置随机种子，我们确保每次运行代码时生成的随机数序列都是相同的，这有助于代码的可复现性。

定义交易记录数量：

num_transactions = 100

这里定义了模拟数据集中交易记录的数量，即100条。

生成模拟数据：

# 创建一些模拟的特征：交易量(volume)，价格变动(price_change)，交易次数(trade_count)
volume = np.random.normal(loc=1000, scale=200, size=num_transactions)
price_change = np.random.normal(loc=0, scale=5, size=num_transactions)
trade_count = np.random.poisson(lam=5, size=num_transactions)

交易量：使用numpy的random.normal函数生成正态分布的随机数，代表交易量。loc=1000是均值，scale=200是标准差，size=num_transactions指定生成的随机数的数量。

价格变动：同样，这里生成代表价格变动的正态分布随机数，均值为0，标准差为5。

交易次数：使用numpy的random.poisson函数生成泊松分布的随机数，代表交易次数。lam=5是泊松分布的参数，表示事件的平均发生率。

再创建DataFrame：

# 将这些特征放入一个DataFrame中
df = pd.DataFrame({
    'volume': volume,
    'price_change': price_change,
    'trade_count': trade_count
})

使用pandas的DataFrame创建一个数据框，将生成的交易量、价格变动和交易次数数据放入其中。

再添加异常值：

# 为了演示异常检测，我们手动添加一些异常值
# 假设有5个异常交易
num_outliers = 5
outlier_indices = np.random.choice(num_transactions, num_outliers, replace=False)

# 在这些异常交易中，我们增加交易量和价格变动
df.loc[outlier_indices, 'volume'] *= 5
df.loc[outlier_indices, 'price_change'] *= 5

设定要添加的异常交易数量为5。使用numpy的random.choice函数随机选择5个不重复的索引作为异常交易的索引。

显示前10条记录：

df.head(10)

使用DataFrame的head方法显示数据框的前10条记录，以检查数据的样式和异常值是否成功添加。

这样就构建一个包含正常交易和异常交易的数据集。数据前10行如下：

Step2：主成分分析（PCA）实现与结果可视化

先导入库：

from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline

sklearn库中的PCA、StandardScaler和make_pipeline用于执行主成分分析和数据标准化。

再进行数据预处理：

scaler = StandardScaler()
df_scaled = scaler.fit_transform(df)

使用StandardScaler对交易数据进行标准化处理，即转换数据以具有0均值和单位方差。这是PCA之前的一个重要步骤，因为PCA对数据的尺度敏感。

应用主成分分析（PCA）：

# 应用PCA
pca = PCA(n_components=2)  # 假设我们保留2个主成分
pca.fit(df_scaled)
components = pca.transform(df_scaled)

初始化PCA对象，设置保留的主成分数量为2，即我们希望将数据投影到2维空间。
使用标准化后的数据拟合PCA模型
使用PCA模型转换原始数据，得到主成分得分。

解释方差比例：

explained_variance_ratio = pca.explained_variance_ratio_

获取每个主成分解释的方差比例，这可以帮助我们了解每个主成分捕获了多少原始数据的方差信息。

异常检测：

# 异常检测
# 基于主成分得分来识别异常
# 这里我们使用一个简单的阈值方法，实际应用中可能需要更复杂的方法
threshold = 3  # 设定一个阈值，例如3个标准差
outliers = np.abs(components) > threshold

# 找出异常交易的索引
outlier_indices = np.where(outliers.any(axis=1))[0]

设定一个阈值，这里设为3个标准差，用于识别异常值，在统计学中，要确定三个标准差具体是多少，我们需要知道数据集的平均值（mean）和标准差（standard deviation，σ）。一个数据点如果其值超过平均值加上或减去三个标准差（3σ），则通常被认为是一个异常值或离群值。
通过比较主成分得分与阈值，创建一个布尔数组，标记出哪些交易是异常的。
使用np.where和any函数找出标记为异常的交易索引。

打印异常交易的详细信息：

print("异常交易的索引：", outlier_indices)
for index in outlier_indices:
    print(f"交易ID: {index}, 主成分得分: {components[index]}")

结果如下：

可视化主成分，帮助理解异常：

# 可视化主成分，帮助理解异常
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
# 设置支持中文的字体
plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体为黑体
plt.rcParams['axes.unicode_minus'] = False  # 确保负号'-'可以正常显示

plt.scatter(components[:, 0], components[:, 1])
plt.xlabel('主成分1')
plt.ylabel('主成分2')
plt.title('交易数据的主成分分析')
plt.grid(True)
plt.show()

显示异常结果如下：