t-SNE:高维数据分布可视化
实例1:自动生成一个S形状的三维曲线
实例1结果:
实例1完整代码:
import matplotlib.pyplot as plt
from sklearn import manifold, datasets
"""对S型曲线数据的降维和可视化"""
x, color = datasets.make_s_curve(n_samples=1000, random_state=0) # 生成一个S形状的三维曲线,以及相应的颜色数据,数据点的数量为1000个,随机数种子是0,color是[1000,1]的一维数据,对应每个点的颜色
n_neighbors = 10
n_components = 2 #n_neighbors和n_components分别表示t-SNE算法中的近邻数和降维后的维度数
fig = plt.figure(figsize=(15, 15)) #图像的宽和高
plt.suptitle("Dimensionality Reduction and Visualization of S-Curve Data ", fontsize=14) #自定义图像名称
# 绘制S型曲线的3D图像
ax = fig.add_subplot(211, projection='3d') #分为2行1列的子图布局,选择第1个子图,投影方式为3D
ax.scatter(x[:, 0], x[:, 1], x[:, 2], c=color, cmap=plt.cm.Spectral) #x[:, 0], x[:, 1], x[:, 2]代表x,y,z 绘制散点图,Spectral colormap将不同的颜色映射到数据集的不同标签上
ax.set_title('Original S-Curve', fontsize=14)
ax.view_init(4, -72) # 将视角设置为仰角4度,方位角-72度
# t-SNE的降维与可视化
ts = manifold.TSNE(n_components=n_components,perplexity=30) #将原始数据降低到n_components维度;perplexity=30表示t-SNE算法的困惑度参数设置为30。
# 训练模型
y = ts.fit_transform(x)
ax1 = fig.add_subplot(2, 1, 2) ##分为2行1列的子图布局,选择第2个子图
plt.scatter(y[:, 0], y[:, 1], c=color, cmap=plt.cm.Spectral)
ax1.set_title('t-SNE Curve', fontsize=14)
plt.show()
实例2:手写数字
实例2结果
这个由于数据量太多,呈现的效果不是很明显
实例2完整代码
from sklearn import preprocessing
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
import torchvision
traindata = torchvision.datasets.MNIST(root='./t-SNE_dataset/', train=True, download=True)
testdata = torchvision.datasets.MNIST(root='./t-SNE_dataset/', train=False, download=True)
X_train = traindata.data #[60000, 28, 28]
y_train = traindata.targets #[60000]
X_test = testdata.data #[10000, 28, 28]
y_test = testdata.targets #[10000]
X_train = X_train.view(len(X_train), -1) #[样本数量, 特征维度];-1是根据原来的形状自动计算出新的维度大小,以保证总的元素个数不变,这里是28*28
X_test = X_test.view(len(X_test), -1)
# t-SNE降维处理
tsne = TSNE(n_components=3, verbose=1 ,random_state=42) #n_components=3表示降维后的维度为3,即将图像数据降低到三维;verbose=1表示打印详细的日志信息;random_state=42表示设置随机种子以保证可重复性。
train = tsne.fit_transform(X_train)
test = tsne.transform(X_test) # 注意:使用已经训练好的t-SNE对象对验证集进行降维,不再fit_transform
# 归一化处理
scaler = preprocessing.MinMaxScaler(feature_range=(-1,1))
train = scaler.fit_transform(train)
test = scaler.transform(test) # 对验证集进行归一化处理,使用训练集的scaler对象进行transform
fig = plt.figure(figsize=(20, 20))
ax = fig.add_subplot(projection='3d') #创建一个三维坐标轴,并将它添加到图像窗口中
ax.set_title('t-SNE process')
ax.scatter(train[:,0], train[:,1], train[:,2] , c=y_train, marker='o', label='Train', s=10)
#c=y_train表示根据训练集的标签y_train来对散点进行颜色编码,每个标签对应一个特定的颜色。s=10将每个数据点的大小设置为 10 像素,使用marker='o'表示使用圆圈形状的标记来表示训练集
ax.scatter(test[:,0], test[:,1], test[:,2] , c=y_test, marker='^', label='Test', s=10) # 使用marker='^'表示使用三角形形状的标记来表示验证集
ax.legend() # 添加图例,以便区分训练集和验证集
plt.show()
参考:http://t.csdnimg.cn/cshBV