文章目录
- t-SNE:让高维数据“看得见”的降维利器
-
- 1. 什么是 t-SNE?
- 2. t-SNE 的核心原理
- 3. t-SNE 的优缺点
-
- 优点
- 缺点
- 4. t-SNE 使用中的常见问题与建议
- 5. 与其他降维方法的对比
- 6. t-SNE 的典型应用场景
- 7. 总结
- 8. 案例代码
-
- Python 代码示例
- 代码运行结果
- 代码解析
- 更多建议与扩展
- 9. 典型参数设置
-
- 参数详细解释
-
- 1. **`n_components`**
- 2. **`perplexity`**
- 3. **`n_iter`**
- 4. **`random_state`**
- 其他常用参数
-
- 1. **`learning_rate`**
- 2. **`metric`**
- 3. **`early_exaggeration`**
- 总结参数关系
- 典型配置示例
t-SNE:让高维数据“看得见”的降维利器
在数据科学与机器学习领域,我们经常会面对高维度的数据。高维数据包含丰富的特征,但也会导致难以直接可视化、建模和解释的困扰。为了解决这一难题,降维技术应运而生,其中 t-SNE(t-Distributed Stochastic Neighbor Embedding,t-分布随机邻域嵌入) 作为一种常用且有效的非线性降维方法,备受推崇。
1. 什么是 t-SNE?
t-SNE 是由 Laurens van der Maaten 和 Geoffrey Hinton 在 2008 年提出的一种用于可视化高维数据的算法。它最主要的目的,是将高维空间中的数据点投影到 2D 或 3D 空间中,并在低维空间中尽可能地保留原数据的局部结构,让我们能够用肉眼识别数据中的模式、聚类或分布情况。
在高维空间中,数据往往是稀疏的、分布非常复杂,且不同样本之间的局部结构不易从外部洞察。t-SNE 通过一种基于概率分布相似度的方式,力图将相似的样本在低维空间里拉得更近、不相似的样本推得更远,从而得到一个更直观、更便