AI目录:sheng的学习笔记-AI目录-CSDN博客
半监督学习:sheng的学习笔记-AI-半监督学习-CSDN博客
聚类:sheng的学习笔记-AI-聚类(Clustering)-CSDN博客
均值算法:sheng的学习笔记-AI-K均值算法_k均值算法怎么算迭代两次后的最大值-CSDN博客
什么是半监督聚类
聚类是一种典型的无监督学习任务,然而在现实聚类任务中我们往往能获得一些额外的监督信息,于是可通过半监督聚类(semi-supervised clustering)来利用监督信息以获得更好的聚类效果。
聚类任务中获得的监督信息大致有两种类型。
- 第一种类型是“必连”(must-link)与“勿连”(cannot-link)约束,前者是指样本必属于同一个簇,后者是指样本必不属于同一个簇;
- 第二种类型的监督信息则是少量的有标记样本。
约束 k 均值算法
什么是约束k均值
约束k均值(Constrained k-means)算法是利用第一类监督信息的代表。
给定样本集D={x1,x2,...,xm}以及“必连”关系集合M和“勿连”关系集合C,(xi,xj)∈M表示xi与xj必属于同簇,(xi,xj)∈C表示xi与xj必不属于同簇。
该算法是K均值算法的扩展,它在聚类过程中要确保M与C中的约束得以满足,否则将返回错误提示
算法
解释如下
数据表现
令样本x4与x25,x12与x20,x14与x17之间存在必连约束,x2与x21,x13与x23,x19与x23之间存在勿连约束,即
M={(x4,x25),(x25,x4),(x12,x20),(x20,x12),(x14,x17),(x17,x14)},
C={(x2,x21),(x21,x2),(x13,x23),(x23,x13),(x19,x23),(x23,x19)}。
设聚类簇数K=3,随机选取样本x6,x12,x27作为初始均值向量
图13.8 西瓜数据集4.0上约束K均值算法(K=3)在各轮迭代后的结果。
样本点与均值向量分别用“∙”与“+”表示,必连约束和勿连约束分别用实线段与虚线段表示,红色虚线显示出簇划分。
显示出约束K均值算法在不同迭代轮数后的聚类结果。经5轮迭代后均值向量不再发生变化(与第4轮迭代相同),于是得到最终聚类结果
C1={x3,x5,x7,x9,x13,x14,x16,x17,x21};
C2={x6,x8,x10,x11,x12,x15,x18,x19,x20};
C3={x1,x2,x4,x22,x23,x24,x25,x26,x27,x28,x29,x30}。
约束种子 k 均值算法
什么是约束种子 k 均值
约束种子 k 均值Constrained Seed k-means
算法是利用第二类监督的代表。
给定样本集D={x1,x2,...,xm},假定少量的有标记样本为,其中为隶属于第k个聚类簇的样本。
这样的监督信息利用起来很容易:直接将它们作为“种子”,用它们初始化k均值算法的k个聚类中心,并且在聚类簇迭代更新过程中不改变种子样本的簇隶属关系。这样就得到了约束种子k均值(Constrained Seedk-means)算法
算法代码
解释如下
数据表现
仍以西瓜数据集4.0为例,
假定作为种子的有标记样本为S1={x4,x25},S2={x12,x20},S3={x14,x17}。
以这三组种子样本的平均向量作为初始均值向量,图13.10显示出约束种子k均值算法在不同迭代轮数后的聚类结果。经4轮迭代后均值向量不再发生变化(与第3轮迭代相同),于是得到最终聚类结果
C1={x1,x2,x4,x22,x23,x24,x25,x26,x27,x28,x29,x30};
C2={x6,x7,x8,x10,x11,x12,x15,x18,x19,x20};
C3={x3,x5,x9,x13,x14,x16,x17,x21}。
图13.10 西瓜数据集4.0上约束种子k均值算法(k=3)在各轮迭代后的结果。
样本点与均值向量分别用“∙”与“+”表示,种子样本点为红色,红色虚线显示出簇划分。
参考文章
12.半监督学习 - 五、半监督聚类 - 《AI算法工程师手册》 - 书栈网 · BookStack
14 半监督学习 - 14.4 半监督聚类 - 《周志华《机器学习》学习笔记》 - 书栈网 · BookStack
书:机器学习