原博客链接:https://blog.csdn.net/minfanphd/category_12328466.html
总共24篇博客内容,最近两天集种看了一遍。小有收获,了解了一些机器学习的概念。大部分概念原来听过,但是有些概念还是第一次见。比如U-Net,多示例学习等。
关于第19篇的矩阵分解:原来也接触过矩阵分解,但是这篇博客里的内容大部分之前不清楚,比如非负矩阵的概念,之前只是听过名词,不知道含义。非负矩阵分解指将矩阵A分解生成矩阵B和C,且要求三个矩阵的元素均为非负值。这一篇博客里关于稀疏矩阵分解在推荐系统的应用,也是了解了推荐系统的工作的一个思路。.
第18篇的多示例学习是第一次听到的概念。指的是给包打标签,最终也不知道具体的样本的正负。一个数据集由若干包组成, 每个包有若干示例 (即样本、对象, sample). 如果某个包中含有至少一个正样本, 则它为正包, 否则为负包。
第17篇的多标签学习中,标签分布学习问题是第一次见到。标签表示为Y∈,这时Y是一个小数矩阵,每个数表示概率。
关于代价敏感的内容,前面的概念大概理解了。后面关于“解决数据不平衡问题是伪代价敏感学习”的阐述,没有完全理解。
主动学习之前接触过,但是里面讲到的几种学习场景首次看到。冷启动指的是一开始的数据没有标签,一般情况下的主动学习是有一部分标签的。冷启动封闭世界主动学习. 有 500 个样本, 先都没有给标签. 现在专家答应给其中 100 个打标签, 但其它 400 个需要机器预测。冷启动开放世界主动学习. 有 500 个样本, 先都没有给标签. 现在专家答应给其中 100 个打标签. 机器需要对另外的一些样本 (未知样本) 进行预测。未知样本个人理解为原始训练集外的数据集中的样本。
PCA主成分分析也是第一次听到这个概念。进行的是无监督的特征提取, 即它不考虑标签。是一个线性模型, 即新特征均为原始特征的线性组合。
logistic回归是使用超平面将空间分开, 一边是正样本, 另一边是负样本。因此, 它是一个线性分类器。logistic回归与支持向量机SVM有点儿类似,前者是画线分成两类,后者是画线距离正负样本最大。SVM是通过核函数,将低维数据映射到高维,在高维空间进行划分。每一个类别边界的点被称为支持向量 (support vector), 也就是关键样本的意思。关键样本距离分割超平面越远,效果越好。因为样本在空间用向量表示,所以叫支持向量机。