关于机器学习/深度学习的一些事-答知乎问（五）

嵌入学习方法在解决小样本学习问题时面临的挑战是什么？

（1）过度依赖于辅助数据，预训练的模式违背了小样本学习的本质定义。几乎所有的嵌入学习方法都需要通过大量辅助样本来预训练特征嵌入函数，但在实际应用场景中，很多时候数据量受限，使用辅助样本的思路显得不切实际。还有，使用的辅助数据与当前任务样本的相关性较低时，嵌入学习方法会学习到较差的特征嵌入函数，不利于后续准确地对样本分类，而各类嵌入学习模型或多或少都会面临这种问题，但目前没有较好的解决方法。

（2）模型的设计与训练都过于偏向当前特定的任务基准，对其他任务样本的适用性和泛化性不够。在现有的研究工作中，将模型推广到新的但与目标任务无关的样本并保证其能够对样本快速学习也是需要实现的目标，但是每一类嵌入模型都过度针对特定的基准任务（Episodic Training的子任务）和数据集（辅助数据与目标任务）设计，削弱了对其他任务（新任务）的适用性。

（3）特征嵌入函数的训练模型对信息的结合以及参数的迁移不够明确，缺乏足够的可解释性。人们只知道训练样本的特征嵌入函数时学习了网络参数，但对于训练过程中如何使用外部先验知识以及如何结合目标任务的特征信息等相关细节并不是特别清晰，需要更加明确信息（知识）结合以及参数迁移的过程。

（4）对度量选择依据的讨论不够明确，缺乏对每个方法的最优度量选择的分析。度量的选择会影响小样本学习的最终学习效果，然而各嵌入学习方法并没有权威地讨论本方法选择度量的依据以及选择何种距离度量是最佳的（取得最好的学习效果）。

（5）样本学习的过程中忽视了类内差异的影响。现阶段关于样本类内差异的研究相对较少，大部分嵌入学习方法关注的重点是类间差异，类内差异也会对样本学习的准确率产生影响，这是当前工作需要解决的点。

（6）当前研究工作的梯度迁移算法还不是很合理，大多是针对传统机器学习领域中的大数据集学习，算法实现过程中容易出现过拟合问题。在 Episodic training中，每次训练时子任务在学习知识的过程中梯度下降是较缓慢的。当模型迁移到新任务时，受限于样本数量较少，模型期望快速收敛的目标显得十分关键，需要梯度快速下降，但梯度下降过快容易导致过拟合问题的出现。因此，目前还需要针对嵌入学习方法设计合理的梯度下降算法来完善当前的工作，满足小样本学习的需求。

（7）对各领域的应用大多在起步阶段，缺乏足够小样本标准数据集供研究。目前嵌入学习方法只有在图像应用领域的发展较为成熟，而对文本分类，声音分类等领域的研究工作仍不成熟。在图像领域中，诸如 MiniImagenet数据集和Omniglot数据集等带标注的数据集已经被广泛使用。而在其他应用领域中，标准数据集仅有少数个例。

匹配网络是什么？

2016年，Vinyals等人在孪生网络的基础上提出了匹配网络MN，他们认为可以结合外部机制来训练出更好的特征嵌入函数，MN的创新点为以下两点。

一是MN在构建通用特征嵌入函数的过程中加入了优化过程。优化通过记忆机制完成，它的本质是特征信息的接收反馈和适应调整（网络参数的优化），以消除辅助数据随机选择支持集与查询集样本的差异性。

二是MN在度量模块中加入了注意力机制，并不直接采用度量距离（余弦距离）来对样本分类，而是通过带注意力机制的核函数来归类样本。

MN 通过外部机制的融合实现了对传统的通用特征嵌入函数的优化，提升了其对目标任务样本的特征嵌入能力，使其更加适应新的任务样本，极大提升了学习的性能。

如何利用嵌入学习方法实现小样本学习？

嵌入学习方法，又称表示学习，嵌入即映射，与降维类似，核心思想是将样本嵌入到低维空间中，将样本特征转化特征向量的形式保存在低维特征空间中，减少假设空间的范围，通过较小的嵌入空间来进一步扩大嵌入样本间的区分度，使得同类样本联系更加紧密，而异类样本分布则更加分散，它的关键在于如何嵌入样本特征以及特征嵌入之后如何学习。

小样本场景中，嵌入学习方法的核心思想是训练优秀的特征嵌入函数来实现对样本的映射，旨在让样本在较小的样本特征嵌入空间具有更加清晰的区分度。嵌入学习方法主要由嵌入模块和度量模块组成，嵌入模块的功能是利用CNN构建并训练特征嵌入函数，将样本以特征向量的形式映射到特征空间中；度量模块则选择合适的度量函数计算样本的相似度度量，完成对样本的分类。

通常，为了保证小样本学习的性能，嵌入学习方法采用Episodic Training的跨任务学习模式（借鉴元学习的思想），旨在将对整个目标任务样本集的学习转换为多个子任务的多次学习。

一般情况下，嵌入学习方法对特征嵌入函数的训练很大程度依赖于辅助数据，在辅助数据中学习的是通用特征信息，而在目标任务样本中学习的是特定特征信息。嵌入学习方法可以只利用辅助数据的外部先验知识或目标样本的内部先验知识来训练特征嵌入函数，也可以同时结合两种特征信息来获得特征嵌函数。因此，依据训练特征嵌入函数的过程中结合任务特征信息的方式，可以划分为单一嵌入模型和混合嵌入模型。

单一嵌入模型

包括孪生网络

匹配网络

原型网络

关系网络

图神经网络

信息检索法

孪生学习网络

动态条件卷积网络

任务相关自适应度量

病理图像分割的挑战是什么？

(1) 由于组织病理图像中组织基元高密度分布、基元间出现重叠、缠绕，使得传统基于图分析方法的检测与分割很难获得正确的结果。

(2) 对于病理状态图像而言，由于染质稀疏、背景杂斑干扰、表观多样等，基于有效特征提取的个体基元精准实例分割是一个挑战性问题。

(3) 对于不同类型的病理图像而言，由于图像特性存在显著差异，如何设计一个普适的分割方法是一个重要且具有挑战性的研究问题。

(4) 大多数已有的分割方法只局限于重叠或接触基元的简单分割，精确的完整轮廓推断能够显著改进个体基元的形态计算精度。

(5) 在已有方法中，检测与分割是两个相互独立的过程，如何设计一个统一的框架，联立执行检测与分割是亟待解决的问题。

(6) 已有深度学习方法需要较大规模的训练数据集以经验拟合深层网络参数，如何设计更加高效模型提升表征学习能力是当前的研究热点之一。

无人机航拍语义分割技术存在的挑战是什么？

（1）无人机航拍数据集。无人机航拍数据集的多样化导致了无人机航拍数据集的不统一，无法像通用场景的语义分割拥有较为标准的数据集作为实验基准和评价。

其次，无人机航拍图像在低空和高空的图像特征并不相同而且差异较大，当无人机在低空飞行时，航拍图像包含人、树木、道路、斑马线等，图像包含物体种类多样，物体细节丰富；当无人机航拍图像在高空飞行时，航拍图像大多包含建筑物、山脉、森林等。目前无人机航拍图像语义分割研究很少提及模型和数据集是用于低空还是高空环境，但无人机不同高度的航拍图像有较大的差别应予以区分。当无人机穿越不同高度时，图像特征也可能会变化，从而影响语义分割模型。例如，当无人机依靠图像实现着陆时，航拍图像会跨越多个飞行高度。

（2）实时语义分割和轻量化模型。实时性和准确性在语义分割模型中较难平衡，现阶段语义分割模型研究重点主要还是在模型精度上，但是对于无人机等嵌入式设备上，设备运算效率较低，存储资源有限，需要响应更快的轻量化模型。

（3）三维语义分割。随着激光雷达点云等设备的应用，点云等三维数据的获取更为便捷，目前大量的无人机航拍语义分割模型工作基于二维图像、三维图像数据集以及语义分割模型是未来的一个研究方向。

（4）弱监督和无监督语义分割。弱监督和无监督语义分割模型可以不依赖大量标注的数据集，但精度仍需提高。

深度神经网络下的小样本学习策略有哪些？

采用数据增强的策略，为小样本数据集生成新数据。

采用度量学习的策略，模拟样本之间的距离分布，使用非参数估计的方法进行分类。

采用外部记忆的策略，向模型中添加额外的记忆来保存一些信息，帮助模型进行学习。

采用参数优化的策略，通过优化模型的参数或学习算法来加速网络学习。

小样本故障诊断存在的问题及发展方向？

首先在实际生产过程中，数据往往难以收集，小样本条件下的故障诊断是有一定的现实意义的。

（1）从数据生成角度看，深度生成模型都需要大量的计算资源，模型难以训练。而且数据生成的效果依赖充足的真实数据，当真实数据数不足或者特征不明显时，生成效果较差。

（2）从辅助数据集角度看，迁移学习和元学习旨在将相关的辅助数据集知识应用到目标域中，只需要很少的目标数据就可以训练得到一个性能良好的分类模型。但是当辅助数据集与目标数据集相似程度不足或者辅助数据不充足时，甚至会发生负迁移问题。

（3）从分类模型角度看，需要分类模型从少量数据中提取更多的故障信息，以达到准确分类的目的，但是少量的数据更容易发生过拟合现象。

一些发展方向

首先，现有的基于数据的方法都是从数据生成角度解决小样本问题，忽略了生成样本与真实样本之间的差异，即生成样本包含的故障信息一定少于真实样本，也忽略了不同的特征对分类模型的影响不同。因此，从不同样本或者不同特征具有不同的重要性入手，可以生成包含重要特征的样本，也可以在分类模型训练时，区分重要样本和不重要样本，并分配不同的注意力。注意力机制的基本思想是从原始的数据中找到它们之间的关联性，然后根据需要突出某些重要的特征，即让机器去感知数据中更重要的部分。虽然基于注意力机制的方法并不是针对小样本问题而设计的，但是其原理让机器注意更重要的信息，有望用于小样本的故障诊断。

其次，大部分的小样本故障诊断方法都是聚焦于单模态数据，包含的信息有限。因此可以考虑从不同数据类型出发，利用多模态数据进行故障诊断。在生产中，虽然故障样本较为稀少，但是可以通过布置不同类型或者不同位置的传感器，获得多源多模态数据。这种数据包含的故障信息较单模态数据更加全面、更加广泛，分类模型也可以学习到更多的故障特征。

最后，大多数小样故障诊断的模型都是建立在欧几里德空间，对于非欧几里德数据有所忽视，而图数据作一种非欧几里德数据，包含更多的信息。小样本的故障诊断因为样本的缺乏而导致分类效果不佳，如果能从图数据中提取更多的故障信息，则可以建立一个更加可靠的模型。图神经网络作为一种新兴的神经网络，常用于对图数据的建模和分析。在小样本轴承故障诊断中利用图数据建模有两大优势：(1)图数据包含的信息多于欧式数据，同时包含节点信息和关系信息；(2)在实际的工业过程中传感器信号及其相互关系可以用节点和边的形式表示为图数据。

知乎学术咨询：

哥廷根数学学派 - 知乎

工学博士，担任《Mechanical System and Signal Processing》等期刊审稿专家，擅长领域：现代信号处理，机器学习，深度学习，数字孪生，时间序列分析，设备缺陷检测、设备异常检测、设备智能故障诊断与健康管理PHM等。