文章目录

Diffusion Models: A Comprehensive Survey of Methods and Applications
ADVERSARIAL TRAINING METHODS FOR SEMI-SUPERVISED TEXT CLASSIFICATION
Human Emotion Knowledge Representation Emerges in Large
API 调优上： Decoder Tuning: Efficient Language Understanding as Decoding
API调优上：Finding Supporting Examples for In-Context Learning
其他的一些方向有

主要是因为chatgpt出现之后，NLP方向的小论文有点没底。调研下，找找方向。

Diffusion Models: A Comprehensive Survey of Methods and Applications

扩散模型diffusion model,是在图像生成方向比较火的一个模型，但是采样比较困难，而且算是重新训练的预训练的那种模型。
在NLP中感觉用的还不是很多，有一篇文章是用在文生图上，是控制图片的生成。
这篇文章是一篇综述 文献时间都非常新，在21-22年间的论文不在少数。
看了在NLP方向可能的发展方向：（主要是用于控制文本生成）
众多基于扩散模型的方法已被开发用于文本生成。离散去噪扩散概率模型（D3PM）[6]介绍了用于字符级文本生成的扩散类生成模型。
控制语言模型的行为而不重新训练是文本生成中的一个主要和重要问题[43, 117]。尽管最近的方法在控制简单的句子属性（如情感）方面取得了重大的成功[127, 263]，但在复杂的、细粒度的控制（如句法结构）方面却没有什么进展。为了解决更复杂的控制，Diffusion-LM[141]提出了一个基于连续扩散的新语言模型。Diffusion-LM从一连串的高斯噪声向量开始，逐步将其去噪为对应于单词的向量。逐步去噪的步骤有助于产生分层的连续潜在表征。这种分层和连续的潜变量可以使简单的、基于梯度的方法完成复杂的控制。Analog Bits[32]生成模拟位来表示离散变量，并通过自我调节和不对称的时间间隔进一步提高样本质量。DiffuSeq[88]提出了一个新的条件扩散模型来完成更具挑战性的文本生成任务
在Robust learning上可能的方向：增强模型的鲁棒性
稳健学习是一类防御方法，帮助学习网络对对抗性扰动或噪声具有稳健性[16, 168, 179, 240, 248, 270]。虽然对抗性训练[157]被视为图像分类器对抗对抗性攻击的标准防御方法，但adversarial learning 作为一种替代的防御方法[270]显示出显著的性能，它通过独立的净化模型将受攻击的图像净化成干净的图像。给定一个对抗性的例子，DiffPure[168]按照前向扩散过程将其与少量的噪声扩散，然后用反向生成过程恢复干净的图像。Adaptive Denoising Purification——自适应去噪净化（ADP）[270]证明了用去噪分数匹配[238]训练的EBM可以在短短几步内有效地净化受攻击的图像。它进一步提出了一个有效的随机净化方案，在净化前向图像注入随机噪声。Projected Gradient Descent——投射梯度下降（PGD）[16]提出了一种新颖的基于随机扩散的预处理鲁棒化，其目的是成为一种模型无关的对抗性防御，并产生高质量的去噪结果。此外，一些作品提出应用引导扩散过程进行高级对抗性净化[240, 248]。

ADVERSARIAL TRAINING METHODS FOR SEMI-SUPERVISED TEXT CLASSIFICATION

是考虑模型的鲁棒性，进而思考到词向量或者词表征的鲁棒性这一话题上的
比较早的一篇文章，不是在模型的input中加入干扰（这里的干扰主要指的类似于删词、句子反转这种），而是在Word的embedding中加入干扰，进而促使模型学习得到的Word embedding能够更加具备鲁棒性。

Adversarial training———对抗性训练是指训练一个模型对未修改的例子和对抗性例子都能正确分类的过程。它不仅提高了对对抗性例子的鲁棒性，而且还提高了对原始例子的概括性能。

在这里插入图片描述
作者还对于virtual adversary loss 和 adversary loss做了比较说明，
其中，虚拟对抗性损失公式（3）只需要输入x，不需要实际的标签y，参数更新公式如下。

adversary loss是需要考虑实际标签y的，参数更新公式如下。

在这里插入图片描述

Human Emotion Knowledge Representation Emerges in Large

这篇文章是在说明了LLM中情绪学习的思路和人类是类似的。

探究了LLM的神经元和prompt之间的关系，prompt的embedding和情感词embedding之间的关系。

最重要的是，通过操纵特定属性的神经元，我们发现相应的LLM的情感推断性能恶化，而且性能恶化与人类方面的概念属性表征的有效性相关。

具体来说，用情绪一致的线索做引子会提高识别特定情绪的速度和准确性29,30，而重复引子则会损害它31,32。然而，操纵通道并不能保证直接操纵情绪知识本身33,34，使相关的证据成为间接的。一个更直接的方法是探索神经系统疾病35,36或大脑刺激37的行为后果，这些后果发生在可能与情感知识有关的脑区。

具体来说，可以有选择地操纵LLM中的人工神经元，使其与特定知识的功能相关，然后可以测试LLM中被操纵的神经元在某些推理任务中的表现，正如在主题分类中所实践的那样61。

在本研究中，我们旨在探索人类情感知识在LLMs中的表现及其对离散情感推理的潜在支持。
我们在实验中利用了RoBERTa46，因为它是一个典型的LLM。为了刺激LLM中的学习知识以推断出相应的情绪，我们训练了27个针对情绪的提示65。这种机制61,66可以类似于人类心理学中的 "打底 "操作27,29，因为提示和打底都是一种提示信息，分别将LLM和人脑设置为即将到来的任务的适当状态。因此，当我们只输入特定情感的提示，而不把任何文本串联到LLM中时，它的神经元激活（隐藏状态）值可以被视为特定情感知识的表示。我们还进行了行为实验，以获得人类的情感知识（情感的概念结构和概念属性），这些知识可以通过表征相似性分析（RSA）67从更高层次的功能角度与LLM的表征进行比较。随后，在行为数据的指导下，我们可以定位和操纵LLM中与特定概念属性相关的人工神经元，以研究其对情绪推理任务的支持。我们进一步探讨了人类方面的概念属性表征的有效性是否可以预测它们对LLM方面的情感推断的贡献，这可以为更深入地理解我们的结果提供证据。根据以前在LLMs上的类人表征51-60，我们预计提示技术会刺激LLMs中的人工神经元来表征关于不同离散情绪的类人知识。如果这些表征是功能相关的，那么通过操纵与特定概念属性相关的人工神经元，我们预计相应的LLM的情绪推断性能会恶化，而性能的恶化与人类方面的概念属性的表征效果相关。我们希望这些结果也能阐明人类进行情感推断的机制。

文章做的相关工作：

1、通过采用searchLight RSA 来评估每一个人工神经元的RDM（The representational dissimilarity matrices (RDMs)）和人类14个代表性概念属性（在这项研究中，我们选择了现有心理学情绪理论中最具代表性的概念属性，如情感属性（情绪可能是什么感觉）、评价属性（情绪的前因后果可能是什么）和基本情绪属性（可能解释所有情绪表达的六个原型表达））的RDM之间的二阶相似度，进一步研究了LLM中14个概念属性的表征。
2、通过在情感推断过程中操纵特定的人工神经元来揭示概念属性对推断离散情感的因果贡献（方法和图5a）。与没有操纵的原始准确性相比，我们发现在有选择的操纵下，LLM的情绪推断准确性有所下降（补充图3）。与随机操纵相同数量的神经元相比，这种推断性能的恶化仍然存在，并揭示了概念属性的因果贡献。LLM中不同的人工神经元代表了情绪的不同概念属性。通过操纵特定属性的神经元和观察LLM在情绪推断上的表现，我们揭示了概念属性对推断各种离散情绪的因果贡献。
情感推理在LLM上的表现恶化不是独立的，而是与人类方面的概念属性的表述的有效性有显著关系

API 调优上： Decoder Tuning: Efficient Language Understanding as Decoding

在API调用的输出端做了改进，在保证LLM 模型参数不变动的条件下，在输出端口加了一个新的模块（论文中的是prototype network——损失函数使用的交叉熵），用于微调来适应target sequence 。

模型在简单的分类任务（在输出端使用了元模型）中做了测试，对于文本生成文本的复杂场景可能需要进一步的探讨。
模型图如下：
在这里插入图片描述
在探讨模型的有效性上，是从模型的稳定性（低方差 low variance）和模型的高效率（high efficiency——training time）等多个角度上去做的比较和说明。在ablation study部分，也研究了参数对于模型效果的影响。
这个方法在简单的分类任务和复杂的一些文本生成中还是不同的。

API调优上：Finding Supporting Examples for In-Context Learning

让我想到了清华之前的一个工具包OpenPrompt.
在考虑LLM参数frozen哪部分上，在prompt选择上，好像都有一些研究。
这篇文章的研究目标也是如何选择有价值的example上面
上下文实例之间的强烈依赖性使这个问题成为一个NP-hard组合优化问题，列举所有可能的排列组合是不可行的。因此，我们提出一个两阶段的方法来解决这个挑战。首先，我们提出了一个新的衡量标准，根据语言模型的反馈选择有信息的例子，并采用渐进式过滤策略。然后，我们提出了一种多样性引导的波束搜索方法来完善和评估所选的例子

评估一个example的信息量（主要是用于控制文本生成）
基于LLM的反馈结果测评一个example所携带的信息量大小。下图中公式3测评了e对于e’的helpful有多大。
在这里插入图片描述
渐进式过滤：
有希望的例子得到更多的计算成本，而低质量的例子得到较少的计算，如算法1。我们以渐进式迭代的方式过滤掉无信息的例子。我们首先从D中抽出一小部分例子作为 “分数集”（第2行）来评估所有例子的InfoScore，并粗略地过滤它们（第5行）。在接下来的迭代中，我们通过从训练集中随机抽取更多的例子，将分数集按比例扩大到ρ倍（第13∼15行），并利用它来计算剩余的有希望的例子的InfoScore。由于分数集更大，后续的InfoScore可以以更精细的方式进行计算。同时，在之前的迭代中，没有信息的例子被过滤掉了，这有助于节省计算成本。
在这里插入图片描述
由于例子的顺序可以显著影响性能，我们也通过随机洗牌E来探索不同顺序的E（第10∼13行）。

同一方向下的可参考文献：
Yiming Zhang, Shi Feng, and Chenhao Tan. 2022b.
Active example selection for in-context learning.
CoRR, abs/2211.04486

Zhiyong Wu, Yaoxiang Wang, Jiacheng Ye, and Lingpeng Kong. 2022. Self-adaptive in-context learning.
CoRR, abs/2212.10375.

其他的一些方向有

Pic2word。Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image Retrieval

Code相关的预训练的。Measuring The Impact Of Programming Language Distribution——提到的就是train data的unbanlance的问题。
编程语言的语料数量差异是比较大的，有些语言的语料偏多，有些语言的语料偏少。那么，当将一种编程语言翻译到另一种语言时，是偏难的，尤其在low resource data。