【论文解读系列】DPD-BiReconstructor的神经网络架构

news2024/12/24 8:31:51

原标题:Semisupervised Neural Proto-Language Reconstruction

论文地址:https://arxiv.org/pdf/2406.05930

现有实现祖先语言(原语言)比较重建的工作通常需要完全监督。然而,如果历史重建模型只能用少量标记数据进行训练,那么它们才具有实际价值。我们提出了一个半监督历史重建任务,其中模型仅在少量标记数据(带有原形式的同源词集)和大量无标记数据(没有原形式的同源词集)上进行训练。我们提出了一个比较重建的神经网络架构(DPD-BiReconstructor),该架构结合了语言学家比较方法的一个基本见解:重建的词不仅应该可以从它们的子词重建,而且还应该可以确定性地转换回它们的子词。我们表明,这种架构能够利用无标记同源词集,在新的任务中优于强大的半监督基线。

1. 引言

19 世纪,欧洲语文学家做出了一个将改变人文科学方向的发现:他们发现语言以系统的方式变化,并且通过利用这些系统模式,即使这些语言的记录没有保存下来,也有可能以可重复的方式重建语言家族的祖先(原语言)。这种技术称为比较方法,为人类过去——其文化、其迁徙以及人群之间的遭遇——提供了一个前所未有的窗口。语音历史变化(“语音变化”)是规律性的假设,称为“规律性原则”或“新语法假设”,是比较方法(Campbell,2021 年)的基础。正如 19 世纪新语法学家赫尔曼·奥斯特霍夫和卡尔·布鲁格曼所说:“每一个语音变化,只要它是机械地进行的,就会在没有任何例外的法律范围内完成;也就是说,变化发生的方向对于语言社区的所有成员来说始终是相同的,除了方言分裂的情况,而且在相同条件下出现语音变化的所有单词都会无一例外地受到变化的影响。”(形态学研究在印欧语系领域的应用,布鲁格曼和奥斯特霍夫,1878 年,第 13 页,翻译并引用自 Szemerényi,1996 年) 然而,比较方法对于人类来说具有挑战性。这在很大程度上是因为它涉及处理大量数据以及建模众多竞争模式之间的相互作用。人们必须平衡重建词与其后代(反义词)之间语音相似性的需求,以及能够使用单一组语音变化从重建词中确定性地推导出反义词的需求。这给认知带来了沉重的负担。因此,研究人员长期以来一直渴望以计算的方式实现比较方法。除了少数例外(He 等人,2023 年;Akavarapu 和 Bhattacharya,2023 年),近年来自动重建模型的尝试大多采用类似于用于机器翻译的神经网络序列到序列转换模型的形式,并在每个同源词集都与一个金标准重建配对的完全监督数据集上进行训练(Meloni 等人,2021 年;Chang 等人,2022 年;Fourrier,2022 年;Cui 等人,2022 年;Kim 等人,2023 年)。监督重建系统的发展使该领域对原语言(未经证实的祖先语言)重建的计算机建模方式有了深入了解。然而,在一个现实场景中,这些模型只有在重建中最困难的部分完成之后才变得可用(因为它们依赖于语言学家已经识别出数据中足够多的语音变化来重建相当一部分词汇)。如果计算比较重建模型可以在没有训练数据的情况下部署,或者如果只需要少量标记数据来启动比较过程,那么它们将最有用。我们引入了一个半监督原形式(重建的父词)重建任务,其中重建模型在训练时可以访问少量标记同源词集(单个父词的子词——反义词——的集合)和大量无标记同源词集,这反映了历史语言学家在重建原语言的早期阶段的情况。尽管与半监督机器翻译类似,但半监督重建公式意味着目标侧单语数据的缺失。大多数半监督机器翻译技术依赖于目标语言的单语数据,例如回译(Edunov 等人,2018 年;Sennrich 等人,2016 年)和预训练目标侧语言模型(Skorokhodov 等人,2018 年;Gülçehre 等人,2015 年)。相比之下,在这个任务中,模型只能访问同源词集(没有单语文本),这意味着问题的结构截然不同。在本文中,我们提出通过端到端多任务学习将比较方法纳入半监督重建模型。我们提出的模型名为 DPD-BiReconstructor,它通过在其预测重建的中间表示上进行反射预测来学习改进其重建。将反射预测损失传播到重建网络中,允许模型在无标记同源词集上进行训练。来自三个 Tangkhulic 语言的一个假设示例如表 1 所示。在这个示例中,“孙子”和“骨头”集中的语音信息不足以用独特的元音重建“笑”,因此子词到原词(D2P)模型通常会将这两个词重建为相同的。然而,具有反射预测的模型能够在原则上学习将像“笑”这样的词与像“胸部”这样的词区分开来。实验表明,DPD 是半监督重建的一种有吸引力的方法,并且 DPD 与现有半监督策略的组合在几乎所有情况下都显著优于基线策略。此外,分析表明,DPD 基础模型可以帮助改进监督重建。

图片

2 方法

2.1 模型

我们提出了一种多任务重建策略,它学习从其重建中恢复反义词,有效地利用无标记同源词集。我们的模型由一个重建子网络(D2P,用于子词到原词)和一个反射预测子网络(P2D,用于原词到子词)组成,它们共享音素嵌入。在有标签的数据上,模型除了学习重建外,还从准确的重建到反义词中学习语音变化。在没有标签的原词的情况下,反射预测子网络充当弱监督,通过告知重建子网络是否可以从拟议的重建中推导出正确的反义词来告知重建子网络。这种工作流程直接反映了比较方法的约束,即重建必须产生原词,以便可以通过常规语音变化从它们中推导出反义词。我们将我们的训练策略及其架构实现称为子词到原词到子词双向重建器(DPD)。为了使 D2P 能够从 P2D 中学习,我们将 P2D 的梯度传播到 D2P 中。然而,简单地将 D2P 的标记预测输入到 P2D 中是不可行的,因为标记输出是不可微分的。相反,我们受到端到端语音理解系统(其中语义理解子网络接收来自语音识别子网络的文本转录的潜在表示)的启发,将重建输出表示为连续的潜在空间。特别是,D2P 的最后一层解码器输出通过一个可训练的密集网络连接到 P2D 的编码器,该网络称为桥梁网络(参见图 1)。

图片

图1:将 D2P 的最终层解码器状态连接到 P2D 的编码器输入。对于标记数据,D2P 的原型预测 LD2P 和 P2D 从黄金原型 Lgold P2D 的反义词预测计算监督交叉熵 (CE)。在标记和未标记数据上,基于预测的原型的反义词预测损失(包括 CE 损失 LCE, pred P2D 和针对错误预测原型的 CRINGE 损失 LCR, pred P2D)传播到两个子网络。此外,还使用余弦相似度损失 LBRIDGE 来训练桥接网络。总损失是所有损失的加权求和,权重是可调的超参数。同一同源词组中的反义词被串联成一个序列(用分隔符分隔),并像 Meloni 等人 (2021) 和 Kim 等人 (2023) 一样嵌入到音素和语言嵌入中(对于 Transformer,还有额外的位置嵌入)。音素嵌入在 D2P 和 P2D 之间共享,而语言嵌入仅用于 D2P

没有简单的方法来转换用于训练 P2D 的金标准原词,以便它们与桥梁网络的输出潜在表示相匹配。为了鼓励 P2D 的一致输入表示,我们在桥梁网络的输出和 D2P 预测的实际音素嵌入之间添加了一个余弦相似度损失,有效地训练桥梁网络作为重建原词的替代嵌入。作为一个最终的训练目标,我们阻止 P2D 在给定的错误原词的情况下产生正确的反义词,以便 D2P 在产生错误的重建时能够获得更好的信息。这是通过 P2D 输出上的 CRINGE 损失实现的,该损失旨在惩罚负样本(Adolphs 等人,2022 年)。对于负样本,CRINGE 损失将每个负标记与估计的正标记(通过在模型的前 k 个预测中采样一个非负标记)进行对比,并将对比学习目标(交叉熵损失)应用于降低负标记的概率。当训练 P2D 子网络时,如果输入是错误的原词,则正确预测的反义词被视为负样本。DPD 策略没有指定 D2P 和 P2D 子网络的架构。在本文中,我们采用了现有的用于神经重建的编码器-解码器架构,包括基于 Meloni 等人(2021 年)的 GRU 子网络和基于 Kim 等人(2023 年)的 Transformer 子网络。

2.2 半监督策略

除了我们提出的 DPD 策略之外,一个简单的做法是丢弃无标签数据并执行监督训练。我们将这种仅使用监督训练的策略作为我们的第一个基线。为了与现有的半监督机器学习技术进行比较,我们实现了两种额外的策略:Bootstrapping 和 Π-model,分别代表代理标签和一致性正则化方法。Bootstrapping 通过将模型对无标签数据最自信的预测添加到训练集中作为伪标签来实现。在我们的 Bootstrapping 设置中,模型对无标签同源词集的最自信(即概率最高)的原形重建,经过最小置信度阈值筛选并限制每个epoch 的最高预测数量,从一定数量的 warmup epochs 开始,每个 epoch 的最后将它们作为伪标签添加到训练集中(附录 C 中有 Bootstrapping 超参数的详细信息)。Π-model 通过从同一个训练样本创建两个随机增强的输入,将这两个增强的输入都输入模型,并最小化两个输出之间的均方误差来优化模型的一致性(Laine and Aila, 2017)。对于连续输入,随机增强可以是简单的噪声。然而,对音素进行随机更改会违背原形重建寻找规律音变的目标。因此,我们实现了随机同源词集增强,通过随机排列反射的顺序和随机删除子语言来实现。请注意,上述一些策略可以组合使用:Bootstrapping 总是可以用于其他任何策略之上,而我们的 DPD 架构可以与 Π-model 合并成一个既执行反射预测又执行一致性正则化的模型(附录 O 中有详细信息)。总结:我们测试了以下 8 种策略:仅监督(SUPV)

  • Bootstrapping(BST)

  • Π-model(ΠM)

  • Π-model with Bootstrapping(ΠM-BST)

  • DPD-BiReconstructor(DPD)

  • DPD with Bootstrapping(DPD-BST)

  • DPD merged with Π-model(DPD-ΠM)

  • DPD-ΠM with Bootstrapping(DPD-ΠM-BST)

在 8 种策略中,我们将单一基线策略(SUPV、BST 和 ΠM)视为弱基线,将非 DPD 半监督技术的组合(ΠM-BST)视为强基线。结合 2 种编码器-解码器架构,GRU 和 Transformer,我们测试了 16 种策略-架构组合,我们通过架构前缀(GRU- 或 Trans-)后跟策略名称来标识它们。

2.3 实验

数据集:

我们测试了罗曼语和汉语两种语言,分别用 Meloni 等人 (2021) 的罗曼语数据集的语音版本 (Rom-phon) 表示拉丁语重建,以及 Chang 等人 (2022) 的 WikiHan 数据集表示中古汉语重建。我们通过从完全标记的训练集中隐藏随机子集来模拟半监督重建场景。我们将删除标签后保留的标签百分比称为标签设置。 我们的主要兴趣是固定标签百分比时策略之间的重建性能差异。我们将标签百分比固定在 10%,这导致 WikiHan 和 Rom-phon 分别大约有 516 个和 870 个标记的同源词集。由于半监督数据集生成的随机性,我们在 WikiHan 和 Rom-phon 的每个随机生成的半监督训练集上重复实验四次,标记为组 1 到组 4。每种策略-架构组合在每个组中测试 10 次。然后,我们比较相同架构中策略的性能。

跨标签设置比较:  我们在具有 5%、10%、20% 和 30% 标签的数据集上测试所有策略,以研究标签设置与模型性能之间的关系。在这些标签设置下,WikiHan 和 Rom-phon 的标记同源词集数量分别从 181 到 1,084 和 304 到 1,821。随机为每个标签设置选择标签——尤其是在数据集已经很小的情况下——会改变标签中包含的学习信息,并可能引入噪声。为了减轻这种情况,我们强制执行单调子集选择约束:给定完整的训练标签集 L 和保留 pi% 标签的半监督标签集 Lpi ⊆ L,具有增加百分比(p1 ≤ p2)的半监督集 Lp1、Lp2 必须满足 Lp1 ⊆ Lp2(图 2)。我们在跨标签设置比较中使用的 10% 标记数据集对应于跨策略比较中的组 1(附录 B 中有详细信息)。

图片

图2:创建具有不同标记设置的半监督数据集的单调约束图示。在一个假设的包含 100 个同源词组的数据集中,表示为一个 10 × 10 网格,阴影单元格表示具有关联标签(即黄金原型)的同源词组。“ ” 表示前一个子集中不存在的原型标签。注意,随着标签百分比的提高,没有任何标签会被移除。

超参数: 我们使用贝叶斯搜索在固定 10% 标记的半监督数据集上对所有 16 种策略-架构组合调整超参数。对于每种策略-架构组合,进行 100 次迭代,选择导致最佳验证音素编辑距离的超参数。附录 C 中有超参数的详细信息。评估指标:我们使用的评估指标直接来自监督重建文献,包括:token edit distance (TED): 预测和目标之间插入、删除或替换操作的计数 (Levenshtein, 1966)token error rate (TER): 长度归一化的 token edit distance (Cui et al., 2022)accuracy (ACC): 准确率feature error rate (FER): 通过 Pan-Phon 衡量的语音距离 (Mortensen et al., 2016)B-Cubed F Score (BCFS): 预测和目标之间的结构相似度 (Amigó et al., 2009; List, 2019)

统计测试: 对于数据组、标签设置和架构的每个组合,我们使用 Wilcoxon 秩和检验 (Wilcoxon, 1992) 和 Bootstrap 测试来测试所有策略之间的性能差异。我们使用 α = 0.01 显著性阈值,并且如果两个测试都表明结果显著,则认为结果显著。

3 结果

跨策略比较。 表 2 显示了每种架构在四组 10% 标记数据集上所有策略-架构组合的性能。对于 WikiHan 上的两种架构,DPD-ΠM-BST 表现最好,并且在所有指标上显著优于所有基线。用 DPD 训练的 Transformer 在性能上与 DPD-ΠM-BST 类似,并且在大多数策略下都优于所有基线策略。用 DPD 训练的 GRU 与 ΠM-BST 性能相似,两者都优于大多数情况下的弱基线。在 Rom-phon 上,当用 DPD-ΠM-BST 训练时,Transformer 表现最好,而 GRU 当用 DPD-BST 训练时表现最好,两者在所有指标上都显著优于所有基线。有趣的是,虽然 Kim 等人 (2023) 发现监督 Transformer 模型在 Rom-phon 上优于 Meloni 等人 (2021) 的 GRU 模型,但在 WikiHan 上没有,但我们发现在 10% 标记的半监督重建设置中,Transformer 在 WikiHan 上优于 GRU,但在 Rom-phon 上没有,并且在大多数策略下也是如此。这似乎与 Kim 等人 (2023) 的假设相矛盾,即与 RNN 相比,Transformer 重建模型需要更多数据。与我们的假设一致的是,访问不同标签子集会影响学习结果,我们观察到数据组之间性能存在高度差异。图 6 和图 7 通过组可视化策略-架构组合的性能,揭示了大多数策略在某些数据集种子上表现更好的趋势。

变化标签设置的性能。尽管只使用 10% 的标签进行了调整,但 DPD 基于策略仍然可以推广到其他标签设置,并且在至少一种架构上在所有指标上优于强基线策略(附录 F 中有详细信息)。我们观察到性能与标签百分比之间的非线性缩放,并且注意到在较低百分比标签的情况下,策略之间性能的差异更大。例如,在 5% 的标签设置下,GRU-DPD-ΠM-BST 在 WikiHan 上的准确率几乎是 GRU-SUPV 的两倍。在 30% 的标签设置下,一些策略的准确率接近现有的完全监督重建模型,Trans-DPD-ΠM 比现有监督 GRU 模型落后 5.14 个百分点,GRU-DPD-BST 比现有监督 Transformer 模型落后 7.30 个百分点(附录 J 中有详细信息)。

图片

表2:每种架构在 10% 标记的 WikiHan(顶部)和 Rom-phon(底部)上所有策略的性能,平均为四组(每组每个策略-架构组合 10 次)中所有运行的结果。粗体:相应架构和数据集的最佳策略;¨:在第一组中显著优于所有弱基线(SUPV、BST 和 ΠM),p < 0.01;∂:在第一组中显著优于 ΠM-BST 强基线和所有弱基线,p < 0.01;≠, Æ, Ø, ∑, ∏, π:对于第二、第三和第四组同样如此。

4 分析

图片

图3:在最佳策略中随机选择的运行中,在正确和错误的原型预测训练期间验证(顶部)和训练(底部)的反义词重建精度。使用 3 的窗口大小进行滚动平均值以平滑数据。

DPD 训练。我们调查了 D2P 和 P2D 在训练过程中的相互作用。图 3 显示了从原型重建中间表示中重建的反义词在训练期间的训练和验证准确率轨迹。我们通过重复相同的运行但禁用 CRINGE 损失(相同的超参数和模型参数初始化)来执行 CRINGE 损失消融。在这两种情况下,正确的原型重建都会导致更准确的反义词预测,证实了我们的动机,即更好的反义词重建应该会促进更好的原型重建。CRINGE 损失似乎会导致早期迭代中给定错误重建的反义词准确率略低,尽管是以牺牲给定正确重建的略低反义词准确率为代价。在实践中,我们发现 CRINGE 损失权重是一个相对不重要的超参数。

图片

表3:每个标记设置下第一组中具有最高反义词预测精度的策略-架构组合,以及参考监督(100% 标记)反义词预测精度。

反义词预测性能。虽然 DPD 架构是为反义词预测辅助重建而设计的,但我们观察到在某些情况下反义词性能良好。表 3 显示了当在黄金原型上评估时,P2D 子网络最准确的策略-架构组合。与重建相比,我们获得了半监督反义词预测性能,这些性能与监督性能非常接近,即使在标签百分比很小的情况下也是如此——这与假设原型到女儿方向的声音变化更容易建模是一致的。然而,值得注意的是,基于黄金原型的反义词预测性能取决于相应损失的权重。事实上,当在黄金原型上评估 P2D 子网络时,一些最好的 DPD 模型表现很差。我们得出结论,P2D 在训练过程中帮助 D2P 的能力并不取决于 P2D 在离散输入上的黄金原型上的性能。

图片

图4:分层聚类揭示了从最佳 DPD 基于策略-架构组合(顶部)的最佳运行(在 10% 标记设置的组 1 中)和它们非 DPD 对应物的最佳运行(底部)中获得的两个选定子语言的学习到的音素组织

学习语音表示。受 Meloni 等人 (2021) 的启发,我们使用 sklearn 的 Ward 方差最小化算法 (Ward, 1963) 探测模型的学习嵌入,以寻找音素的层次组织。图 4 显示了在每组数据集中表现最好的模型(Rom-phon 上的 GRU-DPD-BST 和 WikiHan 上的 Trans-DPD-ΠM-BST)及其非 DPD 对应物(GRU-BST 和 Trans-ΠM-BST)中两个选定的女儿语言的结果。对于法语,用 DPD-BST 训练的音素嵌入揭示了一个清晰的元音和辅音之间的划分,类似于 Meloni 等人 (2021) 的监督重建模型。除了 [ø] 之外,鼻音元音被分组在一起。特征差异最小的特定音素对也放在一起,例如齿龈摩擦音 [s] 和 [z]、后齿龈摩擦音 [ʃ] 和 [ʒ]、以及舌根塞音 [k] 和 [g],它们之间唯一的区别是清浊音。在用 BST 训练的嵌入中,一些但不是所有元音都被聚类在一起,并且姐妹组(即树中的直系亲属)的解释性较差,例如 [m] 和 [ɛ̃] 以及 [b] 和 [ә]。对于粤语,当我们用 DPD-ΠM-BST 训练时,我们看到一个类似模式,其中元音和辅音有更清晰的划分。此外,声调被 DPD-ΠM-BST 组织到同一个簇中,而 ΠM-BST 没有这样做。在附录 N 中,我们将我们的探测扩展到女儿语言中存在的所有音素集合,并发现上述观察结果推广到了单一语言之外的音素组织,Meloni 等人 (2021) 并没有将其视为其分析的一部分。我们从语音探测中得出结论,DPD 基于策略在捕捉音素的语言学意义表示方面做得更好。DPD 基于策略可能需要良好的语音表示才能在多个音素密集型任务上表现良好,这反过来又可以更好地告知原型重建。

无标签数据的消融。为了研究半监督策略的性能提升是否是因为它们有效地利用了无标签的同源词组,我们在 10% 标签设置下执行消融实验,但移除了所有无标签训练数据,从而有效地创建了一个小的监督训练集。我们发现,在没有无标签数据的情况下,ΠM、DPD 和 DPD-ΠM 有时可以比 SUPV 表现得更好,但几乎总是比使用无标签数据时或使用无标签数据结合 Bootstrapping 时表现得更差(见表 13 和表 14)。这似乎表明,ΠM、DPD 和 DPD-ΠM 可以有效地从标记数据和未标记数据中学习。在标记数据上,DPD 中 P2D 子网络仍然可以告知 D2P 子子网络,并且我们 Π-Model 实现中的随机数据增强可以增强标记训练示例。

在监督重建中的适用性。由于观察到半监督重建策略在小部分训练集上的监督重建是可行的(参见第 4.4 节),我们测试了它们是否可以将优势推广到在完整训练集上进行监督重建。表 15 将 ΠM、DPD 和 DPD-ΠM 的监督重建性能与现有的监督重建方法进行了比较,包括 Meloni 等人 (2021) 的 GRU 模型、Kim 等人 (2023) 的 Transformer 模型和 Lu 等人 (2024) 的最先进的重新排序重建系统。我们发现,使用正确的架构,ΠM、DPD 和 DPD-ΠM 通常可以优于 SUPV。平均而言,Trans-DPD-ΠM 在 WikiHan 上对所有指标的性能都最好,而 GRU-DPD 在 Rom-phon 上对所有指标(除了 FER)的性能都最好。在 WikiHan 上,Trans-DPD-ΠM 仅在 FER 上显著优于 Lu 等人 (2024)。在 Rom-phon 上,GRU-DPD 和 GRU-DPD-ΠM 仅在 ACC 上显著优于 Lu 等人 (2024)。我们得出结论,尽管 ΠM 和 DPD 是由半监督重建启发的,但它们对于监督重建也很有用。我们将数据增强和 DPD 架构在监督环境中的作用留给未来的工作。

5.相关工作

计算历史语言学: 原型重建和反义词预测是计算历史语言学的两项核心任务。原型重建预测给定同源词组中的反义词,预测原型形式,而反义词预测则模拟从原型形式到其反义词的变化。计算重建和反义词预测方法多种多样,包括基于规则的系统(Heeringa and Joseph, 2007;Marr and Mortensen, 2020, 2023)、在系统发育树上的概率模型(Bouchard-Côté et al., 2007b,a, 2009, 2013)、自动对齐系统(Bodt and List, 2022;List et al., 2022)以及最近的神经网络(Fourrier, 2022)。

监督重建和反义词预测: Ciobanu 和 Dinu (2018) 以及 Ciobanu 等人 (2020) 将原型重建表述为序列标记任务,并使用条件随机场在每个女儿序列中的每个位置重建原型音素。Meloni 等人 (2021) 通过将反义词连接成一个由语言标签分隔的单个输入序列,将重建任务重新表述为序列到序列任务,并使用 GRU 在新的罗曼语数据集上重建拉丁语。随后的一组研究人员通过添加更多数据集(Chang et al., 2022)和改进神经网络方法(Kim et al., 2023;Akavarapu and Bhattacharya, 2023;Lu et al., 2024)进一步改进了这项任务。反义词预测可以被视为反向序列到序列转换。Cathcart 和 Rama (2020) 提出了一个 LSTM 编码器-解码器模型,用于从古印度-雅利安语推断印欧语系反义词,并辅以语义嵌入。Arora 等人 (2023) 使用 GRU 和 Transformer 模型复制了 Cathcart 和 Rama (2020) 在南亚语言上的实验。由于反义词预测从原型语言映射到多个女儿语言,因此通常会在输入中附加一个提示标记来指定目标女儿语言。

非监督计算历史语言学: 过去,在没有完全监督的情况下进行比较重建的工作包括 Bouchard-Côté 等人 (2009) 和 He 等人 (2023)。据我们所知,没有研究专门关注半监督神经重建。

半监督学习: 有效的半监督学习应该利用未标记的训练数据。一种方法是代理标记,通过启发式方法将合成标签添加到未标记的训练示例中(Ouali et al., 2020)。另一种方法是一致性正则化,它主要基于平滑性假设,无论标签是否存在都适用:高密度区域中的相似输入数据应该具有相似的标签,而由低密度区域分隔的输入数据不应该具有相似的标签(Tsai and Lin, 2019;Ouali et al., 2020;Luo et al., 2018)。我们的任务与半监督机器翻译相关(Edunov et al., 2018;Sennrich et al., 2016;Skorokhodov et al., 2018;Gülçehre et al., 2015;Cheng et al., 2016)。然而,它在一个关键方面有所不同:模型没有访问单语文本,只有标记和未标记的同源词组。

6.结论

我们引入了半监督重建的任务,标志着朝着实用计算重建系统迈出了重要一步,该系统可以帮助早期原型语言重建项目。我们设计了 DPD-BiReconstructor 架构来实现历史语言学家的比较方法,其性能优于现有的序列到序列重建模型和已建立的半监督学习方法,尤其是在原型形式标签稀缺的情况下。

局限性:

由于可能存在大量策略,我们将 DPD 的半监督重建实验范围限制在 10% 标记的 WikiHan 和 Rom-phon 数据集上。将半监督重建研究扩展到其他数据集的工作留给未来。尽管 DPD 具有清晰的动机并展现出卓越的经验性能,但对 DPD 从未标记的同源词组中学习到的声音变化,以及这些变化如何使其重建性能更好的解释却不够清晰。我们的理论是,系统中的神经网络具有足够的表达能力,可以通过双向方式进行更好的重建,但我们还没有获得模型推理与语言学家推理一致的证据,除了具有更好的音素表示以及从重建中推导反义词的步骤之外。不过,我们证明了从重建中推断反义词不仅是一种强大的历史语言学方法,也是一种强大的计算历史语言学方法。

尽管我们发现,与从正确原型形式中预测的反义词相比,从错误原型形式中预测的反义词的准确率较低,但从错误原型形式中派生的反义词仍然非常准确。未来的工作可以探索减轻这个问题并提高反义词预测子网络区分正确和错误原型形式的能力的方法。值得注意的是,我们的 Π-Model 实现仅包括反义词排列和女儿语言删除作为噪声策略。可能还有其他可能的策略可以加强这个基线。原型重建任务远未解决——鉴于人类在重建古代语言方面的成功,未来的真正智能重建系统应该能够在没有标签的帮助下进行重建。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2130735.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

二、栈和队列-算法总结

文章目录 二、栈和队列2.1 基本应用2.1.1 逆波兰表达式求值2.1.2 有效的括号 2.2 单调栈2.2.1 柱状图中最大的矩形 二、栈和队列 2.1 基本应用 2.1.1 逆波兰表达式求值 150. 逆波兰表达式求值 class Solution {/**思路分析&#xff1a;遇到数则压栈&#xff0c;遇到运算符…

每日一练12:杨辉三角(含链接)

1.链接 杨辉三角_牛客题霸_牛客网 2.题目 3.代码 #include <iostream> #include<vector> using namespace std; vector<int> arr(35); int main() {int n;cin>>n;for(int i1;i<n;i){if(i1) {printf("%5d",1);arr[1]1;cout<<end…

电商API接口安全:构建稳固的数字防线

电子商务的蓬勃发展带来了前所未有的便利&#xff0c;同时也带来了新的安全挑战。API接口作为电商系统的核心组件&#xff0c;其安全性直接关系到企业的数据安全和业务连续性。因此&#xff0c;评估和加固电商API接口的安全性变得尤为重要。 电商API接口安全的重要性 电商API接…

【Redis】Redis 典型应用 - 分布式锁原理与实现

目录 Redis 典型应⽤ - 分布式锁什么是分布式锁分布式锁的基础实现引⼊过期时间引⼊校验 id引⼊ lua引⼊ watch dog (看⻔狗)引⼊ Redlock 算法其他功能 Redis 典型应⽤ - 分布式锁 什么是分布式锁 在⼀个分布式的系统中&#xff0c; 也会涉及到多个节点访问同⼀个公共资源的…

YOLOv5改进:CA注意力机制【注意力系列篇】(附详细的修改步骤,以及代码)

如果实验环境尚未搭建成功&#xff0c;可以参考这篇文章 ->【YOLOv5超详细环境搭建以及模型训练&#xff08;GPU版本&#xff09;】 文章链接为&#xff1a;http://t.csdnimg.cn/Ke0bb ---------------------------------------------------------------------------​ 1…

09-排序1 排序(C)

这一节&#xff0c;测试各类排序算法的运行速度&#xff08;没有基数排序&#xff08;桶&#xff09; 其实在实际学习中&#xff0c;还是有意义的 给定 n 个&#xff08;长整型范围内的&#xff09;整数&#xff0c;要求输出从小到大排序后的结果。 本题旨在测试各种不同的排序…

Unity Addressables 使用说明(三)构建内容(Build Content)

Build Content 【概述】Build Content 内容构建会处理 Addressables 组&#xff0c;生成内容目录&#xff08;content catalog&#xff09;、运行时设置以及包含你的资源的 AssetBundles。Addressables 使用这些文件在运行时加载内容。 你可以配置 Addressables 系统将 Addr…

重磅!OpenAI正式发布博士水平的推理模型o1!附详细说明

大家好&#xff0c;我是木易&#xff0c;一个持续关注AI领域的互联网技术产品经理&#xff0c;国内Top2本科&#xff0c;美国Top10 CS研究生&#xff0c;MBA。我坚信AI是普通人变强的“外挂”&#xff0c;所以创建了“AI信息Gap”这个公众号&#xff0c;专注于分享AI全维度知识…

【android10】【binder】【2.servicemanager启动——全源码分析】

系列文章目录 可跳转到下面链接查看下表所有内容https://blog.csdn.net/handsomethefirst/article/details/138226266?spm1001.2014.3001.5501文章浏览阅读2次。系列文章大全https://blog.csdn.net/handsomethefirst/article/details/138226266?spm1001.2014.3001.5501 目录 …

登山第九梯:稀疏点云实例分割——又快又准

文章&#xff1a;Fast Range Image-Based Segmentation of Sparse 3D Laser Scans for Online Operation 代码&#xff1a;https://github.com/PRBonn/depth_clustering 1&#xff09;摘要 从 3D 距离数据中分割对象是移动机器人领域的一个重要主题。在动态环境中导航的机器人需…

C51单片机-单按键输入识别,键盘消抖

【实验目的】 独立按键的识别方法、键盘消抖等。 【实验现象】 每按一次独立键盘的S2键&#xff0c;与P1口相连的八个发光二极管中点亮的一个往下移动一位。 【实验说明】 关于按键去抖动的解释&#xff0c;我们在手动按键的时候&#xff0c;由于机械抖动或是其它一些非人为的因…

NR PDSCH/PUSCH支持的maxMIMO layers

这里不考虑UE支持的具体MIMO能力&#xff0c;仅仅讨论协议上定的maxMIMO layers。 PDSCH 根据上面38.331中的结构&#xff0c;PDSCH max MIMO layers 为8 layers&#xff0c;进行8 layers传输时 要enable two codewords&#xff0c;因为 one codeword只能支持4 layers传输&…

【信创】Linux系统如何配置USB存储禁用及例外 _ 统信 _ 麒麟 _ 方德

原文链接&#xff1a;【信创】Linux系统如何配置USB存储禁用及例外 | 统信 | 麒麟 | 方德 Hello&#xff0c;大家好啊&#xff01;今天给大家带来一篇关于如何在Linux系统中配置USB存储禁用及例外的文章。禁用USB存储可以有效防止未经授权的人员从系统中复制数据或注入恶意软件…

CSS——盒子模型

首先CSS将所有的元素都看成一个盒子 盒子的组成&#xff1a; content —— 内容区域padding —— 内边距&#xff08;边框与内容间的距离&#xff09;border —— 边框线margin —— 外边距&#xff08;盒子盒子间的距离&#xff09; 这里着重说一下margin: 水平方向&#xff…

Kafka 基础与架构理解

目录 前言 Kafka 基础概念 消息队列简介&#xff1a;Kafka 与传统消息队列&#xff08;如 RabbitMQ、ActiveMQ&#xff09;的对比 Kafka 的组件 Kafka 的工作原理&#xff1a;消息的生产、分发、消费流程 Kafka 系统架构 Kafka 的分布式架构设计 Leader-Follower 机制与…

新品|瑞芯微RK3588工控机IPC8801适用AI算力、边缘计算、工业视觉

深圳触觉智能重磅推出旗舰级工控机IPC8801&#xff0c;搭载瑞芯微RK3588 ⼋核处理器&#xff1b;全铝紧凑机身、支持无风扇被动散热低噪音&#xff0c;确保设备在恶劣工业环境下稳定运行。 作为AI算力、边缘计算及工业视觉领域的高性能工控机&#xff0c;在国产化智能硬件与系统…

Axure PR 9 标签 设计交互

大家好&#xff0c;我是大明同学。 这期内容&#xff0c;我们将深入探讨Axure中可编辑标签元件设计与交互技巧。 可移除标签元件 创建可移除标签所需的元件 1.打开一个新的 RP 文件并在画布上打开 Page 1。 2.在元件库中拖出一个文本框元件。 3.选中文本框元件&#xff0c…

视频服务器:GB28181网络视频协议

一、前言 某项目中需要集成视频管理平台&#xff0c;实现分布在各省公司的摄像及接入&#xff0c;对视频进行统一管理。本项目中视频管理平台采用GB/T28181实现的监控设备接入管理平台&#xff0c;支持在开放互联网和局域网对监控设备进行远程接入、远程管理、远程调阅、录像回…

【文件包含】——日志文件注入

改变的确很难&#xff0c;但结果值得冒险 本文主要根据做题内容的总结&#xff0c;如有错误之处&#xff0c;还请各位师傅指正 一.伪协议的失效 当我们做到关于文件包含的题目时&#xff0c;常用思路其实就是使用伪协议&#xff08;php:filter,data,inpput等等&#xff09;执行…

【NOI-题解】1407. 图像相似度1330. 求最大梯形的面积1384. 靶心数1398. 奇偶统计

文章目录 一、前言二、问题问题&#xff1a;1407. 图像相似度问题&#xff1a;1330. 求最大梯形的面积问题&#xff1a;1384. 靶心数问题&#xff1a;1398. 奇偶统计 三、感谢 一、前言 欢迎关注本专栏《C从零基础到信奥赛入门级&#xff08;CSP-J&#xff09;》 本章节主要对…