"Forgetting" in Machine Learning and Beyond: A Survey
公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)
目录
0 摘要
1 引言
2 不同知识领域中的遗忘背景
2.1 心理学中的遗忘:确保有效的记忆和情感调节
2.2 神经科学中的遗忘:记忆细胞的魔力
2.3 教育中的遗忘:促进长期学习的一种形式
2.4 哲学中的遗忘:多维自我意识和人性中的道德责任
2.5 生态学中的遗忘:动物行为和植物习惯的权衡
2.6 语言学中的遗忘:塑造语言演变和历史叙事
2.7 机器学习中遗忘的综述
3 扩展跨知识领域的遗忘联系到机器学习
3.1 实际遗忘是理性的遗忘
3.2 发挥潜力:遗忘在适应性、概括能力和创造力中的作用
3.3 遗忘过程是如何塑造的?
3.4 遗忘中的挑战
4 机器学习中遗忘的分类
8 结论
0 摘要
这项调查研究了机器学习中遗忘(forgetting)的多方面性质,借鉴了神经科学研究的见解,这些研究认为遗忘是一种适应性功能,而非缺陷,它可以增强学习过程并防止过拟合。该调查着重于遗忘的好处及其在各个机器学习子领域中的应用,这些应用可以帮助提高模型性能并增强数据隐私。此外,本文还讨论了将遗忘机制整合到机器学习模型中所面临的当前挑战、未来方向和伦理考量。
1 引言
人类大脑是一个复杂的系统,其中遗忘是一种动态特性,使我们能够避免认知过载,更新信息以适应不断变化的环境【77】,并有可能增强我们的学习能力【25】。遗忘的优点已在多个研究领域进行了研究,包括教育、哲学、生态学和语言学,发现遗忘在多方面显著提升了人类的决策能力、创造力和多样性。
遗忘是人类记忆的内在方面,这在机器中并不会自然发生,突显了人类与人工系统之间的根本区别。在人类大脑的背景下,当我们仅仅记住特定例子而不是从中概括模式时,就会出现过拟合【96】。这种狭隘的关注可能导致我们思维和解决问题的能力僵化,并在面对陌生情况时导致错误的预测或假设。过拟合在机器学习(ML)中也是一个挑战【50】。通过模仿人脑,将遗忘与重新学习功能引入机器被认为是一种强大的范式,用于塑造人工神经网络的学习轨迹【269】,因为并非所有过去的内容对模型来说同样重要【203】。
遗忘有不同的类型。
- 选择性遗忘(Selective forgetting)涉及有选择地忽略无关或噪声数据。这种形式的遗忘有助于优化模型的内存利用【203】,提高其概括能力【269】,并增强其对不同数据集和任务的适应性【265】。除了模型性能之外,选择性遗忘还受到欧洲《通用数据保护条例》(GDPR)和加利福尼亚消费者隐私法(CCPA)原则的强化,以解决遵守隐私法和伦理处理个人数据的关键需求,而无需进行资源密集型的再训练【264】。
- 损害性遗忘(Detrimental forgetting)在模型学习新信息时丧失先前学习的信息,这种现象称为灾难性遗忘。这在连续学习环境中特别成问题,模型需要随着时间的推移保留知识。损害性遗忘削弱了模型在现有知识基础上构建能力,包括对先前学习任务的表现不佳【61】,丧失对未来任务可能有用的信息,以及偏颇的决策。
这篇调查文章仅关注选择性遗忘,承认遗忘某些信息可以通过允许模型优先考虑和保留更重要或相关的信息,以及保护用户隐私,从而带来好处。然后我们探讨其他学科关于选择性遗忘的理论和研究发现如何应用于机器学习领域,以增强模型性能和解决数据隐私问题。
本文调查了机器学习文献中的遗忘现象,以回答以下研究问题:
- [RQ1]: 遗忘在不同知识领域(如心理学、哲学、神经科学)中是如何体现的?这个研究问题探讨了遗忘的多方面性质,以激发在机器学习方法中开发新的遗忘模型。
- [RQ2]: 遗忘如何用于遵守数据隐私法,减少偏见并在机器学习方法中优先处理相关信息?
- [RQ3]: 在机器学习中实施遗忘机制有哪些未来的研究机会和挑战?在这里,我们探索当前的研究空白,以推动该领域的发展。
在本文的后续章节中,我们将系统地回答上述研究问题。图 1 展示了一个概念图,作为理解我们在本调查中各个章节讨论结构和逻辑流程的指南。
我们遵循了一种搜索策略来全面检索和筛选文献,类似于 [1] 中的方法。
- 首先,我们编制了搜索查询 [(forgetting OR "memory loss" OR "knowledge decay") AND machine learning],以匹配调查主题,并使用包括 Google Scholar、IEEE Xplore、ScienceDirect、SpringerLink 和 ACM Digital Library 在内的知名科学搜索引擎执行它们。
- 在收集到大约 6,500 篇文章后,我们进行了系列纳入和排除标准,以确保所收集文献的相关性和质量。我们筛选掉了那些在 2015 年之前发表且未经同行评审的文章,以关注最新进展。
- 随后,我们进一步通过阅读摘要筛选文章,仅保留那些讨论机器学习中遗忘积极方面的文章,而不是纯粹调查灾难性遗忘的文章。这将文献池缩小到 535 篇文章。
- 然后,我们根据多个因素对结果进行排序,包括贡献的新颖性(如提出新技术或概念与扩展现有技术)、贡献的相关性(即遗忘方法在研究流程中的重要性)、出版场所的质量以及评估的深度(如评估的数据集数量和规模、与基线的性能比较)。
- 最终,我们从排序列表中选择了前 100 篇文章纳入本调查。
- 我们进一步进行了向后滚雪球(backward snowballing),通过引用包含文章中的参考文献找到历史方法,并添加了与遗忘不直接相关但非常相关的额外关键词,如 “机器遗忘”(machine unlearning)、“自适应学习”(adaptive learning) 和 “减轻负迁移”(mitigating negative transfer)。这一过程向覆盖的文章集增加了约 50 篇额外论文。从所选出版物中使用标准化表格提取数据,捕捉作者、出版年份、研究目标、方法、主要发现和结论。
在对机器学习中遗忘文献进行全面搜索和筛选后,我们将关键领域组织成一个结构化的分类法作为属性。这个方案旨在系统地分类在审查过程中发现的各种研究发现、方法和研究空白。通过这个分类法,我们旨在提供一个连贯的框架,帮助导航该领域的复杂性,促进对不同机器学习方法中遗忘现象如何处理的更深理解。
2 不同知识领域中的遗忘背景
本节讨论了研究中关注遗忘(forgetting)的有益方面,例如在众多领域中的决策、适应性、创造力和人类的心理健康【77, 183】,以及动物的概括能力和进化【66, 180】。
2.1 心理学中的遗忘:确保有效的记忆和情感调节
遗忘曲线由艾宾浩斯提出,是心理学中最著名的理论。它显示了在学习新信息后的一小时内记忆保持的快速下降,然后逐渐减慢。自那时以来,许多研究集中在探索和调整因素以减轻遗忘【10, 135】。然而,心理学中也将遗忘视为一种自然且必要的过程,它允许人类和动物优先处理信息【181, 201】。豪尔赫·路易斯·博尔赫斯在《记忆如瀑布》中描述了遗忘和记忆在人类体验中的作用。弗内斯无法忘记任何事情,导致他的记忆细节过多,难以概括、抽象或优先处理信息。这个故事反映了 “认知过载 ”(cognitive overload)的心理学概念【206】,即过多的信息会使工作记忆的处理能力不堪重负,导致理解、决策和学习的困难。
情感调节,即控制人们体验和表达情感的尝试,也涉及选择性遗忘【162】。这种遗忘可能允许人们集中于积极的记忆,从而有助于形成乐观的记忆基础,以及积极和探索性的行为方式。临床心理学的相关研究还提出,主动遗忘功能的缺陷可能是精神病理学的致病因素,如创伤后应激障碍、抑郁症、精神分裂症和强迫症【47, 94】。“遗忘与重建假说” 建议,重新加载先前学习的知识有助于提高长期学习效果【25】。人类记忆由两个组成部分构成:遗忘和学习【25, 239】。遗忘成分涉及检索强度的丧失,而学习成分与存储强度的增加有关。两者的结合才能实现有效的知识更新。
总之,心理学研究强调,遗忘不仅仅是记忆的失败,而是帮助优先处理相关信息的自然且必要的过程,这确保了有效的记忆,并可能对心理健康有所贡献。
2.2 神经科学中的遗忘:记忆细胞的魔力
在神经科学中,遗忘被视为一种神经可塑性形式,它以对预期和环境之间不匹配敏感的方式改变记忆细胞(与记忆关联的细胞【222】)的可访问性。动物通过学习过程编码信息,形成能够适应行为和促进生存的记忆【102】。然而,并不是所有的记忆都会被同等地保持,许多在学习后会被遗忘。最近的神经科学研究总结了五种自然遗忘的生物机制,这些机制在我们的大脑中自然发生:受体运输;脊突不稳定性;抑制;突触消除;以及神经发生(receptor trafficking; spine instability; inhibition; synapse elimination; and, neurogenesis)。健康大脑中遗忘的普遍性表明它是一种动态性质,而不是正常记忆功能的缺陷【163, 178】。这种动态性质由期望违背过程驱动【69, 183】。根据这一假说,当期望得到加强或新显著信息与现有记忆关联时,正向预测错误驱动再巩固和记忆更新。当期望被违背时,负向预测驱动遗忘看似不一致的信息【147】。
研究还表明,作为一种适应性学习形式的遗忘有助于我们根据经验进行改变和适应,从而防止经验过拟合【77】,即过于依赖过去经验,导致无法适应新情况。在知识更新过程中,神经可塑性发生时,遗忘可以帮助大脑重新组织并修剪不必要的连接,为新的学习和记忆腾出空间。这些研究结果表明,将学习和遗忘视为信念更新认知过程的不同方面是有益的,生物体不断改变如何响应环境提供的机会【173, 183】。
2.3 教育中的遗忘:促进长期学习的一种形式
在教育领域,遗忘和学习并不是对立的力量,而是塑造学生教育历程的相互关联的过程【25】。一个常见的误解是将即时表现等同于学习,而忽视了真正的学习只能在延迟之后评估,而表现反映的是知识或技能的短期回忆【198】。这一关键区别自 20 世纪 30 年代以来就被认可【216】,强调了区分短期表现和长期学习的必要性。
在教育中,一些因素会导致遗忘,但同时也能增强学习。情境效应表明,改变学习情境可以引入有益的困难【196】,通过混合处理子主题而不是依次处理它们来提高回忆【23, 42】。间隔效应证明,与集中学习相比,间隔学习通过随着时间的推移反复访问材料能导致更好的长期保持【24, 211】。最后,生成效应显示,主动生成信息比被动学习更能增强回忆【195】,尽管这种效应需要有效的反馈来防止遗忘的负面影响【113】。这与 “流理论”(flow theory)的原则一致【193】,当学习内容既不太容易也不太令人沮丧时,流状态发生,使学习者能够全身心投入学习实践。
教育文献表明,遗忘可以帮助长期学习,但需要调节遗忘的程度,以帮助学生保持在流动通道中。
2.4 哲学中的遗忘:多维自我意识和人性中的道德责任
在哲学中,遗忘被认为是人类存在的重要元素,有助于个人身份的发展和自我叙述的构建。正如 Krondofer 所述:“没有遗忘,人类将不得不不断重温过去,无法完全体验当下。没有遗忘,也不会有未来。” 遗忘在我们合理相信的事情中起着至关重要的作用,通过失去证据和反证来进行评估,使其在评估认识论理论中具有重要意义【52, 62, 63】。正常的人类遗忘 “接近一种美德” 而不是恶行,代表了在过度遗忘和过度记忆之间的平衡方法,从而构成了一种规范性认识论地位【145】。此外,遗忘可能与记忆连接的逐渐磨损有关,这有助于塑造个人身份【17】,但过度遗忘可能会破坏它。因此,理解遗忘的具体内容和时机对于审查这些影响至关重要。
各种记忆类型,如语义、情景和程序记忆,带来了遗忘的多维性【145, 219】。在哲学上,遗忘被视为一种心理状态和随着时间的过程。理论表明,遗忘要么是永久的记忆丧失,要么是暂时的不可访问性【63, 85】。Matthew 的还原主义过程理论【63】认为遗忘是随着时间推移而发展的阶段,表明遗忘的深度随着时间的推移而进展,这类似于艾宾浩斯的遗忘曲线【55】。这一概念突出了遗忘的动态性质,强调了时间和逐渐变化在理解记忆丧失中的重要性,而不是将其视为静态状态。
此外,LEAD 理论【63】表明遗忘和重新学习是相互关联的,允许知识在记忆丧失的同时得以保留【19, 146】。它将记忆视为一种重建过去信息的积极过程【31】,其中难以访问记忆被视为一种生成挑战,而不仅仅是存储失败。反馈机制无意识地调节记忆检索,类似于工程系统中适应变化操作条件的控制回路。这产生了一种元认知感(metacognitive feeling),作为我们认知过程的反馈【5, 6】,在哲学观点中作为遗忘的证据【82, 146】。
正如遗忘影响我们的信念一样,它也允许我们管理身份的某些方面并促进放手的过程【20, 29, 152, 238】。【14】提出了“筒仓遗忘”(Siloing forgetting),涉及隔离不良记忆。“毒树之果” 理论从道德角度讨论了不仅要相信真理,还要以适当的方式获取真理的重要性【14】。同样,应该遗忘的内容往往不仅由信息的内容决定,还由它的获取方式决定【14, 151】。
总之,哲学中关于遗忘的研究表明存在多维遗忘。此外,关于遗忘的道德责任的讨论启发我们考虑在训练机器学习模型时数据收集和使用的伦理方式。
2.5 生态学中的遗忘:动物行为和植物习惯的权衡
遗忘在平衡动物和植物行为适应中的灵活性及其相关成本方面起着关键作用【210】。心理学家将认知灵活性定义为在获取新信息时调整和逆转应急措施的能力【11】,这有助于提高生存和繁殖成功率【54, 118, 197】。然而,认知灵活性并非随机发生,而是受环境条件影响,进而影响动物的学习和遗忘率。在食物季节性变化的地方,动物会发展出更好的空间记忆以生存【83】,这被称为恶劣环境假说【93, 175, 199】。认知灵活性的一个潜在成本是处理主动干扰,这是由于线索过载原理【235】。与小鼠的实验表明,通过明显改变任务的上下文可以减少这种干扰【180】,类似于 “情境效应”【196】。
与动物类似,植物也通过一种学习和遗忘的形式适应变化的环境,例如含羞草对反复干扰的叶子折叠习惯(leaf-folding habituation to repeated disturbances),表明它们能够处理和响应刺激【66】。这些适应性反应对其生存至关重要,允许植物选择性地记住和利用信息来调整行为以响应外部线索【57, 70, 92, 212】。然而,植物适应能力的发展涉及能量消耗和生存利益之间的权衡,例如在捕食风险(显示可见叶子)和能量获取(通过开放叶子进行光合作用的机会)之间的平衡【103】。
生态学研究表明存在权衡:动物的记忆保持与新记忆的获取之间,以及植物的生存和生长的能量分配之间。遗忘可以被视为允许这些权衡的机制,从而增加某些动物和植物的适应性。
2.6 语言学中的遗忘:塑造语言演变和历史叙事
“记忆由遗忘雕琢,如海洋勾勒出的海岸线。” 奥热的这幅生动的画面生动地暗示了遗忘的力量。遗忘一直是语言学中广泛研究的主题,特别是关注语言本身的演变及其应用的遗忘。
先前的研究确定了语言衰退中的七种遗忘理论:压抑/抑制、扭曲、衰退、干扰、检索失败、线索依赖性和动态系统理论【56, 112】。这些理论揭示了语言衰退过程中遗忘的潜在规律性和合理性。与语言习得类似,语言也会被遗忘。丹尼尔·赫勒-罗赞的《回声语》探讨了语言遗忘的复杂性质,其中语言遗忘通常反映了人口变化和表达方式的改变。一个主要例子是 1992 年 Ubykh 语言的灭绝,标志是其最后一位母语使用者的去世【154】。同时,一种语言的结束可以引发新表达形式和创造力的诞生,无论是在社区还是个人层面,如雅各布森的回归假说和犹太经文中希伯来语的转变所示【91, 101, 106】。这一过程突出了说话的动物在遗忘行为中发现新灵感领域的本质。
在语言学讨论中,遗忘的概念也对我们理解历史、政治和生活方式有影响。早期思想家如柏拉图【174】、奥古斯丁【9】和莎士比亚【192】将遗忘视为负面现象,代表智慧的丧失。然而,当代观点承认遗忘对塑造公共记忆和修辞具有积极影响,提供了政治和道德优势【8, 142, 179, 226】。集体遗忘过程,即公众选择性记忆,影响个体对过去和未来的解释【142】。此外,关于遗忘的讨论引发了对训练机器学习模型中固有的政治偏见及其可能带来的危险信号的考虑【150】。
遗忘的优点也与语言学中的宽恕相关,表明宽恕来自于有意和救赎性的记忆【86】。这一过程被视为一种情感表达形式,桥接了忏悔和宽恕,促进了基尔凯郭尔所说的 “真爱” 的精神平等【107, 226】。此外,在修辞学中,遗忘的不同维度被提出,即返回、悬念和重新开始,每个维度代表特定的时间持续【8】。
总之,关于语言本身遗忘的研究展示了表达的连续性和创造性。同时,语言使用的遗忘塑造了我们对历史、政治和宽恕情感的看法。
2.7 机器学习中遗忘的综述
机器学习中的遗忘指的是有意地从模型的训练历史中删除特定数据或影响的过程,通常是为了更新其知识以获得更好的性能【269】,符合隐私要求【30】或纠正偏见【170】。有一些综述研究总结了与 "遗忘" 相关的机器学习方法,这些方法以几种不同的方式进行了总结。例如,[159, 264] 总结了机器学习中的遗忘方法,这些方法在用户隐私担忧驱动的机器遗忘(machine unlearning)领域;[150] 提供了对遗忘如何在人机交互研究中应用的全面分析;[233] 从深度学习的角度审查了遗忘方法,而其他人间接地涉及了与遗忘高度相关的下游机器学习任务的总结 [144, 166, 265]。
然而,这些现有的关于机器学习中遗忘的综述存在以下缺陷:1)它们中的许多讨论仅停留在技术层面 [159, 233],因此缺乏与其他学科中嵌入的遗忘理论的联系。2)一些机器学习综述只涵盖了一个狭窄问题的遗忘方法 [150, 264, 265],这导致了对研究结果的完整视角的缺失。为了解决上述研究缺口,本调查旨在建立从机器学习中的遗忘方法到其他领域的遗忘理论的联系,并提出一个更全面的分类法,以更完整地总结涉及多个机器学习任务的遗忘现象。
3 扩展跨知识领域的遗忘联系到机器学习
我们采用基于接地理论(grounded theory)的定性数据分析方法,以帮助我们系统地提取关于多个领域中的遗忘的见解,并建立它们之间的联系。接地理论的原则使我们能够探索数据中的一系列主题和模式,识别实体之间的潜在关系,并将它们分类到一个理论框架中,解释遗忘现象【43】,这有助于确保研究立足于数据,从而能够产生有效和可靠的发现【161, 227】。根据扎根理论,我们的定性数据分析分为三个阶段:开放编码、轴编码和选择性编码(open coding, axial coding and selective coding)【164】。使用接地理论进行定性数据分析的整体工作流程如图 2 所示。
3.1 实际遗忘是理性的遗忘
文献中的第一个共同点是对遗忘现象的评估。黑格尔(Hegel)著名的声明 “实际即理性” [90] 反映了对遗忘作为人类认知的一个重要方面的认识。遗忘不是被视为缺陷,而是被视为合法和正常的功能。神经科学研究支持这一观点,将遗忘归因于大脑中印痕细胞(engram cell)可塑性的自然过程 [183]。哲学理论也有助于我们理解遗忘,将其呈现为塑造个人身份和确立规范认识状态的手段 [63]。此外,在修辞学中,遗忘被认为是一个正常的过程,使我们能够反映过去的痕迹,并作为构建历史叙事的基本条件 [86]。考虑到这些见解,很明显,遗忘在计算模型中也必须有其位置。这一假设鼓励我们对遗忘在人类学习和机器学习中的重要作用采取积极的态度。
3.2 发挥潜力:遗忘在适应性、概括能力和创造力中的作用
遗忘的理性在于它对物种的生理和心理可持续性产生的积极影响,特别是在适应性、概括能力和创造力方面的贡献。
适应性在动物行为研究中被强调,遗忘被证明可以帮助减少主动干扰,从而帮助动物根据提示超负荷原则对变化的环境作出灵活的反应 [210]。同样,植物也表现出遗忘行为,这有助于存储和检索生物信息,使它们能够对周围环境做出适应性响应 [66]。在神经科学中也提出了同样的目的,遗忘作为一种自适应学习形式,可以防止个体经历过度拟合 [77]。值得注意的是,过拟合的挑战不仅限于自然有机体,而且涉及到机器学习。生态学和神经科学的观察强调了遗忘在促进适应性和解决不同领域中的挑战方面的更广泛意义,有助于提高计算系统的可持续性和效率。
通过遗忘促进概括能力和创造力是各个学科都强调的。在认知心理学中,遗忘被描述为与检索能力而不是存储能力相关联 [26]。从教育角度来看,一定程度的遗忘可以迫使我们在新线索和现有记忆之间建立新的联系,从而增强概括和总结能力 [25]。此外,在个体层面上,从语言学角度来看,语言的遗忘可以成为文学、哲学和艺术创作的催化剂 [91]。利用遗忘的概念可能促进机器学习的更先进的概括和创新能力的发展。
3.3 遗忘过程是如何塑造的?
一旦遗忘的好处被阐明,各个学科就提供了关于有效遗忘策略的见解。一个关键方法是建立反馈机制或控制和监控回路。神经科学研究强调,遗忘是一个依赖于反馈信号的动态系统,这些信号代表了我们对环境的期望 [183]。在哲学中,这些信号表现为认知感受,作为现象学反馈,指导我们在何时以及如何遗忘 [5, 6]。遗忘的过程与不同维度紧密相连,正如哲学和语言学所强调的那样。
哲学理论基于其时间维度对遗忘进行分类,区分状态和过程 [63]。此外,根据其发生方式,遗忘可以分为暂时性丢失、检索失败或永久性遗忘 [145, 219]。此外,遗忘的维度与道德责任相交,产生了诸如无痕遗忘、档案遗忘和隔离遗忘等分类(No-trace forgetting, archival forgetting, and siloing forgetting) [14]。对这些多样的遗忘维度的定义和分类启发我们思考在机器学习领域中不同存档方式的多样性和随之而来的影响。
3.4 遗忘中的挑战
虽然我们的重点主要围绕着遗忘的好处,但承认伴随而来的问题和挑战是至关重要的。一个值得注意的关注点是哲学和语言学中讨论的伦理问题。遗忘作为对记忆的反映,显著地塑造了我们对伦理、道德责任、历史、政治以及过去和未来的看法 [14, 63]。鉴于这种影响,当处理机器学习系统的遗忘行为时,必须谨慎行事。不同类型的数据及其在模型训练过程中的权重可能会影响模型的推理和决策能力。因此,在这个背景下,仔细考虑与遗忘相关的伦理关切和偏见是至关重要的。另一个需要考虑的重要方面是偶然遗忘的界限,因为并非所有的遗忘情况都会产生积极的结果。在教育理论中,过度遗忘可能会使问题解决变得过于具有挑战性,潜在地阻碍学生的学习流程通道,从而产生负面体验 [224]。如前所述,对于动物来说,遗忘是实现记忆保留和认知灵活性之间的权衡的一种方法,以适应不断变化的环境。然而,在稳定的环境中过度遗忘可能会导致动物忘记重要信息,例如它们的家或存储食物的位置,使它们容易受到捕食者的攻击 [210]。同样,不适当的存档实践可能会导致机器学习模型的灾难性遗忘和荒谬的决策制定,这给我们带来了新的挑战,即确定不同类型训练任务中适当的遗忘界限,确保遗忘被有效和适当地应用。
4 机器学习中遗忘的分类
建立在其他知识领域的遗忘相关联系的基础上,我们提出了一个分类法(见图 4),其中包括机器学习中遗忘的主要方面。这个分类法作为一个框架,用于理解机器学习模型如何通过不同的维度和方法来“遗忘”或“消除”信息。这一探索不仅会澄清概念,还将突出与每个方面相关的实际影响和挑战。通过这样做,我们旨在为机器学习中遗忘这一复杂过程提供清晰的结构,为该领域的进一步研究和应用奠定基础。
8 结论
来自其他学科的关于 “遗忘” 的研究成果解释了机器学习中遗忘的理论基础和动机,这告诉了我们为什么要遗忘。在其他学科中,诸如认知心理学或神经科学等领域,对遗忘的过程进行了广泛研究,这些领域的见解可以应用于机器学习中。例如,正则化原则涉及在机器学习模型中移除或修改信息,这一原则受到了认知心理学中遗忘概念的启发。类似地,迁移学习的概念,即将一种任务中的知识用于提高另一种相关任务的表现,也可以看作是一种选择性遗忘,通过移除或修改不相关的信息来提高学习效率。另一方面,来自其他领域的研究也阐明了如何在机器学习中实现遗忘。影响人类遗忘行为的因素,如时间的流逝、干扰和相关性,也可以在机器学习模型中实现。例如,在机器学习中,学习信息的衰减率可以建模为时间的函数,干扰的程度可以通过正则化技术来控制。
回答 [RQ1],我们看到遗忘在不同知识领域中表现各异,每个领域都提供了独特的视角,对于开发先进的机器学习模型至关重要。针对 [RQ2],本研究将机器学习中遗忘的维度和方法分类并组织成一个分类法,以提供该领域更清晰的文献导航。关于 [RQ3],机器学习中遗忘的未来既充满机遇也面临挑战,本次调查讨论了遗忘在机器学习中的应用、挑战、问题及未来方向。
总之,本次调查强调了选择性遗忘在增强机器学习模型中的关键作用,使它们能够优先处理相关信息,遵守隐私法律,并减轻偏见。通过将人类认知过程与人工系统进行比较,我们为新的机器学习方法开辟了新的途径,使其能够动态适应和演进。对遗忘的探索不仅丰富了我们对机器学习范式的理解,还为未来的研究奠定了基础,这些研究将进一步完善这些概念,确保在该领域实现伦理和实际的进步。