这里写自定义目录标题
- A novel Federated Computation approach for Artificial Intelligence applications in Delay and Disruption Tolerant Networks
- abstract
- introduction
- DELAY AND DISRUPTION TOLERANT NETWORKS
- 联邦计算
- 用于容忍延迟和干扰的网络的联合学习框架
- DTN-ML Orchestrator DTN协调器
- DTN-ML Node Application
A novel Federated Computation approach for Artificial Intelligence applications in Delay and Disruption Tolerant Networks
2023 IEEE Cognitive Communications for Aerospace Applications Workshop (CCAAW)
NASA和google的人发的文章
abstract
地球与遥远航天器之间的通信具有挑战性,因为轨道轨迹导致的链路频繁中断、噪声或天线指向问题导致的信号丢失,以及极端轨道和极端轨道导致的长且高度可变的单向光时延。涉及的距离。深空链路的可靠性传统上需要任务运营团队的手动干预,而称为延迟和中断容忍网络(DTN)的新太阳系互联网协议已经被开发出来,以实现空间通信的自动化。这种自动化现在提供了一种使用我们在本文中介绍的人工智能 (AI) 和机器学习 (ML) 方法进行空间网络和链路性能优化的机制。我们讨论联邦学习 (FL) 以及 FL 在 DTN 网络监控和优化中的应用。联邦学习是一种分布式学习框架,使机器学习能够在分散的数据上执行,并更好地保护每个协作者的数据隐私和通信效率。这项工作概述了一种新方法,通过利用两种形式的太空应用联合学习和核心 DTN 捆绑协议来生成更智能的“边缘设备”机器学习模型,以推进当前在延迟和中断容忍网络上运行的人工智能应用。我们的工作表明,网络可以以更高的链路带宽效率和更少的资源消耗运行,同时确保隐私和质量约束。对流行图像数据集的实验表明,与现有替代方案相比,DTN-ML 可以具有相似或更好的性能,但通信开销要少得多。
introduction
从火星表面检索样本的国际计划活动不断增加,以及在不久的将来支持月球探索的数十艘航天器的大范围运行,精简、简化和促进任务操作的方法非常重要。为了允许通过数百个不同的无线电链路进行通信操作和数据管理,航天器和地面元件之间提供类似互联网的网络和路由自动化的系统,称为延迟和中断容忍网络(DTN)[1],目前正在航天器中实施以及 NASA 和 ESA 地面站 [2]。有了网络系统,进一步简化航天器的操作和管理以及智能选择哪些数据将使用空间网络中宝贵的带宽就成为可能。为此,我们利用 DTN 的功能和新的机器学习技术,为未来提供新的任务运营范例。
机器学习 (ML) 系统开始用于空间应用,以近似现实世界的复杂表示。基于机器学习的自主航天器有潜力探索太阳系的新部分,降低任务成本,同时提高自动化、自主导航、自动遥测分析和软件可升级性。然而,极端的距离、卫星不断的轨道运动和链路切换使得地球和航天器之间的通信容易出现延迟、中断和高误码率。深空链路的可靠性通常是通过任务运营团队细致且耗时的手动干预来实现的。
这项工作概述了一种新方法,通过利用新颖的联合计算 [4] 方法和 DTN 捆绑协议 [5-7] 来推进当前在 DTN 网络上运行的人工智能应用程序,以生成更智能的“边缘设备”机器学习模型,以较低的成本延迟和更少的功耗,同时确保隐私和质量限制。我们的方法专为空间网络场景而设计,在这些场景中,数据不均匀地分布在多个设备上,并且设备具有明显更高的延迟、更低的吞吐量连接、硬件资源限制,并且只能间歇性地用于训练。我们应用了 Bundle Protocol [8] 的 NASA 行星际覆盖网络 (ION) 实现以及两种新颖的联合计算方法来训练 CIFAR-10 数据集的图像分类算法 [9]。我们首先在混合云环境中初始化全局模型。我们的方法不是将训练数据集中在一台中央服务器上,而是使符合标准的边缘设备(例如航天器、漫游车)加入训练群体以协作学习共享预测模型,同时将所有训练数据保留在边缘。
据我们所知,联邦学习(FL)下的轻量级应用层协议的开发之前还没有在DTN网络中进行过。我们使用具有压力和丢包的网络配置测试了通信时间,以验证联合计算的 DTN 通信协议的性能。事实上,该应用程序是自动化的,并且联合计算算法自动执行许多原本必须由任务操作员以集中方式指挥的功能,从而能够减少训练和部署机器所涉及的成本、风险和工作量学习空间环境中的应用。
使用能够承载强大的人工智能和机器学习应用程序的太空合格信号处理器,航天器成为数据收集者、利用者和传播者——大脑和神经系统。这将使航天器能够在正确的时间以所需的速度直接向任务操作员、宇航员和工程师提供可操作的情报。通过在小型、功率受限的航天器 [9] 和卫星中启用高性能人工智能功能,我们可以使用人工智能在机上处理数据,从而使最终用户获得实时和定制的信息,而不是等待传输的数据集并在地面站进行处理。
DELAY AND DISRUPTION TOLERANT NETWORKS
太空通信链路的特点是,由于光速较慢,距离其他行星很远,造成的延迟时间长短不等。例如,从地球到火星的往返光时间约为 7 至 40 分钟,具体取决于火星相对于地球的位置。除了长时间的光时延迟之外,由于天气、天线指向不准确以及航天器绕遥远行星运行时的掩星等因素,太空链路还容易出现中断。正常的地面 IP 网络协议假定中断是由于拥塞造成的,并采取相应的措施;然而,当中断是由于损坏或掩星造成时,正常的互联网协议就会失败。关于深空无线电链路的另一个事实是,由于航天器上发射机功率和天线尺寸的限制,带宽是宝贵的商品,而链路效率至关重要[1]。目前正在开发的 NASA/ESA 太阳系互联计划基于 DTN 协议,旨在提供联网功能、带宽效率、存储和转发功能、自动路由、深空链路可靠性以及内置多级加密数据机密性和完整性检查。 [2]、[3]。
DTN 在 2008-2011 年的 JPL EPOXI 任务中首次获得太空资格[11],并显示该任务返回的数据大幅增加。它随后被用于国际空间站上的 20 多项有效载荷实验,目前安装在绕月球运行的韩国探路者月球轨道飞行器上。除了太空用途外,DTN 还被用于许多无线链路经常中断的地面网络,并且也具有明显的军事应用。
迄今为止的 DTN 经验表明,虽然它是空间数据网络的关键支持技术,但设置和故障排除可能非常困难,这是探索用于优化 DTN 网络性能的 ML 技术的主要驱动力。迄今为止,ML 系统尚未与 DTN 网络结合使用。
联邦计算
许多数据生来就是分散的。数十亿部手机和物联网设备不断生成数据,以实现更好的产品。在机器学习系统中,从所有位于集中位置的数据中学习更容易。然而,集中学习会带来延迟、间歇性、数据上限和电池寿命问题以及隐私问题。相反,如果我们以孤立的方式在边缘设备上执行所有机器学习训练,就会限制新体验的创建。每个边缘设备的数据通常太少,或者客户没有为机器学习做出贡献。联合学习 (FL) 概念由 Google 于 2016 年引入 [4],作为需要集中训练技术的传统机器学习方法的替代方案。在传统的机器学习(ML)方法中,训练所需的所有数据必须从边缘设备、服务器等收集,并传输和存储在中央位置,例如中央服务器。预处理、聚合和其他数据操作也在中央服务器中进行。
联邦学习方法的工作原理是首先在中央位置初始化全局机器学习模型(例如图像分类、对象检测、异常检测),然后由边缘设备下载该模型,这为我们提供了分散式训练,其中每个设备都可以执行训练过程。联邦学习不需要将训练数据集中在一台服务器上,而是使边缘设备能够协作学习共享预测模型,同时将所有训练数据保留在边缘。在这种方法中,边缘设备通过从本地环境中的数据学习来改进其模型,然后将更改总结为小的集中更新。如果选择一个设备参加联邦学习训练轮次,它会将权重矩阵发送到中央服务器,所有边缘设备的学习将在中央服务器上聚合,并应用一种技术来生成最终的全局模型将分发到所有边缘设备。所有数据都保留在边缘设备上。 [4]。虽然存在对边缘设备需要信任聚合器服务器的担忧,但必须注意模型更新只是暂时的,即它将持续到它被传输并合并到全局模型中为止。
联邦学习根据其群体选择策略可以分为Cross-Silo[12]或CrossDevice[13]、[14]。
Cross-Silo跨孤岛策略是指两个或多个组织拥有自己的数据和系统,但希望参与联合联邦学习过程但保留各自的数据孤岛的场景。该策略也可以理解为企业对企业(B2B)策略。
另一方面,CrossDevice跨设备策略涉及系统和数据的用户,由单个组织管理,可以将其视为企业对消费者策略(B2C)。
如今,面对边缘计算、多云和将数据作为资本资产持有等新兴趋势,联邦学习解决的问题超出了隐私范围,更深入地与计算相关。特别是在空间应用中,科学空间数据的集中化面临着障碍,以及工作流程和技术挑战,包括通过不可靠和有限的链接管理和分发数据。后者与空间通信特别相关,因为卫星或其他航天器获取的图像通常是非常大的文件。联合机器学习可以成为克服这些挑战的解决方案,并促进机器学习在空间应用中的采用并改善通信[15-17]。因此,通过联邦学习,我们可以减轻传统机器学习方法带来的隐私、安全和网络通信问题。在没有传输原始数据的情况下,它可以帮助提高安全性和隐私性,而且还可以实现更快的训练,这一点在外太空中尤其明显,因为需要传输的数据将明显更小,并且延迟可能会非常小与地球标准相比,训练可以进行得更快,因此可以通过升级太空中的人工智能模型来产生至关重要的影响,这对于太空任务的成功是必要的。联邦学习方法也适用于空间科学,因为航天器上拥有训练有素的机器学习系统可以帮助确保只有具有科学意义的有效载荷数据(例如图像)才会传输到地面站。
用于容忍延迟和干扰的网络的联合学习框架
这项工作提出了一种名为 DTN-ML 的新型联合计算方法,能够部署和训练机器学习模型,并针对空间应用进行优化。 DTN-ML 旨在成为一种端到端网络服务和联合计算功能,提供基于云的 AI 服务以及在网络环境中和/或通过网络环境进行的通信,这些环境会受到延迟和中断的影响。我们的架构由两个主要软件组件组成:DTN-ML Orchestrator 和一对多 DTN-ML 节点。
DTN-ML Orchestrator DTN协调器
协调 DTN-ML 支持的两种类型的联邦学习流程的服务:跨航天器联邦学习 (CSp FL) 和跨任务操作中心联邦学习 (CMOC FL)。Type Cross-Spacecraft Federated Learning (CSp FL) and Cross-Mission
Operation Center Federated Learning (CMOC FL).
跨航天器联合学习 (CSc FL):包括直接在 DTN-ML 节点上训练模型,并将模型的权重发送给协调器以聚合并创建改进的组合模型。这种类型的联邦学习也适用于任务操作员或工程师确定 DTN-ML 节点具有足够的处理能力来加入联邦学习群体的情况,如图 1 所示,名为 CrossSpacecraft 联邦学习。
跨 MOC 联合学习 (CMOC FL):包括在地面站的中心位置训练模型,但事先选择将哪些原始数据发送到聚合器,如图 2 所示。操作员可以指定一个或多个地球任务运营中心 (MOC) 单独保存数据的位置,以符合航天机构的隐私和安全要求,使这一过程基于跨筒仓Cross-Silo联合学习 [12]。此 CMOC FL 满足科学家和任务操作员强制要求下载原始数据的用例,无论是否使用原始数据来训练机器学习模型,和/或当他们发现 DTN-ML 节点没有足够的数据时加入联邦学习群体的处理能力。在必须将原始数据传输到地面站的情况下,CMOC FL 选择应将哪些数据下载到地面站以及应如何配置数据包以通过 DTN 传输此类信息。一旦模型在地面站聚合,模型的权重就会通过 ION 软件的组播功能发送到所有 DTN-ML 节点 [8]。
DTN-ML Node Application
节点应用程序由在 DTN-ML 节点(航天器)上运行的应用程序组成。该应用程序将按照编排器的指令执行计算,并使此类计算的结果可供编排器跨 DTN-ML 节点进行聚合。这些计算包括 (1) 特征预处理、(2) 数据验证、(3) 模型训练、(4) 模型评估和 (5) 联邦学习算法的执行逻辑,包括更新超参数。
对于两种类型的联合计算方法中的任何一种,当执行任务的工程师将所选类型的联合学习工作流程(CSc FL 或 CMOC FL)提交给编排器以充当要执行的 cron 作业时,执行场景如下:在确定的时间执行。参与 FL 群组的节点的选择基于节点的联系图配置。
CSc FL 工作流程的协调器的执行如下: 1- 协调器将特定任务分派给联合计算过程的参与者 DTN-ML 节点, 2- 协调器接收并聚合由 DTN-ML 节点计算的结果,生成联合模型, 3- 协调器使用 ION 的多播功能将新的联合模型分发到 DTN-ML 节点。 4- 除了协调联合训练之外,编排器还负责管理节点群体,并选择节点组来协作进行机器学习训练。
CMOC FL 工作流程的编排器执行如下: 1- DTN-ML 节点将选择用于科学查询的原始数据发送到地球 MOC 位置 2- 编排器将特定任务分派给 CMOC 群体的 DTNML 节点以启动联合计算过程, 3- 编排器接收并聚合由 CMOC 群体的 DTN-ML 节点计算的结果,生成联合模型, 4- 编排器使用以下方法将新的联合模型分发到 CMOC 群体的 DTN-ML 节点: ION 的组播能力。 5- 除了协调联合训练之外,编排器还负责管理 CMOC 群体的节点群体,并选择节点群组来协作进行机器学习训练。