摘要
在动态自动驾驶环境中,人工智能生成内容(AIGC)技术可以通过利用模型的生成和预测能力来补充车辆感知和决策,并有可能增强运动规划,轨迹预测和交通模拟。本文提出了一种云-边缘-终端协同架构,以支持AIGC自动驾驶。通过深入研究AIGC服务的独特属性,提出了构建相互支持的AIGC和自动驾驶网络系统的尝试,包括支持AIGC服务的通信、存储和计算资源分配方案,以及利用AIGC辅助系统设计和资源管理。
1.介绍
自动驾驶发展迅速,其目标是通过对车辆的感知、决策和控制来提高交通安全、效率和便利性。自动驾驶还包括通过沟通驾驶意图和基于个人需求的车辆反应与人进行互动。这些技术跨越了计算机视觉、机器学习、传感器融合和控制理论等多个领域,具有高度的复杂性和挑战性。随着自动驾驶系统从受控环境和简单的任务发展到更复杂和不可预测的城市景观,当前的技术可能会在概括和触及其性能限制方面步履蹒跚。
人工智能生成内容(AIGC)技术具有支持自动驾驶的潜力。AIGC是指使用人工智能技术根据用户需求和目标自动或协作生成各种类型的内容,如文本、图像、音频和视频。AIGC技术的核心是使用深度神经网络模型来学习数据的潜在分布,并根据给定的条件或目标生成符合分布的新数据。这一功能使AIGC技术能够从学习到的数据分布推广到新的场景。语言基础模型[1]可用于理解和生成自然语言,如对话和摘要,以提高司机和车辆之间的沟通效率和质量。视觉基础模型[2]可用于检测和识别图像中的对象、场景和情感,从而改善对周围环境的感知。多模式基础模型[3]可用于融合不同类型的数据,如文本、语音和图像,以改善司机的娱乐体验和个性化需求。此外,AIGC还可以应用于端到端的自动驾驶。例如,用于自动驾驶的大规模多模式语言模型DriveGPT4[4]使用车辆收集的视频和历史车辆控制决策来输出下一个控制决策,同时为其决策提供自然语言解释,以提高可解释性。
AIGC的个性化数据生成功能增强了车辆和驾驶员的副驾驶体验。首先,AIGC可以根据每个驾驶员的喜好和需求定制驾驶体验,例如调整速度,路线和氛围。其次,AIGC可以为驾驶员提供个性化的反馈和指导,例如建议最佳驾驶习惯,提醒潜在的危险,并提供紧急援助。第三,AIGC可以增强驾驶员与车辆之间的沟通和互动,例如使用自然语言处理,语音识别和面部表情分析。这些功能使每个驾驶员的自动驾驶更加愉快,安全和高效。
然而,自动驾驶任务严格的延迟和可用性要求带来了应用AIGC的挑战。在有限的预算约束下,单独的车辆几乎没有足够的通信、存储和计算资源来支持大型模型存储和推理,而存储在云端的模型需要在云端和车辆之间进行通信,并且具有更高的通信延迟。为了应对这一挑战,本文提出了一种云-端协同架构和运营方案,以支持不同的AIGC模型,满足自动驾驶任务的服务质量要求。
本文的主要贡献有三个方面。首先,我们调查了AIGC在自动驾驶任务中的潜在应用。其次,我们提出了一个云-边缘-终端协同的AIGC架构和服务流程,以解决将AIGC应用于自动驾驶的资源和延迟挑战。第三,我们开始尝试开发通信,存储和计算资源分配机制,以支持云边缘终端协同AIGC系统的运行,并利用AIGC来增强网络设计。
2.AIGC FOR AUTONOMOUS DRIVING
在本节中,我们首先调查受益于AIGC生成和预测能力的自动驾驶任务。然后,我们讨论了将AIGC应用于自动驾驶的挑战,这需要在严格的延迟限制下提供位置相关和个性化的内容。
A. AIGC Applications to Autonomous Driving
AIGC可以应用于自动驾驶的几个方面,如图1所示。
感知:感知是获取、解释和使用感官信息的过程,使自动驾驶汽车能够在复杂和动态的环境中安全有效地导航。
生成模型可用于补充感官知觉中不存在的未知环境的表征。例如,生成模型可以基于障碍物附近的感知来估计车辆或行人出现在障碍物后面的可能性。这是可能的,因为生成模型可以仅使用一小部分像素来恢复图片[2]。生成模型还可以推断感知范围之外的地形属性,这可以改善传感器被遮挡的杂乱环境下的感知。此外,生成模型可以基于语言提示执行目标对象检测。例如,给定交通场景图像和语言提示“检测交通灯颜色”,生成模型可以识别交通灯并提供相应的文本或语音描述以帮助颜色缺陷的驾驶员。
生成模型可以更好地提取语义,减少通信负载,而传输原始感知信息需要大量的通信资源。例如,将图像转换为简短的文本描述,然后将文本描述传输到其他车辆可以减少协作感测中的带宽和延迟。
运动预测和风险评估:运动预测旨在根据车辆、行人和骑自行车者的当前和过去位置、速度、方向和其他属性来估计周围物体的轨迹。风险评估的目的是预测碰撞和定位危险区域,给定的预测运动的自我车辆和其他移动物体。
生成式AI模型能够学习数据的潜在分布,包括各种场景下车辆和行人的轨迹。此外,预测任务可以转换为语言建模任务[5],可用于预测车辆和行人的行为。例如,给定先前的交通场景和一个问题“当前方黄灯亮起时,中间车道上的最后一辆车会做什么?”语言模型可以分析场景并提供可能的答案“最后一辆车将加速通过十字路口”。
基于运动预测,生成模型可以执行风险评估。例如,给定一个小巷场景和交通,生成模型将预测“前方十字路口的两辆汽车可能相撞”。
运动规划:运动规划是在动态环境中为车辆找到可行且安全的轨迹的过程,包括避障,车道保持和路径搜索。例如,特斯拉FSD V12端到端自动驾驶车型已成功应用于实际驾驶系统,实现了接近人类的驾驶性能。
运动规划也可以转化为语言建模任务[6]。例如,给定一个交通场景和一个目标“从A点到B点”,语言模型可以生成一个合理的路径,并提供相应的文本描述[7]。
此外,生成语言模型可以为所做的决策提供解释。例如,给定一个交通场景和一个问题“自动驾驶汽车应该做什么?”该模型可以基于场景生成最佳行为,并提供相应的文本解释“自动驾驶车辆应该减速并停在路边,因为前面有救护车经过”。
交通模拟、预测和控制:除了车辆局部感知、运动预测和规划等微观内容生成外,AIGC还可以应用于宏观交通控制,如模拟、预测和控制复杂城市环境中的交通流[8]。
通过结合数字孪生,生成模型可以在虚拟空间中模拟真实的驾驶环境,并评估交通控制策略。假设一个控制中心有实时交通的知识。控制中心的生成模型可以通过仿真输出缓解交通拥堵的交通灯控制决策。然后,可以通过与路侧单元(RSU)通信在交通灯处实施控制决策。此外,给定一个城市或地区的交通场景,以“增加10%的交通流量”为参数,生成模型可以通过仿真生成新的交通场景,预测可能出现的拥堵情况,并提供相应的文字描述。
自动驾驶数据集生成:自动驾驶需要高质量的数据进行训练和测试。然而,收集和标记真实世界的数据是昂贵的,耗时的,并且可能无法覆盖所有可能的场景。因此,合成数据生成是一种很有前途的替代方案,可以为自动驾驶应用提供大规模,多样化和高保真的数据。
生成模型使用现有数据创建新的交通数据,可以为训练自动驾驶算法提供更多的角落情况和各种条件。例如,给定一个交通场景和一个参数“在下雨或下雪天气下生成感知”,生成模型可以通过向原始场景添加雨或雪效果来创建新的感知数据。
人机界面:人机界面对于确保自动驾驶车辆的安全性、舒适性和驾驶员和乘客的信任至关重要,因为在某些情况下可能需要人工输入或监督,例如在紧急情况、复杂场景或法律的规定下。界面的设计应能提供清晰及时的信息、直观易用的控制以及自适应和个性化的功能。
生成模型增强了车辆理解和响应人类输入(包括语音和手势)的方式。车辆可以预测驾驶员的需求并主动提供帮助,使驾驶体验更加身临其境和个性化。例如,如果车辆感测到驾驶员疲劳或基于驾驶历史预测驾驶员将疲劳,则其可以推荐前方的休息区或咖啡店。
生成模型还可以解释车辆的行为,使人类更容易理解和监督。例如,给定车辆的行为“停在路边”,生成模型可以基于行为“停在路边,因为前面有救护车经过”生成文本解释,并通过语音或屏幕向用户提供反馈。
B. Challenges of Applying AIGC to Autonomous Driving
高计算复杂性和高延迟:为了实现安全的自动驾驶,AIGC应用程序需要在毫秒内分析并做出车辆状态、环境、路况和其他信息的决策。这对车辆的计算和存储资源提出了挑战,因为AIGC模型通常参数众多,结构复杂。如果AIGC模型部署在云中,网络传输延迟、带宽限制和车辆移动性问题可能会导致服务质量下降。边缘协作是一种可行的解决方案,它可以利用车辆附近的RSU的资源来提供低延迟、高可靠性和高性能的AIGC服务。
适应不同地区和交通条件:一些自主驾驶任务取决于地理位置和地形环境特征。不同的国家或地区可能有不同的道路规则和交通法规,如驾驶方向、限速标志和红绿灯。这些规则将影响不同地区自动驾驶车辆的行为选择和内容生成。例如,在美国,自动驾驶车辆需要靠右行驶,而在英国,它们需要靠左行驶。在高速公路上,自动驾驶车辆需要根据限速标志调整速度,而在城市道路上,需要根据红绿灯停车或启动。在山路上,障碍物复杂,形状多样,而车辆视野有限,需要更加谨慎的决策。因此,AIGC服务需要能够识别不同地区的本地化规则和属性,并基于这些规则生成适当的内容。此外,车辆可能会遇到不同的路况和交通流量,这就需要相应地调整导航策略。例如,在拥堵的路段,自动驾驶车辆可能需要更频繁地变道或减速,而在开放路段,它们可以加速或保持稳定。在这些情况下,AIGC服务需要能够感知当前的系统环境,并基于该环境生成高度适应性、灵活性和高效的内容。
针对自驾车的个性化内容:不同的车主可能有不同的驾驶习惯和偏好。比如,有的人喜欢平稳行驶,有的人喜欢快速行驶;有的人喜欢保持一定的车距,有的人喜欢紧随其后;有的人喜欢提前变道,有的人喜欢临时变道。这些偏好将影响自动驾驶车辆的决策模式,例如何时、何地以及如何加速、减速、变道和超车。因此,AIGC服务需要能够学习和适应车主的个性化偏好,并生成符合他们偏好的内容。
车辆所有者还可以对所生成的内容具有不同的风格偏好。比如,有的人喜欢简洁明了的内容,有的人喜欢详细丰富的内容;有的人喜欢正式严谨的内容,有的人喜欢幽默轻松的内容。这些偏好将影响自动驾驶车辆的内容表达,包括语音提示、图像显示和文本显示。因此,AIGC服务需要能够识别和适应车主的个性化风格,并生成符合他们偏好的内容。
为驾驶员提供个性化的车辆控制和内容风格对生成模型构成了重大挑战,因为它们必须根据有限的交互历史生成量身定制的响应,而驾驶历史可能跨越很长一段时间。因此,生成模型需要学习如何有效地从车辆和驾驶员的几个会话或元数据中捕获驾驶员的偏好,习惯和目标,并生成适应驾驶环境的相关和连贯的内容。
3.CLOUD-EDGE-TERMINAL COLLABORATIVE AIGC ARCHITECTURE
为了支持低延迟、位置相关、个性化的自主驾驶任务请求,我们提出了一种云-边缘-终端协同AIGC架构。在该体系结构的基础上,进一步讨论了AIGC业务与网络资源管理的互助性。我们发起了利用AIGC来改进网络通信、存储和计算资源管理的尝试,并提出了支持AIGC实现自主驾驶的资源分配方案。
A. Architecture Design
云-边-端协同AIGC架构如图2所示。
云:AIGC服务提供商(ASP)使用大量数据训练大型生成模型,并通过利用数据中心足够的计算和存储资源部署具有强大推理能力的预训练和微调模型。这些模型可以处理复杂的AIGC任务,例如高质量的交通模拟、预测和交通控制评估。ASP还可以根据不同地区的特点和需求定制大型模型,并将其压缩成更小的模型,以便在边缘部署。边缘:在边缘,RSU从云端获得更小的微调生成模型,并调度资源,为车辆提供本地化和及时的响应。大多数AIGC自动驾驶服务都可以在边缘完成,包括感知、运动预测和风险评估。只有当边缘的较小模型不足以完成指定的任务时,任务才会卸载到云端。例如,RSU可以收集本地交通信息并将其发送到云端,以便使用更大的模型进行集中式交通灯控制。
终端:车辆使用有限的计算和存储资源托管修剪和量化的生成模型。这些模型使用轻量级计算生成个性化内容,因此功能有限[9]。为了支持要求更高的生成任务,车辆在边缘或云端选择适当的ASP,将请求发送到ASP,然后将生成的内容传送回车辆。生成的内容可以在终端进一步处理,以满足个性化需求。为了增强内容生成的个性化,可以在语义上压缩长的交互历史[10]并存储在用户配置文件中。
面向自动驾驶的云-边-端协同AIGC架构中的服务流程包括以下步骤。
1.AIGC服务请求生成:车辆或驾驶员在终端生成请求,该请求可以包括个性化提示。系统通过考虑任务复杂性、隐私和延迟要求来决定是在本地执行还是卸载到边缘(或云)。
2.ASP选择和卸载:给定边缘(或云)处的不同ASP的计算和存储资源约束以及车辆与边缘(或云)之间的通信约束,车辆为其任务请求选择适当的ASP。ASP选择的目标是在资源和延迟限制内生成高质量的响应。然后可以将所生成的内容从远程ASP传输到车辆。
3.生成内容的后处理:远程ASP返回的某些内容可能是中间格式,以减少通信负载(例如,图像的特征或文本描述),并且需要在终端处由生成模型进一步处理以由驾驶员消费。此外,后处理可以进一步个性化内容,因为车辆上的生成模型维护了一组更全面的驾驶员偏好。
虽然上述服务工作流侧重于模型推理和内容生成,但大量请求和流量信息可以进一步增强模型训练和微调。通过分析额外的流量数据,ASP可以在云端和边缘更新生成模型。与实时服务请求相比,此过程对延迟不敏感,并且需要大量资源。
B. System Operations
AIGC依赖于在整个工作流程中协作的通信、存储和计算资源。与传统的工作负载相比,AIGC服务具有独特的属性,可以纳入网络资源分配策略的设计。首先,通用内容生成能力不仅可以适应用户,而且可以适应可用的网络资源。生成模型能够输出各种质量的内容(例如,不同分辨率的图像)。通过任务适应和资源分配的联合优化来满足发电任务的资源需求,具有提高用户满意度和效用的潜力。其次,与传统的内容分发网络不同,在传统的内容分发网络中,用户请求存储在边缘服务器上的相同内容,AIGC服务生成为终端用户量身定制的内容,并且随着交互的发展,生成的内容甚至可以响应于同一用户的相同问题而改变。因此,AIGC服务需要在协作框架中更紧密耦合的计算和存储资源。一方面,存储的模型需要计算资源来生成内容,并且仅缓存不足以提供个性化内容。另一方面,内容生成依赖于交互历史,这占用了额外的存储资源,并且交互对于用户是唯一的,这与传统的内容分发网络不同,在传统的内容分发网络中,不同的用户发送相同的请求。因此,需要额外的存储资源来支持用户的有状态服务请求,而传统的请求通常是无状态的。在本节的剩余部分中,我们将讨论支持AIGC服务的任务自适应和资源分配策略,并利用AIGC来协助资源管理。
沟通方式:自动驾驶面临的挑战之一是在车辆高速行驶时确保车辆和基础设施之间的可靠和高效通信。链路传输容量随着时间的推移而迅速变化,特别是对于6G等更高频段的无线通信,这可能会影响交换数据的质量和及时性。应对这一挑战涉及两个问题:确定传输内容和确保在快速变化的网络条件下的效率。弹性任务生成和资源分配匹配动态车载网络中的任务需求和网络资源,并且都可以通过应用AIGC技术来增强。
一方面,生成模型可用于创建具有与当前链路传输容量相匹配的不同容量的内容。例如,生成模型可以在链接较弱时生成低分辨率图像,而在链接较强时生成高分辨率图像。生成模型还可以将图像转换为文本,这进一步减少了通信的数据量。通过这种方式,生成模型可以适应不断变化的网络条件,并优化自动驾驶的数据传输。
另一方面,AIGC具有通过解决移动性挑战和主动分配资源来改善无线通信的潜力。运动规划的生成模型可以根据车辆先前的状态和环境来预测车辆的未来轨迹。如图3所示,预测的车辆位置可以改善车辆与RSU或基站中的接入点之间的波束跟踪。更高频段的无线传输容易出现阻塞和散射。环境感知通过识别阻挡物和散射物的位置和类型来改善波束形成[11]。此外,通过选择最佳接入点与车辆通信,预测车辆轨迹有助于在具有较短传输范围和6G视距传输的超密集小小区中进行切换。网络可以在最可能的相邻小区而不是所有相邻小区中主动预留带宽,以减少切换发生之前的带宽浪费,从而提高资源利用率和切换准确性。
生成模型还可以通过预测动态通信需求和可用带宽资源来辅助通信资源分配。宏观交通模拟的AIGC估计未来的交通流强度,它反映了车辆所需的通信资源量。用于微观运动规划和感知的AIGC可以通过使用感测信息和减少导频开销来辅助估计信道状态信息。然后,这些预测可以用于改进管理通信网络并提高其性能的路由和调度算法。通过将AIGC应用于任务生成、资源预测和分配,云-边缘-终端框架可以优化通信操作的效用,并满足各种任务需求。
存储:内容、模型、用户配置文件和交互历史都可以存储,因为它们是AIGC服务的关键要素。缓存生成的内容避免了重复的模型推理计算,并且可以服务于具有相同请求的多个车辆。然而,在自动驾驶中的服务请求和偏好多样化的情况下,为了获得个性化内容并提高该高速缓存命中率,缓存模型变得必要[12]。一个模型可以根据用户的个人资料和他们的交互历史为不同的用户生成不同的内容。用户简档包括驾驶员身份、车辆类型信息、行驶轨迹、实时位置和速度、与其他车辆的社交互动等,反映用户的驾驶行为和娱乐偏好。使用AIGC服务时会记录交互历史,如输入提示和响应,反映用户的偏好和对系统性能的反馈。用户配置文件和交互历史都可以压缩以节省存储空间。此外,流行的生成语言模型无法推广到比训练序列长度更长的文本。当与生成模型交互时,可以替代地使用从交互历史提取的压缩内容或特征。
由于车辆和RSU的存储资源有限,它们通过估计未来需求来缓存最相关的模型和内容,如图4所示。基于AIGC流量估计和运动预测的主动缓存增强了驾驶安全性,同时降低了服务延迟。通过交通拥堵预测,可以将传感精度更高的相关模型和内容缓存在拥堵路段附近的RSU中,满足车辆在高风险拥堵道路上的导航需求,同时减少服务延迟和网络负载。当车辆在不同区域行驶时,特定于区域的生成模型可以主动缓存在车辆中。例如,在进入山区地形之前,可以主动缓存更高精度的感知模型。这些模型有助于识别山地地形中不同类型的障碍物,并推断车辆感知范围之外的潜在障碍物,从而帮助车辆在复杂环境中采取更保守的驾驶策略。在RSU有限的山区地形中,车辆中的主动缓存变得必要。
此外,基于用户需求估计的主动缓存提高了服务质量。使用用户配置文件和交互历史作为输入,生成模型可以预测未来的驾驶和娱乐需求。相应的模型和内容可以提前缓存。例如,具有娱乐特征的生成模型可以在公路旅行之前主动缓存在车辆中,这可以基于交互历史来推断。
计算:计算是云端协同AIGC架构的核心,支持实时的个性化AIGC服务。为自动驾驶汽车分配计算资源的挑战是双重的。一方面,很难量化用户对生成的内容的主观和个性化偏好。想象一下,一名游客乘坐自动驾驶汽车,比起最快的路线,他更喜欢风景优美的路线。该系统必须理解“风景价值”的主观概念,它可能包括景观和地标。这种偏好因人而异,取决于个人品味和当前情绪。另一方面,对于多个ASP的多用户资源分配问题,即ASP选择,被框架为资源受限的任务分配问题[13],这是NP-Hard[14]。当考虑到车辆的自主性时,这个问题的复杂性进一步加剧。
为了使自主系统与人类的偏好保持一致,第一步涉及训练一个具有跨模式语义能力的模型作为奖励模型(RM)。该模型对于理解和解释与AIGC任务相关的多模式数据流至关重要,并使用从与生成性模型和用户配置文件的长期交互中收集的人类反馈进行微调。这种反馈机制允许该模型捕获广泛的人类偏好,从内容生成中的美学考虑到能源效率和延迟等实用问题。RM处理输入参数,如生成内容的质量、延迟和能源消耗,并产生标量奖励作为输出。这一奖励代表了对用户满意度的量化估计,将人类偏好的复杂和主观性质封装在一种可计算管理的格式中,以便进行优化。
车辆在不同时间产生多个AIGC服务请求,这些请求将由ASP处理。ASP选择问题是复杂的,由于车辆的自主性,不同的用户偏好,资源约束,动态的车辆环境,和相互依赖的选择决策。考虑到这些特征,部分可观察随机博弈(POSG)框架有望捕捉到这一决策过程的复杂性。POSG考虑了每个车辆决策过程中固有的部分可观测性,其中车辆可能没有关于网络状态或其他车辆所做的服务选择的完整信息。此外,POSG适应环境的动态性和多辆车之间的战略相互作用,每辆车都在边缘资源有限的情况下努力优化自己的服务体验。为了应对POSG框架带来的挑战,我们提出了一种用于ASP选择的交互式多智能体强化学习(MARL)[15]方法,如图5所示。这种方法允许车辆通过通信模块与附近的车辆进行决策前的交互。这种互动使车辆能够分享见解并协调其决策,从而增强ASP选择背景下的整体决策过程。存储动作、奖励和人工反馈以用于RM的持续训练和改进,从而确保系统保持适应性并响应于不断变化的用户偏好。
总之,通过将RM概念集成到AIGC自动驾驶汽车任务管理框架中,我们提供了一个强大的MARL机制,使自动化决策过程与人类偏好的细微差别和动态特性保持一致。这种方法不仅增强了AIGC任务的相关性和有效性,而且还确保了自主系统保持以用户为中心,并适应现实世界的场景。
4.CONCLUSION
复杂自动驾驶环境中的移动性对车辆感知和决策提出了挑战。生成模型可以通过利用基于从先前数据学习的分布的生成能力来增强感知并预测未来的车辆运动。本文探讨了AIGC在自动驾驶领域的应用前景,提出了一种云-边缘-终端协同架构来支持AIGC。生成模型的独特属性给通信、存储和计算资源分配带来了挑战,而模型的预测能力可以帮助网络设计和资源管理。本文深入探讨了挑战和研究机遇,并提出了构建相互支持的AIGC和自动驾驶网络系统的初步尝试。