Flink系列知识讲解之:网络监控、指标与反压

news2025/1/10 16:21:06

Flink系列知识之:网络监控、指标与反压

在上一篇博文中,我们介绍了 Flink 网络协议栈从高层抽象到底层细节的工作原理。本篇博文是网络协议栈系列博文中的第二篇,在此基础上,我们将讨论如何监控网络相关指标,以识别吞吐量和延迟方面的反压或瓶颈等影响。如果您对网络协议栈不熟悉,我们强烈建议您先阅读网络协议栈深度剖析,然后继续阅读本文。

网络监控

网络监控最重要的部分可能是监控反压,即操作符算子接收数据的速度超过其处理速度的情况¹。这种行为会导致上游发送方受到反压,原因可能有两个:

  • 接收器处理性能较慢
    • 出现这种情况的原因可能是接收器本身受到了反压,无法保持与发送器相同的处理速度,或者由于垃圾回收、系统资源不足或 I/O 而暂时受阻。
  • 网络通道速度较慢
    • 尽管在这种情况下接收方并没有(直接)参与,但由于在同一台机器上运行的所有子任务共享的网络带宽可能被超量占用,因此我们称发送者受到了反向压力。请注意,除了 Flink 的网络堆栈,可能还有更多的网络用户,如source和sink,分布式文件系统(检查点、网络附加存储)、日志和指标数据都会在网络通道中传输。

如果出现反压,这种压力会向上游传递,最终到达Flink应用的源头,从而使其变慢。这种反压机制本身并不是坏事,某种程度来说是应用程序根据当前资源情况的一种自我保护机制,只是说明您缺乏资源来应对当前的负载。不过,您可能会希望通过改进应用程序,使其能够在不使用更多资源的情况下应对更高的负载。
为此,您需要找到:
(1) 瓶颈在哪里(哪个任务/操作符算子);
(2) 造成瓶颈的原因。Flink 提供两种机制来识别瓶颈所在:

  • 直接通过 Flink 的网络用户界面(Flink web UI)和反压监控器(backpressure monitor)
  • 间接地通过一些网络指标。

Flink Web UI可能是快速排除故障的第一入口,但也有一些缺点,我们将在下文中解释。另一方面,Flink 的网络指标(netwrok metrics)更适合持续监控和推理造成反压的瓶颈的确切问题所在。我们将在下面的章节中介绍这两种方法。在这两种情况下,您都需要确定从source到sink的背压具体来源。值得注意的是,反压的根源节点并不一定会在反压面板体现出高反压,因为反压面板监控的是发送端,如果某个节点是性能瓶颈并不会导致它本身出现高反压,而是导致它的上游出现高反压。总体来看,如果我们找到第一个出现反压的节点,那么反压根源要么是就这个节点,要么是它紧接着的下游节点。

反压监控

反压监控可以通过 Flink 的 Web UI² 进行监控。原理是反压监控器周期性地通过 Thread.getStackTrace() 对所有TaskManager上的运行Task线程的栈信息进行采样,得到线程被阻塞在请求 Buffer(意味着被下游队列阻塞)的频率来判断该节点是否处于反压状态。这些Task要么是无法以buffer的生产速度被发送到网络缓冲区,要么是下游Task处理缓冲区的速度很慢,导致基于credit-based流量控制时,返回给上游发送端的credit值较小(或等于0)。
反压监控器(backpressure monitor)将显示被阻止的请求buffer与总请求的比率。由于某些反压被认为是正常/临时的,因此它将显示以下状态:

  • OK for ratio ≤ 0.10,
  • LOW for 0.10 < Ratio ≤ 0.5, and
  • HIGH for 0.5 < Ratio ≤ 1.

虽然可以调整刷新间隔、采样次数或采样延迟等参数,但通常情况下,您并不需要调整这些参数,因为默认值已经能提供足够好的结果。
在这里插入图片描述

也可以通过 Flink提供的REST API 接口来访问反压监控指标:/jobs/:jobid/vertices/:vertexid/backpressure

反压监控器可以帮助您找到反压的来源(在哪个任务/操作符算子处)。但是,它无法帮助您进一步推理产生反压的原因。此外,对于较大的任务或并行度较高的任务,反压监控器会变得过于拥挤而无法使用,而且从所有TaskManager收集所有信息也可能需要一些时间。另外需要注意,频繁地对Task线程栈采样也可能会影响运行任务的性能。

网络指标—Network Metrics

网络(Network)和任务 I/O (Task I/O)指标比反压监控更轻量级,而且会持续地为每个正在运行的作业进行监控。我们可以利用这些指标,获得更多信息,而不仅仅是用于反压监控。与用户最相关的指标包括:

  • 至 Flink 1.8:outPoolUsage、inPoolUsage
    • 评估已使用的缓冲区与各本地缓冲区中可用缓冲区的比率。在使用基于credit-based的流量控制的 Flink 1.5 - 1.8 版本中,inPoolUsage只与浮动缓冲区有关(独占缓冲区不是池的一部分)。
  • Flink 1.9以及更高:outPoolUsage, inPoolUsage, floatingBuffersUsage, exclusiveBuffersUsage
    • 评估已使用的缓冲区与各本地缓冲区中可用缓冲区的比率。从 Flink 1.9 开始,inPoolUsage 是 floatingBuffersUsage 和 exclusiveBuffersUsage 的总和。
  • numRecordsOut, numRecordsIn
    • 该指标包含两个作用域:一个作用域针对操作符算子,另一个作用域针对subtask子任务。对于网络监控来说,子任务域显示的是SubTask发送/接收的记录总数。在实际使用时,需要指定具体的时间跨度…PerSecond,比如numRecordsOutPerSecondnumRecordsInPerSecond
  • numBytesOut, numBytesInLocal, numBytesInRemote
    • 该SubTask从本地/远程发出或读取的字节总数。这些数据也可以通过 …PerSecond 指标作为时间跨度提供。
  • numBuffersOut, numBuffersInLocal, numBuffersInRemote
    • numBytes... 类似,但计算的是网络缓冲区的数量。

另外需要注意:

  • 任何至少被使用过一次的输出通道都会占用一个缓冲区(自 Flink 1.5 起)。
    • 直到 Flink 1.8:该缓冲区(即使是空的)也会始终被算作值为1的积压,因此接收器试图为其保留一个浮动缓冲区。
    • Flink 1.9 及以上版本:缓冲区只有在可以使用(即已满或已刷新)时才会被计入积压(参见FLINK-11082)
  • 接收器只有在反序列化缓冲区中的最后一条记录后,才会释放接收到的缓冲区。

以下各节将利用并结合这些指标来推理与吞吐量有关的反压和资源使用/效率。另一部分将详细介绍与延迟相关的指标。

Backpressure

反压(backpressure)是实时计算应用开发中,特别是流式计算中,十分常见的问题。反压意味着数据管道中某个节点成为瓶颈,处理速率跟不上上游发送数据的速率,而需要对上游进行限速。由于实时计算应用通常使用消息队列来进行生产端和消费端的解耦,消费端数据源是 pull-based 的,所以反压通常是从某个节点传导至数据源并降低数据源(比如 Kafka consumer)的摄入速率。

我们将在下文中重点讨论输入和输出池的使用情况对反压的监控:

  • 如果SubTask的 outPoolUsage 为 100%,它本身就已经受到反向压力。子任务是已经阻塞还是仍在向网络缓冲区写入记录,取决于RecordWriters当前写入的缓冲区有多满。
  • inPoolUsage 为 100% 意味着所有浮动缓冲区都已经分配给了输入通道,最终将对上游传导反压。这些浮动缓冲区可能处于以下任一情况:
    • 由于独占缓冲区被使用,它们被保留以此在未来被某一通道使用
    • 它们被保留用来接收发送方的积压数据(backlog)并等待数据
    • 它们可能包含数据并在输入通道中排队
    • 或者它们可能包含数据并正在被接收方的子任务读取(一次读取一条记录)。
  • 至 Flink 1.8:由于 FLINK-11082,即使在正常情况下,inPoolUsage 达到 100% 也很常见。
  • Flink 1.9以及更高:如果 inPoolUsage 持续保持在 100% 左右,则表明上游正在经受反压。

下表总结了inPoolUsage和outPoolUsage的所有组合及其解释。但请记住,反压可能是轻微的或暂时的(无需调查),只存在于特定通道上,或由于特定TaskManager的其他 JVM 进程造成的,如 GC、同步、I/O、资源短缺,而非特定的子任务。
在这里插入图片描述

我们甚至可以通过观察两个连续任务的子任务的网络指标来进一步推断反压产生的原因:

  • 如果接收方任务的所有子任务的 inPoolUsage 值都很低,而上游任务子任务的 outPoolUsage 值都很高,那么可能是网络瓶颈导致了反压。由于网络是TaskManager所有子任务的共享资源,因此这种反压的产生可能不是直接来自该子任务,而是来自其他各种并发操作,如checkpoint、其他流、外部连接或同一台机器上的其他TaskManager/进程。

反压也可能由任务的所有并行实例或单个任务实例造成。前者通常是因为任务在执行某些针对所有输入分区都耗时的操作。后者通常是某种倾斜的结果,可能是shuffle过程中的数据倾斜,也可能是资源可用性/分配的倾斜。

Flink 1.9以及更高

  • 如果 floatingBuffersUsage 不是 100%,则不太可能存在反压。如果浮动缓冲区使用率为 100%,且任何上游任务都存在反压,则表明该输入通道正在对单个、部分或所有输入通道施加反压。要区分这三种情况,可以使用 exclusiveBuffersUsage。
  • 假设 floatingBuffersUsage 约为 100%,则 exclusiveBuffersUsage 越高,正在经历反压的输入通道就越多(exclusiveBuffersUsage每个输入通道独占)。在 exclusiveBuffersUsage 接近 100% 的极端情况下,这意味着当前所有输入通道都在受到反压。

下表概括了 “exclusiveBuffersUsage”、"floatingBuffersUsage "和上游任务的 "outPoolUsage "之间的关系,并在上表的基础上扩展了 “inPoolUsage = floatingBuffersUsage + exclusiveBuffersUsage”:
在这里插入图片描述

资源使用量 / 吞吐量—Resource Usage / Throughput

除了上述每个监控指标的明显用途外,还有一些组合指标可以帮助我们深入了解网络堆栈中发生的情况:

  • 低吞吐量,outPoolUsage 值经常在 100%左右,但所有接收器的 inPoolUsage 值都很低,这说明在做流量控制时的credit-notification(取决于网络延迟)的往返时间过长,不足以利用带宽。可以考虑增加taskmanager.network.memory.buffers-per-channel参数,或尝试禁用基于credit-based的流量控制(不推荐)。
  • 将 numRecordsOut 和 numBytesOut 结合起来,有助于确定平均序列化记录大小,从而可以针对峰值情况进行容量规划。
  • 如果要推理缓冲区填充率(buffer fill rate)和输出刷新器(output flusher)的影响,可以将 numBytesInRemote 与 numBuffersInRemote 结合起来。
    • 当希望调整吞吐量(而不是延迟)时,低缓冲区填充率可能表明网络效率降低。在这种情况下,可以考虑增加缓冲区超时时间,以此来增加单次发送的数据量来提升吞吐。请注意,从 Flink 1.8 和 1.9 版开始,numBuffersOut 只有在缓冲区满或特殊事件(如checkpoint barrier)时才会触发增加,而且可能会滞后。另外需要注意,对本地通道的缓冲区填充率进行推理是不必要的,因为缓冲是一种针对远程通道的优化技术,对本地通道的影响有限。
  • 也可以使用 numBytesInLocal 和 numBytesInRemote 将本地流量和远程流量分开,但在大多数情况下这是不必要的。

反压产生的潜在原因

假设已经确定了反压产生的源头(瓶颈)所在,下一步就是分析发生反压的原因。下面,我们列出了一些可能造成反压的潜在原因,从较基本的到较复杂的。建议首先检查基本原因,然后再深入研究更复杂的原因,以免得出错误的结论。

同时需要注意,反压可能是暂时的,是负载峰值、触发checkpoint或作业重启时有积压数据等待处理的结果。在这种情况下,通常可以忽略不计。

在分析反压时,有下面几种瓶颈可以检查:

  • 系统资源
    首先,你应该检查执行机器的基本资源使用情况,如 CPU、网络或磁盘 I/O。如果某些资源被完全或大量使用,你可以采取以下措施之一:
    • 尝试优化代码。在这种情况下,代码剖析器很有帮助。
    • 基于上述特定的资源环境,调整Flink应用程序,以此来适配机器的资源使用情况。
    • 通过增加并行性和/或增加集群中的机器数量来扩大规模。
  • GC垃圾回收
    通常,长时间的 GC 暂停会导致性能问题。您可以通过打印调试 GC 日志(通过 -XX:+PrintGCDetails)或使用一些内存/GC 剖析器来验证是否存在这种情况。由于处理 GC 问题在很大程度上取决于应用程序,且与 Flink 无关,在此不再赘述,有兴趣的可以参考Oracle 的《垃圾回收调整指南》或 Plumbr 的《Java 垃圾回收手册》。
  • CPU/线程瓶颈
    有时,如果一个或几个线程造成了 CPU 瓶颈,从而导致整个机器的 CPU 使用率相对较低,CPU 瓶颈可能一眼看不出来。例如,在 48 核机器上,单个 CPU 瓶颈线程的 CPU 使用率仅为 2%。为此,可以考虑使用代码剖析器(Code Profilers),因为它们可以通过显示每个线程的 CPU 使用率来识别占用CPU过多的线程。
  • 线程通信
    与上述 CPU/线程瓶颈问题类似,子任务也可能因共享资源上的线程竞争而出现瓶颈。在这方面,CPU Profilers 同样是你最好的助手!考虑在用户代码中查找同步开销/锁争用情况。还可以考虑调查共享系统资源。例如,JVM 的默认 SSL 实现可能会占用共享的 /dev/urandom 资源。
  • 负载不均衡
    如果瓶颈是由数据偏斜造成的,可以尝试通过改变数据分区以打散热点key,或者预聚合来消除瓶颈或减轻其影响。

实际上远不止上述列出来的这些情况。一般来说,要减少背压,首先要分析瓶颈出现的位置,然后找出原因。开始推理 "原因 "的最佳途径是检查哪些资源得到了充分利用。

数据延迟监控

在本节中,我们将关注数据记录在 Flink应用程序流动时,其在 网络协议栈(包括系统的网络连接)内的等待时间。在吞吐量较低的情况下,这些延迟会直接受到缓冲区超时参数或间接受到应用程序代码处理延迟的影响。当处理记录的时间超过预期,或(多个)定时器同时启动并阻止接收器处理接收到的记录时,网络堆栈内记录的流动时间就会大大延长。因此,强烈建议在 Flink 作业中添加自己的指标,以便更好地跟踪作业组件中的数据延迟,并更广泛地了解延迟的原因。

目前,Flink 支持追踪记录流过应用系统(用户代码之外)的延迟。不过,默认情况下是禁用的(原因见下文)。该功能默认为禁用。要启用延迟追踪功能,必须在 Flink Configuration中将metrics.latency.interval 设置为正数(默认为0)或 ExecutionConfig#setLatencyTrackingInterval() 设置延迟跟踪间隔来启用。启用后,Flink 将根据通过 metrics.latency.granularity 定义的粒度来收集延迟直方图:

  • single:每个操作符子任务对应一个直方图
  • operator(default):source任务和操作符子任务的每个组合都对应一个直方图
  • subtask:source子任务和操作符子任务的每种组合都对应一个直方图。

这些指标是通过特殊的 “延迟标记” (latency markers)来收集的:每个source子任务都会周期性地发出一条特殊记录,其中包含其创建的时间戳。然后,“延迟标记”会与正常记录一起流动,但不会在线路上或缓冲队列内超越正常记录。同时,“延迟标记”并不会进入算子逻辑,并不包含记录在操作符中的处理时间。只有当操作符算子无法接收新记录,从而导致记录在缓存中排队时,使用Latency Markers测得的延迟才会反映出来。因此,延迟标记只能测量在操作符算子之间的等待时间,而不是完整的 "端到端 "延迟。不过,用户代码会间接影响这些等待时间!

由于 LatencyMarker 和普通记录一样位于网络缓冲区中,因此它们也会等待缓冲区满或因缓冲区超时而被刷新。当通道处于高负载时,网络缓冲数据不会增加延迟。但是,一旦一个通道处于低负载状态,记录和延迟标记就会出现最多为 buffer_timeout / 2 的预期平均延迟。 这种延迟会增加通向子任务的每个网络连接,在分析子任务的延迟指标时应将其考虑在内。

通过查看每个子任务暴露的延迟跟踪指标(latency tracking metrics)(例如第 95 百分位数),您应该能够确定哪些子任务大大增加了source-to-sink的总体延迟,并继续优化这些子任务。

总结

在本文中,我们讨论了如何监控 Flink 的网络协议栈,这主要涉及识别反压:反压发生的位置、来源以及可能的原因。这可以通过两种方式实现:

  1. 使用反压监控器来观察简单场景以及调试;
  2. 使用 Flink 的任务和网络堆栈指标进行持续监控、更深入的分析,并减少运行时开销。
    反压可能是由网络层本身造成的,但在大多数情况下,是由高负载下的某些子任务造成的。通过分析上述指标,可以将这两种情况区分开来。同时,Flink还提供了一些监控资源使用情况和跟踪网络延迟的指标。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2274432.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

生物医学信号处理--随机信号的数字特征

前言 概率密度函数完整地表现了随机变量和随机过程的统计性质。但是信号经处理后再求其概率密度函数往往较难&#xff0c;而且往往也并不需要完整地了解随机变量或过程的全部统计性质只要了解其某些特定方面即可。这时就可以引用几个数值来表示该变量或过程在这几方面的特征。…

计算机网络 (31)运输层协议概念

一、概述 从通信和信息处理的角度看&#xff0c;运输层向它上面的应用层提供通信服务&#xff0c;它属于面向通信部分的最高层&#xff0c;同时也是用户功能中的最低层。运输层的一个核心功能是提供从源端主机到目的端主机的可靠的、与实际使用的网络无关的信息传输。它向高层用…

深度学习张量的秩、轴和形状

深度学习张量的秩、轴和形状 秩、轴和形状是在深度学习中我们最关心的张量属性。 秩轴形状 秩、轴和形状是在深度学习中开始使用张量时我们最关心的三个属性。这些概念相互建立&#xff0c;从秩开始&#xff0c;然后是轴&#xff0c;最后构建到形状&#xff0c;所以请注意这…

积分与签到设计

积分 在交互系统中&#xff0c;可以通过看视频、发评论、点赞、签到等操作获取积分&#xff0c;获取的积分又可以参与排行榜、兑换优惠券等&#xff0c;提高用户使用系统的积极性&#xff0c;实现引流。这些功能在很多项目中都很常见&#xff0c;关于功能的实现我的思路如下。 …

vue实现虚拟列表滚动

<template> <div class"cont"> //box 视图区域Y轴滚动 滚动的是box盒子 滚动条显示的也是因为box<div class"box">//itemBox。 一个空白的盒子 计算高度为所有数据的高度 固定每一条数据高度为50px<div class"itemBox" :st…

IEC61850遥控-增强安全选控是什么?

摘要&#xff1a;遥控服务是IEC61850协议中非常重要的一项服务&#xff0c;其通常会被应用在电源开关、指示灯、档位调节等器件的操作。 遥控是一类比较特殊的操作&#xff0c;其通过远程方式操作指定的设备器件&#xff0c;在一些重要的场景中需要有严谨的机制来进行约束&…

【Uniapp-Vue3】创建自定义页面模板

大多数情况下我们都使用的是默认模板&#xff0c;但是默认模板是Vue2格式的&#xff0c;如果我们想要定义一个Vue3模板的页面就需要自定义。 一、我们先复制下面的模板代码&#xff08;可根据自身需要进行修改&#xff09;&#xff1a; <template><view class"…

如何操作github,gitee,gitcode三个git平台建立镜像仓库机制,这样便于维护项目只需要维护一个平台仓库地址的即可-优雅草央千澈

如何操作github&#xff0c;gitee&#xff0c;gitcode三个git平台建立镜像仓库机制&#xff0c;这样便于维护项目只需要维护一个平台仓库地址的即可-优雅草央千澈 问题背景 由于我司最早期19年使用的是gitee&#xff0c;因此大部分仓库都在gitee有几百个库的代码&#xff0c;…

QThread多线程详解

本文结构如下 文章目录 本文结构如下 1.概述2.开始多线程之旅2.1应该把耗时代码放在哪里&#xff1f;2.2再谈moveToThread() 3.启动线程前的准备工作3.1开多少个线程比较合适&#xff1f;3.2设置栈大小 4.启动线程/退出线程4.1启动线程4.2优雅的退出线程 5.操作运行中的线程5.1…

深度学习数据集有没有规范或指导意见,数据集的建立都需要做哪些研究工作?

一、数据集的核心原则是什么&#xff1f; 数据集的目标&#xff1a;它需要回答“你要解决什么问题&#xff1f;” 在构建数据集之前&#xff0c;最重要的不是去采集数据&#xff0c;而是明确目标&#xff1a; 你的模型是要做图像分类&#xff0c;还是目标检测&#xff1f;是要…

前端for循环遍历——foreach、map使用

title: 前端不同类型的for循环遍历——foreach、map date: 2025-01-04 11:02:17 tags: javascript 前端不同类型的for循环遍历 场景&#xff1a;很多时候后端发来的数据是不能够完全契合前端的需求的&#xff0c;比如你要一个数据对象中的值&#xff0c;但是这个值却作为了ke…

MR30分布式 IO 在物流分拣线的卓越应用

在当今物流行业高速发展的时代&#xff0c;物流分拣线的高效与精准运作至关重要&#xff0c;而其中对于货物点数较多情况下的有效控制更是一大关键环节。明达技术MR30分布式 IO 系统凭借其独特的优势&#xff0c;在物流分拣线中大放异彩&#xff0c;为实现精准的点数控制提供了…

5 分布式ID

这里讲一个比较常用的分布式防重复的ID生成策略&#xff0c;雪花算法 一个用户体量比较大的分布式系统必然伴随着分表分库&#xff0c;分机房部署&#xff0c;单体的部署方式肯定是承载不了这么大的体量。 雪花算法的结构说明 如下图所示: 雪花算法组成 从上图我们可以看…

Android wifi常见问题及分析

参考 Android Network/WiFi 那些事儿 前言 本文将讨论几个有意思的网络问题&#xff0c;同时介绍 Android 上常见WiFi 问题的分析思路。 网络基础Q & A 一. 网络分层缘由 分层想必大家很熟悉&#xff0c;是否想过为何需要这样分层&#xff1f; 网上大多都是介绍每一层…

音视频入门基础:MPEG2-PS专题(6)——FFmpeg源码中,获取PS流的视频信息的实现

音视频入门基础&#xff1a;MPEG2-PS专题系列文章&#xff1a; 音视频入门基础&#xff1a;MPEG2-PS专题&#xff08;1&#xff09;——MPEG2-PS官方文档下载 音视频入门基础&#xff1a;MPEG2-PS专题&#xff08;2&#xff09;——使用FFmpeg命令生成ps文件 音视频入门基础…

读书笔记:分布式系统原理介绍

写在前面 已经大概三个月左右没有更新博客了&#xff0c;哈哈哈哈&#xff1b; 此博客是笔者在对《分布式系统原理介绍》进行概述&#xff0c;对于整个分布式系统协议的理解基于一些量化的指标考虑了数据的分布副本协议&#xff08;中心化/去中心化&#xff09;进行了总结&…

Dexcap复现代码数据预处理全流程(四)——demo_clipping_3d.py

此脚本的主要功能是可视化点云数据文件&#xff08;.pcd 文件&#xff09;&#xff0c;并通过键盘交互选择演示数据的起始帧和结束帧&#xff0c;生成片段标记文件 (clip_marks.json) 主要流程包括&#xff1a; 用户指定数据目录&#xff1a;检查目录是否存在并处理标记文件 -…

MBM指尖六维力触觉传感器:高灵敏度、低漂移,精准掌控力学世界

MBM指尖六维力触觉传感器是一种专为机器人设计的高性能传感器。它通过集成三轴力和三轴力矩的感知能力&#xff0c;能够精准捕捉复杂的力学信息。传感器采用MEMS与应变体复合测量技术&#xff0c;具备数字输出功能&#xff0c;显著降低漂移并减少安装偏移的影响。其紧凑轻便的设…

C#,图论与图算法,任意一对节点之间最短距离的弗洛伊德·沃肖尔(Floyd Warshall)算法与源程序

一、弗洛伊德沃肖尔算法 Floyd-Warshall算法是图的最短路径算法。与Bellman-Ford算法或Dijkstra算法一样&#xff0c;它计算图中的最短路径。然而&#xff0c;Bellman Ford和Dijkstra都是单源最短路径算法。这意味着他们只计算来自单个源的最短路径。另一方面&#xff0c;Floy…

为答疑机器人扩展问题分类与路由功能

1.意图识别 2. 构建路由模块 简单的意图识别 from chatbot import llmfrom config.load_key import load_key load_key()prompt 【角色背景】 你是一个问题分类路由器&#xff0c;需要识别问题的类型。 --- 【任务要求】 问题的类型目前有&#xff1a;公司内部文档查询、内…