【大数据】Flink 详解(二):核心篇 Ⅲ

news2024/11/25 22:29:50

Flink 详解(二):核心篇 Ⅲ

29、Flink 通过什么实现可靠的容错机制?

Flink 使用 轻量级分布式快照,设计检查点(checkpoint)实现可靠容错。

在这里插入图片描述

30、什么是 Checkpoin 检查点?

Checkpoint 被叫做 检查点,是 Flink 实现容错机制最核心的功能,是 Flink 可靠性的基石,它能够根据配置周期性地基于 Stream 中各个 Operator 的 状态 来生成 Snapshot 快照,从而将这些状态数据定期持久化存储下来,当 Flink 程序一旦意外崩溃时,重新运行程序时可以有选择地从这些 Snapshot 进行恢复,从而修正因为故障带来的程序数据状态中断。

Flink 的 Checkpoint 机制原理来自 Chandy-Lamport algorithm 算法(一种分布式快照算法)。

注意区分 State 和 Checkpoint:

1.State

  • 一般指一个具体的 Task/Operator 的状态(Operator 的状态表示一些算子在运行的过程中会产生的一些中间结果)。
  • State 数据默认保存在 Java 的堆内存中 / TaskManage 节点的内存中。
  • State 可以被记录,在失败的情况下数据还可以恢复。

2.Checkpoint

  • 表示了一个 FlinkJob 在一个特定时刻的一份全局状态快照,即包含了所有 Task/Operator 的状态。

  • 可以理解为 Checkpoint 是把 State 数据定时持久化存储了。

  • 比如 KafkaConsumer 算子中维护的 Offset 状态,当任务重新恢复的时候可以从 Checkpoint 中获取。

31、什么是 Savepoint 保存点?

保存点 在 Flink 中叫作 Savepoint,是基于 Flink 检查点机制的应用完整快照备份机制,用来保存状态,可以在另一个集群或者另一个时间点从保存的状态中将作业恢复回来。适用于 应用升级集群迁移Flink 集群版本更新A/B 测试 以及 假定场景暂停和重启、归档 等场景。保存点可以视为一个(算子 ID → State)的 Map,对于每一个有状态的算子,Key 是算子 ID,Value 是算子 State。

32、什么是 CheckpointCoordinator 检查点协调器?

Flink 中检查点协调器叫作 CheckpointCoordinator,负责协调 Flink 算子的 State 的分布式快照。当触发快照的时候,CheckpointCoordinator 向 Source 算子中注入 Barrier 消息 ,然后等待所有的 Task 通知检查点确认完成,同时持有所有 Task 在确认完成消息中上报的 State 句柄。

33、Checkpoint 中保存的是什么信息?

检查点里面到底保存着什么信息呢?我们以 Flink 消费 Kafka 数据 Wordcount 为例:

1、我们从 Kafka 读取到一条条的日志,从日志中解析出 app_id,然后将统计的结果放到内存中一个 Map 集合,app_id 做为 key,对应的 pv 做为 value,每次只需要将相应 app_idpv + 1 +1 +1 后 put 到 Map 中即可;

2、kafka topic:test;

3、Flink 运算流程如下:

在这里插入图片描述
kafka topic 有且只有一个分区。

假设 kafka 的 topic-test 只有一个分区,flink 的 Source task 记录了当前消费到 kafka test topic 的所有 partition 的 offset

例:(0,1000)表示 0 号 partition 目前消费到 offset 为 1000 的数据。

Flink 的 pv task 记录了当前计算的各 app 的 pv 值,为了方便讲解,我这里有两个 app:app1、app2。

例:(app1,50000)(app2,10000)
表示 app1 当前 pv 值为 50000
表示 app2 当前 pv 值为 10000
每来一条数据,只需要确定相应 app_id,将相应的 value 值 +1 后 put 到 map 中即可。

该案例中,CheckPoint 保存的其实就是 第 n 次 CheckPoint 消费的 offset 信息和各 app 的 pv 值信息,记录一下发生 CheckPoint 当前的状态信息,并将该状态信息保存到相应的状态后端。图下代码:(注:状态后端是保存状态的地方,决定状态如何保存,如何保障状态高可用,我们只需要知道,我们能从状态后端拿到 offset 信息和 pv 信息即可。状态后端必须是高可用的,否则我们的状态后端经常出现故障,会导致无法通过 checkpoint 来恢复我们的应用程序)。

chk-100
offset:(0,1000)
pv:(app1,50000)(app2,10000)
该状态信息表示第 100 次 CheckPoint 的时候, partition 0 offset 消费到了 1000,pv 统计。

34、当作业失败后,检查点如何恢复作业?

Flink 提供了 应用自动恢复机制手动作业恢复机制

1、应用自动恢复机制

Flink 设置有作业失败重启策略,包含三种:

  • 定期恢复策略fixed-delay):固定延迟重启策略会尝试一个给定的次数来重启 Job,如果超过最大的重启次数,Job 最终将失败,在连续两次重启尝试之间,重启策略会等待一个固定时间,默认 Integer.MAX_VALUE 次。

  • 失败比率策略failure-rate):失败比率重启策略在 Job 失败后重启,但是超过失败率后,Job 会最终被认定失败,在两个连续的重启尝试之间,重启策略会等待一个固定的时间。

  • 直接失败策略None):失败不重启。

2、手动作业恢复机制

因为 Flink 检查点目录分别对应的是 JobId,每通过 flink run 方式 / 页面提交方式恢复都会重新生成 JobId,Flink 提供了在启动之时通过设置 -s 参数指定检查点目录的功能,让新的 Jobld 读取该检查点元文件信息和状态信息,从而达到指定时间节点启动作业的目的。

启动方式如下:

/bin/flink -s /flink/checkpoints/03112312a12398740a87393/chk-50/_metadata

35、当作业失败后,从保存点如何恢复作业?

从保存点恢复作业并不简单,尤其是在作业变更(如修改逻辑、修复 Bug)的情况下, 需要考虑如下几点:

  • 算子的顺序改变。如果对应的 UID 没变,则可以恢复;如果对应的 UID 变了,恢复失败。
  • 作业中添加了新的算子。如果是无状态算子,没有影响,可以正常恢复;如果是有状态的算子,跟无状态的算子一样处理。
  • 从作业中删除了一个有状态的算子。默认需要恢复保存点中所记录的所有算子的状态,如果删除了一个有状态的算子,从保存点恢复的时候被删除的 OperatorID 找不到,所以会报错,可以通过在命令中添加 --allowNonReStoredSlale(short: -n) 跳过无法恢复的算子 。
  • 添加和删除无状态的算子。如果手动设置了 UID 则可以恢复,保存点中不记录无状态的算子。如果是自动分配的 UID ,那么有状态算子的可能会变(Flink 一个单调递增的计数器生成 UID,DAG 改变,计数器极有可能会变)很有可能恢复失败。

36、Flink 如何实现轻量级异步分布式快照?

要实现分布式快照,最关键的是能够将数据流切分。Flink 中使用 屏障Barrier)来切分数据流。 Barrierr 会周期性地注入数据流中,作为数据流的一部分,从上游到下游被算子处理。Barrier 会严格保证顺序,不会超过其前边的数据。Barrier 将记录分割成记录集,两个 Barrier 之间的数据流中的数据隶属于同一个检查点每一个 Barrier 都携带一个其所属快照的 ID 编号。Barrier 随着数据向下流动,不会打断数据流,因此非常轻量。 在一个数据流中,可能会存在多个隶属于不同快照的 Barrier ,并发异步地执行分布式快照,如下图所示:
在这里插入图片描述
Barrier 会在数据流源头被注人并行数据流中。Barrier n n n 所在的位置就是恢复时数据重新处理的起始位置。 例如,在 Kafka 中,这个位置就是最后一个记录在分区内的偏移量(offset),作业恢复时,会根据这个位置从这个偏移量之后向 Kafka 请求数据,这个偏移量就是 State 中保存的内容之一。

Barrier 接着向下游传递。当一个非数据源算子从所有的输入流中收到了快照 n n n 的 Barrier 时,该算子就会对自己的 State 保存快照,并向自己的下游 广播发送 快照 n n n 的 Barrier。一旦 Sink 算子接收到 Barrier,有两种情况:

  • 如果是引擎内严格一次处理保证,当 Sink 算子已经收到了所有上游的 Barrie n n n 时, Sink 算子对自己的 State 进行快照,然后通知检查点协调器(CheckpointCoordinator)。当所有的算子都向检查点协调器汇报成功之后,检查点协调器向所有的算子确认本次快照完成。
  • 如果是端到端严格一次处理保证,当 Sink 算子已经收到了所有上游的 Barrie n n n 时, Sink 算子对自己的 State 进行快照,并 预提交事务(两阶段提交的第一阶段),再通知检查点协调器(CheckpointCoordinator),检查点协调器向所有的算子确认本次快照完成,Sink 算子 提交事务(两阶段提交的第二阶段),本次事务完成。

我们接着 33 33 33 的案例来具体说一下如何执行分布式快照:

对应到 pv 案例中就是,Source Task 接收到 JobManager 的编号为 chk-100(从最近一次恢复)的 CheckPoint 触发请求后,发现自己恰好接收到 Kafka offset(0,1000) 处的数据,所以会往 offset(0,1000) 数据之后,offset(0,1001) 数据之前,安插一个 Barrier,然后自己开始做快照,也就是将 offset(0,1000) 保存到状态后端 chk-100 中。然后 Barrier 接着往下游发送,当统计 pv 的 task 接收到 Barrier 后,也会暂停处理数据,将自己内存中保存的 pv 信息 (app1,50000)(app2,10000) 保存到状态后端 chk-100 中。OK,Flink 大概就是通过这个原理来保存快照的。

统计 pv 的 task 接收到 Barrier,就意味着 Barrier 之前的数据都处理了,所以说,不会出现丢数据的情况。

37、什么是 Barrier 对齐?

在这里插入图片描述
上图从左至右分别表示:开始对齐,对齐,执行检查点,继续处理数据。

一旦 operator 从输入流接收到 checkpoint barrier n n n,它就不能处理来自该流的任何数据记录,直到它从其他所有输入接收到 barrier n n n 为止。否则,它会混合属于快照 n n n 的记录和属于快照 n + 1 n + 1 n+1 的记录;

如上图所示

  • 1 1 1:算子收到数字流的 Barrier,字母流对应的 Barrier 尚未到达。
  • 2 2 2:算子收到数字流的 Barrier,会继续从数字流中接收数据,但这些流只能被搁置,记录不能被处理,而是放入缓存中,等待字母流 Barrier 到达。在字母流到达前, 1 、 2 、 3 1、2、3 123 数据已经被缓存。
  • 3 3 3:字母流到达,算子开始对齐 State 进行异步快照,并将 Barrier 向下游广播,并不等待快照执行完毕。
  • 4 4 4:算子做异步快照,首先处理缓存中积压数据,然后再从输入通道中获取数据。

38、什么是 Barrier 不对齐?

Checkpoint 是要等到所有的 Barrier 全部都到才算完成。

上述图 2 2 2 中,当还有其他输入流的 Barrier 还没有到达时,会把已到达的 Barrier 之后的数据 1 、 2 、 3 1、2、3 123 搁置在缓冲区,等待其他流的 Barrier 到达后才能处理。

Barrier 不对齐:就是指当还有其他流的 Barrier 还没到达时,为了不影响性能,也不用理会,直接处理 Barrier 之后的数据。等到所有流的 Barrier 的都到达后,就可以对该 Operator 做 Checkpoint 了。

39、为什么要进行 Barrier 对齐?不对齐到底行不行?

Exactly Once 时必须 Barrier 对齐,如果 Barrier 不对齐就变成了 At Least Once

Checkpoint 的目的就是为了保存快照,如果不对齐,那么在 chk-100 快照之前,已经处理了一些 chk-100 对应的 offset 之后的数据,当程序从 chk-100 恢复任务时,chk-100 对应的 offset 之后的数据还会被处理一次,所以就出现了重复消费。

41、要实现 Exactly-Once 需具备什么条件?

流系统要实现 Exactly-Once,需要保证上游 Source 层、中间计算层和下游 Sink 层三部分同时满足端到端严格一次处理,如下图:

在这里插入图片描述
Source 端:数据从上游进入 Flink,必须保证消息严格一次消费。同时 Source 端必须满足可重放(replay)。否则 Flink 计算层收到消息后未计算,却发生 failure 而重启,消息就会丢失。

Flink 计算层:利用 Checkpoint 机制,把状态数据定期持久化存储下来,Flink 程序一旦发生故障的时候,可以选择状态点恢复,避免数据的丢失、重复。

Sink 端:Flink 将处理完的数据发送到 Sink 端时,通过 两阶段提交协议 ,即 TwoPhaseCommitSinkFunction 函数。该 SinkFunction 提取并封装了两阶段提交协议中的公共逻辑,保证 Flink 发送 Sink 端时实现严格一次处理语义。同时,Sink 端必须支持事务机制,能够进行数据回滚或者满足幂等性。

  • 回滚机制:即当作业失败后,能够将部分写入的结果回滚到之前写入的状态。
  • 幂等性:就是一个相同的操作,无论重复多少次,造成的结果和只操作一次相等。即当作业失败后,写入部分结果,但是当重新写入全部结果时,不会带来负面结果,重复写入不会带来错误结果。

42、什么是两阶段提交协议?

两阶段提交协议Two-Phase Commit2PC)是解决分布式事务问题最常用的方法,它可以保证在分布式事务中,要么所有参与进程都提交事务,要么都取消,即实现 A C I D ACID ACID 中的 A A A(原子性)。

两阶段提交协议中有两个重要角色,协调者Coordinator)和 参与者Participant),其中协调者只有一个,起到分布式事务的协调管理作用,参与者有多个。

两阶段提交阶段分为两个阶段:投票阶段Voting)和 提交阶段Commit)。

(1)投票阶段

  • 协调者向所有参与者发送 prepare 请求和事务内容,询问是否可以准备事务提交,等待参与者的响应。
  • 参与者执行事务中包含的操作,并记录 undo 日志(用于回滚)和 redo 日志(用于重放),但不真正提交。
  • 参与者向协调者返回事务操作的执行结果,执行成功返回 yes,失败返回 no

(2)提交阶段

  • 分为成功与失败两种情况。
  • 若所有参与者都返回 yes,说明事务可以提交:
    • 协调者向所有参与者发送 commit 请求。
    • 参与者收到 commit 请求后,将事务真正地提交上去,并释放占用的事务资源,并向协调者返回 ack
    • 协调者收到所有参与者的 ack 消息,事务成功完成,如下图:

在这里插入图片描述
在这里插入图片描述

  • 若有参与者返回 no 或者超时未返回,说明事务中断,需要回滚:
    • 协调者向所有参与者发送 rollback 请求。
    • 参与者收到 rollback 请求后,根据 undo 日志回滚到事务执行前的状态,释放占用的事务资源,并向协调者返回 ack
    • 协调者收到所有参与者的 ack 消息,事务回滚完成。

在这里插入图片描述
在这里插入图片描述

43、Flink 如何保证 Exactly-Once 语义?

Flink 通过 两阶段提交协议 来保证 Exactly-Once 语义。

对于 Source 端:Source 端严格一次处理比较简单,因为数据要进入 Flink 中,所以 Flink 只需要保存消费数据的偏移量(offset)即可。如果 Source 端为 Kafka,Flink 将 Kafka Consumer 作为 Source,可以将偏移量保存下来,如果后续任务出现了故障,恢复的时候可以由连接器重置偏移量,重新消费数据,保证一致性。

对于 Sink 端:Sink 端是最复杂的,因为数据是落地到其他系统上的,数据一旦离开 Flink 之后,Flink 就监控不到这些数据了,所以严格一次处理语义必须也要应用于 Flink 写入数据的外部系统,故这些外部系统必须提供一种手段允许提交或回滚这些写入操作,同时还要保证与 Flink Checkpoint 能够协调使用(Kafka 0.11 0.11 0.11 版本已经实现精确一次处理语义)。

我们以 Kafka - Flink - Kafka 为例 说明如何保证 Exactly-Once 语义。

在这里插入图片描述
如上图所示:Flink 作业包含以下算子。

  • 一个 Source 算子,从 Kafka 中读取数据(即 KafkaConsumer
  • 一个窗口算子,基于时间窗口化的聚合运算(即 window+window 函数)
  • 一个 Sink 算子,将结果写会到 Kafka(即 KafkaProducer

Flink 使用 两阶段提交协议,即 预提交Pre-commit)阶段和 提交Commit)阶段保证端到端严格一次。

1、预提交阶段

(1)当 Checkpoint 启动时,进入预提交阶段,JobManager 向 Source Task 注入检查点分界线(CheckpointBarrier),Source Task 将 CheckpointBarrier 插入数据流,向下游广播开启本次快照,如下图所示:

在这里插入图片描述
(2)Source 端:Flink Data Source 负责保存 KafkaTopic 的 offset 偏移量,当 Checkpoint 成功时 Flink 负责提交这些写入,否则就终止取消掉它们,当 Checkpoint 完成位移保存,它会将 Checkpoint Barrier(检查点分界线) 传给下一个 Operator,然后每个算子会对当前的状态做个快照,保存到 状态后端(State Backend)。

对于 Source 任务而言,就会把当前的 offset 作为状态保存起来。下次从 Checkpoint 恢复时,Source 任务可以重新提交偏移量,从上次保存的位置开始重新消费数据,如下图所示:

在这里插入图片描述
(3)Slink 端:从 Source 端开始,每个内部的 Transformation 任务遇到 Checkpoint Barrier(检查点分界线)时,都会把状态存到 Checkpoint 里。数据处理完毕到 Sink 端时,Sink 任务首先把数据写入外部 Kafka,这些数据都属于预提交的事务(还不能被消费),此时的 Pre-commit 预提交阶段下 ,Data Sink 在保存状态到状态后端的同时还必须预提交它的外部事务,如下图所示:

在这里插入图片描述
2、提交阶段

(4)当所有算子任务的快照完成(所有创建的快照都被视为是 Checkpoint 的一部分),也就是这次的 Checkpoint 完成时,JobManager 会向所有任务发通知,确认这次 Checkpoint 完成,此时 Pre-commit 预提交阶段才算完成。才正式到两阶段提交协议的第二个阶段:Commit 阶段。该阶段中 JobManager 会为应用中每个 Operator 发起 Checkpoint 已完成的回调逻辑。

本例中的 Data Source 和窗口操作无外部状态,因此在该阶段,这两个 Opeartor 无需执行任何逻辑,但是 Data Sink 是有外部状态的,此时我们必须提交外部事务,当 Sink 任务收到确认通知,就会正式提交之前的事务,Kafka 中未确认的数据就改为 “已确认”,数据就真正可以被消费了,如下图所示:

在这里插入图片描述
:Flink 由 JobManager 协调各个 TaskManager 进行 Checkpoint 存储,Checkpoint 保存在 StateBackend(状态后端) 中,默认 StateBackend 是内存级的,也可以改为文件级的进行持久化保存。

44、数的很好,很清楚,那你对 Flink 端到端 严格一次 Exactly-Once 语义做个总结。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/867873.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

四化智造MES(API)与金蝶云星空对接集成派工作业打通生产订单新增

四化智造MES(API)与金蝶云星空对接集成派工作业打通生产订单新增 对接系统:四化智造MES(API) MES建立统一平台上通过物料防错防错、流程防错、生产统计、异常处理、信息采集和全流程追溯等精益生产和精细化管理&#x…

mybatis如何生成和执行动态sql

文章目录 1. 相关代码2. SQL 语句解析全流程2.1 涉及到的重要类2.2 解析标签2.2.1 \<include>2.2.2 \<selectKey>2.2.3 处理 SQL 语句 3. 获取真正执行的sql 1. 相关代码 package com.boge.mapper;import com.boge.pojo.User;import java.util.List;public interf…

情感资源日记Resource Diary

什么是 Resource Diary &#xff1f; Resource Diary 是自托管的情感资源日记&#xff0c;允许用户跟踪特定任务的情感反应以进行趋势识别。 按照作者的设计&#xff0c;对每个任务&#xff0c;通过 /- 号来表达任务完成后的情绪&#xff0c;等级从 0 到 5 &#xff0c;其中&am…

大语言模型之三 InstructGPT训练过程

大语言模型 GPT历史文章中简介的大语言模型的的发展史&#xff0c;并且简要介绍了大语言模型的训练过程&#xff0c;本篇文章详细阐述训练的细节和相关的算法。 2020年后全球互联网大厂、AI创业公司研发了不少AI超大模型&#xff08;百亿甚至千亿参数&#xff09;&#xff0c;…

2023年中国政务云行业发展概况及发展趋势分析:政务云由基础设施建设向云服务运营转变[图]

政务云是指运用云计算技术&#xff0c;统筹利用已有的机房、计算、存储、网络、安全、应用支撑、信息资源等&#xff0c;发挥云计算虚拟化、高可靠性、高通用性、高可扩展性及快速、按需、弹性服务等特征&#xff0c;为政府行业提供基础设施、支撑软件、应用系统、信息资源、运…

QGIS3.28的二次开发六:VS不借助QT插件创建UI界面

上一篇博客我们说了在VS中如何使用QT插件来创建UI界面&#xff0c;但是我们二次开发QGIS的第一篇博客就说了&#xff0c;最好使用OSGeo4W中自动下载的QT进行QGIS二次开发&#xff0c;这样兼容性是最好的&#xff0c;那么该如何在VS中不使用外部安装的QT以及QT的VS插件情况下进行…

使用 LangChain 构建 LLM 应用详细教程(附python代码演练)

介绍 欢迎来到语言处理的未来&#xff01;在一个语言是连接人与技术的桥梁的世界中&#xff0c;自然语言处理&#xff08;NLP&#xff09;的进步为我们带来了令人难以置信的机会。其中一个重要的进步是革命性的语言模型&#xff0c;即大型语言模型&#xff08;LLM&#xff09;&…

图解java.util.concurrent并发包源码系列——Condition条件等待队列深入详解

图解java.util.concurrent并发包源码系列——Condition条件等待队列深入详解 Condition的作用Condition的原理Condition源码Condition的定义和Condition对象的获取await方法addConditionWaiter方法unlinkCancelledWaiters方法 fullyRelease方法isOnSyncQueue方法checkInterrupt…

一台阿里云服务器怎么部署多个网站?以CentOS系统为例

本文阿里云百科介绍如何在CentOS 7系统的ECS实例上使用Nginx搭建多个Web站点。本教程适用于熟悉Linux操作系统&#xff0c;希望合理利用资源、统一管理站点以提高运维效率的用户。比如&#xff0c;您可以在一台云服务器上配置多个不同分类的博客平台或者搭建多个Web站点实现复杂…

为新手和非技术人员提供扩展Web网站提供一个升级指南

本指南总结了扩展的基本原则&#xff0c;从一台服务器扩展到能够服务数百万用户的Web应用程序。它面向在技术领域工作的新手和非开发人员。因此&#xff0c;如果您刚刚部署了您的多云平台VPN设置&#xff0c;那么本文并不适合您。 话不多说&#xff0c;那就让我们开始吧&#x…

STM32CubeMX工程配置说明

一、STM32CubeMX配置 1.1 设置时钟 单片机的时钟&#xff0c;相当于人的心跳。只要单片机工作&#xff0c;必须要开启时钟&#xff01; STM32单片机共有4个时钟来源&#xff1a; 名称缩写频率外部连接功能用途特性外部高速晶体振荡器HSE4~16MHz4~16MHz晶体 系统时钟/RTC成…

流水线时序调度之规避冲突

1 写在前面的&#xff1a; 其实略微一个大点的机器&#xff0c;一个测试流程需要若干个步骤&#xff0c;都可以用流水线的思维去看待它&#xff1b; 我之前也没往流水线的角度去考虑&#xff0c;那有些机器的时序调度是不好理解的&#xff0c;甚至计算个通量都很麻烦&#xff…

p5.js 视频播放指南

theme: smartblue 本文简介 在刚接触 p5.js 时我以为这只是一个艺术方向的 canvas 库&#xff0c;没想到它还支持视频文件和视频流的播放。 本文简单讲讲如何使用 P5.js 播放视频。 播放视频文件 p5.js 除了可以使用 video 元素播放视频外&#xff0c;还支持使用 image 控件播放…

Linux 终端操作命令(3)内部命令用法

Linux 终端操作命令 内部命令用法 A- alias NAME alias - Define or display aliases. SYNOPSIS alias [-p] [name[value] ... ] DESCRIPTION Define or display aliases. Without arguments, alias prints the list of aliases in the reusable form al…

创建MySQL数据库和创建表的详细步骤(navicat)

目录 一、介绍 二、操作步骤 &#xff08;一&#xff09;新建连接 &#xff08;二&#xff09;新建数据库 &#xff08;三&#xff09;新建表 插入数据测试 对字段进行增加或者修改 三、关于MySQL的其他文章&#xff08;额外篇&#xff09; 一、介绍 在创建数据库…

(统计学习方法|李航)第一章统计学习方法概论-一二三节统计学习及统计学习种类,统计学习三要素

目录 一&#xff0c;统计学习 1.统计学习的特点 2.统计学习的对象 3.统计学习的目的 4.统计学习的方法 5.统计学习方法的研究 6.重要性 二&#xff0c;统计学习的基本种类 1.监督学习 &#xff08;1&#xff09;输入空间&#xff0c;输出空间和特征空间 &#xff08…

sklearn机器学习库(一)sklearn中的决策树

sklearn机器学习库(一)sklearn中的决策树 sklearn中决策树的类都在”tree“这个模块之下。 tree.DecisionTreeClassifier分类树tree.DecisionTreeRegressor回归树tree.export_graphviz将生成的决策树导出为DOT格式&#xff0c;画图专用tree.export_text以文字形式输出树tree.…

成像镜头均匀性校正——360°超广角均匀校准光源

随着空间技术的不断发展&#xff0c;遥感仪器在对地观测、大气探测及海洋探测等方面的应用也不断拓展&#xff0c;以实现不同任务的观测精度。空间遥感仪器热控技术旨在保证遥感器各部件所需温度水平、温度梯度和温度稳定度&#xff0c;以满足遥感器高质量成像要求。 近年来我国…

ubuntu20.04磁盘满了 /dev/mapper/ubuntu--vg-ubuntu--lv 占用 100%

问题 执行 mysql 大文件导入任务&#xff0c;最后快完成了&#xff0c;查看结果发现错了&#xff01;悲催&#xff01;都执行了 两天了 The table ‘XXXXXX’ is full &#xff1f; 磁盘满了&#xff1f; 刚好之前另一个 centos 服务器上也出现过磁盘满了&#xff0c;因此&a…

变形金刚在图像识别方面比CNN更好吗?

链接到文 — https://arxiv.org/pdf/2010.11929.pdf 一、说明 如今&#xff0c;在自然语言处理&#xff08;NLP&#xff09;任务中&#xff0c;转换器已成为goto架构&#xff08;例如BERT&#xff0c;GPT-3等&#xff09;。另一方面&#xff0c;变压器在计算机视觉任务中的使用…