深入思考 Schema 管理的几个基本问题

news2025/1/16 14:04:03

本文作者:王大龙,数据分析领域资深工程师,观远产品中一切数据的风暴降生之主,元数据世界的精神领袖,数据治理的永恒守望者。

前言

我发现理解某一个具体「事物」最好的方式是先去理解其背后所遵循的「范式」。范式是一个领域中某个行事套路,某种方法论,或者是某些踩坑经验总结。一个领域中可以有多种范式,在不同场景下,范式之间有优劣之分,一个范式能流行起来,最终成为一种「行事标准」,通常意味着它在当前「时代背景」下被大量验证过,当然,随着时间的推移(也许因为一些基础设施的发展),原来流行的范式也会过时(从早期的ETL到现在的ELT就是一个典型的例子)。

对于编程语言来说,逃不开的几个基本问题是:

  • 类型模型

  • 编程范式(过程式,函数式,面向对象等等)

  • 怎样和语言交互

  • 语言的判断结构和核心数据结构

  • 与众不同的核心特性

熟悉这些主题,从某种意义上来说,也就抓住了编程语言的本质,如果你现在要主导设计一门新的语言,你至少知道要考虑哪些基本问题,在此基础上,你可以针对目标场景给出更有竞争力的实现。

作为半路出家BI领域的我来说,日常工作中经常有「只见树木,不见森林」的感觉,比如当我想针对「某一类经常出现的问题」进行优化时,我发现自己的思考是「缺乏体系」的。其中让我感觉困惑的点在于:

  • 一开始我都不知道自己经常遇到的问题其实是一个特定领域问题,而且它并不简单

  • 「某类问题」对应的领域是什么?整个团队都有相同的认知吗?

  • 该领域中需要考虑的基本问题是什么?

这些问题最好是能有一个经验丰富且善于叙述的“前辈”指点一二,否则日常工作容易不得要领。前段时间周围同事纷纷推荐《Designing Clould Data Platforms》,我跟着读了几章后感觉找到了入门的台阶。

在我看来,这本书描述了云原生架构的设计范式,阅读过程中对于提到的概念并不陌生,但同时也把我日常遇到的问题全部串了起来。比如,作者告诉我们设计一个云原生的数据分析平台,需要考虑的基本问题是什么?

  • ingesting data from RDBMS, files, SAAS ......

  • organizing and processing data

  • metadata layer architecture

  • schema management

  • data access and security

  • observability

  • ......

而对于我接下来想和大家分享的schema management——数据分析平台一个关键子域,需要考虑的基本问题又是什么?(同时强烈推荐《聊聊云原生数据平台》,它可以帮助你构建完整的蓝图)。

为什么需要管理Schema

schema在这里指的是字段元信息,主要包含字段名称,字段类型,字段顺序,字段注释等等。

一个独立的系统是不存在schema管理问题的。比如一个常见的web系统,无论schema信息怎么变化,都是系统本身的事情。

而当上下游系统之间存在「重复的数据迁移」关系,且下游系统对schema敏感时,就出现了schema管理问题。什么意思?我们从一个「Data Warehouse(以下简称DW)加载文件数据」的例子开始讲起。

DW在加载数据过程中,数据总是先被load到DW的landing table。

landing table在DW中的作用是用来存放从数据源抽取的新数据,它的schema信息会直接仿照数据源的schema信息。

当DW完成第一次加载时,两边的schema信息将保持一致。此时如果修改数据源transaction_amount字段为transaction_total,就像这样:

那么数据加载就会失败,数据工程师此时就要开始介入并维护landing table了。这种工作模式看起来很低效对不对?

后来,随着Hadoop兴起,开始出现“schema on read”的概念。相对于DW的“schema on write”模式,Hadoop所基于的文件系统HDFS在数据写入阶段并不关心其schema信息。

schema-on-write:需要先明确schema信息,创建表,才能开始写入数据。典型代表Mysql,DW等。
schema-on-read:数据写入阶段无需关注schema信息,它就是数据拷贝的过程,只有在读取数据的时候才会开始关注schema信息。典型代表HDFS。

现在假设我们用HDFS来替换DW,看看情况有没有变好?

这次,我们把下游的ETL逻辑也加进来。ETL pipeline在运行时本质上是生成一段sql(本书所描述的clould data platform底层基于spark,所以生成的是sparkSQL),sql会引用具体的字段名称。

同样的,我们去修改数据源的字段名称,你会发现,HDFS这一层在加载新数据时并不会出错,但是最终ETL运行出错了,原因是transaction_amount字段不存在。

现在看来,具备“schema on read”机制的存储的确可以减轻数据工程师的部分工作(至少不用维护data landing的过程),但并没有真正解决schema变更所导致的问题,只不过把问题往后推了一步。

事实上,在实际应用中不同公司面对这种情况处理的方式不一样。有些大公司会在schema改变发生的当下主动提交“change request”,目的是尽可能避免或者减轻下游系统的错误,整个过程会谨慎规划,花几个星期甚至几个月的时间来完成这件事情一点也不奇怪。而在一些体量比较小的公司,他们有另外一套策略,那就是啥也不干,直到下游ETL出错,然后让数据工程师自行修改,这当然会导致很不好的用户体验。

不管怎么样,我们需要意识到,schema的变更管理在数据分析领域是不可忽视的问题。并且以上所述都是一种「手动管理」的方式,我们接下来要开始探索更聪明的做法。

Schema的管理思路

我的理解,schema的管理思路可以简单概括为「共享」和「拷贝」两种。

「共享」这种方式,也就是作者所说的schema as a contract,是一种中心化管理思路。

我们想象有这么一个Schema Registry仓库(里面存储了所有数据源的schema信息),上游数据源在每次schema变更时,都主动推送到Schema Registry,而下游数据消费者每次需要的时候来Schema Registry引用最新版本的schema。

这种做法有一些好处,比如:

  • 上下游职责边界清晰

  • 比较容易扩展新的数据消费者

  • 字段只需要维护一份就好(但这只能向后兼容数据,关于兼容问题下文会继续说明)

但想实现这种思路,有一个前提,就是数据源和数据消费者,两拨研发团队需要高度协同,简直就要像一个团队一样开发。这是一个几乎无法实现的方案,除非涉及的所有数据源都是公司内部自研系统。

剩下就是基于「拷贝」的方式了,即数据在上下游系统转移的过程中,schema信息是不断被复制的,比如数据从数据源到DW过程中,schema信息就在DW的landing table中复制了一份。

和「共享」方式相比,最大的区别在于「管理schema的职责」完全转移到了数据分析平台,而数据生产者,也就是使用数据分析平台的用户,不需要去关心这些细节。这也是接下来Schema-management实现思路的基调。

实现Schema-management module

概要

在这一小节中,我将和大家分享数据分析平台需要关注的几个基本问题

  • 数据进入平台时如何获取数据源的schema信息?(主要包括字段名称,字段类型)

字段名称容易获取,但对于像CSV,JSON这种格式的数据,我们怎么拿到数据类型?

  • 基于「拷贝」的Schema Registry的设计问题

Schema Registry是schema的仓库,需要存哪些信息?大致需要哪些接口?

  • 数据源schema变更时,如何保证平台common transformation过程中的兼容问题

关于common transformation下文会讨论

  • 数据源schema变更时,如何自动管理下游数以千计的custom transformation

关于custom transformation下文会讨论

  • 数据源schema变更时,如何自动级联变更下游其他存储的schema

数据源的数据经过ETL的处理之后,最终又被存到DW供数据消费者分析,而DW的schema如何级联变更呢?

  • 数据源schema变更时,有哪些问题是必须要用户参与手动维护的

程序不是银弹,我们需要理解哪些情况是无法被自动化的,然后思考方案如何用最优雅的方式让客户参与维护?

一个现代的云原生数据分析平台,肯定不会如此简单。

给大家展示一个被简化了的云原生数据分析平台架构,一起看下它的大致流程是怎样的?

当数据进入平台时大体上会经过三个步骤的处理:

  • 第一步,数据抽取以及data landing的过程

  • 第二步,common data transformation

  • 第三步,custom data transformation

custom data transformation指的是诸如ETL,reports等等pipeline

我们进一步细化上述第二步,什么是common data transformation?它大概负责哪些工作?

数据源数据在平台landing之后,需要做通用的转换处理:

  • Data format conversion module

数据源的格式各种各样,比如CSV,JSON,XML,甚至还有二进制数据,一个很直接的问题是后续的analytics pipelines该怎么基于这些格式构建呢?这中间需要做一层抽象和解耦,该模块的工作就是统一数据格式。而在实际应用中,我们会结合使用avro和parquet两种格式。

  • Deduplication module

这是一个比较大的话题,本书主要指重复数据清理,感兴趣的还可以了解一下MDM tools

  • Data quality checks module

按照用户的规则对数据源数据质量做检查,保证拿到的是“干净”的数据

现在,我们要新加入一个环节:Schema-management module,它需要做的事情是,检查数据源的schema信息是否已经存在Schema Registry中:

  • 如果不存在:

  • 推测新数据的schema信息

  • 将该schema信息注册到Schema Registry中,并将版本号设置为1

  • 如果存在:

  • 获取Registry中的schema信息

  • 推测新数据的schema信息

  • 对比上述两个schema信息,并以「向后兼容」的方式做combine操作(关于兼容问题下文会讨论)

  • 将最终结果以一个新的版本注册到Schema Registry中

值得注意的是,第二步和第三步都会和Schema Registry有交互,这也就意味着schema变更会影响到这两个步骤,在后面会逐步展开讨论。

Schema信息获取——字段推测

在Schema-management module中第一个基本问题是「需要有方案知道数据源的schema信息(主要包括名称和类型)」。对于RDBMS类型的数据源,schema信息是很容易获取的。但对于像CSV或者JSON这样的数据源,则需要通过「字段推测」的方式来获取。

怎么做字段推测呢?幸运的是,咱们的平台底层使用Spark作为计算框架来处理各种数据转换,spark自带一个强大的功能叫schema inference。它的大概原理是读取数据的前1000行,然后自动解析出字段的类型信息,这在解析CSV文件或者高度嵌套的JSON有非常好的表现。我们通过一个JSON生成工具得到以下数据:

使用spark shell可以快速验证「字段推测」功能。

值得注意的是,以上spark的推测结果,其实使用的是spark内部自带的类型系统,我们当然可以把这当成最终结果,但考虑到我们设计的是一个能广泛兼容的数据平台,所以我们会考虑将spark推测出来的schema信息转换成Avro Schema再存入我们的Registry当中。

上文提到在Common data transformation中有一个环节是Data format conversion,其目的是要统一数据源的数据格式,这可以给下游的Custom data transformation提供一个统一的抽象层,使得代码耦合度大幅降低。同样的,我们也希望在「数据类型」这件事情上能做到统一,广泛兼容。而Avro Schema是非常合适的选择,它支持非常多通用的原生数据类型:strings,integers, float,null等等,同时也支持复杂类型,比如records,arrays,enums等等。

下面简单展示Spark schema和Avro schema的转换方式。

Schema Registry的设计

拿到了schema信息之后,我们需要考虑的第二个基本问题是Schema Registry应该怎么设计?包括需要存哪些信息?需要提供什么接口?相信这个难不倒大家。

基本结构就是DB+API layer,我们先看下Schema Registry和其他模块的交互大概是怎样的?

  • 在数据landing的过程中,Ingestion pipelines会往Registry中增加或者更新数据

  • 而下游的transformation pipelines(如ETL)在构建过程中首先需要读取schema信息,其次,它最终的输出也是一个新的数据源,自然也会往Registry中增加数据

  • 监控工具也会周期性的检查schema的version,并给用户以提醒

此处监控schema变更的目的是什么?后面会详细讨论。

梳理清楚需求之后,大致也知道需要哪些API:

  • 根据数据源获取当前的schema版本

  • 增加新版本的schema数据

  • 更新schema基本信息

而表字段的设计可以像这样(帮助大家理解,并不一定是最终实现):

  • ID

  • Version

  • Schema

  • Created Timestamp

  • Last Updated Timestamp

值得一提的是,为什么我们要为schema记录历史版本呢?有一个直接好处是我们知道一个数据源的schema信息的历史变化情况,这对debug以及troubleshooting是有非常大的好处的。而在我们即将要讨论的兼容问题中,你会发现版本信息的另一个好处。

Schema变更场景

我们已经知道怎么获取schema信息,也知道怎么存储这些信息。是时候开始讨论schema的变更场景了。

首先考虑一个简单的问题,数据源schema可能有哪些关键变化呢?

  • 增加一个字段

  • 删除一个字段

  • 重命名字段

  • 修改字段类型

其次回忆一下,数据源schema的变更对哪些环节有影响?

我们拆解一下流程,重新理解各个环节所做的工作以及和schema的基本关系。

第一步,数据源的数据经过Ingestion layer不断写入平台,就像这样:

数据源schema的变化,对Ingestion layer并没有什么影响,它总是以最新的版本(也就是数据源当前的schema)写入数据。所以随着时间的推移,对于同一个数据源,在平台中可能存在部分老数据是用schema V1写的,部分新数据是用schema V2写的。

第二步,Common transformation pipelines,该环节需要做几个工作(除Schema management以外):

  • Data format conversion module

  • Deduplication module

  • Data quality checks module

简单理解,它需要对Ingestion layer写入的数据进行二次处理。

第三步,Custom transformation pipelines,该环节用户会自定义ETL数据处理逻辑,而ETL最终会输出一个新的数据源

有没有发现,第二步和第三步都涉及到对已有数据的读操作。既然如此,我们就不难想到会出现以下几种情况:

  • 用新版本Schema,读取新数据(肯定不会有问题)

  • 用新版本Schema,读取老数据(会出问题吗?)

  • 用老版本Schema,读取新数据(会出问题吗?)

  • 用老版本Schema,读取老数据(肯定不会有问题)

对于第一种和第四种,肯定不会有问题,那么对于中间两种呢?这里需要引入两个概念:向后兼容与向前兼容

当我们说某schema变更「向后兼容」时,它指的是,data transformation pipelines(不管是Common还是Custom)用最新版本的schema可以正常读取老数据(用老版本的schema写入的数据)。

当我们说某schema变更「向前兼容」时,它指的是,data transformation pipelines用老版本的schema可以正常读取新数据(用新版本的schema写入的数据)。

铺垫的差不多了,最后,当我们考虑「schema变更」所产生的影响时,一定要牢记一个蓝图,即在schema变更时,我们的终极目标不仅仅要保证Common transformation环节能正常读取数据,还要保证下游成百上千的ETL pipelines以及reports(仪表板),能跟着一起变更并且正常运行(下游的Custom transformation同样会依赖数据源的字段),这样可以极大的提高用户的使用体验以及效率。

Schema变更对Common Transformation Pipelines的影响

我们从Common transformation开始谈起,讨论一下「用新版本Schema,读取老数据」以及「用老版本Schema,读取新数据」分别会发生什么?

在下面的例子中,有一个单一数据源已经完成了一轮数据抽取,使用schema V1往平台写入了数据。此时数据源增加了一个字段column_3,并且通过Ingestion layer写入了新的数据。

如果Common transformation pipelines用schema V2去读取老数据会怎么样?

Avro格式定义了几种处理规则,使得schema变更可以向后兼容。在这个例子中,Avro使用schema V2读取老数据时会自动为column_3字段设置一个默认值,通常默认值是一个empty或者“null”值,当然也可以设置和字段类型相匹配的默认值,所以「增加一个字段」对Avro来说是向后兼容的

我们继续,现在假设Common transformation pipelines因为某种原因,没有立马切换新版本,而是用schema V1去读取新数据,会发生什么?

Avro会直接忽略新加的字段,当前的Common transformation piplines不会有任何问题,piplines可以在晚些时候再切换到新版本的schema。所以「删除一个字段」对Avro来说是向前兼容的。

虽然咱们的pipleline可以允许schema版本延迟切换,但我们并不建议这么干,因为用户大概率是希望能尽快看到新的字段。及时同步数据源schema变更总是好的,这会让用户感觉到咱们的数据平台是非常在意这件事情的。这也是后面我们要讨论的「监控Schema变更」的原因之一。

我们已经讨论了增加列和删除列的兼容性,那么重命名兼容性呢?相信你也想到了,其实重命名就等于删除列+增加列,对Avro来说,如果该列有默认值,那么重命名操作是前后兼容的,否则,就是前后都不兼容。

最后一种操作是修改字段类型。Avro支持promoting字段类型,保证数据不会丢失。比如Avro可以把int扩展成long,float,和double类型。你可以在该文档中了解到更多promote信息。

Schema变更对Custom Transformation Pipelines的影响

custom transformation和common transformation最大的区别在于前者开始加入了业务逻辑,而且数量上会变的很多(对于一个中大型的客户来说ETL或者reports数量往往是数以千记的),进而还会引出更多管理问题。

但在兼容性问题上两者没有本质的区别。我们还是用类似的例子说明,数据源删除了column_2,增加了column_3(也可以说是column_2重命名成了column_3)。

同样的,我们考虑几种情况,custom transformation使用老版本schema能读取新数据吗?这取决于当初创建column_2的时候有没有设置默认值,如果有,那么没问题。使用新版本schema能读取老数据吗?这同样取决于创建column_3时有设置默认值吗?如果有,那么也没问题。

我们发现,使用avro的一个最佳实践是「设置合适的默认值」,这样会最大程度上保证数据的兼容性。下面的表格详细地说明了schema变更和兼容性的关系。

下游存储的Schema级联变更

custom transformation pipeline的输出,比如ETL,可能会作为一个新的数据源,写入到DW,所以上游schema变更的时候,DW的schema怎么修改?

这个过程就需要我们自己写一些代码了,基本的思路是基于scehma management模块,根据schema的历史变更,生成对应的Alter table的sql语句。

比如我们删除字段column_2,增加了字段column_3,我们最终会生成一个类似Alter table some_table add column column_3这样的sql去DW中执行。那为什么仅增加了column_3,没有删除column_2的操作呢?因为DW包含很多有价值的历史数据,通常我们不会做删除操作。

当然还有一种更粗暴的方式,就是每次schema变更的时候,直接重建DW的表,即删除原表,然后根据新的schema重新加载所有历史数据,但这仅适用于数据量比较小的场景。

需要注意的是,很多DW在修改schema的过程中是无法查询的,所以我们要权衡修改schema的时间,否则对基于DW的报表服务将产生很大影响。

监控Schema变更

终于,我们把schema变更对common transformation,custom transformation以及下游DW的影响和对应的解决方案都讨论了一遍,我们尽全力降低了因为schema变更给用户带来的影响——保持各种data transformation pipeline正常运行状态。但我们仍然需要有一个通知机制去告诉用户字段的修改情况,这不仅仅是因为我们无法100%规避因数据不兼容导致的pipeline运行报错(比如找不到某字段),哪怕pipeline本身没报错,其最终计算的结果也可能是错的。

还是这个熟悉的例子,对于这样一个数据源,我们删除了daily_sales字段,增加了total_day_sales字段。因为daily_sales的默认值是null(设置默认值是一个很好的习惯),那么当前的pipeline是向后兼容的,它能正常运行,但结果呢?这显然不是客户想看到的数据。

对于这种问题没有更好的自动化解决方案,我们需要思考的是,怎么优雅的通知客户哪些报表可能已经出错,并让客户以最方便的方式去review和调整各种pipeline逻辑。

现有的catalog项目实现

到目前为止,我们算是对Schema management这一领域问题有了整体的了解,而在该领域有哪些现成的产品呢?

  • aws clue data catalog

  • azure data catalog

  • google clould data catalog

  • Confluent

我给大家列了一些,之所以没有在数据分析平台直接使用这些产品,是因为它们有这样那样不符合预期的地方。但作为开拓视野还是值得大家去了解的,尤其是最后一款产品,它的功能和我们本文描述的schema management非常接近,如果我们要进一步深入学习,可以看看它是怎么做的。

写在最后

假如这篇文章可以给大家带来一些价值,我希望它能帮助大家意识到该领域问题的存在,并构建对它的整体认知。日后工作中遇到该领域的问题时,眼光不再局限在一个个点状的jira task,而是能清晰的知道该问题发生在什么环节,能在一个领域体系内思考问题的原因,以及优化方案,甚至还能触类旁通,找到该领域内其他优秀产品扩展自己的思路。

在写这篇文章的过程中,原书《Designing Clould Data Platforms》的schema management章节(包括相关联的章节)已经被我反复读过很多遍。和原文相比,我几乎重新组织编排了内容,用我所理解的“循序渐进”的方式重新表达,这并不是说原文“逻辑混乱”,恰恰相反,哪怕像我这样的英文渣渣也毫无阅读障碍,只不过这是“充分理解”过程中不得不做的事情。另外,为了让大家在阅读过程中避免不必要的认知负载,我适当地做了一些知识屏蔽,如果对于一些概念仍然有疑惑,还是建议大家亲自看看这本书。

最后,如果本文有任何错误的观点都与作者无关,请在后台留言告诉我,大家一起成长。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/158950.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java-Spring集成定时器使用方法

文章目录定时器配置文件测试文件配置参数说明SpringBoot集成schedulepom.xml文件启动类运行结果定时器配置文件 spring核心配置文件 <?xml version"1.0" encoding"UTF-8"?> <beans:beans xmlns:xsi"http://www.w3.org/2001/XMLSchema-in…

python笔记之转义问题 字符串前缀 正则表达式

Python的字符串自己也用\转义 s ABC\\-001 # Python的字符串 # 对应的正则表达式字符串变成&#xff1a; # ABC\-001建议使用Python的r前缀&#xff0c;就不用考虑转义的问题了 s rABC\-001 # Python的字符串 # 对应的正则表达式字符串不变&#xff1a; # ABC\-001关于斜杠…

RGB、LVDS、MIPI和EDP接口液晶屏

RGB、LVDS、MIPI和EDP接口液晶屏概述一、RGB_TTL二、LVDS三、MIPI&#xff08;手机、平板等数码产品应用场合&#xff09;四、eDP接口&#xff08;笔记本、工控机、工业平板等应用场合&#xff0c;用来取代LVDS接口&#xff09;五、应用概述 液晶屏有RGB、LVDS、MIPI DSI和EDP等…

《MYSQL实战45讲》笔记(1-10)

1&#xff1a;一条SQL查询语句是如何执行的&#xff1f; 下面我们来结合一张图来了解MySQL的基本架构 总体来看&#xff0c;MySQL分为服务层和存储引擎两个部分。其中存储引擎负责数据的存储和提取&#xff0c;而服务层负责连接的建立、分析、优化、执行等其他步骤。 常见的…

虚幻引擎中GPU Lightmass全局光照的使用步骤

GPU Lightmass (GPULM) 是一种光烘焙方法&#xff0c;它预先计算来自具有 Stationary 或 Static 移动性的灯光的复杂光交互&#xff0c;并将该数据存储在创建的应用于场景几何体的光照贴图纹理中。GPU Lightmass 显着减少了为复杂场景计算、构建和生成光照数据所需的时间&#…

MQTT QoS 0, 1, 2 介绍

什么是 QoS 很多时候&#xff0c;使用 MQTT 协议的设备都运行在网络受限的环境下&#xff0c;而只依靠底层的 TCP 传输协议&#xff0c;并不能完全保证消息的可靠到达。因此&#xff0c;MQTT 提供了 QoS 机制&#xff0c;其核心是设计了多种消息交互机制来提供不同的服务质量&…

自监督学习之掩码自动编码器(Masked Autoencoders, MAE)——音频识别方面

自监督学习之掩码自动编码器(Masked Autoencoders, MAE)——音频识别方面 1.参考文献 《Masked Autoencoders that Listen》 2.背景 Transformers和self-supervised learning(自监督学习)占据了计算机视觉(Computer Vision,CV)和自然语言处理(natural language processing, …

百度工程师带你玩转正则

作者 | 向阳 导读 在很多技术领域&#xff0c;都有正则的身影。但许多像我一样的人&#xff0c;只闻其名。因此将正则常用知识汇总&#xff0c;便于查阅。正则表达式&#xff08;Regular Expression&#xff09;是用于描述一组字符串特征的模式&#xff0c;用来匹配特定的字符串…

机械--UG NX2007改变零件的默认颜色

UG&#xff08;现在的新版本叫NX&#xff0c;但一般人仍然沿用UG的叫法&#xff0c;下同&#xff09;&#xff0c;新建零件时&#xff0c;零件的默认颜色是橙色的&#xff0c;个人很不喜欢。 当然&#xff0c;实体化以后&#xff0c;可以改变它的颜色&#xff0c;选中实体以后…

傻瓜式裂变—竖屏视频超级原创,呆头鹅批量剪辑软件上万人使用

呆头鹅批量剪辑软件优势&#xff1a; 专业的技术开发团队&#xff0c;成熟的技术架构&#xff0c;完整的售后服务&#xff0c;我们为您解决所有的后顾之忧 .几乎涵盖市面上已知的所有剪辑功能.几乎涵盖市面上已知的所有剪辑功能.完成通知&#xff0c;运行间隔提醒&#xf…

201:vue+openlayers:加载geojson文件形成围栏,可添加、修改、删除feature,导出geojson

第201个 点击查看专栏目录 本示例的目的是介绍演示如何在vue+openlayers中实现围栏列表与图中feature双向互动功能。 利用GeoJSON().readFeatures获得到features,通过转换在地图上形成图形,通过新增、修改、删除feature,可以更改整体的features关系。点击导出可以将修改后的…

工厂安全着装识别检测算法 python

工厂安全着装识别检测算法通过Python基于YOLOv5技术&#xff0c;对现场画面中的人员着装穿戴进行实时分析检测自动抓拍存档告警。Python是一种由Guido van Rossum开发的通用编程语言&#xff0c;它很快就变得非常流行&#xff0c;主要是因为它的简单性和代码可读性。它使程序员…

现在才开始学测试晚了么

相信问这样问题的朋友&#xff0c;对软件测岗位存在着很深的误解。实际上&#xff0c;相对于其他的技术岗位来讲&#xff0c;软件测试入门可以说是相对简单的了&#xff0c;因此多晚学习都来得及。其次&#xff0c;这个行业的就业前景广阔&#xff0c;像测试主管、自动化架构师…

k8s之Service

写在前面 本文接k8s之DaemonSet 。 通过Deployment我们可以实现一直有指定个数的POD在运行&#xff0c;而通过DaemonSet可以实现在每个Node上都有一个POD在运行&#xff0c;不管是这两种方式中的哪一种&#xff0c;都是仅仅实现了有若干个POD在运行的效果&#xff0c;但是还无法…

【AdaBoost算法】

AdaBoost算法的原理介绍 AdaBoost算法核心思想 AdaBoost算法 (Adaptive Boosting) 是一种有效而实用的Boosting算法&#xff0c; 它以一种高度自适应的方法顺序地训练弱学习器。AdaBoost根据前一次的 分类效果调整数据的权重&#xff0c;上一个弱学习器中错误分类样本的权重会…

【MySQL】易忘易错函数和经典例题

目录一、函数1. UNION ALL 以及 UNIONUNION ALLUNION2. group_concat二、例题&#xff1a;1. 列转行2. 行转列3. 查找第N高的数据&#xff0c;没有则返回null一、函数 1. UNION ALL 以及 UNION union&#xff1a;对多个结果&#xff0c;去重排序 union all&#xff1a;对多个…

AB测试——原理介绍(中心极限定理、大数定理、假设检验、两类错误)

作为AB测试的学习记录&#xff0c;本文主要整理总结了AB测试背后的数学原理和一些概念解释。 1、控制变量法 基于控制变量法的思想&#xff0c;通过对比两组样本&#xff08;实验组和对照组&#xff09;的表现是否有差异&#xff0c;从而验证“变量”的作用。 借用中学生物课…

Linux常用命令——xauth命令

在线Linux命令查询工具(http://www.lzltool.com/LinuxCommand) xauth 显示和编辑被用于连接X服务器的认证信息 补充说明 xauth命令用于显示和编辑被用于连接X服务器的认证信息。 语法 xauth(选项)(参数)选项 -f&#xff1a;不使用默认的认证文件&#xff0c;而使用指定的…

动手深度学习-线性神经网络:softmax回归

目录1.分类问题2. 网络架构3.softmax运算4. 损失函数交叉熵损失函数参考教程&#xff1a;https://courses.d2l.ai/zh-v2/ 1.分类问题 从回归到多类分类&#xff1a;对类别进行一位有效编码——独热编码&#xff08;one-hot encoding&#xff09;。 独热编码是一个向量&#x…

HTTP与HTTPS的区别,HTTPS提高性能,HTTP2的新特性

目录数据传输区别安全性区别端口区别交互区别HTTPS的工作流程HTTPS的实现原理机密性完整性身份认证和不可否认HTTPS 使用流程HTTPS性能优化点HTTP2的特性向下兼容HTTP/1头部压缩二进制虚拟流、多路复用数据传输区别 http也相当于HTTP协议&#xff0c;是超文本传输协议的意思&a…