【Spark精讲】Spark on Hive性能优化

news2024/11/29 8:49:21

目录

第一章

1.1 集群配置概述

1.2 集群规划概述

第二章 Yarn配置

2.1 Yarn配置说明

yarn.nodemanager.resource.memory-mb

yarn.nodemanager.resource.cpu-vcores

yarn.scheduler.maximum-allocation-mb

yarn.scheduler.minimum-allocation-mb

第三章 Spark的配置说明

3.1 Executor配置说明

3.1.1 Executor CPU核数配置

3.1.2 Executor内存配置

3.1.3 Executor个数配置

静态分配

动态分配

3.2 Driver的配置

3.3 Spark配置实操

修改spark-defaults.conf文件

配置Spark Shuffle服务

第四章 Hive SQL执行计划

启动进程

⭐️第五章 分组聚合优化

5.1 优化前执行计划

实际运行

5.2 优化思路

5.3 优化后执行计划

实际运行

第六章 Join优化

6.1 Hive Join算法概述

Common Join

Map Join

Sort Merge Bucket Map Join

6.2 Map Join优化

6.3 Sort Merge Bucket Map Join

优化前

优化后

第七章 数据倾斜优化

7.1 数据倾斜说明

7.2 分组聚合导致的数据倾斜

7.2.2 优化思路

启用map-side聚合

启用skew groupby优化

7.3 join导致的数据倾斜

启用Skew Join优化

实操

join 倾斜优化1 map join

join 倾斜优化2 skew join

第八章 任务并行度优化

8.1 优化说明

8.2 Map阶段并行度

8.3 Reduce阶段并行度

第九章 小文件合并优化

9.1 优化说明

9.2 Map端输入小文件合并

9.3 Reduce输出小文件合并

其他优化


第一章

1.1 集群配置概述

5台节点,2台master节点,用于部署HDFS的NameNode,Yarn的ResourceManager等角色

3台worker节点,用于部署HDFS的DataNode,Yarn的NodeManager等角色

  • Master节点配置:16核,64GB
  • Worker阶段配置:32核,128GB

1.2 集群规划概述

HA模式:高可用集群

第二章 Yarn配置

2.1 Yarn配置说明

yarn.nodemanager.resource.memory-mb

一个NodeManager节点分配给Container使用的内存。

该参数的配置,取决于NodeManager所在节点的总内存容量和该节点运行的其他服务的数量。

设置为64GB,即 65535 MB。

free -m

查看空闲内存

yarn.nodemanager.resource.cpu-vcores

一个NodeManager节点分配给Container使用的CPU核数,

该参数的配置,取决于NodeManager所在节点的总CPU核数和该节点运行的其他服务。

设置为16。

yarn.scheduler.maximum-allocation-mb

单个Container能够使用的最大内存。由于Spark的yarn模式下,Driver和Executor都运行在Container中,故该参数不能小于Driver和Excutor的内存配置。

设置为16GB,即16384MB。

yarn.scheduler.minimum-allocation-mb

单个Container能够使用的最小内存

设置为512MB。

修改NodeManager节点上的yarn-site.xml

改为后重启yarn进程,查看配置

ip:8088/cluster

第三章 Spark的配置说明

3.1 Executor配置说明

3.1.1 Executor CPU核数配置

单个Executor的CPU核数,由spark.executor.cores参数决定,建议配置4~6,具体配置为多少,视具体情况而定,原则是尽量充分利用资源。

此处单个节点共有16个核可供Executor使用,则spark.executor.core配置为4最合适。原因是,若配置为5,则单个节点只能启动3个Executor,会剩余1个核未使用;

若配置为6,则只能启动2个Executor,会剩余4个核未使用。

3.1.2 Executor内存配置

Spark在Yarn模式下的Executor内存模型如下图所示:

Excutor相关的参数有:spark.executor.memeory和spark.executor.memeoryOverhead

spark.executor.memeory用于指定Executor进程的堆内存大小,这部分内存用于任务的计算和存储;

spark.executor.memeoryOverhead用于指定Executor进程的堆外内存,这部分内存用于JVM的额外开销,操作系统的开销等。两者的和才算一个Executor进程所需要的总内存大小。默认情况下spark.executor.memeoryOverhead的值等于spark.executor.memeory*0.1。

以上两个参数的推荐配置思路是,先按照单个NodeManager的核数和单个Executor的核数,计算出每个NodeManager最多能运行多少个Executor。在将NodeManager的总内存平均分配给每个Executor,最后再将单个Executor的内存按照大约10:1的比例分配到spark.executor.memeory和spark.executor.memeoryOverhead。

经计算,此处应该做如下配置

64 ➗ 4 = 16GB

spark.executor.memeory 14GB

spark.executor.memeoryOverhead 2GB

3.1.3 Executor个数配置

此处的Executor个数是指分配给一个Spark应用的Executor个数,Executor个数对于Spark应用的执行速度有多大的影响,所以Executor个数的确定十分重要。

一个Spark应用的Executor个数的指定方式有两种:静态分配和动态分配。

静态分配

可通过spark.executor.instances指定一个Spark应用启动的Executor个数。这种方式需要自行估计每个Spark应用所需要的资源,并为每个应用单独配置Executor个数。

动态分配

动态分配可根据一个Spark应用的工作负载,动态的调整其所占用的资源(Executor个数)。这意味着一个Spark应用程序可以在运行的过程中,需要时,申请更多的资源(启动更多的Executor),不用时,便将其释放。

在生产集群中,推荐使用动态分配。动态分配相关参数如下:

#启动动态分配

spark.dynamicAllocation.enabled true

#启用Spark shuffle服务

spark.shuffle.service.enabled true

#spark shuffle老版本协议

spark.shuffle.useOldFetchProtocol true

#Executor 个数初始值

spark.dynamicAllocation.initialExecutors 1

#Executor 个数最小值

spark.dynamicAllocation.minExecutores 1

#Executor 个数最大值

spark.dynamicAllocation.maxExecutores 12

#Executor 空闲时长,若某Executor空闲时间超过此值,则会被关闭

spark.dynamicAllocation.executorIdleTimeout 60s

#积压任务等待时长,若有Task等待时间超过此值,则申请启动新的Executor

spark.dynamicAllocation.schedulerBacklogTimeout 1s(可调高到10s)

说明:spark shuffle服务的作用是管理Executor中的各Task的输出文件,主要是shuffle过程map端的输出文件。由于启动资源动态分配后,Spark会在一个应用未结束前,将已经完成任务,处于空闲状态的Executor关闭。Executor关闭后,其输出的文件,也就无法供其他Executor使用了。需要启动Spark shuffle服务,来管理各Executor输出的文件,这样就能关闭空闲的Executor,而不影响后续的计算任务了。

3.2 Driver的配置

Driver主要配置内存即可,相关的参数有spark.driver.memeory和spark.driver.memoryOverhead。

spark.driver.memeory用于指定Driver进程的堆内存大小,

spark.driver.memoryOverhead用于指定Driver进程的堆外内存大小。默认情况下,两者的关系如下:

spark.driver.memoryOverhead=spark.driver.memeory*0.1

两者的和才算一个Driver进程所需要的总内存大小。

一般情况下,按照如下经验进行调整即可:假定yarn.nodemanager.resource.memory-mb设置为X,

  • 若X > 50G,则Driver可设置为12G
  • 若12G < X < 50G,则Driver可设置为4G
  • 若1G < X < 12G,则Driver可设置为1G

此处yarn.nodemanager.resource.memory-mb为64GB,则Driver的总内存可分配12G,所有以上两个参数可以配置为

spark.driver.memory 10G

spark.yarn.driver.memoryOverhead 2G

3.3 Spark配置实操

修改spark-defaults.conf文件

修改$HIVE_HOME/conf/spark-defautls.conf

spark.master yarn

spark.eventLog.enabled true

spark.eventLog.dir hdfs://myNameService1/spark-history

spark.executor.cores 4

spark.executor.memory 14g

spark.executor.memoryOverhead 2g

spark.driver.memory 10g

spark.driver.memoryOverhead 2g

spark.shuffle.service.enabled true

spark.shuffle.useOldFetchProtocol true

spark.dynamicAllocation.eanbled true

spark.dynamicAllocation.executorIdleTimeout 60s

spark.dynamicAllocation.initialExecutors 1

spark.dynamicAllocation.minExecutors 1

spark.dynamicAllocation.maxExecutors 11 (12减掉1个driver)

spark.dynamicAllocation.schedulerBacklogTimeout 1s(可调高到10s)

修改hadoop100节点的配置即可,也可以5台都配置,因为HiveServer2在hadoop100节点,连哪台哪台生效

配置Spark Shuffle服务

spark shuffle服务的配置因Cluster Manager(standalone、Mesos、Yarn)的不同而不同。此处以Yarn作为Cluster Manager。

1.拷贝$SPARK_HOME/yarn/spark-3.0.0-yarn-shuffle.jar到$HADOOP_HOME/share/hadoop/yarn/lib

2.分发

$HADOOP_HOME/share/hadoop/yarn/lib/yarn/spark-3.0.0-yarn-shuffle.jar

3.修改$HADOOP_HOME/etc/hadoop/yarn-site.xml文件

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle,spark_shuffle</value>
</property>

<property>
<name>yarn.nodemanager.aux-services.spark_shuffle.class</name>
<value>org.apache.spark.network.yarn.YarnShuffleService</value>
</property>

4.分发$HADOOP_HOME/etc/hadoop/yarn-site.xml文件

5.重启Yarn

第四章 Hive SQL执行计划

Hive SQL的执行计划,可由Explain查看。

Expalin里呈现的执行计划,由一系列的Stage组成,这个Stage具有依赖关系,每个Stage对应一个MapReduce Job或者Spark Job,或者一个文件系统操作等。

每一个Stage由一系列的Operator组成,一个Operator代表一个逻辑操作,例如TableScan Operator,Select Operator,Join Operator等。

解析器(检查 语法的正确性)->编译器(生产逻辑执行计划)->优化器(优化后的逻辑执行计划)->

Stage与Operator的对应关系如下图:

stage 1

operator 1

operator 2

stage 2

operator 1

operator 2

启动进程

start-hdfs.sh

start-yarn.sh

nohup hiveserver2 &

⭐️第五章 分组聚合优化

SELECT
	coupon_id,
  count(1)
FROM
	dwd_trade_order_detail_inc
WHERE
	dt = '20230-06-16'
GROUP BY
	coupon_id;

40G大小,加载到内存有160G左右

5.1 优化前执行计划

实际运行

运行时间:54秒

5.2 优化思路

优化思路为map-side聚合。所谓map-side聚合,就是在map端维护一个hash table,利用其完成分区内的、部分的聚合,然后将部分聚合的结果,发送至reduce端,完成最终的聚合。map-side聚合能有效减少shuffle的数据量,提高分组聚合运算的效率。

map-side聚合相关参数如下:

--启用map-side聚合
set hive.map.aggr=true;

--hash map占用map端内存的最大比例,超过会落盘,最后一个参数
set hive.map.aggr.hash.percentmemory=0.5;

--用于检测源表是否适合map-side聚合的条数
set hive.groupby.mapaggr.checkinterval=100000;

--map-side聚合所用的HashTable,占用map任务堆内存的最大比例,若超出该值,则会对HashTable进行一次flush
set hive.map.agggr.hash.force.flush.memory.treshold=0.9;

5.3 优化后执行计划

实际运行

优化后8秒~20秒

第六章 Join优化

6.1 Hive Join算法概述

Hive拥有多种join算法,包括:Common Join,Map Join, Sort Merge Bucket Map Join等。

Common Join

Map端负责读取参与join表的数据,并按照关联字段进行分区,将其发送到Reduce端,Reduce端完成最终的关联操作。即Reduce Join

Map Join

若参与的Join表中,有n-1张足够小,Map端就会缓存小表全部数据,然后扫描另外一张大表,在Map端完成关联操作。

Sort Merge Bucket Map Join

若参与join的表均为分桶表,切关联字段为分桶字段,且分桶字段是有序的,且大表分桶数量是小表分桶数量的整数倍。此时,就可以以分桶为单位,为每个Map分配任务了,Map端就无需再缓存小表的全部数据了,而只需缓存其需的分桶。

比如,用户表12G,用户订单表120G,这两个进行Join时可以采用该优化手段

6.2 Map Join优化

Map Join相关参数

--启用map join自动转换,默认为true
set hive.auto.convert.join = true

--common join 转 map join小表阈值,10MB
set hive.auto.convert.join.noconditionaltask.size = 10000000

可以通过以下命令获取表的大小

desc formatted table_name;

参看rawDataSize

6.3 Sort Merge Bucket Map Join

示例SQL

SELECT
	*
 FROM (
   SELECT
     *
   FROM dim_user_zip --12GB
   WHERE
     dt = '9999-12-31'
 ) duz
 JOIN (
  	SELECT
     *
    FROM
     dwd_trade_order_detail_inc --160GB
    WHERE
     dt = '2020-06-16'
 ) dtodi
 ON duz.user_id = dtodi.user_id;
优化前

上述SQL语句共有两张表一次join操作,故优化前的执行计划应包含一个Common Join任务,通过一个MapReduce Job实现。

优化前运行:230秒(3分钟35秒)

优化后

经分析,参与join的两张表,数据量如下

表名

大小

dwd_trade_order_detail_inc

160GB

dim_usr_zip

12GB

两张表都相对较大,可以考虑采用SMB Map Join对分桶大小是没有要求的。下面演示如何使用SMB Map Join。

首先需要依据源表创建两个的有序的分桶表,dwd_trade_order_detail_inc建议分36个bucket,dim_usr_zip建议分6个bucket,注意分桶个数的倍数关系以及分桶字段和排序字段。

--订单明细表
dorp table if exists dwd_trade_order_detail_inc_bucketed;
create table dwd_trade_order_detail_inc_bucketed(
  id string,
  order_id string,
  user_id string,
  sku_id string,
  province_id string
  ....
) clustered by (user_id) 
sorted by (user_id) into 36 buckets
row format delimited fields terminated by '\t';

--用户表
dorp table if exists dim_usr_zip_bucketed;
create table dim_usr_zip_bucketed (
  id string,
  login_name string,
  nick_name string,
  name string
  ...
) clustered by (id) 
sorted by (id) into 6 buckets
row format delimited fields terminated by '\t';

然后向两张分桶表导入数据

--订单明细表
insert overwrite table dwd_trade_order_detail_inc_bucketed
select
	id,
  order_id,
  user_id,
  ...
from
	dwd_trade_order_detail_inc
where
	dt = '2020-06-16';

 
--用户表
insert overwrite table dim_usr_zip_bucketed
select
	id,
  login_name,
  nick_name,
  ...
from
	dim_usr_zip
where
	dt = '9999-12-31';

然后设置以下参数

--启用Sort Merge Bucket Map Join优化
set hive.optimize.bucketmapjoin.sortedmerge=true;
--使用自动转换SMB join
set hive.auto.convert.sortmerge.join=true;

然后再重写SQL如下

select
	*
from
	dwd_trade_order_detail_inc_bucketed od
join 
	dim_usr_zip_bucketed duser
on 
	od.user_id = duser.id;

优化后的执行计划如图所示

实际运行:100秒

第七章 数据倾斜优化

7.1 数据倾斜说明

数据往往都是倾斜的

数据倾斜问题,通常是指参与计算的数据分布不均,即某个key或者某些key的数据量远超其他key,导致在shuffle阶段,大量相同的key数据被发往一个reduce,进而导致该reduce所需的时间远超其他reduce,成为整个任务的瓶颈。

Hive中的数据倾斜常出现在分组聚合和join操作的场景中,下面分别介绍在上述两种场景下的优化思路。

7.2 分组聚合导致的数据倾斜

select
	provice_id,
  count(*)
from
	dwd_trade_order_detail_inc
where
	dt = '2020-06-16'
group by provice_id;--某一省份9900万条

7.2.2 优化思路

分组聚合导致的倾斜主要有两种优化思路

启用map-side聚合

相关参数如下

--启用map-side聚合,默认是开启的
set hive.map.aggr=true;
--hash map占用map端内存的最大比例
set hive.map.aggr.hash.percentmemory=0.5;

启用map-side聚合后的执行计划如下图所示:

启用skew groupby优化

其原理是启动两个MR任务,第一个MR按照随机数分区,将数据分散发送到Reduce,完成部分聚合,第二个MR按照分组字段分区,完成最总聚合。

相关参数如下:

--启用分组聚合数据倾斜优化
set hive.groupby.skewindata=true;

--实际测试时注意把map-side聚合关闭
set hive.map.aggr=false;

启用skew groupby优化后的执行计划如下图所示:

实际运行34秒,提升60%

总结:优选map-side聚合,执行步骤少,更优

7.3 join导致的数据倾斜

示例SQL如下

select
	*
from
(
	select
    *
  from
    dwd_trade_order_detail_inc
  where
    dt = '2020-06-16'
) fact
join (
	select
    *
  from
    dim_province_full
  where
    dt = '2020-06-16'
) dim
on fact.provice_id = dim.id;

启用Skew Join优化

map join适用于小表,skew join适用于大表

map join参考:《浅谈Hive中Map Join原理及场景》、《hive之Map Join使用方法》

相关参数如下:

--启用skew join优化
set hive.optimize.skewjoin=true;
--触发skew join的阈值,若某个key的行数超过该参数值,则触发
set hive.skewjoin.key=100000;
--某个key多少行数据必须在实际运行中进行统计才行,不像mapjoin运行前已经知道

需要注意的是,skew join只支持inner join

实操

优化前,确保以下设置是关闭的,实际运行24分钟

--关闭map join
set hive.auto.convert.join=false;
--关闭skew join
set hive.optimize.skewjoin=false;

join 倾斜优化1 map join

优化前,确保以下设置是关闭的,实际运行1分钟30秒

--开启map join
set hive.auto.convert.join=true;
--关闭skew join
set hive.optimize.skewjoin=false;

join 倾斜优化2 skew join

优化前,确保以下设置是关闭的,实际运行19分钟25秒

--关闭map join
set hive.auto.convert.join=false;
--开启skew join
set hive.optimize.skewjoin=true;

第八章 任务并行度优化

8.1 优化说明

对于一个分布式的计算任务而言,设置一个合适的并行度十分重要。在Hive中,无论其计算引擎是什么,所有的计算任务都可以分为Map阶段和Reduce阶段。所以并行度的调整,也可以从上述两个方面进行调整。

8.2 Map阶段并行度

Map端的并行度,也就是Map的个数。是由输入文件的切片数决定的。一般情况下,Map端的并行度无需手动调整。Map端的并行度相关设置参数如下:

--可将多个小文件切片,合并为一个切片,进而由一个Map任务处理
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

--一个切片的最大值
set mapreduce.input.fileinputformat.split.maxsize=256000000;

8.3 Reduce阶段并行度

Reduce端的并行度,相对来说,更需要关注。默认情况下,Hive会根据Reduce端的输入数据大小,估算一个Reduce并行度。但是在某些情况下,其估值不一定是最合适的,故需要人为调整其并行度。

Reduce并行度相关参数如下:

--指定Reduce端并行度,默认为-1,表示用户未指定
set mapreduce.job.reduces;
--Reduce端并行度,最大值,默认值1009
set hive.exec.reducers.max;
--单个Reduce Task计算的数据量,用于估算Reduce并行度,默认值256MB
set hive.exec.reducers.bytes.per.reducer;

Reduce端的并行度确认逻辑为,若指定参数mapreduce.job.reduces为一个非负整数,则Reduce并行度为指定值。否则,Hive会自行估算Reduce并行度,估算逻辑如下:

假设Reduce端输入的数据量为 totalInputBytes

参数 hive.exec.reducers.bytes.per.reducer 的值为 bytesPerReducer

参数 hive.exec.reducers.max 的值为 maxReducers

则Reducer端的并行度为

乘以2是因为Spark尽可能让Reduce多一点

explain时由于没有真正执行map,所以是那map的输入数据量来估算的。需要增加参数来让估算变准。

其中Reduce端输入的数据量大小,是从Reduce上游的Operator的Statistics统计信息中获取的。为保证Hive能够获得准确的统计信息,需配置如下参数:

--执行DML语句时,收集表基本的统计信息,默认为true
set hive.stats.autogather=true;

--执行DML语句时,收集字段基本的统计信息,默认为true
set hive.stats.column.autogather=true;

--计算Reduce并行度时,从上游Operator统计信息获得输入数据量,默认为true
set hive.spark.use.op.stats=true;

--计算Reduce并行度时,从上游Operator统计信息获得输入数据量,默认为false
set hive.spark.fetch.column.stats=true;

第九章 小文件合并优化

9.1 优化说明

小文件合并优化,分为两方面,分别是map端输入的小文件合并,和reduce端输出的小文件合并。

9.2 Map端输入小文件合并

合并map端输入的小文件,是指将多个小文件划分到一个切片中,进而由一个Map Task去处理。目的是防止为单个小文件启动一个Map Task,浪费计算资源。

相关参数:

--可将多个小文件切片,合并为一个切片,进而由一个map任务处理
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

9.3 Reduce输出小文件合并

合并Reduce端输出的小文件,是指将多个小文件合并成大文件。目的是减少HDFS小文件的数量。

相关参数为:

--开启合并 Hive on Spark 任务输出的小文件
set hive.merge.sparkfiles=true;

其他优化

参考:

  • 《Tuning Apache Hive on Spark in CDH》Tuning Apache Hive on Spark in CDH | 6.3.x | Cloudera Documentation
  • 《Hive on Spark: Getting Started》
    https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1356505.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在Ubuntu22.04上部署Stable Diffusion

在AI绘画软件领域Stable-Diffusion&#xff08;简称SD&#xff09;在开源领域绝对是不二之选&#xff0c;他的插件方式可以让此软件具有更多的功能&#xff0c;开发者社群为此提供了大量免费高质量的外接预训练模型&#xff08;fine-tune&#xff09;和插件&#xff0c;并持续维…

深耕汽车检测设备领域,引领行业技术革新

在汽车工业飞速发展的今天&#xff0c;汽车检测技术作为保障车辆安全、提升维修效率的重要手段&#xff0c;日益受到行业内外的高度关注。康士柏汽车检测线设备厂家&#xff0c;作为这一领域的佼佼者&#xff0c;凭借其深厚的技术积累和卓越的产品品质&#xff0c;正引领着行业…

傅里叶级数、傅里叶变换、小波变换、离散余弦变换的理解

目录 1. 傅里叶级数2.傅里叶变换 1. 傅里叶级数 功能&#xff1a;能把任意周期性函数展开成一系列正弦、余弦函数的和。 公式&#xff1a; f ( x ) a 0 2 ∑ n 1 ∞ ( a n cos ⁡ ( 2 π n x T ) b n sin ⁡ ( 2 π n x T ) ) 傅里叶系数 a n 2 T ∫ x 0 x 0 T f ( x )…

即时设计:一键查看设计稿与页面差异,让设计师的工作更便捷高效

设计稿走查 在设计工作中&#xff0c;对设计稿和实际页面进行对比是必不可少的环节。然而&#xff0c;传统的对比方式往往耗时耗力&#xff0c;无法精确测量差异。为了解决这个问题&#xff0c;我们推出了一款强大的工具&#xff0c;它可以通过图片对比&#xff0c;轻松查看设…

【ESP32接入语言大模型之通义千问】

1. 通义千问 讲解视频&#xff1a; ESP32接入语言大模型之通义千问 随着人工智能技术的不断发展&#xff0c;自然语言处理领域也得到了广泛的关注和应用。通义千问由阿里云开发&#xff0c;目标是帮助用户获得准确、有用的信息&#xff0c;解决他们的问题和困惑&#xff0c;也…

Debian12使用Xshell连接失败解决办法详细

1、Debian开启ssh服务 sudo apt update -y sudo apt install ssh2、编辑配置文件 # 安装vim sudo apt install vimvim /etc/ssh/sshd_config3、将#PermitRootLogin prohibit-password的注释去掉&#xff0c;设置为yes 4、将#PasswordAuthentication no的注释去掉&#xff0c;…

爬虫工具(tkinter+scrapy+pyinstaller)

需求介绍输入&#xff1a;关键字文件&#xff0c;每一行数据为一爬取单元。若一行存在多个and关系的关键字 &#xff0c;则用|隔开处理&#xff1a;爬取访问6个网站的推送&#xff0c;获取推送内容的标题&#xff0c;发布时间&#xff0c;来源&#xff0c;正文第一段&#xff0…

进程和计划任务-------后续(二)

一、进程管理 1.进程启动---------- 前台启动与后台启动 进程需要手动启动 前台启动&#xff08;运行&#xff09;&#xff1a;通过终端启动&#xff0c;且启动后一直占据终端&#xff08;影响当先终端的操作&#xff09; 后台启动&#xff1a;可通过终端启动&#xff0c;但启…

【KingbaseES】实现MySql函数Median

本方法只支持在聚合函数窗口中调用 不支持在GROUP BY中使用&#xff0c;使用plsql写的玩意新能都会稍微差一些 建议使用原生方法修改 CREATE OR REPLACE FUNCTION _final_median(numeric[])RETURNS numeric AS $$SELECT AVG(val)FROM (SELECT valFROM unnest($1) valORDER BY …

vue保姆级教程----深入了解 Vue3路由守卫

&#x1f4e2; 鸿蒙专栏&#xff1a;想学鸿蒙的&#xff0c;冲 &#x1f4e2; C语言专栏&#xff1a;想学C语言的&#xff0c;冲 &#x1f4e2; VUE专栏&#xff1a;想学VUE的&#xff0c;冲这里 &#x1f4e2; CSS专栏&#xff1a;想学CSS的&#xff0c;冲这里 &#x1f4…

Power Automate删除SharePoint Online或OneDrive for Business文件版本历史

SharePoint Online和OneDrive for Business支持版本控制&#xff0c;可以保留文件的版本历史&#xff0c;方便用户随时查看和恢复以前的版本。但该功能也会占用大量SharePoint Online或OneDrive for Business存储空间。官方删除版本历史的方法无法批量操作&#xff0c;故今天提…

【linux学习】个人计算机架构

1. 个人计算机架构 个人计算机的架构通常是x86架构&#xff0c;主流的x86架构的CPU供应商主要为Intel。下图为Intel的主机板。 图1.1 主机板及其各组件 主机板上包括的组件有&#xff1a;CPU、主内存&#xff08;RAM&#xff09;、磁盘设备&#xff08;IDE/SATA&#xff09;、…

03-微服务-Ribbon负载均衡

Ribbon负载均衡 1.1.负载均衡原理 SpringCloud底层其实是利用了一个名为Ribbon的组件&#xff0c;来实现负载均衡功能的。 那么我们发出的请求明明是http://userservice/user/1&#xff0c;怎么变成了http://localhost:8081的呢&#xff1f; 1.2.源码跟踪 为什么我们只输入…

2007-2019年中国人口与就业统计年鉴, pdf、xls不定,多项指标可查,可预览后下载

数据名称: 中国人口与就业统计年鉴 数据格式: pdf、xls不定 数据时间: 2007-2019年 数据几何类型: 文本 数据坐标系: —— 数据来源&#xff1a;国家统计局 数据字段: —— 数据预览 目录第一部分 综合数据1-1 分地区年末人口数1-2 按性别分人口数1-3 人口年龄结构…

深入理解CRON表达式:时间调度的艺术

&#x1f604; 19年之后由于某些原因断更了三年&#xff0c;23年重新扬帆起航&#xff0c;推出更多优质博文&#xff0c;希望大家多多支持&#xff5e; &#x1f337; 古之立大事者&#xff0c;不惟有超世之才&#xff0c;亦必有坚忍不拔之志 &#x1f390; 个人CSND主页——Mi…

解析《个人信息保护法》实施以来主要的变化

文章目录 前言一、二十一部配套的立法二、数据入表三、跨境规则转向四、未成年个人信息保护五、数据交易六、监管创新七、执法全覆盖八、地方聚焦场景执法九、个人信息保护诉讼十、个人信息保护公益诉讼十一、包容审慎十二、双清单上线十三、外部独立监督机构十四、个性化推荐便…

Unity中URP下的线性雾

文章目录 前言一、线性雾 雾效因子二、MixFog1、ComputeFogIntensity 雾效强度计算2、雾效颜色混合 lerp(fogColor, fragColor, fogIntensity); 前言 在之前的文章中&#xff0c;我们实现了URP下的雾效支持。 Unity中URP下的添加雾效支持 在上一篇文章中,我们解析了 URP 下统…

多技术融合在生态系统服务功能社会价值评估中的应用及论文写作、拓展分析

生态系统服务是人类从自然界中获得的直接或间接惠益&#xff0c;可分为供给服务、文化服务、调节服务和支持服务4类&#xff0c;对提升人类福祉具有重大意义&#xff0c;且被视为连接社会与生态系统的桥梁。自从启动千年生态系统评估项目&#xff08;Millennium Ecosystem Asse…

Springboot通过profiles切换不同环境使用的配置

文章目录 简介1.通过分隔符隔离2.通过使用不同的配置文件区分3.测试 简介 一个项目从开发到上线一般要经过几个环境, dev测试环境-uat预生产环境-prod生产环境&#xff0c;每个环境的使用的数据库或者配置不同&#xff0c;这时候可以通过下面两种方式区分配置,达到快速切换的效…

node.js安装web3.js

第一步 node.js和npm 首先你需要有node.js和npm 可参考菜鸟教程 第二步 初始化nodejs项目 在项目文件夹打开命令行&#xff0c;输入 npm init -y此代码意为创建一个nodejs项目&#xff0c;默认配置。 然后安装web3.js&#xff0c;命令行输入安装命令 npm install web3npm会…