大数据系统调优:从DAG到单机

news2024/9/24 0:12:25

目标:优化T10的时效性
全局DAG调度层优化:提前任务开始时间:
1. 优化慢结点:T10依赖了T4,T7,T8, 其中T8为瓶颈,如果T8能提前点完成,T10可以早点开始,就能早点完成
        2. 快结点做更多预计算:T10中依赖T4,T7的计算部分独立出一个任务T47,在T8完成前,先计算好T47,然后T10只需要在T47和T18的基础上做运算即可
 
控制任务粒度:平衡I/O与计算时间和复用
1.大任务分裂:如T7中是否存过于复杂的计算,可否拆成两个任务
        2.小任务合并:T5,T8任务能否合并,减少中间落地I/O,提前完成时间
        3.提取多个任务中的重复计算部分

单任务执行DAG优化:
提前过滤:
1. T4中可能存在大量数据,但是T10中有过滤(如去重,filter)将过滤功能提前到T4,或者T4后接个过滤任务
2. join后unique 改为join前对每个表进行unique再join

shuffle(join,unique,groupby)优化提高资源利用率:提高CPU,内存利用率,降低磁盘,网络I/O
        1. 磁盘:使用bcast, pseek,流式去重等,避免使用磁盘 流式join避免了sort,攒数据等待
2. 网络:预先分桶,避免shuffle网络开销。 过滤放在shuffle前,提前降低数据量。
        3. A join B再join C,能否优化为A join (B,C), 同时joinB,C,一次出结果,前提是join key得一样

单机性能:
1. 火焰图分析性能瓶颈,优化UDF,UDTF,UDAF等
  2.执行框架优化:push/pull, 火山模型。向量计算,单条转小批(batch)处理

长尾优化:
1. 文件动态分发
        2. 单文件split
        3. shuffle key 尽量随机,避免数据倾斜

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2158846.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android Studio 真机USB调试运行频繁掉线问题

一、遇到问题 Android Studio使用手机运行项目时,总是频繁掉线,连接很不稳定,动不动就消失,基本上无法使用 二、问题出现原因 1、硬件问题:数据线 换条数据线试试,如果可以,那就是数据线的…

如何登录通义灵码,快速开启AI编码之旅?

通义灵码个人版开发者可以使用阿里云账号登录通义灵码 IDE 端插件,本文介绍个人版开发者登录 IDE 端插件的操作指南。 登录通义灵码 步骤 1:准备工作 已成功注册阿里云账号,具体操作可参考:账号注册(PC端)…

通信工程学习:什么是SDN软件定义网络

SDN:软件定义网络 SDN(Software Defined Network),即软件定义网络,是一种新兴的网络架构和技术,它实现了网络控制平面与数据转发平面的分离,并通过软件平台进行集中控制和管理。以下是SDN的详细…

02 BlockChain-- ETH

以太坊与比特币有什么不同? 以太坊立足比特币创新之上,于 2015 年启动,两者之间有一些显著不同。 从宏观的方面: 比特币就仅仅是比特币;以太坊(Ethereum)包括以太币(Ether&#x…

ubuntu中如何查看类型(函数)定义的头文件

问题: 1.该如何查找函数,或者数据类型的头文件? 方法: 1.使用vim搭配ctags 2.使用vscode 使用vscode查看头文件位置的步骤: 1.例如下图,我想添加包含file_operations的头文件 2.双击选中数据类型&#xf…

network request to https://registry.npmjs.org/xxx failed, reason: connect ETIM

目录: 1、问题描述2、解决方案3、npm镜像仓库替换 1、问题描述 npm install 时,报错:npm ERR! network request to https://registry.npmjs.org/postcss-pxtorem failed, reason: connect ETIMEDOU npm ERR! code ETIMEDOUT npm ERR! errno…

DSP学习00-F28379D学习准备(了解一个工程的构成)

叠甲 我也算初学F28379D,不对之处请大家斧正。不同型号的DSP在外设配置的函数上有一些区别,但是掌握一种对其他型号的来说则难度不大。对于我们而言学习DSP最终还是要用于算法验证,而DSP资源的最大化利用、代码效率提升等则是后话。 软件准…

【ASE】第一课_双面着色器

今天我们一起来学习ASE插件,希望各位点个关注,一起跟随我的步伐 今天我们来学习双面着色器,对颜色和贴图进行差值,双面显示不同的效果 最终效果: 思路: 1.先确定前后面的贴图和颜色 贴图(Alb…

华为高级交换技术笔记 2024-2025

2024-2025 一、9/31.通信模型和封装2.以太网3.MAC地址4.以太网帧5.MAC地址表的建立 二、9/61.交换机的数据的处理2.以太网帧的分类3.广播域4.vlan技术开发背景 一、9/3 1.通信模型和封装 2.以太网 3.MAC地址 4.以太网帧 5.MAC地址表的建立 二、9/6 1.交换机的数据的处理 2.以…

[SAP ABAP] 数据字典外键关联

SE11创建自定义数据库表 学校表(ZDBT_SCH_437) 表有3个组成字段: ① MANDT (参考数据元素为MANDT,主键) ② SCHID 学校ID (参考新建数据元素ZDE_SCHID_437,主键,NUMC4) ③ SCHNAME 学校名称 (CHAR20) 学生表(ZDBT_STU_437) 表有7个…

codeforces round974 div3 分层图 树形dp

A Robin Helps 问题&#xff1a; 思路&#xff1a;模拟 代码&#xff1a; #include <bits/stdc.h> using namespace std;const int N 2e5 10;void solve() {int n, k;cin >> n >> k;vector<int> a(n 1);for(int i 1; i < n; i ) cin >&…

着色器(Vertex Shader)基础

什么是顶点着色器 顶点着色器处理顶点并告知它们在“剪辑空间”中的坐标,该空间使计算机可以轻松了解哪些顶点对摄像机可见,哪些顶点不可见,必须剪切或“剪切”掉。 这使得 GPU 在后期阶段的速度更快,因为它们需要处理的数据较少。 它们通过接收来自顶点列表中的单个顶…

手写数字识别案例分析(torch,深度学习入门)

在人工智能和机器学习的广阔领域中&#xff0c;手写数字识别是一个经典的入门级问题&#xff0c;它不仅能够帮助我们理解深度学习的基本原理&#xff0c;还能作为实践编程和模型训练的良好起点。本文将带您踏上手写数字识别的深度学习之旅&#xff0c;从数据集介绍、模型构建到…

全栈开发(四):使用springBoot3+mybatis-plus+mysql开发restful的增删改查接口

1.创建user文件夹 作为增删改查的根包 路径 src/main/java/com.example.demo/user 2.文件夹里文件作用介绍 1.User(实体类) package com.example.demo.user; import com.baomidou.mybatisplus.annotation.TableId; import com.baomidou.mybatisplus.annotation.IdType; impo…

利用影刀实现批量发布文章的RPA流程(附视频演示)

前言 大家好&#xff0c;我是小智。在这篇文章中&#xff0c;我将分享一个实战案例&#xff0c;展示如何利用影刀实现批量发布文章的RPA流程。这里主要介绍其中一个简单步骤&#xff0c;其它步骤将通过视频演示。有使用方面的疑问可以留言。 影刀是一款强大的自动化工具&#x…

Matlab|考虑柔性负荷的综合能源系统低碳经济优化调度

目录 1 主要内容 2 部分代码 3 程序结果 4 下载链接 1 主要内容 程序主要实现的是考虑柔性负荷的综合能源系统低碳经济优化调度&#xff0c;模型参考《考虑柔性负荷的综合能源系统低碳经济优化调度》&#xff0c;求解方法采用的是混合整数规划算法&#xff0c;通过matlabc…

医学数据分析实训 项目四 回归分析--预测帕金森病病情的严重程度

文章目录 项目四&#xff1a;回归分析实践目的实践平台实践内容 预测帕金森病病情的严重程度作业&#xff08;一&#xff09;数据读入及理解&#xff08;二&#xff09;数据准备&#xff08;三&#xff09;模型建立&#xff08;四&#xff09;模型预测&#xff08;五&#xff0…

如何使用cmd命令查看本机电脑的主机名?

1、按键盘win R 键&#xff0c;输入cmd&#xff0c;然后按一下【回车】 2、输入ping -a localhost , 然后按下【回车】 3、如下Ping 后面的DESKTOP-ALB9JF7即是本机电脑的【主机名】

浮动静态路由

浮动静态路由 首先我们知道静态路由的默认优先级是60&#xff0c;然后手动添加一条静态路由优先级为80的路由作为备份路由。当主路由失效的备份路由就会启动。 一、拓扑图 二、基本配置 1.R1: <Huawei>system-view [Huawei]sysname R1 [R1]interface GigabitEthernet…

linux的ssh命令使用介绍

目录 一、SSH的基本概念 二、SSH的工作原理 1、建立连接 2、密钥交换 3、认证 4、加密通信 三、SSH的主要功能 1、远程登录 2、文件传输 3、端口转发 四、SSH的安全性 五、SSH的应用场景 六、SSH的实现软件 一、SSH的基本概念 SSH主要用于登录远程服务器和执行命令、传输文…