hive on spark 合并小文件

news2024/9/28 17:25:50

最近在做用户画像相关的数据开发,在hive中做行转列的过程中,每个标签即tag在写入hive表时,有大量的小文件生成,通过增加参数解决了小文件过多的问题,但是在完成特殊要求--(因后续需要同步ck,ck也有个为解决的问题,超过200M可能会丢失数据,故需要将hive在行转列的时候,合并的小文件在200M一下,方便后续ck数据同步)时,又产生了新的问题,通过hive合并小文件的参数,总是有些tag的数据生成的文件在200M以上;最终使用hive sql

 repartition的方式 ,重新打散数据最终实现了数据文件200M一下的目标;

1.hive on spark 中,开始以为是通过spark合并小文件的参数,结果spark的相关参数不熟悉,也不生效,还是一堆小文件产生

2.增加hive合并小文件的相关参数

SET hive.exec.dynamic.partition=true;            
set hive.stats.column.autogather=false;
set hive.exec.dynamic.partition.mode=nonstrict;
SET hive.merge.mapfiles=true;
SET hive.merge.sparkfiles=true;
SET hive.merge.size.per.task=180000000;
SET hive.merge.smallfiles.avgsize=180000000;
SET hive.exec.max.dynamic.partitions=3000;
SET hive.exec.max.dynamic.partitions.pernode=100;
set spark.executor.instances=8;
set spark.executor.memory=2g;
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

特别需要指出的是,hive.merge.sparkfiles=true; 增加此参数,才会在hive on spark模式中进行小文件合并。

3.增加小文件后,解决个别tag数据扔不满足200M以下的情况

了解相关 hive sql repartition 的使用,在语句中增加 cluster by ,即重新打散数据

(distribute by 个别tag报错,原因待定)

关于hive on spark 合并小文件参考

关于较大规模hadoop集群的小文件问题-腾讯云开发者社区-腾讯云
【Hive任务优化】—— 小文件合并相关参数_hive.merge.sparkfiles-CSDN博客

关于 hive sql repartition 参考

Hive SORT BY vs ORDER BY vs DISTRIBUTE BY vs CLUSTER BY-腾讯云开发者社区-腾讯云

加cluster by之前

加cluster by之后,发现重新打散之后,块文件大小很均匀

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2104057.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

英伟达RTX 50系显卡功耗曝光:5090比上代激增33%、性能比4090高70%,爆料来自于kopite7kimi。

在科技爱好者翘首以盼的9月4日,一则来自国际知名媒体的深度报道犹如一枚重磅炸弹,在显卡领域掀起了轩然大波。据该报道透露,英伟达正紧锣密鼓地筹备其下一代旗舰级显卡——RTX 5090,其功耗之巨,直接跃升至前所未有的60…

如何让wave波形信号不显示全路径

Modesim仿真如何让wave信号不显示全路径 问题说明 在使用modesim仿真时,需要利用modesim的wave界面显示调试信号的波形,默认情况下wave栏的左边是显示抓捕信号的全路径的,如下图所示: 这种情况下,区分信号比较麻烦,如…

ArkUI-动画

ArkUI-动画 系统能力属性动画显式动画 关键帧动画转场动画路径动画粒子动画 资源调用GIF动画帧动画 三方库LottieSVG 提升动画的流畅度使用renderGroup概述使用约束 系统能力 属性动画 通过更改组件的属性值实现渐变过渡效果,例如缩放、旋转、平移等。支持的属性包…

解决el-table中使用el-input无法聚焦问题

在el-table中点击单元格时使用el-input或其他表单组件编辑单条数据。会出现聚焦不上的问题&#xff0c;需要手动点击才能够聚焦。究其原因是因为点击单元格时页面已自动聚焦到单元格&#xff0c;此时无法自动聚焦到对应的表单&#xff0c;需要手动设置。 <template><e…

微积分-积分应用5.2(体积)

在尝试找到一个固体的体积时&#xff0c;我们面对的问题与寻找面积时相同。我们对体积的概念有直观的理解&#xff0c;但我们必须通过使用微积分来精确定义体积。 我们从一种简单类型的固体——称为柱体&#xff08;或更准确地说&#xff0c;直柱体&#xff09;——开始。如图…

U盘格式化后还能恢复数据吗?如何有效找回数据

在日常工作和生活中&#xff0c;我们经常会使用U盘来存储和传输重要的数据。然而&#xff0c;有时由于误操作或病毒攻击等原因&#xff0c;我们可能会不小心格式化U盘&#xff0c;从而丢失存储在其中的重要数据。很多人会疑惑&#xff0c;U盘格式化后&#xff0c;是否还能恢复丢…

PLC工业网关在钢铁企业生产过程中的应用-天拓四方

在当今工业自动化领域&#xff0c;PLC工业网关已经成为了提升生产效率、确保产品质量、增强系统可靠性的关键组件。本文旨在通过一个具体的工业应用实例&#xff0c;深入探讨PLC工业网关的功能、优势及其在现代工业环境中的重要作用&#xff0c;从而展示其在实际操作中的专业性…

教育行业解决方案:智能PPT在教育行业的创新应用

在信息化时代&#xff0c;教育行业面临着巨大的变革。随着人工智能技术的不断发展&#xff0c;传统教学方式正在被重新定义。彩漩科技作为 AI 技术的先行者&#xff0c;推出了歌者 PPT &彩漩 PPT&#xff0c;为教师、学生和家长提供了一种全新的教育体验&#xff0c;实现了…

【C++】STL学习——vector模拟实现

目录 vector介绍vector函数接口总览结构介绍默认成员函数构造函数1构造函数2构造函数3经典的深浅拷贝拷贝构造赋值重载析构函数 迭代器begin和end 容量相关函数sizecapacityemptyreserveresize 访问operator[] 修改相关函数insertpush_backerasepop_backclearswap 迭代器失效问…

TPM在解决哪些类型的问题时最有效?

在探讨TPM&#xff08;Total Productive Maintenance&#xff0c;全面生产维护&#xff09;在解决哪些类型问题时最为有效时&#xff0c;我们首先需要明确TPM的核心原则和目标。TPM作为一种综合性的设备管理和维护体系&#xff0c;旨在通过全员参与、全系统、全效率的方式&…

【计算机网络】socket编程 --- 实现简易TCP网络程序

&#x1f466;个人主页&#xff1a;Weraphael ✍&#x1f3fb;作者简介&#xff1a;目前正在学习c和算法 ✈️专栏&#xff1a;Linux &#x1f40b; 希望大家多多支持&#xff0c;咱一起进步&#xff01;&#x1f601; 如果文章有啥瑕疵&#xff0c;希望大佬指点一二 如果文章对…

使用 nuxi generate 进行预渲染和部署

title: 使用 nuxi generate 进行预渲染和部署 date: 2024/9/4 updated: 2024/9/4 author: cmdragon excerpt: 通过 nuxi generate 命令,你可以轻松地将 Nuxt 应用程序预渲染为静态 HTML 文件,并将其部署到任何静态托管服务。这种方法可以提高应用程序的性能和安全性,特别…

科学计算基础软件包Numpy介绍及常用法

1.介绍及说明 NumPy 是一个开源的 Python 库&#xff0c;专门用于科学计算和数值处理。它提供了强大的多维数组对象和丰富的函数库&#xff0c;支持高效的数组运算。NumPy 是许多其他科学计算库&#xff08;如 SciPy、Pandas、Matplotlib 等&#xff09;的基础。以下是对 NumPy…

【开源大模型生态4】大模型和安卓时刻

开源大模型&#xff0c;指基于开源软件模式&#xff0c;由全球开发者共同参与、共同维护、共同发展的机器学习模型。 我们之前有过关于开源大模型和对应开源协议的探讨&#xff1a; 【AI】马斯克说大模型要开源&#xff0c;我们缺的是源代码&#xff1f;&#xff08;附一图看…

‌智慧公厕:城市文明的智慧新篇章‌@卓振思众

在日新月异的城市化进程中&#xff0c;公共设施的智能化升级已成为不可逆转的趋势。其中&#xff0c;智慧公厕作为城市智慧化建设的重要组成部分&#xff0c;正悄然改变着我们的生活。智慧公厕&#xff0c;这一融合了物联网、大数据、云计算等现代信息技术的创新产物&#xff0…

数学建模常见模型(下)

目录 神经网络法详细介绍 1. 引言 2. 神经网络的基本概念 2.1 神经元 2.2 层次结构 2.3 激活函数 3. 神经网络的工作原理 3.1 前向传播 3.2 反向传播 4. 神经网络的类型 4.1 前馈神经网络&#xff08;Feedforward Neural Networks, FNN&#xff09; 4.2 卷积神经网…

云计算之存储

目录 一、产品介绍 1.1 对象存储oss 1.2 特点 二、产品技术背景 三、产品架构及功能 四、常见问题及排查思路 4.1 两个bucket目录文件如何快速复制&#xff1f; 4.2 oss里的目录如何删除&#xff1f; 4.3 能否统计oss一个目录的大小 4.4 异常诊断 - 上传下载速度慢 4…

开源项目|聚合支付工具,封装了某宝、某东、某银、PayPal等常用的支付方式

前言 IJPay是一款开源的支付SDK&#xff0c;它集成了微支付、某宝支付、银联支付等多种支付方式&#xff0c;为开发者提供了一种简单、高效的方式来处理支付问题。以下是IJPay的一些主要特点&#xff1a; 支持多种支付方式&#xff1a;IJPay支持微信支付、支付宝支付、银联支付…

ffmpeg命令(详解)

欢迎诸位来阅读在下的博文~ 在这里&#xff0c;在下会不定期发表一些浅薄的知识和经验&#xff0c;望诸位能与在下多多交流&#xff0c;共同努力 文章目录 一、常见命令二、实战三、总结 一、常见命令 ffmpeg -i input.mp4 -c copy output.mp4解释&#xff1a;-i 后面接输入文…

应用在蓝牙耳机中的低功耗DSP音频处理芯片-DU561

在当今社会&#xff0c;随着科技的不断发展&#xff0c;人们对于电子产品的需求也在日益增长。蓝牙耳机就是将蓝牙技术应用在免持耳机上&#xff0c;让使用者可以免除恼人电线的牵绊&#xff0c;自在地以各种方式轻松通话。自从蓝牙耳机问世以来&#xff0c;一直是行动商务族提…