hedfs和hive数据迁移后校验脚本

news2025/1/25 4:25:10

先谈论校验方法,本人腾讯云大数据工程师。

1、hdfs的校验

这个通常就是distcp校验,hdfs通过distcp迁移到另一个集群,怎么校验你的对不对。

有人会说,默认会有校验CRC校验。我们关闭了,为什么关闭?全量迁移,如果当前表再写数据,开自动校验就会失败。数据量大(PB级)迁移流程是先迁移全量,后面在定时补最近几天增量,再找个时间点,进行业务割接

那么怎么知道你迁移的hdfs是否有问题呢?

2个文件,一个是脚本,一个是需要校验的目录

data_checksum.py

# -*- coding: utf-8 -*-
# @Time    : 2025/1/16 22:52
# @Author  : fly-wlx
# @Email   : xxx@163.com
# @File    : data_compare.py
# @Software: PyCharm

import subprocess


#output_file = 'data_checksum_result.txt'
def load_file_paths_from_conf(conf_file):
    file_list = []
    with open(conf_file, 'r') as file:
        lines = file.readlines()
        for line in lines:
            path = line.strip()
            if path and not path.startswith('#'):  # 跳过空行和注释
                full_path = f"{path}"
                file_list.append(full_path)
    return file_list

#def write_sizes_to_file(filepath,source_namenode,source_checksum,target_namenode,target_checksum,status, output_file):
#    with open(output_file, 'w') as file:
#file.write(f"{source_namenode}/{filepath},{source_checksum},{target_namenode}/{filepath},{target_checksum},{status}\n")

def write_sizes_to_file(source_path, src_info, destination_path, target_info, status,output_file):
    with open(output_file, 'a') as file:
         file.write(f"{source_path},{src_info},{destination_path}, {target_info}, {status}\n")
def run_hadoop_command(command):
    """运行 Hadoop 命令并返回输出"""
    try:
        result = subprocess.check_output(command, shell=True, text=True)
        return result.strip()
    except subprocess.CalledProcessError as e:
        print(f"Command failed: {e}")
        return None

def get_hdfs_count(hdfs_filepath):
    """获取 HDFS 路径的文件和目录统计信息"""
    command = f"hadoop fs -count {hdfs_filepath}"
    output = run_hadoop_command(command)
    if output:
        parts = output.split()
        if len(parts) >= 3:
            dir_count, file_count, content_size = parts[-3:]
            return dir_count, file_count, content_size
    return None, None, None

def get_hdfs_size(hdfs_filepath):
    """获取 HDFS 路径的总文件大小"""
    command = f"hadoop fs -du -s {hdfs_filepath}"
    output = run_hadoop_command(command)
    if output:
        parts = output.split()
        if len(parts) >= 1:
            return parts[0]
    return None

def validate_hdfs_data(source_namenode, target_namenode,filepath):
    output_file = 'data_checksum_result.txt'
    source_path=f"{source_namenode}/{filepath}"
    destination_path = f"{target_namenode}/{filepath}"
    """校验 HDFS 源路径和目标路径的数据一致性"""
    print("Fetching source path statistics...")
    src_dir_count, src_file_count, src_content_size = get_hdfs_count(source_path)
    src_total_size = get_hdfs_size(source_path)

    print("Fetching destination path statistics...")
    dest_dir_count, dest_file_count, dest_content_size = get_hdfs_count(destination_path)
    dest_total_size = get_hdfs_size(destination_path)
    src_info={}
    src_info["src_dir_count"] = src_dir_count
    src_info["src_file_count"] = src_file_count
    #src_info["src_content_size"] = src_content_size
    src_info["src_total_size"] = src_total_size
    target_info = {}
    target_info["src_dir_count"] = dest_dir_count
    target_info["src_file_count"] = dest_file_count
    #target_info["src_content_size"] = dest_content_size
    target_info["src_total_size"] = dest_total_size

    print("\nValidation Results:")
    if (src_dir_count == dest_dir_count and
        src_file_count == dest_file_count and
       # src_content_size == dest_content_size and
        src_total_size == dest_total_size):
        print("✅ Source and destination paths are consistent!")
        write_sizes_to_file(source_path, src_info, destination_path,target_info, 0,
                            output_file)
    else:
        print("❌ Source and destination paths are inconsistent!")
        write_sizes_to_file(source_path, src_info, destination_path, target_info, 1,
                            output_file)
        #print(f"Source: DIR_COUNT={src_dir_count}, FILE_COUNT={src_file_count}, CONTENT_SIZE={src_content_size}, TOTAL_SIZE={src_total_size}")
        #print(f"Destination: DIR_COUNT={dest_dir_count}, FILE_COUNT={dest_file_count}, CONTENT_SIZE={dest_content_size}, TOTAL_SIZE={dest_total_size}")

# 设置源路径和目标路径
#source_path = "hdfs://namenode1:8020/"
#destination_path = "hdfs://namenode2:8020/path/to/destination"
# 定义源和目标集群的 namenode 地址
source_namenode = "hdfs://10.xx.xx.6:8020"
target_namenode= "hdfs://10.xx.xx.106:4007"

def main():
    # 配置文件路径和输出文件路径
    conf_file = 'distcp_paths.conf'
    # 定义源和目标集群的 namenode 地址

    # 设置源路径和目标路径
    #source_namenode = "hdfs://source-namenode:8020"
    #target_namenode = "hdfs://target-namenode:8020"

    # 文件列表
    file_paths = load_file_paths_from_conf(conf_file)

    # 对每个目录进行校验
    for filepath in file_paths:
        validate_hdfs_data(source_namenode, target_namenode, filepath)


    


if __name__ == "__main__":
    main()

# 执行校验
#validate_hdfs_data(source_path, destination_path)

distcp_paths.conf

/apps/hive/warehouse/xx.db/dws_ixx_features
/apps/hive/warehouse/xx.db/dwd_xx_df

用法

直接python3 data_checksum.py(需要改为自己的)

他会实时打印对比结果,并且将结果生成到一个文件中(data_checksum_result.txt)

2、hive文件内容比对

最终客户要的是任务的数据对得上,而不是管你迁移怎么样,所以验证任务的方式:两边同时跑同多个Hive任务流的任务,查看表数据内容是否一致。(因为跑出来的hdfs的文件大小由于mapreduce原因,肯定是不一致的,校验实际数据一致就行了)

方法是先对比表字段,然后对比count数,然后将每行拼起来对比md5

涉及3个文件,单检测脚本,批量入口脚本,需要批量检测的表文件

check_script.sh

#!/bin/bash
#owner:clark.shi
#date:2025/1/22
#背景:用于hive从源端任务和目标端任务,两边跑完结果表的内容校验(因为mapreduce和小文件不同,所以要用数据内容校验)
#     --用trino(presto)会更好,因为可以跨集群使用,目前客户因为资源情况没装,此为使用hive引擎,将数据放到本地进行比对


#输入:源端表,目标表,分区名,分区值
#$0是脚本本身,最低从1开始


#限制脚本运行内存大小,30gb
#ulimit -v 30485760

#---注意,要保证,2个表的字段顺序是一样的(md5是根据顺序拼接的)
echo "================"
echo "注意"
echo "要保证,2个表的字段顺序是一样的(md5是根据顺序拼接的)"
echo "要保证,这2个表是存在的"
echo "要保证,双端是可以互相访问"
echo "要保证,2个hive集群的MD5算法相同"
echo "禁止表,一个分区数据量超过本地磁盘,此脚本会写入本地磁盘(双端数据),对比后删除"
echo "注意,如果分区字段是数字不用加引号,如果是字符串需要加引号,搜partition_value,这里分区是int如20250122是没有引号"
echo "================"

a_table=$1
b_table=$2
partition_column=$3
partition_value=$4


if [ $# -ne 4 ]; then
    echo "错误:必须输入 4 个参数,源端表,目标表,分区名,分区值"
    exit 1
fi

#------------函数

check_value() {
    # 第一个参数是布尔值,第二个参数是要 echo 的内容
    local value=$1
    local message=$2
    
    # 检查第一个参数的值
    if [ "$value" == "false" ]; then
        echo "校验失败:$message" >> rs.txt
	exit 
    fi
}



#-----------函数结束


echo "需要对比表的数据内容是$a_table和$b_table--,需要对比分区$partition_column是$partition_value--"

sleep 2
echo "===============开始校验============="
#todo改成自己的,kerbers互信认证(也可以用ldap)
`kinit -kt /root/s_xx_tbds.keytab s_xx_tbds@TBDS-V12X10CS`


#校验字段类型
echo "1.开始校验字段类型"

	
#todo这里要改成自己的
  beeline -u "jdbc:hive2://10.xx.xx.4:10001/XXdatabase;principal=hive/tbds-10-xx-xx-4.hadooppdt.xxjin.srv@TBDS-V12X10CS;transportMode=http;httpPath=cliservice" -e "DESCRIBE $b_table" > 1_a_column.txt
  beeline -u "jdbc:hive2://10.xx.xx.104:7001/XXdatabase;principal=hadoop/10.xx.xx.104@TBDS-09T7KXLE" -e "DESCRIBE $a_table" > 1_b_column.txt
  if diff 1_a_column.txt 1_b_column.txt > /dev/null; then
    echo "表结构一致"
  else
    echo "表结构不一致"
    check_value false "$a_table和$b_table字段类型不一致"
  fi 


echo "------------1.表字段,校验完毕,通过-------------"


#校验count数
echo "2.开始count校验"
  beeline -u "jdbc:hive2://10.xx.xx.4:10001/XXdatabase;principal=hive/tbds-10-xx-xx-4.hadooppdt.xxjin.srv@TBDS-V12X10CS;transportMode=http;httpPath=cliservice" -e "select count(*) from $b_table where $partition_column=$partition_value" > 2_a_count.txt
    beeline -u "jdbc:hive2://10.xx.xx.104:7001/XXdatabase;principal=hadoop/10.xx.xx.104@TBDS-09T7KXLE" -e "select count(*) from $a_table where $partition_column=$partition_value" > 2_b_count.txt
  if diff 2_a_count.txt 2_b_count.txt > /dev/null; then
    echo "数据行一致"
  else
    echo "数据行不一致"
    check_value false "$a_table和$b_table的数据行不一致"
  fi

echo "------------2.数据行,校验完毕,通过-------------"

#拼接每一行的值,作为唯一值,创建2个临时表
echo "3.生成每条数据唯一标识"
  #1.获取表列名
  #使用awk,去除第一行字段名,,删除#字号以及他后面的内容(一般是分区的描述),根据分隔符|取第一列数据,去掉空的行
  beeline -u "jdbc:hive2://10.xx.xx.104:7001/XXdatabase;principal=hadoop/10.xx.xx.104@TBDS-09T7KXLE" --outputformat=dsv -e "DESCRIBE $a_table" |awk 'NR > 1' |awk '!/^#/ {print} /^#/ {exit}'|awk 'BEGIN {FS="|"} {print $1}'|awk 'NF > 0' > 3_table_field_name.txt
  #2.拼接表列名,生成md5的表 (第一步已经检测过双方的表结构了,这里用同一个拼接字段即可)

  # 使用 while 循环逐行读取文件内容
  name_fields=""
  while IFS= read -r line; do
    if [ -z "$name_fields" ]; then
      name_fields="$line"
    else
      name_fields="$name_fields,$line"
    fi
  done < "3_table_field_name.txt"
  echo "$name_fields"
  #将每行数据进行拼接,并且生成含一个字段的md5表
  md5_sql="SELECT distinct(MD5(CONCAT($name_fields))) AS md5_value "
  a_md5_sql="$md5_sql from (select * from dim_user_profile_df where $partition_column=$partition_value  limit 100)a;"
  b_md5_sql="$md5_sql from $a_table where $partition_column=$partition_value;"
  echo "a表的sql是:$a_md5_sql"
  echo "b表的sql是:$b_md5_sql"

  #源端是生产环境,这里做了特殊处理,源端就取100条(没使用order by rand(),客户主要是检测函数,order by 会占用他们集群资源)
  beeline -u "jdbc:hive2://10.xx.xx.4:10001/XXdatabase;principal=hive/tbds-10-xx-xx-4.hadooppdt.xxjin.srv@TBDS-V12X10CS;transportMode=http;httpPath=cliservice" --outputformat=dsv -e "$a_md5_sql" > 4_a_md5_data.txt
  beeline -u "jdbc:hive2://10.xx.xx.104:7001/XXdatabase;principal=hadoop/10.xx.xx.104@TBDS-09T7KXLE" --outputformat=dsv -e "$b_md5_sql" > 4_b_md5_data.txt

  #3.(由于不是同集群,需要下载到本地,再进行导入--如果耗费资源时长太长,再导入到hive,否则直接shell脚本搞定)
  # 设置large_file和small_file的路径
  large_file="4_b_md5_data.txt"
  small_file="4_a_md5_data.txt"
  # 遍历small_file中的每一行
  while IFS= read -r line; do
      # 检查line是否存在于large_file中
      if grep -qxF "$line" "$large_file"; then
          # 如果line存在于large_file中,输出1
          #echo "1"
          a=1
      else
          # 如果line不存在于large_file中,输出2
          echo "2"
	  check_value false "$a_table和$b_table抽样存在数据内容不一致"
      fi
  done < "$small_file"

  echo echo "------------3.数据内容,校验完毕,通过-------------"
#抽样核对md5(取数据时已抽样,否则数据太大容易跑挂生产环境) 

input_file.txt需要校验的表文件

源端表名,目标端表名,分区字段(写1级分区就可以),分区值

ods_xxnfo_di ods_xxnfo_dii dt 20250106

ods_asxx_log_di ods_asxx_log_dii dt 20250106

ods_xxog_di ods_xxog_di dt 20250106

dwd_xxx dwd_xxx dt 20250106

run.sh

#!/bin/bash

# 设置文件路径
input_file="input_file.txt"

# 遍历文件中的每一行
while IFS= read -r line; do
    # 调用另一个脚本并传递当前行的参数
    echo $line
    ./check_script.sh $line
    # 在每次执行完后间隔一小段时间,避免系统过载(可选)
    sleep 1
done < "$input_file"

使用方法

sh run.sh(需要把check_scripe和run里的内容改成自己的哈)

他会把不通过的,生成一个rs.txt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2281766.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

性能优化之动态加载

在过去近三十年的职业生涯里&#xff0c;有几年专注于运行时环境的开发与实现。在runtime中&#xff0c;动态加载技术是其中的基石之一。动态加载技术是指在系统运行过程中&#xff0c;根据需要把程序和数据从外存或网络加载到内存中的过程。其中&#xff0c;lazy loading&…

数据从前端传到后端入库过程分析

数据从前端传到后端入库过程分析 概述 积累了一些项目经验&#xff0c;成长为一个老程序员了&#xff0c;自认为对各种业务和技术都能得心应手的应对了&#xff0c;殊不知很多时候我们借助了搜索引擎的能力&#xff0c;当然现在大家都是通过AI来武装自己。 今天要分析的话题是…

【线性代数】列主元法求矩阵的逆

列主元方法是一种用于求解矩阵逆的数值方法&#xff0c;特别适用于在计算机上实现。其基本思想是通过高斯消元法将矩阵转换为上三角矩阵&#xff0c;然后通过回代求解矩阵的逆。以下是列主元方法求解矩阵 A A A 的逆的步骤&#xff1a; [精确算法] 列主元高斯消元法 步骤 1&am…

LabVIEW太赫兹二维扫描成像系统

使用LabVIEW设计太赫兹二维扫描成像系统。通过LabVIEW平台开发&#xff0c;结合硬件如太赫兹源、平移台、锁相放大器等&#xff0c;实现了高效、精准的成像功能。系统采用蛇形扫描方式&#xff0c;通过动态调整扫描参数&#xff0c;达到优化成像质量的目的。 ​ 项目背景 在非…

Quartus:开发使用及 Tips 总结

Quartus是Altera&#xff08;现已被Intel收购&#xff09;推出的一款针对其FPGA产品的综合性开发环境&#xff0c;用于设计、仿真和调试数字电路。以下是使用Quartus的一些总结和技巧(Tips)&#xff0c;帮助更高效地进行FPGA项目开发&#xff1a; 这里写目录标题 使用总结TIPS…

Android 自定义View时四个构造函数使用详解

该文章我们以自定义View继承TextView为例来讲解 创建自定义View命名MyTextView&#xff0c;并使其继承TextView 1、自定义View时第一个构造函数 // 第一个构造函数主要是在Java代码中声明一个MyTextView时所用 // 类似这种(MyTextView myTextViewnew MyTextView(this);) // 不…

C#PaddleOCRSharp使用

using PaddleOCRSharp;namespace PaddleOCRSharpDemo {internal class Program{static void Main(string[] args){//中英文模型V3模型OCRModelConfig config null;//OCR参数OCRParameter oCRParameter new OCRParameter();oCRParameter.cpu_math_library_num_threads 6;//预…

vscode配置C/C++环境(详细步骤教程)

本章教程,主要介绍如何在vscode中配置c/c++环境的具体步骤。 一、安装mingw64 链接:https://pan.baidu.com/s/1fwS-CwC7dgIYJTanaINOhA?pwd=rdks 提取码:rdks 下载之后,配置将mingw64添加到系统环境变量中。 二、安装vscode插件 需要在vscode插件商店,安装c/c++插件 三、配…

隐私保护+性能优化,RyTuneX 让你的电脑更快更安全

RyTuneX 是一款专为 Windows 10 和 11 用户量身打造的系统优化工具&#xff0c;采用先进的 WinUI 3 框架开发&#xff0c;以其现代化的设计风格和强大的功能集合脱颖而出。这款工具不仅界面简洁美观&#xff0c;还提供了多样化的系统优化选项&#xff0c;旨在帮助用户最大化设备…

JAVA:Spring WebClient 的应用指南

1、简述 随着微服务架构的普及&#xff0c;服务间的 HTTP 通信需求也越来越多。Spring 提供的 WebClient 是 RestTemplate 的替代方案&#xff0c;支持响应式编程&#xff0c;具有非阻塞的特点&#xff0c;非常适合处理高并发的 HTTP 请求。本文将介绍 WebClient 的基本用法及…

如何给自己的域名配置免费的HTTPS How to configure free HTTPS for your domain name

今天有小伙伴给我发私信&#xff0c;你的 https 到期啦 并且随手丢给我一个截图。 还真到期了。 javapub.net.cn 这个网站作为一个用爱发电的编程学习网站&#xff0c;用来存编程知识和面试题等&#xff0c;平时我都用业余时间来维护&#xff0c;并且还自费买了服务器和阿里云…

深度学习 Pytorch 动态计算图与梯度下降入门

在上节末尾我们发现autograd.grad函数可以灵活进行函数某一点的导数和偏导数的运算&#xff0c;但微分运算只是AutoGrad模块中的一小部分功能&#xff0c;本节将继续讲解这个模块的其他常用功能&#xff0c;并在此基础上介绍另一个常用优化算法&#xff1a;梯度下降算法。 imp…

gitlab使用多数据库

1. 说明 默认情况下&#xff0c;GitLab 使用一个单一的应用数据库&#xff0c;称为主数据库。为了扩展 GitLab&#xff0c;您可以将 GitLab 配置为使用多个应用数据库。 设置多个数据库后&#xff0c;GitLab 将使用第二个应用数据库用于 CI/CD 功能&#xff0c;称为 CI 数据库…

Docker网段和服务器ip冲突导致无法访问网络的解决方法

若宿主机所在网络的网段为172.[17-31].xx.xx&#xff0c;则会与Docker本身内部网络间出现冲突&#xff0c;此时需要重新配置Docker默认地址池 一&#xff1a;查看docker的默认网段 route 二&#xff1a;修改docker的默认网段 etc/docker/daemon.json文件增加修改网段信息 {…

HTML<img>标签

例子 如何插入图片&#xff1a; <img src"img_girl.jpg" alt"Girl in a jacket" width"500" height"600"> 下面有更多“自己尝试”的示例。 定义和用法 该<img>标签用于在 HTML 页面中嵌入图像。 从技术上讲&#x…

leetcode_3092. 最高频率的 ID

https://leetcode.cn/problems/most-frequent-ids/description/ 看到这个数据范围 最极端情况 如果nums全为一个数 并且数量取到最大 那么范围是10的10次方 需要longlong储存 这题主要运用了哈希表配合multiset实现 哈希表主要用作存储某个数的出现次数 mst则用于记录出现次…

01学习nodejs的准备工作

01学习nodejs的准备工作 1.回顾与思考1.1为什么JavaScript可以在浏览器中被执行1.2为什么JavaScript可以操作DOM和BOM&#xff1f;1.3浏览器中的JavaScript运行环境1.4JavaScript 能否做后端开发 2.Nodejs简介2.1什么是nodejs2.2 Node.js中的 JavaScript 运行环境2.3 Node.js可…

2024年度总结-CSDN

2024年CSDN年度总结 Author&#xff1a;OnceDay Date&#xff1a;2025年1月21日 一位热衷于Linux学习和开发的菜鸟&#xff0c;试图谱写一场冒险之旅&#xff0c;也许终点只是一场白日梦… 漫漫长路&#xff0c;有人对你微笑过嘛… 文章目录 2024年CSDN年度总结1. 整体回顾2…

2024年度技术总结——MCU与MEMS和TOF应用实践

引言 2024年对我来说是技术成长与突破的一年。在这一年里&#xff0c;我不仅在技术领域拓展了深度和广度&#xff0c;还通过与客户合作的实际项目&#xff0c;成功实现了从单一MCU到MCU、MEMS与TOF技术融合的跨越。这一过程中&#xff0c;我深刻认识到&#xff0c;技术的进步不…

五、深入了解IoC

IoC控制反转&#xff0c;就是将对象的控制权交给Spring的IOC容器&#xff0c;由IOC容器创建及管理对象。也就是bean的存储。 5.1Bean的存储 共有两类注解类型可以实现&#xff1a; 1.类注解&#xff1a;Controller、Service、Repository、Component、Configuration. 2.方法注…