Spark 3.3.x 读取 HBase 2.x 异常(无法正常连接或读取数据)

news2024/9/29 17:30:20

无法连接

1. 先检查集群中的 HBase 服务、ZooKeeper 服务是否正常启动,有没有挂掉。

2. Spark 中的 HBase 版本是否与集群一致,代码中的相关包是否导入正确。

3. 连接参数(地址、端口)是否设置正确,如下所示:

    val hbaseConf: Configuration = HBaseConfiguration.create()
    // 本地没配置映射就写ip
    hbaseConf.set("hbase.zookeeper.quorum","master,slave1,slave2")
    hbaseConf.set("hbase.zookeeper.property.clientPort","2181")
    // 可选参数,跳过 HBase 版本不一致的验证
    hbaseConf.set("hbase.defaults.for.version.skip","true")

Spark 能正常写入 HBase,但 Spark 读取后数据为空。

先说结论:

Spark 3.3.x 写入 HBase 2.x 中时,数据存储成功(HBase Shell 中可以查询到)。但在代码中查询时,数据量为空,无任何报错提示。这是由于 Spark 版本太高,不兼容,将 Spark 版本更换成 Spark 3.1.xSpark 3.0.x,问题得到解决,读写都正常。

有趣的故事:

我今天就遇到了这种让我想破头的 BUG!在我使用 Spark 写入 HBase 时,一切都正常,我进入 HBase Shell 界面进行验证,发现刚刚的数据已经写入了进来,如下所示:

在这里插入图片描述

于是,我便写了一段 Spark 查询的代码,如下所示:

object ReadHBaseTest {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder().appName("ReadHBaseTest").master("local[*]").getOrCreate()

    val hbaseConf: Configuration = HBaseConfiguration.create()
    hbaseConf.set("hbase.zookeeper.quorum", "192.168.0.200,192.168.0.201,192.168.0.202")
    hbaseConf.set("hbase.zookeeper.property.clientPort", "2181")
    hbaseConf.set("hbase.defaults.for.version.skip", "true")
    hbaseConf.set(TableInputFormat.INPUT_TABLE,"test")

    val hbaseRdd = spark.sparkContext.newAPIHadoopRDD(hbaseConf, classOf[TableInputFormat], classOf[ImmutableBytesWritable], classOf[Result])

    println("数据量:",hbaseRdd.count())

    import spark.implicits._

    hbaseRdd.map{
      case (_, result) =>
        val row = Bytes.toString(result.getRow)
        val name = Bytes.toString(result.getValue("info".getBytes,"name".getBytes))
        val sex = Bytes.toString(result.getValue("info".getBytes,"sex".getBytes))
        val age = Bytes.toString(result.getValue("info".getBytes,"age".getBytes))
        (row,name,sex,age)
    }.toDF("row","name","sex","age").show()

    spark.stop()

  }

}

运行后查询结果如下:

在这里插入图片描述

没有任何报错提示,但就是没有数据。

我一度怀疑集群是否出现了故障,可是我查了一圈下来服务都正常,这么简单的查询代码我愣是看了几遍也没有发现啥问题,以前我都这样写的,也没出现问题啊。

正当我毫无头绪的时候,突然想到是不是因为我的 Spark 版本太高(spark 3.3.1)而导致的。于是,我更换 Spark 的版本为:spark 3.1.1,你猜这么着?还真是!读出来了!

在这里插入图片描述

呜呜呜~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/375290.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

pyqt 制作exe步骤

之前的博客记录 使用pycharmpyqt 编写一个桌面端(mac)_python开发桌面工具mac_Y_Hungry的博客-CSDN博客 python开发exe程序界面及打包环境配置_Y_Hungry的博客-CSDN博客 1.编写代码 2.打包 pyinstaller -w --add-data "logo.ico;." --add…

Redis常见的数据类型命令

文章目录Redis 常见的数据类型及命令一、常见的NoSQL二、Redis 简介三、key 键的一些操作命令四、Redis的五种基本数据结构1、String(字符串)介绍常用命令1.1 set/get1.2 append1.3 strlen1.4 setex1.5 mset/mget1.6 setrange/getrange1.7 setnx1.8 incr…

数据库管理工具的使用

目录 摘要 一、Navicat是什么? 二、使用步骤 1.如何下载与安装 2.如何连接远程数据库 总结 摘要 本文主要介绍数据库管理工具的使用 一、Navicat是什么? 它是一款数据库管理工具,将此工具连接数据库,你可以从中看到各种数据库的详细…

JavaScript 面向对象【快速掌握知识点】

目录 类和对象 属性和方法 继承 多态 封装 类和对象 类是用于定义对象的模板或蓝图;它包含对象的属性和方法,我们可以使用class关键字来定义类。 class Person {constructor(name, age) {this.name name;this.age age;}sayHello() {console.log(H…

JSP+SQL电量监视系统设计与实现

技术:Java、JSP等摘要:电脑界常有一股又一股的风潮,在这风潮中,JBuilder 是使用最广泛的工具之一。JBuilder6 提供了可视化集成开发工具,支持开发人员构建标准的爪哇应用系统。其开放的环境、基于组建的开发方式和丰富…

【软件测试面试题】2023年测试人面试专属,最全接口测试面试题大全(附回答)

目录:导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜)前言 1、HTTP和HTTPS协议…

2022年全国职业院校技能大赛(中职组)网络安全竞赛试题A(9)

目录 竞赛内容 模块A 基础设施设置与安全加固 一、项目和任务描述: 二、服务器环境说明 三、具体任务(每个任务得分以电子答题卡为准) A-1任务一 登录安全加固(Windows) 1.密码策略 a.更改或创建密码时执行复杂…

17- TensorFlow实现手写数字识别 (tensorflow系列) (项目十七)

项目要点 模型创建: model Sequential()添加卷积层: model.add(Dense(32, activationrelu, input_dim100)) # 第一层需要 input_dim添加dropout: model.add(Dropout(0.2))添加第二次网络: model.add(Dense(512, activationrelu)) # 除了first, 其他层不要输入shape添加输出…

这是一款值得开发人员认真研究的软件,数据库优化,应用服务器安全优化...

1.查询数据库死锁相关信息2.查看数据库的链接情况3.当前实例上的所有用户4.创建数据库独立密码5.查看数据库使用的端口号6.当前数据库设置的最大连接数7.当前数据库最大的理论可连接数8.当前数据库实例的连接数9.当前数据库连接数10.当前数据库连接超时设置11.当前sqlserver 超…

SMART系统—考试监控及阅卷模块的设计与开发

技术:Java、JSP等摘要:Smart在线考试评估系统(简称“SMART系统”),是基于Browser/Server(简称B/S)结构的数据库访问模式,采用Struts Spring Hibernate作为平台搭建的框架开发的一套新型智能的远程教育软件…

伺服三环控制深层原理解析

我们平时使用的工业伺服,通常是成套伺服,即驱动器和电机型号存在配对关系。 但有些时候,我们要用电机定转子和编码器制作非成套电机,这种时候,我们需要对驱动器进行各种设置才能驱动电机。 此篇文章将通过介绍伺服控制的三环控制原理入手来说明我们调试非成套伺服时需要…

2023年微信小程序获取手机号授权登录注册详细教程,包含服务端教程

前言 小程序中有很多地方都会用到用户的手机号,比如登陆注册,填写收货地址等等。有了这个组件可以快速获取微信绑定手机号码,无须用户填写。网上大多数教程还是往年的,而微信官方的api已做了修改。本篇文章将使用最新的方法获取手…

【unity学习记录】Canvas Group组件

💗 未来的游戏开发程序媛,现在的努力学习菜鸡 💦本专栏是我关于游戏开发的学习笔记 🈶本篇是unity的Canvas Group组件 Canvas Group画布组介绍详解1. Alpha2. Interactable3. Blocks Raycasts4. Ignore Parent Groups介绍 画布组…

用反射模拟IOC模拟getBean

IOC就是spring的核心思想之一:控制反转。这里不再赘述,看我的文章即可了解:spring基础思想IOC其次就是java的反射,反射机制是spring的重要实现核心,今天我看spring的三级缓存解决循坏引用的问题时,发现一个…

机器学习——模型评估

在学习得到的模型投放使用之前,通常需要对其进行性能评估。为此,需使用一个“测试集”(testing set)来测试模型对新样本的泛化能力,然后以测试集上的“测试误差( tootino error)作为泛化误差的近似。我们假设测试集是从样本真实分…

ShardingSphere水平、垂直分库、分表和公共表

目录一、ShardingSphere简介二、ShardingSphere-分库分表1、垂直拆分(1)垂直分库(2)垂直分表2、水平拆分(1)水平分库(2)水平分表三、水平分库操作1、创建数据库和表2、配置分片的规则…

中级嵌入式系统设计师2016下半年上午试题及答案解析

中级嵌入式系统设计师2016下半年上午试题 单项选择题 1、(1)用来区分在存储器中以二进制编码形式存放的指令和数据。 A. 指令周期的不同阶段 B. 指令和数据的寻址方式 C. 指令操作码的译码结果 D. 指令和数据所在的存储单元 2、计算机在一个指令周期的过程中,为从…

web服务器(1)

阻塞和非阻塞、同步和异步 网络IO阶段一:数据就绪 操作系统,tcp接受缓冲区 阻塞:调用IO方法的线程进入阻塞状态 非阻塞:不会改变线程的状态,通过返回值判断 网络IO阶段二:数据读写 应用程序 同步…

接口自动化框架---升级版(Pytest+request+Allure)

目录:导读 一、简单介绍 二、目录介绍 三、代码分析 写在最后 接口自动化是指模拟程序接口层面的自动化,由于接口不易变更,维护成本更小,所以深受各大公司的喜爱。 第一版入口:接口自动化框架(PytestrequestAllure…

[Android Studio] Android Studio使用keytool工具读取Debug 调试版数字证书以及release 发布版数字证书

🟧🟨🟩🟦🟪 Android Debug🟧🟨🟩🟦🟪 Topic 发布安卓学习过程中遇到问题解决过程,希望我的解决方案可以对小伙伴们有帮助。 📋笔记目…