一百三十三、Hive——Hive外部表加载含有JSON格式字段的CSV文件数据

news2024/11/23 3:42:17

一、目标

在Hive的ODS层建外部表,然后加载HDFS中的CSV文件数据

注意:CSV文件中含有未解析的JSON格式的字段数据,并且JSON字段中还有逗号

 二、第一次建外部表,直接以','分隔行字段,结果JSON数据只显示一部分

(一)建外部表SQL

create  external  table  if not exists ods_track2(
     device_no    string     comment '设备编号',
     create_time  timestamp  comment '创建时间',
     track_data   string     comment '轨迹数据集合(包含多个目标点)'
)
comment '轨迹数据表'
row format delimited fields terminated by ','
stored as  textfile  location '/rtp/track'
tblproperties("skip.header.line.count"="1") ;

(二)查看表数据

 (三)表数据问题

JSON数据的字段track_data只显示一部分数据,因为JSON格式数据里面也含有逗号

三、解决问题:第二次建外部表,不直接以逗号分隔行字段,而是用Hive提供的Serde

(一)建外部表SQL

create  external  table  if not exists ods_track(
     device_no    string     comment '设备编号',
     create_time  timestamp  comment '创建时间',
     track_data   string     comment '轨迹数据集合(包含多个目标点)'
)
comment '轨迹数据表'
row format serde  'org.apache.hadoop.hive.serde2.OpenCSVSerde'
with serdeproperties (
"separatorChar" = ",",
"quoteChar" = "\"",
"escapeChar" = "\\"
)
stored as  textfile  location '/rtp/track'
tblproperties("skip.header.line.count"="1") ; 

(二)查看表数据

(三)验证一条JSON格式字段track_data的数据是否完整???

[{"id":"14","length":5.0,"height":3.0,"posX":63.0,"posY":37.0,"acs":99.0,"angle":83.0,"altitude":99.0,"longitude":40.0,"latitude":33.0,"trust":5.0,"brand":"SU A00001","carType":"4","carColor":10},{"id":"3","length":9.0,"height":1.0,"posX":43.0,"posY":88.0,"acs":52.0,"angle":82.0,"altitude":81.0,"longitude":59.0,"latitude":84.0,"trust":4.0,"brand":"SU A00001","carType":"2","carColor":5},{"id":"13","length":1.0,"height":1.0,"posX":5.0,"posY":33.0,"acs":57.0,"angle":78.0,"altitude":33.0,"longitude":36.0,"latitude":61.0,"trust":5.0,"brand":"SU A00001","carType":"4","carColor":10},{"id":"89","length":3.0,"height":1.0,"posX":80.0,"posY":96.0,"acs":29.0,"angle":90.0,"altitude":91.0,"longitude":43.0,"latitude":40.0,"trust":1.0,"brand":"SU A00001","carType":"4","carColor":2},{"id":"84","length":3.0,"height":1.0,"posX":26.0,"posY":80.0,"acs":21.0,"angle":25.0,"altitude":99.0,"longitude":86.0,"latitude":31.0,"trust":4.0,"brand":"SU A00001","carType":"3","carColor":1},{"id":"97","length":6.0,"height":3.0,"posX":70.0,"posY":75.0,"acs":9.0,"angle":58.0,"altitude":99.0,"longitude":62.0,"latitude":95.0,"trust":1.0,"brand":"SU A00001","carType":"3","carColor":3},{"id":"17","length":9.0,"height":2.0,"posX":99.0,"posY":17.0,"acs":100.0,"angle":79.0,"altitude":5.0,"longitude":61.0,"latitude":99.0,"trust":1.0,"brand":"SU A00001","carType":"3","carColor":10},{"id":"81","length":8.0,"height":1.0,"posX":30.0,"posY":66.0,"acs":92.0,"angle":73.0,"altitude":3.0,"longitude":62.0,"latitude":84.0,"trust":1.0,"brand":"SU A00001","carType":"2","carColor":8}]

验证结果:数据完整

乐于奉献共享,帮助你我他!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/786921.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

真实和虚拟相撞,构造的VR展厅特点和优势有哪些?

随着科技的不断发展,VR展厅成为了现代展览的一种全新展现方式,三维立体展厅的设计,让企业、画展、纪念展等可以创造出令人惊叹的虚拟展览空间效果,为用户带来丰富的体验。观众身临其境地感受实体展厅和展品,这种超越了…

【Docker-compose】基于Docker-compose创建LNMP环境并运行Wordpress网站平台

基于Docker compose创建LNMP环境并运行Wordpress网站平台 1.Docker-Compose概述2. YAML文件格式及编写注意事项3. Docker-Compose配置常用字段4.Docker Compose常用命令5.使用Docker-compose创建LNMP环境,并运行Wordpress网站平台5.1 Docker Compose环境安装5.2 使用…

苍穹外卖项目解读(一) 完整代码本地部署运行

前言 HM新出springboot入门项目《苍穹外卖》,笔者打算写一个系列学习笔记,“苍穹外卖项目解读”,内容主要从HM课程,自己实践,以及踩坑填坑出发,以技术,经验为主,记录学习&#xff0…

Tensorflow报错protobuf requires Python ‘>=3.7‘ but the running Python is 3.6.8

报错信息 仔细观察下方命令后,可得运行:python -m pip install --upgrade pip即可 完成后再次执行性安装命令 成功!!!

Windows 10, version 22H2 (updated Jul 2023) 中文版、英文版下载

Windows 10, version 22H2 (updated Jul 2023) 中文版、英文版下载 Windows 10 22H2 企业版 arm64 x64 请访问原文链接:https://sysin.org/blog/windows-10/,查看最新版。原创作品,转载请保留出处。 作者主页:sysin.org Window…

【SAPABAP] ABAP Memory和 SAP Memory 区别

SAP系统中有两种内存: https://www.ngui.cc/el/2506560.html?actiononClick 1,ABAP Memory 简单说来一个session就是登录SAP系统开的窗口。 可以通过abap内存实现同一session中的数据交换。具体使用到 EXPORT 和IMPORT memory id 语句. 用户登陆后&…

SSRF总结

SSRF ​ SSRF全称:Server-Side Request Forgery,即服务器端请求伪造。 ​ 是一个由攻击者构造请求,在目标服务端执行的一个安全漏洞。攻击者可以利用该漏洞使服务器端向攻击者构造的任意域发出请求,目标通常是从外网无法访问的内…

企业软文怎么写:深度剖析写作技巧!

在当今信息爆炸的时代,企业软文已经成为了企业营销的重要手段之一。一篇高质量的企业软文不仅能够提升企业的品牌知名度,还能够为企业带来实际的经济效益。那么,如何才能写出一篇高质量的企业软文呢?本文伯乐网络传媒将从软文标题…

服务器负载均衡算法有哪些

算法举例 服务器负载均衡算法是用于分配网络流量到多个服务器的策略,以实现负载均衡和提高系统性能。以下是一些常见的服务器负载均衡算法的详细说明: 轮询(Round Robin)算法: 轮询算法是最简单且常见的负载均衡算法之…

ES6基础知识四:对象新增了哪些扩展?

一、参数 ES6允许为函数的参数设置默认值 function log(x, y World) {console.log(x, y); }console.log(Hello) // Hello World console.log(Hello, China) // Hello China console.log(Hello, ) // Hello函数的形参是默认声明的,不能使用let或const再次声明 fu…

minitab学习系列(3)--DOE结果分析

系列文章目录 文章目录 系列文章目录前言一、DOE五步法二、分析要点1.ANOVA表的分析2.分析评估回归的总效果3.分析评估各项效应的显著性 三、图像解释1.Pareto图2.正态效应图3.半正态效应图4.残差图5.Box-Cox变换结果图 四、判断模型是否需要改进五、删减模型判断6.主效应图7.等…

大数据技术之Hive2

目录标题 3、Hive 数据类型3.1 基本数据类型:3.2 集合数据类型:3.3 类型转化 4、DDL数据定义4.1 创建数据库4.2 查询数据库4.3 创建表4.4 管理表4.5 外部表4.6 管理表与外部表的相互转换4.7 分区表4.7.1 分区表基本操作4.7.2 分区表注意事项 4.7 修改表4…

C#using关键字的使用方法

这篇日志记录下C#中using关键字的使用方法。 Using的使用大致分别以下三种: 1:using指令(命名空间) using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks; …

Java常见练手程序《“书写”百遍,其义自见》

1、锻炼重写方法、抽象类定义、常量、自定义异常与调用。 建立一个Java抽象类Drink,应当 a、声明一个抽象方法taste() 该方法负责输出饮料的味道 b、声明int型常量来代表不同的饮料类型 咖啡、啤酒、牛奶 c、声明静态方法getDrink(int drinkType) 根据传入…

1. 业务场景讲解设计模式(简单工厂模式)

现阶段我之所以再次学习设计模式,是因为感受到企业项目的多层封装与调用的复杂性,既然这样那肯定是有自己的设计道理的,能让系统更具有拓展性,安全性,易维护性。所以,我希望这次站在领导设计者的角度去实现…

如何为IP申请一个SSL证书?

打开www.zerossl.com官网,然后我们直接输入服务器的IP地址,然后直接点击Next Step。 接下来,我们输入自己的邮箱账号,直接注册。(如果点击后没有反应,请挂代理访问。) 然后我们到了下一页直接点…

mmcv与cuda,pytorch版本匹配要求

mmcv与cuda、pytorch版本兼容要求,见mmcv官方文档:https://mmcv.readthedocs.io/zh_CN/latest/get_started/installation.html#pip 安装部分。 目前网页上默认最新版2.x版本,若要切换旧版,点击页面左下角切换即可。 查看自己的cud…

面向对象设计原则和GOF23种设计模式

写在前面 本文一起看下面向对象的设计原则和GOF 23 种常用的设计模式。 1:面向对象设计原则 面向对象设计原则可以简单的总结为SOLID,分别看下。 1.1:S single responsibility principle,单一职责原则,即一个类只…

百叶隔断为空间添加时尚元素

百叶隔断作为一种常见的空间分隔方式,早已成为了许多家庭、工作场所不可缺少的装修元素之一。而在装修中,如何利用百叶隔断为间添加时尚元素呢? 1. 选择合适的材质 百叶隔断的材质种类繁多,包括木质、金属、PVC等等。在选择时&…

SIT1021,可替代TJA1021一款本地互联网络(LIN)物理层收发器

SIT1021 是一款本地互联网络(LIN)物理层收发器,符合 LIN 2.0、LIN 2.1、LIN 2.2、LIN 2.2A、 ISO 17987-4:2016 (12V) 和 SAE J2602 标准。主要适用于使用 1kbps 至 20kbps 传输速率的车载网 络。SIT1021 通过 TXD 引脚控制 LIN 总线的状态&a…