目录
1.数据准备
2.操作
-- 方式1: 逐个(字段)处理, get_json_object UDF函数 最大弊端是一次只能解析提取一个字段
-- 方式2: 逐条处理. json_tuple 这是一个UDTF函数 可以一次解析提取多个字段
-- 方式3: 在建表时候, 直接处理json, row format SerDe '能处理Json的SerDe类'
1.数据准备
-- 演示json解析
-- 需求: 把json解析后的数据保存成一个新表
--创建表
create table tb_json_test1 (
json string
);
--加载数据
load data inpath '/input/device.json' into table tb_json_test1;
-- 查看数据
select * from tb_json_test1;
结果:数据都是在一个集合里 ,无法直接用分隔符提取
2.操作
-- 方式1: 逐个(字段)处理, get_json_object UDF函数 最大弊端是一次只能解析提取一个字段
-- get_json_object UDF函数 最大弊端是一次只能解析提取一个字段
create table device1 as
select
--获取设备名称
get_json_object(json,"$.device") as device,
--获取设备类型
get_json_object(json,"$.deviceType") as deviceType,
--获取设备信号强度
get_json_object(json,"$.signal") as signal,
--获取时间
get_json_object(json,"$.time") as stime
from tb_json_test1;
-- 方式2: 逐条处理. json_tuple 这是一个UDTF函数 可以一次解析提取多个字段
--json_tuple 这是一个UDTF函数 可以一次解析提取多个字段
--单独使用 解析所有字段
create table device2 as
select
json_tuple(json,'device','deviceType','signal','time')
as (device,deviceType,signal,stime)
from tb_json_test1;
select * from device2;
--给字段起别名的时候,如果起了time会报黄,time是一个保留关键字,应该加引号
-- 'time' is a reserved keyword and should be quoted,
数据已被抽取出来
-- 方式3: 在建表时候, 直接处理json, row format SerDe '能处理Json的SerDe类'
--建表的时候直接使用JsonSerDe解析
create table tb_json_test2 (
device string,
deviceType string,
signal double,
`time` string --关键字要加反引号
)ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe' STORED AS TEXTFILE;
-- 加载数据
load data inpath '/input/device.json' into table tb_json_test2;
-- 查看
select * from tb_json_test2;