04-用户画像+sqoop使用

news2024/11/28 2:33:08

优点

sqoop的作用是实现数据的导入和导出,主要是对数据库和数据仓库之间的操作

只要是支持jdbc连接的数据库都可以使用sqoop操作

添加Sqoop到环境变量中

export SQOOP_HOME=/export/server/sqoop
export PATH=$PATH:$SQOOP_HOME/bin:$SQOOP_HOME/sbin

source /etc/profile

在这里插入图片描述

启动数仓服务

./up01.sh start

sqoop建表语句

create database itcast charset=utf8;
create table itcast.tb_user(
    id int,
    name varchar(20),
    age int,
    gender varchar(20)
);
insert into itcast.tb_user value(1,'张三',20,'男');

hive数仓中的准备

create database itcast;

hive表指令

  • create-hive-table 根据mysql表创建hive表
  • –connect mysql连接信息 jdbc连接
  • –username mysql用户名
  • –password mysql密码
  • –table mysql表名
  • –hive-table hive表名 需要指定库
  • –fields-terminated-by 字段分割符
/export/server/sqoop/bin/sqoop create-hive-table --connect  jdbc:mysql://192.168.88.166:3306/users --username root --password 123456 --table tbl_users --hive-table users.tbl_users --fields-terminated-by '\t'

sqoop导入数据指令

  • mysql数据导入数仓
  • import 根据mysql表创建
  • –connect mysql连接信息
  • –username 用户名
  • –password 密码
  • –table mysql表名
  • –hive-import 导入hive表
  • –hive-overwrite 覆盖导入
  • –hive-table hive表名
  • –fields-terminated-by 字段分割符
  • –delete-target-dir 如果存在表目录则删除后在再重新创建
  • –direct 直接导入模式 提升导入速度
  • –m 指定Maptask数量并行导入数据
/export/server/sqoop/bin/sqoop import --connect  jdbc:mysql://192.168.88.166:3306/users --username root --password 123456 --table tbl_users --hive-import --hive-overwrite  --hive-table users.tbl_users --fields-terminated-by '\t'  --delete-target-dir  --direct  --m  1

编写sqoop脚本

qoop脚本就是将sqoop指令写入shell文件 后缀是 .sh

在这里插入图片描述

在这里插入图片描述

建表脚本

/export/server/sqoop/bin/sqoop \
create-hive-table \
--connect jdbc:mysql://192.168.88.166:3306/users \
--username root \
--password 123456 \
--table tbl_users \
--hive-table users.tbl_users \
--fields-terminated-by '\t'

导入脚本

/export/server/sqoop/bin/sqoop \
import \
--connect  jdbc:mysql://192.168.88.166:3306/users \
--username root \
--password 123456 \
--table tbl_users \
--hive-import \
--hive-overwrite  \
--hive-table users.tbl_users \
--fields-terminated-by '\t'  \
--delete-target-dir  \
--direct  \
--m  1

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1951949.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spark RDD 介绍

什么是 RDD ? 弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合; 特性: 弹性: 存储弹性:内存与磁盘的…

CentOS 7.x 的 YUM 仓库问题

背景 CentOS Linux 7 的生命周期(EOL)已经于 2024 年 6 月 30 日终止这意味着 CentOS 7.x 的官方镜像站点将不再提供服务,导致在使用 yum 安装或更新程序时可能会遇到 错误。本文将介绍如何解决这一问题,使得你可以继续在 CentOS…

实验八: 彩色图像处理

目录 一、实验目的 二、实验原理 1. 常见彩色图像格式 2. 伪彩色图像 3. 彩色图像滤波 三、实验内容 四、源程序和结果 (1) 主程序(matlab (2) 函数FalseRgbTransf (3) 函数hsi2rgb (4) 函数rgb2hsi (5) 函数GrayscaleFilter (6) 函数RgbFilter 五、结果分析 1. …

shell脚本相关应用

编写一个简单的脚本,以及运行脚本 301 vim helloworld.sh #!/bin/bash echo "hello world!" ls -lh /etc/ 执行的方式如下: 302 bash helloworld.sh 303 sh helloworld.sh 304 chmod x helloworld.sh 305 ./helloworld.sh…

【计算机网络】数据链路层实验

一:实验目的 1:学习WireShark软件的抓包操作,分析捕获的以太网的MAC帧结构。 2:学习网络中交换机互相连接、交换机连接计算机的拓扑结构,理解虚拟局域网(WLAN)的通信机制。 3:学习…

stm32入门-----TIM定时器(输入捕获模式——下)

目录 前言 一、C语言编程初始化步骤 1.开启时钟 2.配置GPIO口 3.配置时基单元 4.配置输入捕获单元(主模式) 5.配置触发源于从模式 6.开启定时器 二、项目实操(测周法) 1.定时器测量方波 2.定时器测量方波的占空比 前言 接…

nginx的学习(二):负载均衡和动静分离

简介 nginx的负载均衡和动静分离的简单使用 负载均衡配置 外部访问linux的ip地址:80/edu/a.html地址,会轮询访问Tomcat8080和Tomcat8081服务。 Tomcat的准备 准备两个Tomcat,具体准备步骤在nginx的学习一的反向代理例子2中,在Tomcat8080…

搜索引擎项目构建与解析(一)

这是源码,大家可以下载下来作为参考,一起食用效果更佳:SearchEngine 王宇璇/submit - 码云 - 开源中国 (gitee.com)https://gitee.com/yxuan-wang/submit/tree/master/SearchEngine搜索引擎项目总体来看内容比较简单,代码量也比较…

【计算机方向】五本“三区水刊”重磅推荐!几乎不拒收,国人发文友好!

本期将为您带来五本计算机SCI 妥妥毕业神刊! AUTONOMOUS AGENTS AND MULTI-AGENT SYSTEMS International Journal on Document Analysis and Recognition COMPUTATIONAL INTELLIGENCE IET Biometrics ACM Transactions on Asian and Low-Resource L…

linux系统安装pytorch_中文地址命名实体识别案例

命名实体有关文章参考这篇文章 中文地址命名实体识别训练和预测 win10系统安装cuda环境参考这篇文章 搭建Pytorch的GPU环境超详细 1、下载python https://www.python.org/downloads/release/python-368/ 2、下载python包 https://pypi.org/search/?q=transformers 1、搜…

物联网主机 E6000:智慧应急领域的创新力量

在当今瞬息万变的世界中,突发事件和紧急情况时有发生。如何迅速、准确地应对这些挑战,保障人民生命财产安全,成为了社会发展的重要课题。而物联网主机 E6000 的出现,为智慧应急领域带来了全新的解决方案。 一、强大的性能与功能 物…

opencv使用KCF算法跟踪目标,给出目标中心位置

效果图 代码 import cv2class VideoTracker:def __init__(self, video_path: str):self.video_path video_pathself.cap cv2.VideoCapture(video_path)self.tracker cv2.legacy.TrackerKCF_create()self.initBB Noneself.tracker_initialized Falseself.selecting Fals…

如何进行小程序的调试

Errno错误码 在使用部分小程序 API / 组件时,抛出的异常(fail 回调 / Promise reject)Error 对象中除了带有 errMsg,还会带有通用错误码 errno。 代码示例 wx.openBluetoothAdapter({success (res) {console.log(res)}fail (er…

时间序列分析方法之 -- 指数平滑(Exponential Smoothing)

目录 原理 适用情况 Python 示例代码 结论 原理 指数平滑(Exponential Smoothing)是一种用于时间序列分析和预测的平滑技术。与简单移动平均(SMA)和加权移动平均(WMA)不同,指数平滑通过对最…

VS+opencv+环境配置

下载opencv库。 版本 - OpenCV 下载完了是一个exe文件,(可以更换目录)直接双击,也就是压缩。 vs配置: 调试-调试属性 点编辑,加入这两个,路径根据自己的opencv库 3、链接器 测试:…

《Java初阶数据结构》----8.<java对象的比较总结>

目录 前言 一、Java对象的比较 1.1基本类型的比较 1.2 对象比较的问题(与equals) 1.3对象的比较 (三种常用方式) 1.重写equals方法 2.基于Comparble接口类的比较 3.基于比较器比较(Comparator接口) …

如何在网站嵌入可填写的PDF表单:2024巴黎奥运会赛程

如何将可填写的 PDF 表单嵌入您的网页?访问者无需下载或注册即可查看并填写。 简单!本文以2024巴黎奥运会赛程表单为例,演示如何将其嵌入网页中。您可以在 ONLYOFFICE 表单库免费获取该模板,有白色和紫色两种背景设计。 如何在网站…

uniapp中出现图片过小会与盒子偏离

结论&#xff1a;在image的父盒子中加上display: flex&#xff0c;原因不清楚 出问题的代码和图片如下&#xff1a; <template><view style" background-color: greenyellow; height: 10rpx;width: 10rpx;"><image :src"imgSrc.seatnull" …

UCOS-III 任务调度锁定/解锁接口OSSchedLock/Unlock详解

在实时操作系统中&#xff0c;任务调度是系统实现多任务并发执行的核心机制。但在某些场景下&#xff0c;我们需要临时关闭任务调度&#xff0c;以确保某段代码在执行过程中不被打断。下面将详细介绍这两个接口的应用场景及实现原理。 1. 关闭调度的应用场景 关闭任务调度的主要…

Windows环境下部署本地大模型教程

自ChatGPT在2022年爆发式出圈以来&#xff0c;大模型对人类世界产生了重大影响&#xff0c;无论是在生产、工作、写作方面还是自动驾驶领域&#xff0c;大模型发挥了非常重要的作用。 现各大厂&#xff0c;无论是国内大厂还是国外大厂&#xff0c;都纷纷推出了自己的对话大模型…