GreenPlum6.x之ETL工具

news2025/1/24 9:48:44

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 前言
  • 一、ETL是什么?
  • 二、数据加载工具GPLoad
    • 1.GPLoad安装部署
    • 2.编写控制文件test.yml
  • 总结


前言

提示:这里可以添加本文要记录的大概内容:

GreenPlum作为一款定位为OLAP系统的分布式数据库平台,具有非常强大的ETL功能,其中存储过程和GPLoad是必须掌握的数据仓库开发工具。


提示:以下是本篇文章正文内容,下面案例可供参考

一、ETL是什么?

ETL是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
ETL 是企业数据应用过程中的一个数据流(pipeline)的控制技术,把原始的数据经过一定的处理,放入数据仓库里。
ETL的目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。
在这里插入图片描述

二、数据加载工具GPLoad

1.GPLoad安装部署

代码如下(示例):

#在虚拟机增加了一台做ETL的服务器
192.168.1.200 gpetl

mkdir -p /gpdata/gpadmin/greenplum-db-clients
chown -R hadoop:hadoop /gpdata/gpadmin/greenplum-db-clients

root: yum install apr apr-util bzip2 libyaml libevent rsync

root:
cd /gpdata/gpadmin/greenplum-db-clients
rpm -ivh greenplum-db-clients-6.18.0-rhel7-x86_64.rpm
rpm -ivh --prefix=/gpdata/gpadmin/greenplum-db-clients/ greenplum-db-clients-6.18.1-rhel7-x86_64.rpm

#将软件赋权给实际管理员用户
ls -al
chown -Rf hadoop:hadoop /gpdata/gpadmin/greenplum-db-clients*

#设置环境变量
source /gpdata/gpadmin/greenplum-db-clients/greenplum-db-clients-6.18.1/greenplum_loaders_path.sh

2.编写控制文件test.yml

代码如下(示例):

VERSION: 1.0.0.1
DATABASE: gpdb 
USER: gpadmin 
HOST: 192.168.1.201 
PORT: 5432 
GPLOAD:
  INPUT:
  - SOURCE:
      LOCAL_HOSTNAME:
        - 192.168.1.200
      PORT: 8080
      FILE:
      - /home/test/test.csv #数据文件路径
  - COLUMNS:
    - id: INT8
  - MAX_LINE_LENGTH: 1000000
  - FORMAT: csv
  - DELIMITER: ','
  - HEADER: true
  OUTPUT:
  - TABLE: public.t_test #测试表,表中包含字段id 类型为INT8
  - MODE: insert
#准备数据文件test.csv
id
1
2
3
4

#执行gpload
gpload -f test.yml 
#成功导入数据则安装成功,否则根据具体提示处理

总结

记录点点滴滴

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/40160.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[Flask]Flask零基础项目---登录demo

借助Flask框架实现模拟用户登录操作; 一步一步的来实现这个登录接口 login.py from flask import Flask, render_template,requestapp Flask(__name__, template_folderlogin)app.route(/) def hello_flask():data request.get_data()print(data)return render_…

黑白图片和黑白图片上色系统毕业设计,AI黑背图像上色系统设计与实现,AI黑白照片上色系统论文毕设作品参考

功能清单 【后台管理员功能】 系统设置:设置网站简介、关于我们、联系我们、加入我们、法律声明 广告管理:设置小程序首页轮播图广告和链接 留言列表:所有用户留言信息列表,支持删除 会员列表:查看所有注册会员信息&a…

电子商务交易系统的设计与实现(javaee+mysql)

目录 1 概论 1 1.1电子商务交易发展 1 1.1.1电子商务交易 1 1.1.2发展前景: 1 2 系统可行性及需求分析 3 2.1 系统调研 3 2.2 系统可行性分析 3 2.2.1技术可行性分析 3 2.2.2 操作可行性分析 3 2.2.3 社会可行性分析 4 2.2.4可行性分析小结 4 2.3 系统需求分析 4 2.…

Windows10添加群晖磁盘映射,总是提示用户名密码不正确解决办法

在使用群晖NAS时,我们需要通过本地映射的方式把NAS映射成本地的一块磁盘使用。 通过winr键,输入\\NAS的IP地址,登录设备时总是提示”用户名或密码不正确”。但是实际密码是正确的。 原因描述:Windows 10(或更早版本&a…

Android如何自定义服务器DynamicMockServer的使用

在平时开发时经常需要与服务器进行联调,但是服务器开发往往比前端的要滞后。这时候需要我们自己去mock数据来调通流程。 今天给大家介绍一款Android上的MockServer----DynamicMockServer,支持接口调用,静态文件。 DynamicMockServer&#x…

Web 安全:PKI 扫盲

个人博客 在互联网世界,我们广泛采用 TLS 来保护通信安全,这里的安全主要包含两部分内容:身份鉴别、通信加密。身份鉴别是一切的基础,特别当发送消息比较敏感需要加密时,对接收方必然有一个身份“假设”,“…

MacBook Pro M1 Docker 环境安装 Nacos 2.x 版本

MacBook Pro M1 Docker 环境安装 Nacos 2.x 版本 前言 由于 rocksdb 暂不支持 M1 平台,所以使用 Zulu JDK 的小伙伴们运行 Nacos 2.x 版本会报错,网上通用的解决方案是使用 Oracle JDK 来运行 Nacos 2.x 版本,但对于强迫症的我来说&#xf…

图书管理系(统附源码PPT)

图书管理系统1 绪 论1.1 研究背景1.2 研究意义1.3 相关研究现状1.3.1 高校图书管理面临的问题1.3.2 信息化为图书管理带来新变化2 相关技术2.1 JSP 概述2.2 MySQL 数据库技术2.3 Spring2.4 SpringMVC2.5 Dbcp2.6 Maven3 系统分析3.1 需求分析3.1.1 系统的功能需求分析3.1.2 系统…

【Git】一文带你入门Git分布式版本控制系统(必要配置、工作原理、创建/克隆项目)

Git 系列文章目录 Git 专栏参考链接Git(一)【Git】一文带你入门Git分布式版本控制系统(简介,安装,Linux命令)文章目录Git 系列文章目录一、Git 的必要配置二、Git 的工作原理三、Git 项目创建1、创建本地项…

【kafka】十四、kafka生产者API

kafka Producer API 1.消息发送流程 kafka的producer发送消息采用的是异步发送的方式。在消息的发送过程中,涉及到了两个线程–main线程和sender线程,以及一个线程共享变量–RecordAccumulator。main线程将消息发送给RecordAccumulator,send…

单向环形链表介绍以及约瑟夫问题分析

❤️一名热爱Java的大一学生,希望与各位大佬共同学习进步❤️ 🧑个人主页:周小末天天开心 各位大佬的点赞👍 收藏⭐ 关注✅,是本人学习的最大动力 感谢! 📕该篇文章收录专栏—数据结构 目录 单…

不敲代码就能搭建个人博客?快解析内网穿透来助力

记得很多年前看到一句话,“博客是一个人的狂欢”。无论是享受搭建的过程,还是享受创作的乐趣,更多时候博客是在取悦自己。那么,在2022年的今天,搭建个人博客还有意义吗?答案是肯定的,当我们在搜…

Day4: 应用篇-1

应用篇-1 环境安装 应用开发交叉编译环境, 【正点原子】I.MX6U嵌入式Linux驱动开发指南V1.7.pdf 章节4.3.1 在 Ubuntu 中创建目录:/usr/local/arm,命令如下: sudo mkdir /usr/local/arm令将交叉编译器复制到/usr/local/arm 中…

Arduino开发实例-DIY分贝测量仪

DIY分贝测量仪 1、应用介绍 分贝计,它通常用于测量声音的强度和水平。 声音响度是用分贝来衡量的。 从飞机到人类耳语的不同发声介质都有一定的声音响度,以分贝表示。 声波是具有来回运动的纵波,给出高音或低音,如图所示: 声音的响度取决于频率或波长或传播所需的时间。…

APK构建过程-命令行编译

官方对APK构建过程的介绍 官方 - 构建流程介绍 典型 Android 应用模块的构建流程,按照以下常规步骤执行: 编译器将您的源代码转换成 DEX 文件(Dalvik 可执行文件,其中包括在 Android 设备上运行的字节码),…

【强化学习论文合集】专栏介绍(订阅前必读)

导读:什么是强化学习? 强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的…

AtCoder Beginner Contest 263 G.Erasing Prime Pairs(二分图最大匹配-网络流)

题目 黑板上有n(n<100)个不同的数&#xff0c;第i个数ai(1<ai<1e7)出现了bi(1<1e9)次&#xff0c; 你每次可以选择当前黑板上存在的两个数x、y&#xff0c;满足xy是质数&#xff0c;擦掉这两个数&#xff0c; 求可以擦掉的最大次数 思路来源 AtCoder Beginner…

[LeetCode周赛复盘] 第 321 场周赛20221127

[LeetCode周赛复盘] 第 321 场周赛20221127 一、本周周赛总结二、 [Easy] 6245. 找出中枢整数1. 题目描述2. 思路分析3. 代码实现三、[Medium]6246. 追加字符以获得子序列1. 题目描述2. 思路分析3. 代码实现四、[Medium] 6247. 从链表中移除节点1. 题目描述2. 思路分析3. 代码实…

Docker-compose详解和LNMP搭建实战

目录 一、Docker-compose简介 1.前言 2.概述 二、Docker-compose安装 三、YAML文件格式及编写注意事项 1.简介 2.使用方法 四、Docker Compose 常用命令 五、Docker Compose 配置常用字段 六、Docker-compose搭建LNMP实战 一、Docker-compose简介 1.前言 我们知道使…

深度学习与总结JVM专辑(三):垃圾回收器—G1(图文+代码)

垃圾收集器G1前言概述停顿时间模型内存布局传统内存布局过时了G1实现的几个关键细节问题铺垫知识&#xff1a;跨代引用铺垫知识&#xff1a;记忆集&#xff0c;卡表&#xff0c;卡页铺垫知识&#xff1a;写屏障插眼往下看G1内存模型分区Region卡片Card堆Heap分代模型分代垃圾收…