DataX--Web:图形化界面简化大数据任务管理

news2024/11/13 15:01:39

        在处理大数据任务时,频繁地修改配置文件或编写脚本可能会变得繁琐且容易出错。DataX Web提供了一个图形化界面,旨在简化这些操作,让用户通过直观的界面管理数据同步任务。

DataX Web简介

        DataX Web是一个开源项目,它允许用户通过Web界面来配置和管理DataX的数据同步任务。它支持RDBMS、Hive、HBase、ClickHouse、MongoDB等多种数据源,使得数据同步任务的创建和管理变得更加便捷。

安装与配置

        安装DataX Web相对简单,用户可以从GitHub上下载源码并按照文档进行配置。配置过程中可能需要调整一些环境变量或配置文件,以确保DataX Web能够正确连接到数据源。

github地址:https://github.com/WeiYe-Jing/datax-web

网盘下载链接:datax-web-2.1.2.tar.gz

安装

1、上传
2、解压
tar -zxvf datax-web-2.1.2.tar.gz -C /opt/installs/
3、安装
cd /opt/installs/datax-web-2.1.2/bin
执行安装程序
./install.sh

修改配置文件

vi /opt/installs/datax-web-2.1.2/modules/datax-executor/bin/env.properties

修改此处:
PYTHON_PATH=/opt/installs/datax/bin/datax.py

启动和关闭

因为它的启动和关闭命令跟我的hadoop集群命令一模一样,所以我要修改它:
mv start-all.sh start-web.sh
mv stop-all.sh stop-web.sh

配置环境变量:
export DATAX_WEB_HOME=/opt/installs/datax-web
export PATH=$PATH:$DATAX_WEB_HOME/bin

记得刷新!!

source /etc/profile
bin路径下,有一个 start-all.sh  启动
stop-all.sh 关闭
不要配置环境变量

/opt/installs/datax-web-2.1.2/bin
运行的时候  ./start-all.sh

浏览

在上一步启动dataxweb之后,通过浏览器可以进行dataxweb的访问,具体地址如下:
http://bigdata01:9527/index.html
进入网页之后,要求输入登录的用户名与密码,使用默认的即可:
用户名:admin
密码:123456

查看jps

使用DataX Web

        在DataX Web中,用户首先需要创建一个项目并添加相应的数据源,如MySQL、Hive等,用户可以根据需要添加DataX模板,这些模板定义了数据同步任务的配置模板。通过图形化界面,用户可以轻松编写数据同步任务,如从Hive导出数据到MySQL。DataX Web允许用户执行任务并实时查看运行日志和监控执行器资源。这使得任务的监控和管理变得更加直观和方便。

创建项目

添加数据源

首先添加mysql数据源

 

添加hive的数据源

启动hive的远程连接
hive-server-manager.sh start hiveserver2

查看日志:
tail -f  /var/log/my_hive_log/hiveserver2.log
连接正常再进行配置

添加DataX模板

名词解释:
- 执行器:目前只有datax可选
- 路由策略:用于集群化部署后,任务的分配,默认随机即可。
- 阻塞处理:在调度出现积压时(同时启动大量的数据处理任务)使用的策略:
- 单机串行:调度请求进入单机执行器后,调度请求进入FIFO队列并以串行方式运行;
- 丢弃后续调度:调度请求进入单机执行器后,发现执行器存在运行的调度任务,本次请求将会被丢弃并标记为失败;
- 覆盖之前调度:调度请求进入单机执行器后,发现执行器存在运行的调度任务,将会终止运行中的调度任务并清空队列,然后运行本地调度任务;
    `建议使用单机串行与丢弃后续调度`
- 任务类型:目前只有DataX选项可以选择
- Cron:调度定时执行器,通过该配置可以完成定时、定周期启动

编写任务

以hive数据导出到mysql为例

配置hdfsreader

配置mysqlwriter

配置字段映射

查看json

记得点击【下一步】,否则任务不创建。

任务执行与监控

查看任务并执行

查看运行结果和日志

编辑任务

注意事项

        在使用DataX Web时,需要注意数据源的字段类型与DataX或Hive中的字段类型匹配。例如,Hive中的int类型在DataX中可能需要改为long

结语

        DataX Web作为一个图形化工具,极大地简化了DataX数据同步任务的管理。它通过提供一个用户友好的界面,使得即使是非技术用户也能够轻松地配置和管理复杂的数据同步任务。随着大数据技术的不断发展,DataX Web有望成为大数据任务管理的重要工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2151895.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

帧率和丢帧分析理论

一、丢帧问题概述 应用丢帧通常指的是在应用程序的界面绘制过程中,由于某些原因导致界面绘制的帧率下降,从而造成界面卡顿、动画不流畅等问题。以60Hz刷新率为例子,想要达到每秒60帧(即60fps)的流畅体验,每…

Python 序列( 列表 字典 元组 集合)

列表简介: 1.列表:用于存储任意数目、任意类型的数据集合。 2.列表是内置可变序列,是包含多个元素的有序连续的内存空间。列表的标准语法格式:a[10,20,30,40]其中,10,20,30,40这些称为:列表a的元素。 3.…

海外云市场分析

海外云市场数据洞察 2024 H1 季度数据 H1季度,全球云基础设施服务指数同比增长21%,达到798亿美元 (相比去年增加134亿美元),三大云服务提供商— AWS,微软Azure 和GCP 营收总增长率为24%,占总市场66%。 其中三大云厂商同比营收增长排序(2024 H1):微软 31%,G…

用户态缓存:环形缓冲区(Ring Buffer)

目录 环形缓冲区(Ring Buffer)简介 为什么选择环形缓冲区? 代码解析 1. 头文件与类型定义 1.1 头文件保护符 1.2 包含必要的标准库 1.3 类型定义 2. 环形缓冲区结构体 2.1 结构体成员解释 3. 辅助宏与内联函数 3.1 min 宏 3.2 is…

【Python报错已解决】xlrd.biffh.XLRDError: Excel xlsx file; not supported

🎬 鸽芷咕:个人主页 🔥 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 专栏介绍 在软件开发和日常使用中,BUG是不可避免的。本专栏致力于为广大开发者和技术爱好者提供一个关于BUG解决的经…

最新LinPay码支付 免签支付系统源码 免授权版本(含搭建教程)

最新LinPay码支付 免签支付系统源码 免授权版本 服务集成商兼容市面所有易支付,兼容所有商城LinPay是专为个人站长打造的聚合免签系统,拥有卓越的性能和丰富的功能。它采用全新轻量化的界面UI,让您能更方便快捷地解决知识付费和运营赞助的难…

中间件知识点-消息中间件(Rabbitmq)一

消息中间件介绍 MQ的作用(优点)主要有以下三个方面: a.异步 b.解耦 c.削峰 MQ的作用(缺点)主要有以下三个方面: a.系统可用性降低 b.系统复杂度提高 c.存在消息一致性问题需要解决 备注: 引入MQ后系统的复杂度会大大提高。 以前服务之间可以…

移动开发(三):使用.NET MAUI打包第一个安卓APK完整过程

目录 一、修改AndroidManifest.xml 配置APP基本信息权限 二、修改项目属性调整输出Android包格式为APK 三、项目发布 四、APP分发 五、总结 之前给大家介绍过使用使用.NET MAUI开发第一个安卓APP,今天给大家介绍如何打包成APK,然后安装到安卓手机正常运行。这里还是沿用…

如何下载ComfyUI开发版

看B站视频,见用绘世可以下载ComfyUI开发版,而我又不想在电脑里放太多东西,于是研究了一下,如何直接从GitHub网站下载。具体步骤看图示。 看压缩包内容,应该直接解压覆盖就可以了,暂未有时间测试。

【JS】ESMoudle机制与符号绑定

前言 JS 模块化有两种方式,分别为:CommonJS 和 ESModule。与 CommonJS 不同,ESModule 是静态模块系统,意味着在代码编译阶段(而不是运行时),模块依赖关系就已经被确定。 ESModule 优势 更好地…

传知代码-多示例AI模型实现病理图像分类

代码以及视频讲解 本文所涉及所有资源均在传知代码平台可获取 概述 本文将基于多示例深度学习EPLA模型实现对乳腺癌数据集BreaKHis_v1的分类。EPLA模型是处理组织病理学图像的经典之作。EPLA模型是基于多示例学习来进行了,那么多示例学习模型对处理病理学图像具有…

VCNet论文阅读笔记

VCNet论文阅读笔记 0、基本信息 信息细节英文题目VCNet and Functional Targeted Regularization For Learning Causal Effects of Continuous Treatments翻译VCNet和功能目标正则化用于学习连续处理的因果效应单位芝加哥大学年份2021论文链接[2103.07861] VCNet和功能定向正…

java数据结构----树

二叉查找树 二叉查找树的API设计 put方法的实现思想: public class BinaryTree<Key extends Comparable<Key>, Value> {private Node root;private int N;public int size(){return N;}public void put(Key key, Value value){root put(root,key,value);}public …

k8s 中的 Ingress 简介

一、关于 Ingress Ingress 是 K8s 中的一个 API 对象&#xff0c;用于管理和配置外部对集群内服务的访问。它可定义 HTTP 和 HTTPS 路由规则&#xff0c;将请求从集群外部的负载均衡器引导到相应的服务。Ingress 的灵活性使得我们能够实现高级的应用程序路由、SSL 终端和负载均…

一种新的电子邮件攻击方式:AiTM

新的攻击组利用合作伙伴组织之间的信任关系来绕过多重身份验证。 一种新的攻击方式开始出现&#xff0c;它利用合作伙伴组织之间的信任关系绕过多重身份验证。在一个利用不同组织之间关系的攻击中&#xff0c;攻击者成功地对四家或更多组织进行了商业电子邮件欺诈(BEC)攻击&…

中泰免签,准备去泰国旅游了吗?《泰语翻译通》app支持文本翻译和语音识别翻译,解放双手对着说话就能翻译。

泰国是很多中国游客的热门选择&#xff0c;现在去泰国旅游更方便了&#xff0c;因为泰国对中国免签了。如果你打算去泰国&#xff0c;那么下载一个好用的泰语翻译软件是很有必要的。 简单好用的翻译工具 《泰语翻译通》App就是为泰国旅游设计的&#xff0c;它翻译准确&#x…

Golang | Leetcode Golang题解之第420题强密码检验器

题目&#xff1a; 题解&#xff1a; func strongPasswordChecker(password string) int {hasLower, hasUpper, hasDigit : 0, 0, 0for _, ch : range password {if unicode.IsLower(ch) {hasLower 1} else if unicode.IsUpper(ch) {hasUpper 1} else if unicode.IsDigit(ch)…

Python | Leetcode Python题解之第421题数组中两个数的最大异或值

题目&#xff1a; 题解&#xff1a; class Trie:def __init__(self):# 左子树指向表示 0 的子节点self.left None# 右子树指向表示 1 的子节点self.right Noneclass Solution:def findMaximumXOR(self, nums: List[int]) -> int:# 字典树的根节点root Trie()# 最高位的二…

大模型中常见 loss 函数

loss 函数 首先&#xff0c;Loss 是允许不降到 0 的&#xff0c;模型计算的 loss 最终结果可以接近 0。 可以成为 loss 函数的条件## 常用 loss 以下函数调用基于 Pytorch&#xff0c;头文件导入&#xff1a; import torch.nn as nn 均方差&#xff08;MSE&#xff09; nn.…

基于微信小程序的剧本杀游玩一体化平台

作者&#xff1a;计算机学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源码”。 专栏推荐&#xff1a;前后端分离项目源码、SpringBoot项目源码、SSM项目源码 系统展示 基于微信小程序JavaSpringBootVueMySQL的剧…