大数据相关组件安装及使用

news2025/4/8 14:40:31

自学大数据相关组件 持续更新中。。。

一、linux安装docker

1、更新yum

sudo yum update

2、卸载docker旧版本

sudo yum remove docker \
                  docker-client \
                  docker-client-latest \
                  docker-common \
                  docker-latest \
                  docker-latest-logrotate \
                  docker-logrotate \
                  docker-engine

3、添加镜像库

sudo yum install -y yum-utils
sudo yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo

4、安装

sudo yum install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin

5、启动

systemctl start docker

二、docker安装mysql

1、拉取镜像

docker pull mysql

2、启动mysql

docker run -p 3306:3306 -e TZ=Asia/Shanghai -e MYSQL_ROOT_PASSWORD=@Abc123455 --name mysql -d mysql:latest

3、设置mysql时区

show variables like '%time_zone%';

SET time_zone = 'Asia/Shanghai';
SET @@global.time_zone = 'Asia/Shanghai';

SELECT @@global.time_zone;
show variables like '%time_zone%';

4、拉取postgres

docker pull postgres:alpine3.19

5、启动postgres

mkdir -p  /home/pgdata
docker run --name pg_p -v /home/pgdata/data:/var/lib/postgresql/data -e POSTGRES_PASSWORD=@Abc123455 -p 5432:5432 -d postgres:alpine3.19

三、安装jdk

1、下载jdk安装包
2、linux创建文件夹

mkdir /usr/local/java

3、jdk安装包放入文件夹内
4、解压

tar -zxvf jdk-8u351-linux-x64.tar.gz

5、更改环境变量

vim /etc/profile

添加

export JAVA_HOME=/usr/local/java/jdk8
export CLASSPATH=.:${JAVA_HOME}/jre/lib/rt.jar:${JAVA_HOME}/lib/dt.jar:${JAVA_HOME}/lib/tools.jar
export PATH=$PATH:${JAVA_HOME}/bin

6、重载配置

source /etc/profile

7、检查是否生效

java -version

8、防止重启后重新重载配置

vim ~/.bashrc

添加

source /etc/profile

四、设置系统时区

1、设置 上海 UTC+8 时区

sudo ln -sf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

2、保持硬件时区与系统时区一致

timedatectl set-local-rtc 1

五、docker安装flink

1、拉取镜像

docker pull flink:1.18.1-scala_2.12-java8

2、创建docker网络

docker network create mynet

3、启动jobmanager(master节点,管理程序,负责调度job运算)

 docker run -d --name jm --network mynet -p 8081:8081 -e JOB_MANAGER_RPC_ADDRESS=jm -e TZ=Asia/Shanghai  flink:1.18.1-scala_2.12-java8 jobmanager

启动两个taskmanager(真正运算task的节点)

docker run -d --name tm1 --network mynet -e JOB_MANAGER_RPC_ADDRESS=jm -e TZ=Asia/Shanghai flink:1.18.1-scala_2.12-java8 taskmanager

docker run -d --name tm2 --network mynet -e JOB_MANAGER_RPC_ADDRESS=jm -e TZ=Asia/Shanghai flink:1.18.1-scala_2.12-java8 taskmanager

4、然后可以通过8081打开管理页面,查看集群状态
在这里插入图片描述

六、Doris

参考官方文档

1、下载压缩包
2、解压

tar -zxvf apache-doris-2.0.4-bin-arm64.tar.gz

3、修改linux内核参数

sysctl vm.max_map_count
sudo sysctl -w vm.max_map_count=2000000

4、启动fe

cd apache-doris-x.x.x/fe

修改 FE 配置文件 conf/fe.conf

vim conf/fe.conf

添加 priority_networks 参数

priority_networks=172.23.16.0/24

添加元数据目录

meta_dir=/path/your/doris-meta

启动

./bin/start_fe.sh --daemon

使用mysql连接fe

mysql -uroot -P9030 -h127.0.0.1

查看fe运行状态:

show frontends\G;

在这里插入图片描述

5、启动be

cd apache-doris-x.x.x/be

修改 BE 配置文件 conf/be.conf

vim conf/be.conf

添加 priority_networks 参数

priority_networks=172.23.16.0/24

添加元数据目录

storage_root_path=/path/your/data_dir

启动

./bin/start_be.sh --daemon

添加 BE 节点到集群
通过 MySQL 客户端连接到 FE 之后执行下面的 SQL,将 BE 添加到集群中

ALTER SYSTEM ADD BACKEND "be_ip:9050";

6、验证启动
在这里插入图片描述

七、flink-cdc

参考文档
Mysql往Doris同步数据
1、准备数据
Mysql:

-- 创建数据库
CREATE DATABASE app_db;

USE app_db;

-- 创建 orders 表
CREATE TABLE `orders` (
`id` INT NOT NULL,
`price` DECIMAL(10,2) NOT NULL,
PRIMARY KEY (`id`)
);

-- 插入数据
INSERT INTO `orders` (`id`, `price`) VALUES (1, 4.00);
INSERT INTO `orders` (`id`, `price`) VALUES (2, 100.00);

-- 创建 shipments 表
CREATE TABLE `shipments` (
`id` INT NOT NULL,
`city` VARCHAR(255) NOT NULL,
PRIMARY KEY (`id`)
);

-- 插入数据
INSERT INTO `shipments` (`id`, `city`) VALUES (1, 'beijing');
INSERT INTO `shipments` (`id`, `city`) VALUES (2, 'xian');

-- 创建 products 表
CREATE TABLE `products` (
`id` INT NOT NULL,
`product` VARCHAR(255) NOT NULL,
PRIMARY KEY (`id`)
);

-- 插入数据
INSERT INTO `products` (`id`, `product`) VALUES (1, 'Beer');
INSERT INTO `products` (`id`, `product`) VALUES (2, 'Cap');
INSERT INTO `products` (`id`, `product`) VALUES (3, 'Peanut');

Doris创建数据库:

create database app_db;

2、下载flink-cdc-3.0.1压缩包
3、解压,并将文件夹改名为flink-cdc

tar -zxvf flink-cdc-3.0.1-bin.tar.gz
mv flink-cdc-3.0.1 flink-cdc

4、下载以下两个jar包放入flink-cdc的lib文件夹下
flink-cdc-pipeline-connector-mysql-3.0.1.jar
flink-cdc-pipeline-connector-doris-3.0.1.jar
5、进入文件夹,新建mysql-to-doris.yaml文件:

cd flink-cdc
vim mysql-to-doris.yaml
source:
  type: mysql
  hostname: localhost
  port: 3306
  username: root
  password: 123456
  tables: app_db.\.*
  server-id: 5400-5404
  server-time-zone: Asia/Shanghai

sink:
  type: doris
  fenodes: 127.0.0.1:8030
  username: root
  password: ""
  table.create.properties.light_schema_change: true
  table.create.properties.replication_num: 1

pipeline:
  name: Sync MySQL Database to Doris
  parallelism: 2

6、最后,提交任务到 Flink 服务
将fllink-cdc复制入Flink容器内再运行:

docker cp flink-cdc jm:/opt

进入容器

docker exec -it jm /bin/bash

返回上一级文件夹,可以看到flink-cdc已被复制进来
在这里插入图片描述
进入flink-cdc文件夹下运行flink-cdc:

cd flink-cdc
bash bin/flink-cdc.sh mysql-to-doris.yaml

7、验证运行成功
在这里插入图片描述
更改Mysql中数据或表结构,Doris中同步进行了修改

八、DolphinScheduler

参考文档

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1583017.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

菜鸟IPO折戟背后:估值大幅下降,阿里巴巴为“分拆之痛”买单

撰稿|行星 来源|贝多财经 近日,阿里巴巴集团(下称“阿里巴巴”或“阿里”)发布公告,称其物流子公司菜鸟(同菜鸟物流、菜鸟网络)撤回在港交所的首次公开发行及上市申请,并计划收购菜鸟少数股东…

LeetCode31. 下一个排列(Java)

题目: 整数数组的一个 排列 就是将其所有成员以序列或线性顺序排列。 例如,arr [1,2,3] ,以下这些都可以视作 arr 的排列:[1,2,3]、[1,3,2]、[3,1,2]、[2,3,1] 。 整数数组的 下一个排列 是指其整数的下一个字典序更大的排列…

鸿蒙实战开发-如何实现查看系统相册、最近删除、收藏夹操作功能

介绍 本示例主要展示了相册相关的功能,使用ohos.file.photoAccessHelper 接口,实现了查看系统相册、创建用户相册、查看相册照片、用户相册文件添加和删除、以及预览图片、最近删除、收藏夹操作等功能; 效果预览 使用说明 主界面:查询显示…

一本想教会你滤波算法书

一本想教会你滤波算法书 从今天开始,这个博客系列会翻译一本 500 页左右的滤波算法的书,该书的原文连接我会放到后面的文中。翻译这本书不仅能继续我的英语学习(水平有限,有问题我留言我马上改!)而且可以跟…

如何合理利用Vue 3中的ref和reactive

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

大话设计模式——24.迭代器模式(Iterator Pattern)

简介 提供一种方法顺序访问一个聚合对象中各个元素,而又不暴露该对象的内部实现。(Java中使用最多的设计模式之一) UML图 应用场景 Java的集合对象:Collection、List、Map、Set等都有迭代器Java ArrayList的迭代器源码 示例 简…

堆 和 优先级队列

目录 一、堆 二、优先级队列 1、初识优先级队列 2、实现一个优先级队列 3、PriorityQueue (1)实现了Comparable接口,重写了compareTo方法 (2)实现了Comparator接口,重写了compare方法 4、 Prio…

WordPress 图片压缩插件:Compress JPEG PNG images 使用方法

插件介绍 Compress JPEG & PNG images是一款非常好用的图片压缩插件:,非常值得大家安装使用;特别是图片类型网站。其实我们很多服务器磁盘空间是不在乎多那么几十 MB 大小的,但是压缩了图片能提升网站速度,节省宽带&#xff…

Linux网络名称空间之独立网络资源管理

Linux网络名称空间是一种强大的虚拟化技术🛠️,它允许用户创建隔离的网络环境🌐,每个环境拥有独立的网络资源和配置。这项技术对于云计算☁️、容器化应用📦和网络安全🔒等领域至关重要。本文将详细介绍在L…

python如何写入csv

在使用python对文件操作的过程中,你肯定碰到过对csv文件的操作,下面就python对csv文件的操作进行详述。 CSV(Comma-Separated Values)逗号分隔符,也就是每条记录中的值与值之间是用分号分隔的。 打开CSV文件并写入一…

第36篇:分频器<三>

Q:这一期我们介绍以计数器方式实现四分频的概念原理。 A:计数器分频有分频系数和占空比这两个参数。待分频时钟的频率为f1,分频后时钟的频率为f2,分频系数为Nf1/f2。 计数器分频电路通过对时钟信号计数来实现分频。根据分频系数可…

医院管理系统!(免费领取源码)

今天给大家分享一套基于SpringbootVue的医院管理系统源码,在实际项目中可以直接复用。(免费提供,文中自取) 系统运行图(设计报告和接口文档) 1、后台管理页面 2、排班管理页面 3、设计报告包含接口文档 源码免费领取方式 后台私信…

基于 SMM 汽车交易系统(源码+配套文档)

摘要 电子商务的兴起不仅仅是带来了更多的就业行业。同样也给我们的生活带来了丰富多彩的变化。多姿多彩的世界带来了美好的生活,行业的发展也是形形色色的离不开技术的发展。作为时代进步的发展方面,信息技术至始至终都是成就行业发展的重要秘密。不论…

如何彻底删除node和npm

如何彻底删除node和npm 前言: 最近做个项目把本地的node更新了,之前是v10.14.2更新至v16.14.0 ,想着把之前的项目起来下,执行npm install 结果启动不了,一直报npm版本不匹配需要更新本地库异常… 找了几天发现是npm 和…

【优选算法专栏】专题十三:队列+宽搜(一)

本专栏内容为:算法学习专栏,分为优选算法专栏,贪心算法专栏,动态规划专栏以及递归,搜索与回溯算法专栏四部分。 通过本专栏的深入学习,你可以了解并掌握算法。 💓博主csdn个人主页:小…

java常用API_正则表达式_在一段文本中查找满足要求的内容(爬虫)——练习及代码演示

练习一: 根据下面这段文本,爬取所有的JavaXX Java自从95年问世以来,经历了很多版本,目前企业中用的最多的是Java8和Java11,因为这两个是长期支持版本,下一个长期支持版本是Java17,相信在未来不久…

基于微信小程序的苏州博物馆文创产品售卖系统

前言 基于小程序的苏州博物馆文创产品售卖系统的设计与实现能够通过互联网得到广泛的、全面的宣传,让尽可能多的用户了解和熟知基于小程序的苏州博物馆文创产品售卖系统的设计与实现的便捷高效,不仅为群众提供了服务,而且也推广了自己&#…

【C++11】initializer_list | 右值引用 | 完美转发

一切皆可列表{ }初始化 在C98,允许花括号{ } 对数组、结构体类型初始化。 class Data { public:Data(int y, int m, int d):_y(y), _m(m), _d(d){} private:int _y;int _m;int _d; };int arr[4]{0,1,2,3};//列表初始化 Data d1{2024,03,21};//列表初始化 C11允许通过{ } 初始化…

基于ADS的PDK---DemoKit的切比雪夫滤波器RF芯片设计

基于ADS的PDK—DemoKit的切比雪夫滤波器RF芯片设计 由于版权原因,很少有完整的ADS的PDK在网上流传的,网上CSDN里面一些台积电的PDK都是只能老版本ADS2008才能用,或者干脆是Cadence导出来的(Cadence导出PDK到ADS参考教程&#xff…

PPT 操作

WPS 版式 PPT中,巧妙使用母版,可以提高效率。 双击母版,选择其中一个版式,插入装饰符号。 然后选择关闭。 这个时候,在该版式下的所有页面,就会出现新加入的符号。不在该版式下的页面,不会出现…