Maxwell学习笔记

news2025/1/12 1:55:59

1 概述

  • Maxwell 是由美国 Zendesk 开源,用 Java 编写的 MySQL 实时抓取软件。 实时读取MySQL 二进制日志 Binlog,并生成 JSON 格式的消息,作为生产者发送给 Kafka,Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。

    官网地址:http://maxwells-daemon.io/
    文档查看地址:http://maxwells-daemon.io/quickstart/

  • Maxwell的原理:了解Maxwell的原理,需要了解Mysql的主从复制过程。

    1. mysql的主从复制过程:Master 主库将改变记录,写到二进制日志(binary log)中,Slave 从库向 mysql master 发送 dump 协议,将 master 主库的 binary log events (binlog)拷贝到它的中继日志(relay log);Slave 从库读取并重做中继日志中的事件,将改变的数据同步到自己的数据库。

    2. MySQL 的二进制日志(binlog)可以说 MySQL 最重要的日志了,它记录了所有的 DDL 和 DML(除了数据查询语句)语句,以事件形式记录,还包含语句所执行的消耗的时间,MySQL 的二进制日志是事务安全型的。

      一般来说开启二进制日志大概会有 1%的性能损耗。二进制有两个最重要的使用场景: 其一:MySQL Replication 在 Master 端开启 binlog,Master 把它的二进制日志传递给 slaves 来达到 master-slave 数据一致的目的。其二:自然就是数据恢复了,通过使用 mysqlbinlog 工具来使恢复数据。二进制日志包括两类文件:二进制日志索引文件(文件名后缀为.index)用于记录所有的二进制文件,二进制日志文件(文件名后缀为.00000*)记录数据库所有的 DDL 和 DML(除了数据查询语句)语句事件。

    3. mysql binlog 的格式有三种,分别是 statement,row,mixed。要使用maxwell做监控分析,使用row模式最合适,因为statement模式记录的是sql语句,可能导致数据的不一致;而mixed模式又记录sql语句又记录实际数据,在进行重播的时候需要进行判断,会导致性能下降。
      在这里插入图片描述

      在这里插入图片描述

      在这里插入图片描述

    4. maxwell的原理:把自己伪装成 MySQL 的一个 slave,然后以 slave的身份假装从 MySQL(master)复制数据。

  • maxwell的输出数据格式:其中xid是事务id,ts是时间戳。
    在这里插入图片描述

2 Maxwell使用

2.1 Maxwell安装

  1. 安装kafka、mysql

  2. 解压maxwell压缩包

  3. 修改 mysql 的配置文件,开启 MySQL Binlog 设置

    atguigu@hadoop102 software]$ sudo vim /etc/my.cnf
    
    1. 在[mysqld]模块下添加一下内容
    [mysqld]
    server_id=1
    log-bin=mysql-bin
    binlog_format=row
    #binlog-do-db=test_maxwell # 可以用于指定启用binlog的数据库
    
    2. 并重启 Mysql 服务
    [atguigu@hadoop102 software]$ sudo systemctl restart mysqld
    
    3. 登录 mysql 并查看是否修改完成
    [atguigu@hadoop102 ~]$ mysql -uroot -p123456
    mysql> show variables like '%binlog%';
    
    4. 查看下列属性
    binlog_format | ROW
    
    5. 进入/var/lib/mysql 目录,查看 MySQL 生成的 binlog 文件。注:MySQL 生成的 binlog 文件初始大小一定是 154 字节,然后前缀是 log-bin 参数配置的,后缀是默认从.000001,然后依次递增。除了 binlog 文件文件以外,MySQL 还会额外生产一个.index 索引文件用来记录当前使用的 binlog 文件。
    [atguigu@hadoop102 ~]$ cd /var/lib/mysql
    [atguigu@hadoop102 mysql]$ sudo ls -l
    总用量 188500
    -rw-r-----. 1 mysql mysql 154 1117 16:30 mysql-bin.000001
    -rw-r-----. 1 mysql mysql 19 1117 16:30 mysql-bin.index
    
  4. 在 MySQL 中建立一个 maxwell 库用于存储 Maxwell 的元数据

    # 创建数据库maxwell
    mysql> CREATE DATABASE maxwell;
    # 设置 mysql 用户密码安全级别,这一步可以省略,但是在设置账号密码的时候密码就不能太简单
    mysql> set global validate_password_length=4;
    mysql> set global validate_password_policy=0;
    # 分配一个账号maxwell可以操作该数据库,%表示maxwell用户可以在任何节点上访问maxwell数据库
    mysql> GRANT ALL ON maxwell.* TO 'maxwell'@'%' IDENTIFIED BY'123456';
    # 分配maxwell账号对所有数据库的数据表具有主从复制的权限
    mysql> GRANT SELECT ,REPLICATION SLAVE , REPLICATION CLIENT ON *.* TO maxwell@'%';
    # 刷新 mysql 表权限
    mysql> flush privileges;
    
  5. 修改maxwell配置文件名称

    cp config.properties.example config.properties
    
  6. 修改maxwell配置文件中的配置(这里以配置数据发送到kafka为例)

    # 配置maxwell数据发送的目的地,可选的配置有stdout|file|kafka|kinesis|pubsub|sqs|rabbitmq|redis
    producer=kafka
    # 配置目标kafka集群地址
    kafka.bootstrap.servers=hadoop102:9092,hadoop103:9092
    # 目标kafka topic,可静态配置,例如maxwell,也可以动态配置,例如%{database}_%{table},动态配置的话会为每一个数据库表创建一个kafka topic
    kafka_topic=maxwell
    
    # Mysql相关配置
    host=hadoop102
    user=maxwell
    password=maxwell
    jdbc_options=useSSL=false&serverTimezone=Asia/Shanghai
    

2.2 Maxwell使用

  • 由于前面配置maxwell的数据发送到kafka,因此要先确保kafka集群为启动状态

  • 启动maxwell的命令,当mysql数据发生变化之后,kafka中就会有相应的数据

    bin/maxwell --config config.properties --daemon
    
  • 停止maxwell的命令

    ps -ef | grep maxwell | grep -v grep maxwell | awk '{print $2}' | xargs kill -9
    
  • maxwell启停脚本

    #!/bin/bash
    
    MAXWELL_HOME=/opt/module/maxwell
    
    status_maxwell(){
    	result=`ps -ef | grep com.zendesk.maxwell.Maxwell | grep -v grep | wc -l`
    }
    
    start_maxwell(){
    	status_maxwell
    	if [[ $? -lt 1]]; then
    		echo "启动Maxwell"
    		$MAXWELL_HOME/bin/maxwell --config $MAXWELL_HOME/config.properties --daemon
    	else
    		echo "Maxwell正在运行"
    	fi
    }
    
    stop_maxwell(){
    	status_maxwell
    	if [[ $? -gt 0 ]]; then
    		echo "停上Maxwell"
    		ps -ef | grep maxwell | grep -v grep maxwell | awk '{print $2}' | xargs kill -9
    	else
    		echo "Maxwell未在运行"
    	fi
    }
    
    case $1 in
    	start )
    		start_maxwell
    	;;
    	stop )
    		stop_maxwell
    	;;
    	restart )	
    		stop_maxwell
    		start_maxwell
    	;;
    esac
    
  • maxwell的数据全量同步操作:可以把指定数据库的指定数据表的数据全部取出并输出到指定位置,注意输出的首条数据和最后一条数据是空数据,仅作为开始和结束的标志;每条数据的时间戳是启动maxwell-bootstrap的时间。

    bin/maxwell-bootstrap --database gmall --table user_info config.properties
    

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1288338.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

webpack学习-2.管理资源

webpack学习-2.管理资源 1.这章要干嘛2.加载css注意顺序! 3.总结 1.这章要干嘛 管理资源,什么意思呢?管理什么资源?项目中经常会 导入各种各样的css文件,图片文件,字体文件,数据文件等等&#…

<Linux>(极简关键、省时省力)《Linux操作系统原理分析之文件管理(3)》(24)

《Linux操作系统原理分析之文件管理(3)》(24) 7 文件管理7.5 文件存储空间的管理7.6 文件的共享和保护7.6.1 文件存取控制7.6.2 文件共享的实现方法7.6.3 文件的备份转储 7 文件管理 7.5 文件存储空间的管理 位示图 对每个磁盘…

使用 PyTorch 完全分片数据并行技术加速大模型训练

本文,我们将了解如何基于 PyTorch 最新的 完全分片数据并行 (Fully Sharded Data Parallel,FSDP) 功能用 Accelerate 库来训练大模型。 动机 🤗 随着机器学习 (ML) 模型的规模、大小和参数量的不断增加,ML 从业者发现在自己的硬件…

harmony开发之image组件的使用

HarmonyOS是一款面向万物互联时代的、全新的分布式操作系统。 在传统的单设备系统能力基础上,HarmonyOS提出了基于同一套系统能力、适配多种终端形态的分布式理念,能够支持手机、平板、智能穿戴、智慧屏、车机、PC、智能音箱、耳机、AR/VR眼镜等多种终端…

在KeyarchOS上体验WildFly

一、浪潮信息KeyarchOS简单介绍 KeyarchOS具备稳定可靠、高效软硬协同、全天候运维、安全可信等特性,增强了对云计算、人工智能等场景的支持,性能稳定性领先,生态完善,符合金融、政务、能源、交通、通信、教育、医疗等关键行业的应用要求。具备非常广泛的应用。 官方地址&…

BACnet I/O模块在水利环境监测全自动控制系统中的应用:稳定、高效、实时

前言 “绿水青山就是金山银山”,水利环境一直是国际生态部门关注的重点。随着经济的发展、针对水利环境的监管也日趋严格,尤其是重点河、湖水系、水源地、城市内河等成为重点监管对象,监管力度也愈来愈严格,监测布点密度不断加大。…

linux交换分区管理SWAP

6.2.5 交换分区管理SWAP 6.2.5.1 概念 作用: ”提升“内存容量,防止OOM(out of memory,内存溢出)。 ​ 对应windows中的虚拟内存。 ​ 从功能上讲,交换分区主要是在内存不够用的时候,将部分内…

【Azure 架构师学习笔记】- Azure Databricks (2) -集群

本文属于【Azure 架构师学习笔记】系列。 本文属于【Azure Databricks】系列。 接上文 【Azure 架构师学习笔记】- Azure Databricks (1) - 环境搭建 前言 在上文中提到了ADB 的其中一个核心就是集群,所以这里专门研究一下ADB 的集群。 ADB 集群 首先了解一下ADB…

git 使用记录

远程仓库为空初始化 初始化本地仓库 git init 在本地仓库书写代码(这里可以编辑一个文本文件做测试,如hello.txt) 5)执行:git add 要让git管理的文件(git add hello.txt)>执行完此操作将我…

【Linux】Linux基础

文章目录 学习目标操作系统不同应用领域的主流操作系统虚拟机 Linux系统的发展史Linux内核版和发行版 Linux系统下的文件和目录结构单用户操作系统vs多用户操作系统Windows和Linux文件系统区别 Linux终端命令格式终端命令格式查阅命令帮助信息 常用命令显示文件和目录切换工作目…

数据湖和中央数据仓库的设计

设计数据湖或中央数据仓库是许多大型组织的主要职能,这些组织每天处理数百万笔交易,并对这些交易进行进一步的报告、预测或机器学习项目分析。 为了将所有来自源系统(我们称之为“上游”)到其他业务应用(所谓“下游”&…

解决(error) ERR Errors trying to SHUTDOWN. Check logs.问题~

该问题出现在我在使用shutdown关闭redis服务器时,出现该问题的原因是由于配置文件的日志文件位置未配置或者缺少日志文件 我自己出现该问题是因为缺少日志文件,解决步骤如下所示: 第一步:在该目录下使用touch命令创建日志文件 第…

测绘资质测绘设备检定、校准管理制度

测绘设备检定、校准管理制度 建立健全测绘仪器设备检定、校准管理制度,明确测绘仪器设备的检定、校准、日常管理等要求

Kafka安装与配置-shell脚本一键安装配置(单机版)

文章目录 前言使用shell脚本一键安装1. 复制脚本2. 增加执行权限3. 执行脚本4. 加载用户环境变量5. 启动/停止Kafka内置zookeeper6. 启动/停止Kafka单机版 总结 前言 本文介绍了使用Shell脚本一键安装Kafka的方法。通过复制脚本并执行,可以自动下载、安装和配置Kaf…

【链表Linked List】力扣-24 两两交换链表中的节点

目录 题目描述 解题过程 题目描述 给你一个链表,两两交换其中相邻的节点,并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题(即,只能进行节点交换)。 示例 1: 输入:he…

webAPL用户注册倒计时

上一篇文章我已经留下这个题 以下是这道题代码&#xff1a; <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><t…

机器学习---线性回归算法

1、什么是回归&#xff1f; 从大量的函数结果和自变量反推回函数表达式的过程就是回归。线性回归是利用数理统计中回归分析来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。 2、一元线性回归 3、多元线性回归 如果回归分析中包括两个或两个以上的自变量&a…

文章解读与仿真程序复现思路——中国电机工程学报EI\CSCD\北大核心《基于自适应扩散核密度估计的时序相关概率最优潮流计算方法》

这个标题涉及到电力系统中潮流计算的一种方法&#xff0c;具体解读如下&#xff1a; 概述&#xff1a; 时序相关概率最优潮流计算方法&#xff1a; 这是一种电力系统中潮流计算的方法&#xff0c;其中考虑了时序&#xff08;时间序列&#xff09;和概率的相关性。概率最优潮流通…

MySQL 数据库如何实现 XA 规范?

本文我们来讨论 MySQL 的 XA 规范有哪些应用相关的内容。 MySQL 为我们提供了分布式事务解决方案&#xff0c;在前面的内容中提到过 binlog 的同步&#xff0c;其实是 MySQL XA 规范的一个应用&#xff0c;那么 XA 规范是如何定义的&#xff0c;具体又是如何应用的呢&#xff…

飞行汽车开发原理(上)

前言 小节的安排是由浅入深&#xff0c;要按顺序读&#xff1b;有电路知识基础的同学可跳到“计算机电路”一节开始。因为知识点之间有网状依赖&#xff0c;没办法按分类来讲。 为了避免过于深入、越讲越懵&#xff0c;很多描述仅为方便理解、不求严谨。 半导体特性 导体&a…