基于Bazel + SQLFluff实现SQL lint

news2025/1/11 7:14:45

e783eba99dae11fa88f8b5bea47c5f86.jpeg

背景

SQL进行版本化控制后,我们希望为SQL加入lint步骤。这样做的好处是我们可以在真正执行SQL前发现问题。

本文中,我们通过Bazel执行SQLFluff[1]以实现SQL的lint。

SQLFluff是一款使用Python语言使用的,支持SQL多方言的SQL lint工具。

它的特点是:

  1. 1. 支持多方言。如:Snowflake、PostgreSQL、ClickHouse。所有支持的方言列表:https://docs.sqlfluff.com/en/stable/dialects.html;

  2. 2. 可以输出正确的SQL,减少了我们手工修正SQL的工作;

  3. 3. 同时支持命令行方式使用和API调用方式。

集成到CI/CD流水线中

在我看来,在CICD流水线中实现SQL lint有两种方式:

  • • 方式一:在流水线中增加一个SQL lint步骤;

  • • 方式二:将SQL lint的逻辑写在测试代码,执行测试步骤,就自动执行了SQL lint。

方式二是我最爱,我会在本文最后讲原因。

工程结构

.
├── BUILD.bazel
├── WORKSPACE
├── repository-hibernate-impl
│   ├── BUILD.bazel
│   └── src
│       ├── main
│       │   └── sql
│       │       └── V1__runbook_table.sql
│       └── test
│           └── python
│               ├── BUILD.bazel
│               ├── requirements_lock.txt
│               └── sql_test.py

步骤1: 在WORKSPACE中增加Python外部依赖

本文中我们使用的是Bazel 5.4.0,所以还在使用WORKSPACE定义外部依赖

http_archive(  
    name = "rules_python",  
    sha256 = "a644da969b6824cc87f8fe7b18101a8a6c57da5db39caa6566ec6109f37d2141",  
    strip_prefix = "rules_python-0.20.0",  
    url = "https://github.com/bazelbuild/rules_python/releases/download/0.20.0/rules_python-0.20.0.tar.gz",  
)  
  
load("@rules_python//python:repositories.bzl", "py_repositories")  
  
  
py_repositories()  
  
load("@rules_python//python:repositories.bzl", "python_register_toolchains")  
  
python_register_toolchains(  
    name = "python3_11",  
    python_version = "3.11",  
)  
  
load("@python3_11//:defs.bzl", interpreter_3_11 = "interpreter")  
  
load("@rules_python//python:pip.bzl", "pip_parse")  
  
# Create a central repo that knows about the dependencies needed from  
# requirements_lock.txt.  
pip_parse(  
   name = "pip_deps",  
   python_interpreter_target = interpreter_3_11,  
   requirements_lock = "//repository-hibernate-impl/src/test/python:requirements_lock.txt",  
)  
# Load the starlark macro which will define your dependencies.  
load("@pip_deps//:requirements.bzl", "install_deps")  
# Call it to define repos for your requirements.  
install_deps()

步骤2: 定义SQLFluff依赖

requirements_lock.txt的内容如下:

sqlfluff==2.0.5  
Jinja2==3.1.2  
MarkupSafe==2.1.2  
Pygments==2.15.0  
appdirs==1.4.4  
chardet==5.1.0  
click==8.1.3  
colorama==0.4.6  
diff_cover==7.5.0  
iniconfig==2.0.0  
packaging==23.1.0  
pathspec==0.11.1  
pluggy==1.0.0  
pytest==7.3.1  
tomli==2.0.1  
toml==0.10.2  
exceptiongroup==1.1.1  
pyyaml==6.0  
regex===2023.3.23  
tblib==1.7.0  
tqdm==4.65.0  
typing_extensions==4.5.0

步骤3: 定义BUILD目标

load("@pip_deps//:requirements.bzl", "requirement")  
load("@rules_python//python:defs.bzl", "py_test")  
  
py_test(  
    name = "sql_test",  
    srcs = ["sql_test.py"],  
    # data传入是sql的label
    data = [ "//repository-hibernate-impl:sqlTest",],  
    deps = [  
       requirement("sqlfluff"),  
       requirement("Jinja2"),  
       requirement("MarkupSafe"),  
       requirement("Pygments"),  
       requirement("appdirs"),  
       requirement("chardet"),  
       requirement("click"),  
       requirement("colorama"),  
       requirement("diff_cover"),  
       requirement("iniconfig"),  
       requirement("packaging"),  
       requirement("pathspec"),  
       requirement("pluggy"),  
       requirement("pytest"),  
       requirement("tomli"),  
       requirement("toml"),  
       requirement("exceptiongroup"),  
       requirement("pyyaml"),  
       requirement("regex"),  
       requirement("tblib"),  
       requirement("tqdm"),  
       requirement("typing_extensions"),  
    ],  
)

注:sql的BUILD目标(repository-hibernate-impl/BUILD.bazel)为:

filegroup(  
    name = "sqlTest",  
    testonly = 1,  
    srcs = glob(["src/main/sql/*.sql"]),  
    visibility = ["//visibility:public"],  
)

步骤4: 调用SQLFluff实现SQL lint

import unittest  
import sqlfluff  
import os  
import codecs  
  
sqls_path = os.path.join(os.getcwd(), "repository-hibernate-impl/src/main/sql/")  
  
dialect = "postgres"  
  
class TestSum(unittest.TestCase):  
    def test_lint_sql(self):  
        sql_dir_files = os.listdir(sqls_path)  
        # 确保目录中有sql文件
        self.assertTrue(len(sql_dir_files) > 0)  
        for sql_filename in sql_dir_files:  
            if sql_filename.endswith(".sql"):  
                f = codecs.open(os.path.join(sqls_path, sql_filename), "r", "utf-8")  
                sql_content = f.read()  
                lint_result = sqlfluff.lint(sql_content, dialect=dialect)  
                # 如果存在lint问题
                if len(lint_result) > 0:  
                    # 通过sqlfluff修复sql的问题,并返回正确的写法。
                    fix_result = sqlfluff.fix(sql_content, dialect=dialect) 
                    # 将正确的sql写法打印出来方便查看
                    print("correct sql should be: \n" + fix_result)
                self.assertEqual(len(lint_result), 0)  
  
if __name__ == "__main__":  
    unittest.main()

执行

我们只需要在工程根目录执行bazel test //...命令,就可以对SQL进行lint了。

为什么我选择方式二

选择方式二(通过Bazel实现SQL lint)原因有二:

  1. 1. 方式一需要开发人员将代码提交后,才可以解决流水线的执行,而方式二,在本地就可以执行,有利于开发人员在本地就可以实现SQL lint。

  2. 2. 方式二可以实现构建缓存(Bazel天然支持),可以节约大量的构建成本。

引用链接

[1] SQLFluff: https://github.com/sqlfluff/sqlfluff

相关文章推荐:

  • 使用Bazel构建前端Sass

  • 比构建速度,Bazel是Gradle的10倍,不服不行!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/429448.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

设计模式-创建型模式之单例模式

6.单例模式6.1. 模式动机对于系统中的某些类来说,只有一个实例很重要,例如,一个系统中可以存在多个打印任务,但是只能有一个正在工作的任务;一个系统只能有一个窗口管理器或文件系统;一个系统只能有一个计时…

360安全卫士退出企业安全云模式

360安全卫士退出企业安全云模式前言360企业安全云关闭企业安全云提醒退出企业安全云模式前言 360安全卫士推出了企业安全云,并会给个人版用户进行推送,虽然可以关闭,但有可能会不小心升级为企业安全云,用户可能并不不习惯&#x…

2023铜鼓半马5月14日开跑,4月18日启动报名!

长寿铜鼓,康养胜地!众翼电气2023铜鼓半程马拉松暨英雄马系列赛(铜鼓站)新闻发布会今日召开,铜鼓县委常委、宣传部部长熊涛,铜鼓县教育体育局党委书记、局长孙桃基,铜鼓县文广新旅局党组书记、局…

SpringBoot API 接口防刷

SpringBoot API 接口防刷接口防刷接口防刷原理代码实现RequestLimit 注解RequestLimitIntercept 拦截器WebMvcConfig配置类Controller控制层验证接口防刷 接口防刷: 顾名思义,想让某个接口某个人在某段时间内只能请求N次。 在项目中比较常见的问题也有,…

【Python】Python程序中使用request库连接外国网站的方法

确认你的socks端口: 然后程序可以这么写: import requests import socks import socket# 创建 SOCKS5 代理连接 socks.set_default_proxy(socks.SOCKS5, "127.0.0.1", 10808) socket.socket socks.socksocket# 发送请求 response request…

Java高级特性 - 多线程基础(2)常用函数【第1关:线程的状态与调度 第2关:常用函数(一)第3关:常用函数(二)】

目录 第1关:线程的状态与调度 第2关:常用函数(一) 第3关:常用函数(二) 第1关:线程的状态与调度 相关知识 为了完成本关你需要掌握: 1.线程的状态与调度&#xff1b…

Linux内核中常用的数据结构和算法

文章目录链表红黑树无锁环形缓冲区Linux内核代码中广泛使用了数据结构和算法,其中最常用的两个是链表和红黑树。 链表 Linux内核代码大量使用了链表这种数据结构。链表是在解决数组不能动态扩展这个缺陷而产生的一种数据结构。链表所包含的元素可以动态创建并插入和…

APP自动化测试(14)-利用xpath定位元素

一、元素定位的困难 定位元素时有时无法准确定位到我们想要的元素,存在如下几种情况 1、通过一个条件无法准确定位到元素,需要进行条件组合 2、某元素无法唯一定位到,但是同级的其他元素可以唯一定位 3、某元素的属性无论如何组合都无法唯…

训练机器学习模型,可使用 Sklearn 提供的 16 个数据集 【下篇】

数据是机器学习算法的动力,scikit-learn或sklearn提供了高质量的数据集,被研究人员、从业人员和爱好者广泛使用。Scikit-learn(sklearn)是一个建立在SciPy之上的机器学习的Python模块。它的独特之处在于其拥有大量的算法、十分易用…

AOP使用场景记录总结(缓慢补充更新中)

测试项目结构: 目前是测试两个日志记录和 代码的性能测试 后面如果有其他的应用场景了在添加.其实一中就包括了二,但是没事,多练一遍 1. 日志记录 比如说对service层中的所有增加,删除,修改方法添加日志, 记录内容包括操作的时间 操作的方法, 方法的参数, 方法所在的类, 方法…

CSS :autofill 如何覆盖浏览器自动填充表单的样式

CSS :autofill 如何覆盖浏览器自动填充表单的样式 :autofill 伪类匹配浏览器自动填充值的 input 元素. 如果用户继续编辑这个元素内容就会停止匹配. #name:autofill {background-color: red !important;border: 6px solid red; } #name:-webkit-autofill {background-color: …

OpenAI-ChatGPT最新官方接口《审核机制》全网最详细中英文实用指南和教程,助你零基础快速轻松掌握全新技术(七)(附源码)

Moderation 审核机制前言Introduction 导言Quickstart 快速开始其它资料下载ChatGPT 作为一个大型人工智能语言模型,在提供用户便捷交流的同时也承担着内容审核的责任。为了保护用户和社会免受不良信息的影响,ChatGPT 特别注重关于内容的审核。当用户发送…

UDS统一诊断服务【五】诊断仪在线0X3E服务

文章目录前言一、诊断仪在线服务介绍二、数据格式2.1,请求报文2.2,子功能2.3,响应报文前言 本文介绍UDS统一诊断服务的0X3E服务,希望能对你有所帮助 一、诊断仪在线服务介绍 诊断仪在线服务比较简单,其功能就是告诉服…

winForm目录文件介绍

先看项目结构 引用:添加引用,选择自己需要的程序集添加 app.config:配置文件 form1.cs:窗体文件,创建一个窗体所要具备的文件 program:程序入口点 再看创建项目后各个文件夹的含义 .sln:解决方案文件,…

网络模型-网络体系结构(OSI、TCP/IP)

网络模型(网络体系结构)网络模型网络的体系结构OSI模型TCP/IP模型OSI和TCP/IP模型对应关系图常见网络协议网络模型 网络的体系结构 1、网络采用分而治之的方法设计,将网络的功能划分为不同的模块,以分层的形式有机组合在一起。 …

智慧果园系统——以水肥一体化系统功能为基础实现智慧果园系统项目 需求文档

文章目录一、引言1.文档的作用2.文档的标准3.产品的范围二、综合描述1.项目前景2.项目目标3.项目功能4.调研和面谈A.硬数据采样a)硬数据分析的形式b)定量硬数据c)定性硬数据B.面谈a)第一次面谈:开放式问题b)第二次面谈:封闭式问题+开放性问题…

NIFI大数据进阶_离线同步MySql数据到HDFS_01_实际操作---大数据之Nifi工作笔记0029

然后我们实际操作一下如何把mysql中的数据同步到hdfs中去,这里注意,这里是查询mysql中的表中的数据,然后放到 hdfs中去,并不是说,如果mysql数据表中的数据变化了,就自动同步到hdfs,这个功能后面我们再说,这是增量同步 用到的是其他的处理器 首先我们创建一个处理器组mysqlto…

【行为型模式】迭代器模式

文章目录1、简介2、结构3、实现方式3.1、案例引入3.2、结构分析3.3、具体实现4、迭代器模式优缺点5、应用场景1、简介 迭代器模式(Iterator)是一种行为设计模式,它允许我们遍历一个复杂的集合对象而无需暴露其内部表示。它提供了一种统一的方式来访问一个聚合对象中…

在docker上安装MySQL和Redis

1. 通过docker命令下载mysql5.7镜像mysql5.7前期准备2. 通过docker命令下载mysql8.0镜像mysql8.0前期准备 3. 通过docker命令下载redis镜像redis前期准备 本文永久更新地址: 1. 通过docker命令下载mysql5.7镜像 mysql5.7前期准备 在Linux虚拟机上创建一个文件夹用来持久化数据…

replugin原理笔记

Replugin源码目录主要有4个工程组成,其组成如下图所示,包括2个gradle工程,2个Android library工程。 replugin-host-gradle replugin-host-library replugin-plugin-gradle replugin-plugin-library Replugin是一套完整的、稳定的、适合全面…