研发效能工程实践-利用Superset快速打造大数据BI平台

大数据BI平台自研之殇

随着互联网发展，现在随便哪个公司都手握大量数据。如何利用这些数据为公司商业带来价值，触使各个公司投入大量人力财力去做商业智能。
早期的BI可能就是公司Leader叫开发小哥写几句SQL导出数据，然后导入到Excel里绘制几个图表；这一模式维持了一段时间，后来领导觉得这帮业务开发只会导数据，一点想法都没有，忽然有一天在网上看到数据分析师心想这不就是我要找的人吗？就这样公司招来一个数据分析师，数据分析师来了之后效率果然提升了不少，而且总是能做出让老板眼前一亮的报表。这样的日子又维持了一段时间，随着公司越来越大，数据也越来越多，老板开始嫌弃，数据分析师每次都是那些报表，太单一，而且没有一个平台让他实时的看数据。老板说我们要大数据平台，我要实时报表，赶紧让下边的那帮数据分析师和开发给我搞，我现在就要。开发和数据分析师收到指示后表面笑嘻嘻，心里MMP上哪儿给你搞一个平台
开发们拿到指示后开始分析，一个大数据BI平台需要哪些组件，分析一通之后，说最起码需要这些

自定义仪表盘
支持配置各种图形组件
实现一个查询引擎，可能要支持多种数据库
得有一套查询任务调度器，不然如果是同步的，查询的人一多，数据库就BBQ了
你得支持数据图表下钻吧
过滤条件得支持吧
自定义SQL得支持吧
…

列完之后，一个开发问了旁边小伙伴：“老板是说一个月要看到效果吗？”，小伙伴回答：“可不”，开发问小伙伴“看见我的桶了吗？”，小伙伴一脸疑惑：“干啥？”，开发答道：“提桶跑路啊，不然我还真一个月做一个平台出来呀”
一个小公司要想短时间之内做一个“基本可用”的BI平台，那几乎是不可能完成的任务。好在你想到的问题，开源社区的大佬早就给你准备好答案了，Superset可以满足你的基本需求，superset在Github上已经有4.9w的星星，可见其火爆，有了它，开发小哥不跑路了，淡定的去茶水间泡了一杯咖啡，边喝边说：“慢慢来，慌啥呀”

Superset介绍

superset是一个现代数据探索和数据可视化平台，后端采用python的Flask框架开发，前端采用React。基于Superset可以极大的简化构建BI平台，看一下官方给的demo效果

支持的图表一角
在这里插入图片描述

Seperset优点

极低的部署成本，如果只是想试一下，那么你只需要几分钟就可以搭建起环境
支持众多主流数据库，支持的种类30+数据库驱动，基本上你的数据库都已经杯支持
直观的交互式仪表盘
支持大量的Chart
数据集除了支持物理表，还支持虚拟表，结合SQL Lab你可以编写非常灵活的统计脚本来定制数据集，需要一定sql能力
SQL lab的sql支持动态参数，目前支持一些内置参数和筛选器和url参数
支持可视化图表以插件形式扩展
支持异步查询任务管理，将计算独立，提供更高的可扩展性

Superset不足

好的说完了，也说一下一些不足的地方吧

文档不够详细，作为一款操作性很高的平台，缺乏step-by-step教程，很多东西需要自己去探索，新接触上手可能没有那么容易
筛选器有个点要吐槽一下，不支持key-value形式的筛选器，比如我展示给用户看的筛选框的值是姓名，但是我查询传递参数时传递用户ID，这块需要自己做二次开发支持
SQL Lab在编写时，如果有外部参数需要传入，因为在编写SQL时无法传入筛选器的值，因此必须通过jinja脚本编写逻辑判断来设置默认值，否则你想用SQL结果创建虚拟dataset的列元数据会因为sql查询无结果导致没有值，你无法用这个dataset做可视化

Superset安装部署

体验部署

如果你只是想体验一下，建议Docker部署，建议直接拉取superset的镜像，因为本地自己构建镜像可能会遇到各种问题，特别是前端拉取包和编译真的慢。你可以用docker搜索一下superset镜像

docker search superset

然后拉取apache/superset镜像

docker pull apache/superset

拉取成功之后就可以启动了

docker run --name superset -u 0 -d -p 8088:8088 apache/superset

启动之后要初始化superset的数据库

docker exec -it superset superset db upgrade

然后需要创建一个管理员用户，方便登录管理页面，注意这里设置管理员账号的时候登录用户名是username，不要搞错了

docker exec -it superset superset fab create-admin

然后初始化superset

docker exec -it superset superset init

启动服务

docker exec -it superset superset run --with-threads --reload --debugger

如果没有报错，那么恭喜你，体验版已经部署成功了，现在可以在浏览器输入localhost:8088登录体验了

生产单机部署

上边的部署只能是体验一下，运行模式是单进程，python的单进程，你懂的，并且数据库也是本地的sqlite当你容器重新部署时没有挂载本地磁盘，数据就会消失。

配置修改

生产部署至少要修改几个配置的地方

修改数据库
这里最好用mysql或者postgres，在superset文件夹下的config配置中
```
SQLALCHEMY_DATABASE_URI = 'postgressql://username:password@ip:port/database'
```
开启sqlab的模板配置
```
ENABLE_TEMPLATE_PROCESSING = True
```
添加数据库驱动包
如果你使用的数据库不在superset默认提供的以内，那么需要自己安装驱动包，比如我们使用clickhouse是没有的，那么就需要在requirements文件夹下的development或者base的txt文件中添加需要安排的包，这样在构建镜像时会自动安装上
```
clickhouse-sqlalchemy==0.2.2
```

打包镜像

docker build =t superset:v1.0

这里要注意部署的时候是gunicorn启动的，需要设置一个SERVER_WORKER_AMOUNT环境变量，如果没有设置的话，会默认单进程启动，这个时候如果你的看板有多个卡片，你的卡片就会一个一个的串行加载，所以一定要设置这个参数，让服务并行启动，至于启动多少个，那么得看你分配的cpu核心数，你可以先设置核心数*2，然后在监控后续调整

二次开发环境搭建

其实superset基本可以满足我们BI分析需求，但是往往我们还有一些其他的，比如数据权限管控、我们可能要通过数据的所有者来管控权限，而不仅仅通过dataset来管控；还有就是上边也说了一些不足，筛选框不支持key-value的形式；缺乏树形结构展示组织，这个还是挺常用的；图表下钻时表头能根据层级自动切换等等。那么我们需要做二次开发

编译前端代码

如果你第一次从github上把superset拉取下来，直接启动项目的话，浏览器打开时会报错，这是因为前端没有编译。首先你需要确保你安装node和npm，这里不在讲解如何安装node和npm，注意这里node和npm的版本官方好像有要求，具体可以参考superset前端编译。安装完成后切换到superset-frontend目录

安装前端依赖包
```
npm ci
```
如果下载依赖包慢的话，可以配置国内镜像
```
npm config set registry https://registry.npm.taobao.org
```
编译
```
npm run build
```
前端热更新
如果想前端热更新，那么需要前后端单独启动
```
npm run dev
```

后端启动

superset后端采用了python，而python开发中建议使用虚拟开发环境，避免包版本问题

安装虚拟环境
```
python3 -m venv venv
```
启用虚拟环境
```
source venv/bin/activate
```

安装依赖包

python3 -m pip install -r requirements/integration.txt

启动

FLASK_ENV=development superset run -p 8088 --with-threads --reload --debugger

如果你使用VS Code作为开发环境建议你加上如下launch.json，方便本地启动调试

{
    // Use IntelliSense to learn about possible attributes.
    // Hover to view descriptions of existing attributes.
    // For more information, visit: https://go.microsoft.com/fwlink/?linkid=830387
    "version": "0.2.0",
    "configurations": [
        {
            "name": "Python: Flask",
            "type": "python",
            "request": "launch",
            "module": "flask",
            "env": {
                "FLASK_APP": "superset",
                "FLASK_DEBUG": "1"
            },
            "args": [
                "run",
                "-p",
                "3000",
                "--no-debugger",
                "--no-reload"
            ],
            "jinja": true,
            "justMyCode": true
        }
    ]
}