大数据BI平台自研之殇
随着互联网发展,现在随便哪个公司都手握大量数据。如何利用这些数据为公司商业带来价值,触使各个公司投入大量人力财力去做商业智能。
早期的BI可能就是公司Leader叫开发小哥写几句SQL导出数据,然后导入到Excel里绘制几个图表;这一模式维持了一段时间,后来领导觉得这帮业务开发只会导数据,一点想法都没有,忽然有一天在网上看到数据分析师心想这不就是我要找的人吗?就这样公司招来一个数据分析师,数据分析师来了之后效率果然提升了不少,而且总是能做出让老板眼前一亮的报表。这样的日子又维持了一段时间,随着公司越来越大,数据也越来越多,老板开始嫌弃,数据分析师每次都是那些报表,太单一,而且没有一个平台让他实时的看数据。老板说我们要大数据平台,我要实时报表,赶紧让下边的那帮数据分析师和开发给我搞,我现在就要。开发和数据分析师收到指示后表面笑嘻嘻,心里MMP上哪儿给你搞一个平台
开发们拿到指示后开始分析,一个大数据BI平台需要哪些组件,分析一通之后,说最起码需要这些
- 自定义仪表盘
- 支持配置各种图形组件
- 实现一个查询引擎,可能要支持多种数据库
- 得有一套查询任务调度器,不然如果是同步的,查询的人一多,数据库就BBQ了
- 你得支持数据图表下钻吧
- 过滤条件得支持吧
- 自定义SQL得支持吧
- …
列完之后,一个开发问了旁边小伙伴:“老板是说一个月要看到效果吗?”,小伙伴回答:“可不”,开发问小伙伴“看见我的桶了吗?”,小伙伴一脸疑惑:“干啥?”,开发答道:“提桶跑路啊,不然我还真一个月做一个平台出来呀”
一个小公司要想短时间之内做一个“基本可用”的BI平台,那几乎是不可能完成的任务。好在你想到的问题,开源社区的大佬早就给你准备好答案了,Superset可以满足你的基本需求,superset在Github上已经有4.9w的星星,可见其火爆,有了它,开发小哥不跑路了,淡定的去茶水间泡了一杯咖啡,边喝边说:“慢慢来,慌啥呀”
Superset介绍
superset是一个现代数据探索和数据可视化平台,后端采用python的Flask框架开发,前端采用React。基于Superset可以极大的简化构建BI平台,看一下官方给的demo效果
支持的图表一角
Seperset优点
- 极低的部署成本,如果只是想试一下,那么你只需要几分钟就可以搭建起环境
- 支持众多主流数据库,支持的种类30+数据库驱动,基本上你的数据库都已经杯支持
- 直观的交互式仪表盘
- 支持大量的Chart
- 数据集除了支持物理表,还支持虚拟表,结合SQL Lab你可以编写非常灵活的统计脚本来定制数据集,需要一定sql能力
- SQL lab的sql支持动态参数,目前支持一些内置参数和筛选器和url参数
- 支持可视化图表以插件形式扩展
- 支持异步查询任务管理,将计算独立,提供更高的可扩展性
Superset不足
好的说完了,也说一下一些不足的地方吧
- 文档不够详细,作为一款操作性很高的平台,缺乏step-by-step教程,很多东西需要自己去探索,新接触上手可能没有那么容易
- 筛选器有个点要吐槽一下,不支持key-value形式的筛选器,比如我展示给用户看的筛选框的值是姓名,但是我查询传递参数时传递用户ID,这块需要自己做二次开发支持
- SQL Lab在编写时,如果有外部参数需要传入,因为在编写SQL时无法传入筛选器的值,因此必须通过jinja脚本编写逻辑判断来设置默认值,否则你想用SQL结果创建虚拟dataset的列元数据会因为sql查询无结果导致没有值,你无法用这个dataset做可视化
Superset安装部署
体验部署
如果你只是想体验一下,建议Docker部署,建议直接拉取superset的镜像,因为本地自己构建镜像可能会遇到各种问题,特别是前端拉取包和编译真的慢。你可以用docker搜索一下superset镜像
docker search superset
然后拉取apache/superset镜像
docker pull apache/superset
拉取成功之后就可以启动了
docker run --name superset -u 0 -d -p 8088:8088 apache/superset
启动之后要初始化superset的数据库
docker exec -it superset superset db upgrade
然后需要创建一个管理员用户,方便登录管理页面,注意这里设置管理员账号的时候登录用户名是username,不要搞错了
docker exec -it superset superset fab create-admin
然后初始化superset
docker exec -it superset superset init
启动服务
docker exec -it superset superset run --with-threads --reload --debugger
如果没有报错,那么恭喜你,体验版已经部署成功了,现在可以在浏览器输入localhost:8088登录体验了
生产单机部署
上边的部署只能是体验一下,运行模式是单进程,python的单进程,你懂的,并且数据库也是本地的sqlite当你容器重新部署时没有挂载本地磁盘,数据就会消失。
配置修改
生产部署至少要修改几个配置的地方
- 修改数据库
这里最好用mysql或者postgres,在superset文件夹下的config配置中SQLALCHEMY_DATABASE_URI = 'postgressql://username:password@ip:port/database'
- 开启sqlab的模板配置
ENABLE_TEMPLATE_PROCESSING = True
- 添加数据库驱动包
如果你使用的数据库不在superset默认提供的以内,那么需要自己安装驱动包,比如我们使用clickhouse是没有的,那么就需要在requirements文件夹下的development或者base的txt文件中添加需要安排的包,这样在构建镜像时会自动安装上clickhouse-sqlalchemy==0.2.2
打包镜像
docker build =t superset:v1.0
这里要注意部署的时候是gunicorn启动的,需要设置一个SERVER_WORKER_AMOUNT环境变量,如果没有设置的话,会默认单进程启动,这个时候如果你的看板有多个卡片,你的卡片就会一个一个的串行加载,所以一定要设置这个参数,让服务并行启动,至于启动多少个,那么得看你分配的cpu核心数,你可以先设置核心数*2,然后在监控后续调整
二次开发环境搭建
其实superset基本可以满足我们BI分析需求,但是往往我们还有一些其他的,比如数据权限管控、我们可能要通过数据的所有者来管控权限,而不仅仅通过dataset来管控;还有就是上边也说了一些不足,筛选框不支持key-value的形式;缺乏树形结构展示组织,这个还是挺常用的;图表下钻时表头能根据层级自动切换等等。那么我们需要做二次开发
编译前端代码
如果你第一次从github上把superset拉取下来,直接启动项目的话,浏览器打开时会报错,这是因为前端没有编译。首先你需要确保你安装node和npm,这里不在讲解如何安装node和npm,注意这里node和npm的版本官方好像有要求,具体可以参考superset前端编译。安装完成后切换到superset-frontend目录
- 安装前端依赖包
如果下载依赖包慢的话,可以配置国内镜像npm ci
npm config set registry https://registry.npm.taobao.org
- 编译
npm run build
- 前端热更新
如果想前端热更新,那么需要前后端单独启动npm run dev
后端启动
superset后端采用了python,而python开发中建议使用虚拟开发环境,避免包版本问题
- 安装虚拟环境
python3 -m venv venv
- 启用虚拟环境
source venv/bin/activate
- 安装依赖包
python3 -m pip install -r requirements/integration.txt
- 启动
FLASK_ENV=development superset run -p 8088 --with-threads --reload --debugger
- 如果你使用VS Code作为开发环境建议你加上如下launch.json,方便本地启动调试
{ // Use IntelliSense to learn about possible attributes. // Hover to view descriptions of existing attributes. // For more information, visit: https://go.microsoft.com/fwlink/?linkid=830387 "version": "0.2.0", "configurations": [ { "name": "Python: Flask", "type": "python", "request": "launch", "module": "flask", "env": { "FLASK_APP": "superset", "FLASK_DEBUG": "1" }, "args": [ "run", "-p", "3000", "--no-debugger", "--no-reload" ], "jinja": true, "justMyCode": true } ] }
使用心得
目前我们是用superset来打造公司的研发效能大数据BI平台,目前正处于研发阶段。已基本有了雏形,不过还有很多需要完善的地方。目前我们团队主要解决的问题
- 增强图表组件-树形组件
- K-V筛选组件
- 环比指标组件等
当然还有一些需要解决,也可能还有一些坑我们没有解决,比如
- 图表只能选择一个dataset,目前的解决方案是将多个表的数据以sql方式聚合成一个superset的虚拟dataset
- 图表下钻表头可动态切换
- sqlab的自定义条件时不是很方便,目前还没有想到有什么好的解决方案,后续可能会跟进
后续会逐步介绍我们在利用superset构建BI平台中遇到的一些坑,以及如果建设一个研发效能平台,同时也欢迎同行来交流