研发效能工程实践-利用Superset快速打造大数据BI平台

news2024/9/23 11:22:18

大数据BI平台自研之殇

随着互联网发展,现在随便哪个公司都手握大量数据。如何利用这些数据为公司商业带来价值,触使各个公司投入大量人力财力去做商业智能。
早期的BI可能就是公司Leader叫开发小哥写几句SQL导出数据,然后导入到Excel里绘制几个图表;这一模式维持了一段时间,后来领导觉得这帮业务开发只会导数据,一点想法都没有,忽然有一天在网上看到数据分析师心想这不就是我要找的人吗?就这样公司招来一个数据分析师,数据分析师来了之后效率果然提升了不少,而且总是能做出让老板眼前一亮的报表。这样的日子又维持了一段时间,随着公司越来越大,数据也越来越多,老板开始嫌弃,数据分析师每次都是那些报表,太单一,而且没有一个平台让他实时的看数据。老板说我们要大数据平台,我要实时报表,赶紧让下边的那帮数据分析师和开发给我搞,我现在就要。开发和数据分析师收到指示后表面笑嘻嘻,心里MMP上哪儿给你搞一个平台
开发们拿到指示后开始分析,一个大数据BI平台需要哪些组件,分析一通之后,说最起码需要这些

  • 自定义仪表盘
  • 支持配置各种图形组件
  • 实现一个查询引擎,可能要支持多种数据库
  • 得有一套查询任务调度器,不然如果是同步的,查询的人一多,数据库就BBQ了
  • 你得支持数据图表下钻吧
  • 过滤条件得支持吧
  • 自定义SQL得支持吧

列完之后,一个开发问了旁边小伙伴:“老板是说一个月要看到效果吗?”,小伙伴回答:“可不”,开发问小伙伴“看见我的桶了吗?”,小伙伴一脸疑惑:“干啥?”,开发答道:“提桶跑路啊,不然我还真一个月做一个平台出来呀”
一个小公司要想短时间之内做一个“基本可用”的BI平台,那几乎是不可能完成的任务。好在你想到的问题,开源社区的大佬早就给你准备好答案了,Superset可以满足你的基本需求,superset在Github上已经有4.9w的星星,可见其火爆,有了它,开发小哥不跑路了,淡定的去茶水间泡了一杯咖啡,边喝边说:“慢慢来,慌啥呀”

Superset介绍

superset是一个现代数据探索和数据可视化平台,后端采用python的Flask框架开发,前端采用React。基于Superset可以极大的简化构建BI平台,看一下官方给的demo效果

支持的图表一角
在这里插入图片描述

Seperset优点

  • 极低的部署成本,如果只是想试一下,那么你只需要几分钟就可以搭建起环境
  • 支持众多主流数据库,支持的种类30+数据库驱动,基本上你的数据库都已经杯支持
  • 直观的交互式仪表盘
  • 支持大量的Chart
  • 数据集除了支持物理表,还支持虚拟表,结合SQL Lab你可以编写非常灵活的统计脚本来定制数据集,需要一定sql能力
  • SQL lab的sql支持动态参数,目前支持一些内置参数和筛选器和url参数
  • 支持可视化图表以插件形式扩展
  • 支持异步查询任务管理,将计算独立,提供更高的可扩展性

Superset不足

好的说完了,也说一下一些不足的地方吧

  • 文档不够详细,作为一款操作性很高的平台,缺乏step-by-step教程,很多东西需要自己去探索,新接触上手可能没有那么容易
  • 筛选器有个点要吐槽一下,不支持key-value形式的筛选器,比如我展示给用户看的筛选框的值是姓名,但是我查询传递参数时传递用户ID,这块需要自己做二次开发支持
  • SQL Lab在编写时,如果有外部参数需要传入,因为在编写SQL时无法传入筛选器的值,因此必须通过jinja脚本编写逻辑判断来设置默认值,否则你想用SQL结果创建虚拟dataset的列元数据会因为sql查询无结果导致没有值,你无法用这个dataset做可视化

Superset安装部署

体验部署

如果你只是想体验一下,建议Docker部署,建议直接拉取superset的镜像,因为本地自己构建镜像可能会遇到各种问题,特别是前端拉取包和编译真的慢。你可以用docker搜索一下superset镜像

docker search superset

然后拉取apache/superset镜像

docker pull apache/superset

拉取成功之后就可以启动了

docker run --name superset -u 0 -d -p 8088:8088 apache/superset

启动之后要初始化superset的数据库

docker exec -it superset superset db upgrade

然后需要创建一个管理员用户,方便登录管理页面,注意这里设置管理员账号的时候登录用户名是username,不要搞错了

docker exec -it superset superset fab create-admin

然后初始化superset

docker exec -it superset superset init

启动服务

docker exec -it superset superset run --with-threads --reload --debugger

如果没有报错,那么恭喜你,体验版已经部署成功了,现在可以在浏览器输入localhost:8088登录体验了

生产单机部署

上边的部署只能是体验一下,运行模式是单进程,python的单进程,你懂的,并且数据库也是本地的sqlite当你容器重新部署时没有挂载本地磁盘,数据就会消失。

配置修改

生产部署至少要修改几个配置的地方

  1. 修改数据库
    这里最好用mysql或者postgres,在superset文件夹下的config配置中
    SQLALCHEMY_DATABASE_URI = 'postgressql://username:password@ip:port/database'
    
  2. 开启sqlab的模板配置
    ENABLE_TEMPLATE_PROCESSING = True
    
  3. 添加数据库驱动包
    如果你使用的数据库不在superset默认提供的以内,那么需要自己安装驱动包,比如我们使用clickhouse是没有的,那么就需要在requirements文件夹下的development或者base的txt文件中添加需要安排的包,这样在构建镜像时会自动安装上
    clickhouse-sqlalchemy==0.2.2
    
打包镜像
docker build =t superset:v1.0

这里要注意部署的时候是gunicorn启动的,需要设置一个SERVER_WORKER_AMOUNT环境变量,如果没有设置的话,会默认单进程启动,这个时候如果你的看板有多个卡片,你的卡片就会一个一个的串行加载,所以一定要设置这个参数,让服务并行启动,至于启动多少个,那么得看你分配的cpu核心数,你可以先设置核心数*2,然后在监控后续调整

二次开发环境搭建

其实superset基本可以满足我们BI分析需求,但是往往我们还有一些其他的,比如数据权限管控、我们可能要通过数据的所有者来管控权限,而不仅仅通过dataset来管控;还有就是上边也说了一些不足,筛选框不支持key-value的形式;缺乏树形结构展示组织,这个还是挺常用的;图表下钻时表头能根据层级自动切换等等。那么我们需要做二次开发

编译前端代码

如果你第一次从github上把superset拉取下来,直接启动项目的话,浏览器打开时会报错,这是因为前端没有编译。首先你需要确保你安装node和npm,这里不在讲解如何安装node和npm,注意这里node和npm的版本官方好像有要求,具体可以参考superset前端编译。安装完成后切换到superset-frontend目录

  • 安装前端依赖包
    npm ci
    
    如果下载依赖包慢的话,可以配置国内镜像
    npm config set registry https://registry.npm.taobao.org
    
  • 编译
    npm run build
    
  • 前端热更新
    如果想前端热更新,那么需要前后端单独启动
    npm run dev
    

后端启动

superset后端采用了python,而python开发中建议使用虚拟开发环境,避免包版本问题

  • 安装虚拟环境
    python3 -m venv venv
    
  • 启用虚拟环境
    source venv/bin/activate
    
  • 安装依赖包
    python3 -m pip install -r requirements/integration.txt
    
  • 启动
    FLASK_ENV=development superset run -p 8088 --with-threads --reload --debugger
    
  • 如果你使用VS Code作为开发环境建议你加上如下launch.json,方便本地启动调试
    {
        // Use IntelliSense to learn about possible attributes.
        // Hover to view descriptions of existing attributes.
        // For more information, visit: https://go.microsoft.com/fwlink/?linkid=830387
        "version": "0.2.0",
        "configurations": [
            {
                "name": "Python: Flask",
                "type": "python",
                "request": "launch",
                "module": "flask",
                "env": {
                    "FLASK_APP": "superset",
                    "FLASK_DEBUG": "1"
                },
                "args": [
                    "run",
                    "-p",
                    "3000",
                    "--no-debugger",
                    "--no-reload"
                ],
                "jinja": true,
                "justMyCode": true
            }
        ]
    }
    

使用心得

目前我们是用superset来打造公司的研发效能大数据BI平台,目前正处于研发阶段。已基本有了雏形,不过还有很多需要完善的地方。目前我们团队主要解决的问题

  • 增强图表组件-树形组件
  • K-V筛选组件
  • 环比指标组件等

当然还有一些需要解决,也可能还有一些坑我们没有解决,比如

  • 图表只能选择一个dataset,目前的解决方案是将多个表的数据以sql方式聚合成一个superset的虚拟dataset
  • 图表下钻表头可动态切换
  • sqlab的自定义条件时不是很方便,目前还没有想到有什么好的解决方案,后续可能会跟进

后续会逐步介绍我们在利用superset构建BI平台中遇到的一些坑,以及如果建设一个研发效能平台,同时也欢迎同行来交流

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/61034.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

echarts:nuxt项目使用echarts

一、项目环境 nuxt 2.X vue2.X vuex webpack 二、安装 yarn add echarts 三、使用 3.1、plugins目录下创建echarts.js import Vue from vue import * as echarts from echarts // 引入echarts Vue.prototype.$echarts echarts // 引入组件(将echarts注册为全…

认证服务-----技术点及亮点

大技术 Nacos做注册中心 把新建的微服务注册到Nacos上去 两个步骤 在配置文件中配置应用名称、nacos的发现注册ip地址,端口号在启动类上用EnableDiscoveryClient注解开启注册功能 使用Redis存验证码信息 加入依赖配置地址和端口号即可 直接注入StringRedisTempla…

HTML静态网页作业——关于我的家乡介绍安庆景点

家乡旅游景点网页作业制作 网页代码运用了DIV盒子的使用方法,如盒子的嵌套、浮动、margin、border、background等属性的使用,外部大盒子设定居中,内部左中右布局,下方横向浮动排列,大学学习的前端知识点和布局方式都有…

Armbian搭建本地Gitea服务器

Armbian搭建本地Gitea服务器 1 安装Docker Docker 是一个用于开发、发布和运行应用程序的开放平台。 Docker 是一个开源的应用容器引擎,Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux 机器上&…

R语言中的prophet预测时间序列数据模型

本文 将针对R进行的几次建模练习的结果,以魁北克数据为依据,分为13年的训练和1年的测试。prophet与基本线性模型(lm),一般加性模型(gam)和随机森林(randomForest)进行了比…

ES6:ES6 的新增语法

什么是 ES6 ? ES 的全称是 ECMAScript , 它是由 ECMA 国际标准化组织,制定的一项脚本语言的标准化规范。 年份 版本 2015年6月 ES2015 2016年6月 ES2016 2017年6月 ES2017 2018年6月 ES2018 … … ES6 实际上是一个泛指,泛指 ES2015 及后续的版本。 …

基于最大熵图像插值Maximum Entropy插值算法的图像超分辨重构研究-附Matlab代码

⭕⭕ 目 录 ⭕⭕✳️ 一、引言✳️ 二、图像复原基本原理✳️ 三、最大熵图像插值原理✳️ 四、实验验证✳️ 五、参考文献✳️ 六、Matlab程序获取与验证✳️ 一、引言 图像是一种表达信息的形式,其中,数字图像反馈的信息更加丰富。 在获取图像的过程中…

基于N32G45的按键驱动

基于N32G45的按键驱动 1.N32G45简介 N32G45系列集成了最新一代嵌入式ARM Cortex™-M4F处理器,在Cortex™-M3内核的基础上强化了运算能力、新增加了浮点运算处理单元(FPU)、DSP和并行计算指令,提供1.25DMIPS/MHz的优异性能。同时其…

JAVA复习【11】单列集合Collection:ArrayList、 LinkedList、HashSet、TreeSet学习与使用

1.首先思考一个问题:为什么要有集合? 我们也知道,数组可以保存多个对象,但是在某些情况下无法确定到底需要保存多少个对象,此时数组不再适用没因为数组的长度不可变,例如,要保存一个学校的学生信…

移动WEB开发之rem布局--less基础

维护 css 的弊端 CSS 是一门非程序式语言,没有变量、函数、SCOPE(作用域)等概念。 CSS 需要书写大量看似没有逻辑的代码,CSS 冗余度是比较高的。 不方便维护及扩展,不利于复用。 CSS 没有很好的计算能力 非前端开…

前馈神经网络与支持向量机实战 --- 手写数字识别

前馈神经网络与支持向量机实战 — 手写数字识别 文章目录前馈神经网络与支持向量机实战 --- 手写数字识别一、前馈神经网络介绍二、支持向量机介绍三、数据集说明四、环境准备五、实验要求六、Python代码tutorial_minst_fnn-keras.py:使用TensorFlow的Sequential实现…

Linux开发常用ps命令选项详解

【摘要】本文介绍了在Linux应用/内核开发调试中,经常需要用到的两个选项组合,当然,如果你需要查看更多更详尽的选项说明,可以参考man说明文档,即命令行下输入man ps进行查看。 aux选项组合 使用场景:更多…

算法日常训练12.4(最接近目标价格甜点成本)

只能说回溯实在是诡异,刚看到这题目思路一点不清晰,想着用回溯想到一点写一点,就这样诡异的出来了。 主要回溯思想,由于冰淇淋基料只能选一种,那就对数组遍历,每次对一种冰淇淋基料继续回溯,用r…

Proxmox VE 修改集群名称

作者:田逸(formyz) Proxmox VE集群一旦创建,其集群的名称就固定下来。在Proxmox VE Web管理后台,没有相应的菜单或按钮对应与集群名称的修改(仅仅发现修改虚拟机选项有修改名称的地方)。在宿主系统Debian下…

网课题库接口

网课题库接口 本平台优点: 多题库查题、独立后台、响应速度快、全网平台可查、功能最全! 1.想要给自己的公众号获得查题接口,只需要两步! 2.题库: 题库:题库后台(点击跳转) 题库…

[附源码]计算机毕业设计文曦家教预约系统Springboot程序

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

java计算机毕业设计ssm社团管理系统9e73v(附源码、数据库)

java计算机毕业设计ssm社团管理系统9e73v(附源码、数据库) 项目运行 环境配置: Jdk1.8 Tomcat8.5 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。…

计及新能源出力不确定性的电气设备综合能源系统协同优化(Matlab代码实现)

目录 第一部分 文献一《计及新能源出力不确定性的电气设备综合能源系统协同优化》 0 引言 1 新能源出力不确定性处理 1.1 新能源出力预测误差分布 1.2 新能源出力的时间相关性 1.3 场景生成 2 计及温控负荷调节能力的电气综合能源系统协同优化建模…

[附源码]计算机毕业设计文具商城购物系统Springboot程序

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

【计算机毕业设计】基于JSP的毕业设计选题系统的设计与实现

分类号:TP315 U D C:D10621-408-(2007) 498-0 密 级:公 开 编 号:2002211105 成都信息工程学院 学位论文 基于JSP的毕业设计选题系统的设计与实现 摘 要 随着全球信息化技术的兴起,特别是Internet的日益普及&…