Apache Superset 是一款现代化的开源大数据工具,也是企业级商业智能 Web 应用,用于数据探索分析和数据可视化。
Apache Superset 是一个适合企业日常生产环境中使用的商业智能可视化工具。它具有快速、轻量、直观的特点,任何用户都可以轻松地上手探索他们的数据。从非常简单的饼图到复杂的地理空间图,Superset都给到了非常好的支持。
Superset 提供以下功能:
- 用于数据可视化和制作交互式的数据看板、报表
- 各种漂亮的可视化效果来展示数据
- 不需要写代码就可以查询数据,以及做数据可视化
- 具有方便好用的SQL Lab做日常的SQL 查询,元数据浏览,以及制作看板前的数据清洗
- 数据分析师能够快速定义自定义维度和指标
- 支持企业级生产环境中各种各样的大数据中间件以及数据库
- 无缝衔接的内存异步缓存和查询
- 高度定制化、细粒度的安全模型/权限模型。允许配置非常复杂的规则来决定谁可以访问哪些产品功能和数据集
- 支持自定义登陆验证,支持各种主流的方式(如数据库、OpenID、LDAP、OAuth、REMOTE_USER 等)
- 可以实现可视化组件自定义
- 各种各样的后端API提供做定制化
- 云原生架构,支持生产环境高可用
Superset 是云原生的,旨在提供高可用性。它旨在扩展到大型分布式环境,并且在容器中运行良好。既可以仅在本地环境上轻松测试 Superset,又可以横向扩展到生产环境中使用。
Superset 是云原生的,因此它很灵活,可以让你切换各种中间件,如:
- 网络服务器可以选择:Gunicorn、Nginx、Apache 等
- 元数据数据库引擎支持:MySQL、Postgres、MariaDB 等
- 消息队列可以定制化:Redis、RabbitMQ、SQS 等
- 数据存储后端可使用:AWS S3、Redis、Memcached 等
- 缓存层支持:Memcached、Redis 等
Superset 还可以很好地与 NewRelic、StatsD 和 DataDog 等服务配合使用,用于监控 Superset服务的健壮性,并且能够针对最流行的数据库技术运行分析工作负载
Apache Superset拥有非常丰富的图表,来实现不同的可视化需求
大数据数据可视化的目标架构
可是架构分为三个梯队;
第一梯队:ClickHouse、DorisDB、Kylin等优秀OLAP技术做存储,利用自带的连接引擎,快速响应,同时支持实时数据和离线数据的接入,外接可视化平台,通过权限管控后呈现给用户;
第二梯队:数据存在数据仓库Hive内或者NoSQL的Hbase,再通过较为优秀且高效的引擎Presto、Flink、Spark等接入可视化平台,通过权限管控后呈现给用户;
剩下就是一个特殊的,如MySQL,临时文件等文件的接入;
常用的也还有其它技术架构,如ELK架构,ELK由ElasticSearch、Logstash和Kiabana三个开源工具组成。Elasticsearch是个开源分布式搜索引擎,它的特点有:分布式,零配置,自动发现,索引自动分片,索引副本机制,restful风格接口,多数据源,自动搜索负载等。 Logstash是一个完全开源的工具,他可以对你的日志进行收集、分析,并将其存储供以后使用(如,搜索)。 kibana 也是一个开源和免费的工具,他Kibana可以为 Logstash 和 ElasticSearch 提供的日志分析友好的 Web 界面,可以帮助您汇总、分析和搜索重要数据日志。这个后续再讲,这里书归正传,先讲讲Apache Superser
参考:
Welcome | Superset