做好一个BI项目的关键是什么

news2025/1/16 7:53:15

做好一个BI项目的关键是什么?有人会说,那肯定是报表,报表是数据分析最直接的成果展示,好的报表能够帮助企业从各种纷杂的信息中及时地发现关键有效的信息,从而为决策提供支持。诚然,报表很重要,这是毋庸置疑的,但是从另一个层面也反映出大部分人走入了一个误区,拿BI当报表系统来用,这有点大材小用的感觉,报表只是BI项目中的一个环节,在我看来,做好ETL,做好数据处理,那么剩下的报表分析工作,就会事半功倍。

BI中的ETL到底是什么?

那么是什么ETL?ETL 的英文全称叫做 Extraction 抽取,Transformation 转换,Loading 加载。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程。

抽取就是指将数据从一个数据源、或者多个数据源抽取过来的动作,数据源有可能是关系型数据库,也可能是文本文件,或者一个程序的API接口。ETL的数据抽取具有丰富的数据连接能力,支持目前主流的关系数据库,如Oracle、Mysql、DB2、MSSQL、Presto+hive、星环、PG、Gauss100、Greenplum等等,通过创建数据源快速连接企业的业务数据库。

转换就是指数据的清洗、合并、拆分、加工、数据逻辑计算处理的过程,通常会按照一定的业务逻辑规则进行计算,最后转换成符合业务模型、分析模型的规范性的数据。简单来说,不管是大数据、小数据,都是将不规范的、不可分析的、转换成规范的、可分析的数据。

加载就是将转换的结果按照分析模型需要的格式将数据写入到目标表,这些目标表就是业务自助分析的数据来源,通过是按照一定建模的方式来组织的,不管是星型分析模型还是雪花型分析模型都是的。

这就是在 BI 中我们通常定义的ETL处理过程,实现BI的过程就需要ETL。ETL是BI项目建设中重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关系到BI项目的成败。ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为项目后期开发提供准确的数据。

ETL具体如何实现?

ETL通常通过什么方式或者工具来实现呢?ETL的实现有多种方法,常用的有三种:

一种是借助ETL工具(如Oracle的OWB、SQL Server 2000的DTS、SQL Server2005的SSIS服务、Informatic等)实现,一种是SQL方式实现,另外一种是ETL工具和SQL相结合。

前两种方法各有各的优缺点,借助工具可以快速的建立起ETL工程,屏蔽了复杂的编码任务,提高了速度,降低了难度,但是缺少灵活性。SQL的方法优点是灵活,提高ETL运行效率,但是编码复杂,对技术要求比较高。第三种是综合了前面二种的优点,会极大地提高ETL的开发速度和效率。

但目前的现状是越来越多的BI企业为了追求所谓的 "敏捷" 基本上已经放弃了传统数据仓库的构建。敏捷快速开发是没有错,但很多人错就错在没有分清楚什么时候应该敏捷,什么时候应该保留传统数据仓库的架构。

这类产品的定位实际上更加适用于个人或者部门级的数据分析场景,并不适合一个真正企业级的 BI 项目构建。对于真正注重企业级 BI 的项目开发,我们不应该削弱数据仓库的作用,反而更应该加强。

亿信ABI的数据处理方案

亿信华辰的ABI产品中的ETL属于上述提到的实现ETL的第三种方式,平台内置了数仓实施工具,其中丰富的处理转换组件,通过拖拽式的流程设计,实现了数据抽取、清洗、转换、装载及调度,用于帮助政府和企业构建数据仓库,完成数据融合,提升数据质量,服务数据分析。具有以下几个亮点:

1. 可视化的拖拽式任务设计,实施更高效

相比起市面上的ETL工具,亿信华辰的ETL程序设计人性化,运用大量可视化技术,让传统的数据整合黑盒子过程变得透明可见。有图形化的开发和监控界面,操作更易用,学习成本低,相应的运维成本低。

一般情况下,ETL过程设计需要用到大量的代码,且重复利用率较低。亿信ABI中的ETL支持批量创建和数据抽样,开发过程支持多人协同定义,共享资料库等等符合实施人员习惯,并此基础上封装大量清洗转换规则,大大降低技术门槛,简单拖拽配置即可快速的建立起ETL工程,让实施更高效。

2.内置丰富的处理转换组件,操作更简单

丰富的数据处理组件也是亿信ETL的一大亮点。亿信ABI中的ETL组件丰富多样,面向数据分析师精心打造,满足各种各样的数据处理场景。之前一个简单的数据处理需求,前期在技术人员这里可能徘徊2-3天的样子,更何况还有后期的修改,有了丰富的可视化ETL组件,复用率高,操作简单,数据处理更高效。

亿信ABI中内置组件包括:输入输出组件、转换组件、流程组件、统计组件、数仓组件、脚本组件、大数据组件、其他组件。以转换组件里面的清洗组件为例,清洗组件支持记录级清洗和字段级清洗,内置50多种规则,支持在一个组件中完成多次清洗转换设置,并支持清洗前后结果预览。

3.灵活的调度任务,满足复杂的场景需求

如果说ETL是BI的基础,那么调度就是ETL的灵魂。我们监控ETL的运行情况,任何程序都不能保证永不出错,需要做确保故障出现后能够弥补。ETL的调度通过ABI调度任务自动执行,系统对ETL调度在状态、启用情况、执行时间上进行监控。ETL工作流定制完成时,系统自动设置计划任务进行ETL调度。用户只需简单操作,即可实现复杂的调度任务。

亿信ABI的ETL调度导向,深度考虑各使用场景,在便捷易用的同时,满足数据处理时不同的用户需求。支持基于时间或事件的调度机制,如:任意事件周期、文件到达、脚本事件等;调度设置支持crontab表达式;调度设置能指定到月份、星期、日期、小时、分钟的粒度;支持设置调度的时间窗口,重调时间间隔等。如果ETL错误了,不仅要形成ETL出错日志,而且要向系统管理员发送警告。发送警告的方式多种,一般常用的就是给系统管理员发送邮件,并附上错误信息,方便管理员排查错误。

4.隔离设计,应用更稳定

另外,为保证运行环境的稳定可靠,亿信ABI还提供了设计区与运行区隔离的机制,所有作业的修订和更改通过在设计区完成调试和试运行后,通过发布机制,发布到稳定的运行环境,保证开发和运行两不耽误。

结语:ETL技术可以大大增强大数据的处理速度,为商业决策赢得更多的宝贵时间,同时也为数据仓库的建立奠定了良好的基础。亿信ABI产品中ETL作为数据处理的核心模块,旨在降低工具操作的复杂度,让业务人员可以快速挖掘数据中蕴藏的价值,最终实现商业价值的快速提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/10352.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SPI通信协议

目录一、什么是SPI协议二、SPI物理层三、SPI协议层一、什么是SPI协议 SPI(Serial Peripheral Interface,串行外围设备接口)通讯协议,是 Motorola 公司提出的一种同步串行接口技术,是一种高速、全双工、同步通信总线&a…

【PTA-训练day7】L2-019 悄悄关注 + L1-027 出租

L2-019 悄悄关注 - 哈希表 PTA | 程序设计类实验辅助教学平台 1、java - 喜闻乐见超时 import java.util.*;public class Main {public static void main(String[] args){Scanner scnew Scanner(System.in);int nsc.nextInt();String[] namesc.nextLine().split(" "…

Centos7.6 源码编译部署percona mysql 5.7.39-42

Centos7.6 源码编译部署percona mysql 5.7.39-42 参考链接: mysql5.7.35源码编译安装部署CentOS7 编译安装 Percona Server 5.7percona Server for MySQL 5.7源码安装 一、部署环境准备 更换阿里云yum源 cd /etc/yum.repos.d/ mkdir bak && mv *.repo ba…

[附源码]java毕业设计江苏策腾智能科技公司人事管理系统

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

第1关:节点监听机制

ZooKeeper的监听机制 节点监听机制用以保证集群之间的一致性,以及服务器可以及时通知客户端节点状态的变化。 一个节点可以被监控,包括路径中存储的数据修改,子节点路径改变,当该节点发生修改,服务器可以通知设置监控…

AVS3帧间预测

帧间预测是去除时域冗余的重要工具,随着AVS标准发展,越来越多的帧间预测工具被加入标准,主要可以分为三类:预测编码类型、运动信息编码工具、CU级和子块级运动补偿。 预测编码类型 预测编码类型是指帧间预测的不同预测方式&#…

年产5000吨芒果醋工厂设计

摘要 - 1 - 1 绪论 - 6 - 1.1 概述 - 6 - 1.1.1 芒果醋的价值 - 6 - 1.1.2 芒果醋的市场贸易需求 - 6 - 1.1.3 国内芒果醋行业发展现状 - 7 - 1.2 本课题研究的意义 - 7 - 1.3 本课题的研究内容 - 8 - 1.4 设计原则 - 8 - 2 厂址选择 - 8 - 2.1 厂址选择 - 8 - 2.2 气温 - 9 - …

21、池化技术和线程池的使用(三大方法,7大参数,4种拒绝策略)

池化技术和线程池的使用(三大方法,7大参数,4种拒绝策略) 池化技术:事先准备好一些资源,有需要用就拿,用完再还回来线程池的好处: *降低资源的消耗:线程的不停的创建销毁…

【LeetCode 力扣】2.两数相加 Java实现 模拟 递归

题目链接:2.两数相加 1 原题描述: 2 解题思路 初看此题,其实并不难理解,我们只需要简单对加法过程进行一个模拟,即可完成。那么我们应该怎么模拟呢?首先观察题目,链表是采用的 逆序 存储&…

[旭日X3派] 初识篇 - 01

简单介绍一下 旭日X3派: 地平线旭日️ X3 派是一款面向生态开发者的嵌入式 AI 开发板,接口兼容树莓派,具有 5 TOPS 端侧推理与 4 核 ARM A53 处理能力。 可同时多路 Camera Sensor 的输入并支持 H.264/H.265 编解码。 结合地平线的高性能 A…

什么是JUC

什么是JUC JUC指的是:Java里的三个包 java.util.concurrentjava.util.concurrent.atomic:原子性java.util.concurrent.locks:lock锁回顾线程和进程 进程 程序执行的一次过程,一个进程包含一个或多个线程。进程是资源分配的单位 …

【毕业设计】深度学习行人重识别系统 - person reid

文章目录0 前言1 技术背景2 技术介绍3 重识别技术实现3.1 数据集3.2 Person REID3.2.1 算法原理3.2.2 算法流程图4 实现效果5 部分代码6 最后0 前言 🔥 Hi,大家好,这里是丹成学长的毕设系列文章! 🔥 对毕设有任何疑问…

Linux NetCore下Pdf转图片 内存溢出

Linux NetCore下Pdf转图片 内存溢出Linux PDF转图片异常查看libgdiplus版本解决方案NetCore 3.1下面调用Pdf转图片的组件,在本地windows环境下转换正常,但是到容器里面就会转换失败,查看命令行日志可以看到如下错误。 Linux PDF转图片异常 …

web期末大作业:基于html+css+js制作 学校班级网页制作----校园运动会 4页

⛵ 源码获取 文末联系 ✈ Web前端开发技术 描述 网页设计题材,DIVCSS 布局制作,HTMLCSS网页设计期末课程大作业 | 校园班级网页设计 | 我的班级网页 | 我的学校 | 校园社团 | 校园运动会 | 等网站的设计与制作 | HTML期末大学生网页设计作业 HTML:结构 …

source 命令的用法(与 sh Filename、./Filename的区别)

source 命令简单来说,就是读取脚本里的语句,并在当前Shell中执行,脚本里面所有新建、改变变量的语句都会保存在当前shell里。 目录 1、source 命令的使用方法 2、source命令的妙用 3、source Filename 和 ./Filename的区别 1、source 命令…

12期数据分析-第5次数据分析作业-pandas数据清洗--第 课讲解

1.册除每列都为NAN的数据,以下操作正确的是单法题 选B: 2.?离散化就是将连续值进行分区间 选C 3.以下方法中可以修改索引名称的是多选 选ABCD。 df.index.map({0:‘A1’,1:‘B1’,2:‘C1’}) 4.?求4个人的平均分数 选BCD .…

docker安装es+mac安装Kibana工具

一、docker安装es 1、下载镜像 docker pull elasticsearch:7.9.0下载完后,查看镜像 docker images​​ 2、启动镜像 docker network create esnetdocker run -d --name es -p 9200:9200 -p 9300:9300 --network esnet -e "discovery.typesingle-node&…

2022 弱口令安全实验室招新赛-靶机挑战记录

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录前言一、ubuntu 代码执行getshell获取webshell二、server 2008r2EW 流量代理ms17010三、AD机器账号伪造漏洞域内hash传递攻击登录域控总结前言 2022 弱口令安全实验…

Chakra UI Pro (Marketing + Application UI + ECommerce)

Chakra UI Pro (Marketing Application UI ECommerce) 快速创建可访问的 React 应用 程序 Chakra UI 是一个简单、模块化且可访问的组件库,它为您提供构建 React 应用程序所需的构建块。 更少的代码。更快的速度 花更少的时间编写 UI 代码,将更多的时间…

ZYNQ之嵌入式学习----开篇实验Hello World

1 ZYNQ 嵌入式系统的开篇实验Hello World 阅读本文需先学习: FPGA学习----Vivado软件使用 1.1 ZYNQ 嵌入式系统开发流程 创建Vivado工程使用IP Integrator 创建 Processor System生成顶层HDL生成比特流,导出到SDK在SDK中创建应用工程板级验证 开篇实验任务是在 …