浅谈数据中台之数据开发

news2024/11/24 22:28:55

103ef1bf8b55fc59464c8cbad5f448a7.png

目    录

 

01 前言‍

02 中台概念及背景

‍‍‍‍‍‍‍

03 数据中台建设方法‍‍‍‍‍‍

04 数据开发实践

01‍

前言‍‍

2015年阿里在国内首次提出了中台概念,由阿里引领发展,迅速在互联网企业中形成了一股浪潮。在数字化转型的道路上,为了充分发挥数据价值,数据中台的理念也渐渐深入到各行各业中。数据中台,不是一套系统,同样也不是一个平台。它是一种企业的建设机制,植根企业特色,借助有形的产品和实施方法论,持续不断的整合数据、分析数据、挖掘数据价值。中台的构建不是一蹴而就的事情,今天我们就来简单聊一聊在数据中台中如何做数据开发。

02‍

中台概念及背景

依然是老套的三段论,是什么,为什么,怎么办。首先我们先明确数据中台是什么?

先说说“中台“,中台这个概念最早是阿里提出的。在2015年,时任阿里巴巴集团CEO的张勇,提出了构建符合DT时代的更创新灵活地”大中台,小前台“组织机制和 业务机制的战略方针。中台这个概念是阿里在访问芬兰的一家名叫Suppercell的游戏公司。对于一款游戏而言,除了内部的游戏场景机制外,还有其后台支撑系统,例如游戏引擎、用户系统、支付系统、交易系统等。Suppercell统一了各款游戏的后台支撑系统,这样各个游戏开发团队只需要关注自身的业务属性,基于统一的平台支撑,快速开发,实现利益的快速变现。

49879a3f87f440fe3004491006f546b3.png

中台概念的出现既有其内部需求驱动,又有外部环境条件催化。从阿里的角度来看:

7823c08758858e8b76deb7b53ee04c08.png

历经多年的信息化建设,旗下有1688、淘宝、天猫、一淘等等产品条线,这些产品由于建设时期、分管团队、技术栈等等原因各自为政,形成了经典的烟囱式系统。重复的功能建设,带来了高昂且日渐增大的开发和维护成本;系统间集成交互复杂,面对新需求,尤其是需要跨部门协作开发的场景,在需求沟通、确认、开发、验证、上线等诸多环节都费时费力。这种各自为政的发展方式,同样不利于业务沉淀,阻碍了企业的持续发展壮大。

从外部来看,国家的一系列政策也起到了一定的促进推动作用。

893d1edf1bd4a45fc2f8bd440635e201.png

当企业发展到一定体量时,企业日常生产运营涉及到的数据量越来越庞大。随着数字化时代的到来,如何分析数据、挖掘数据价值,推动产业持续升级,变得越来越重要

1f571fa425797ab4a2873a581afb8dd8.png

在这样的背景下,长痛不如短痛,阿里下定决心,重新梳理企业各条线业务结构,自上而下构建企业大中台。

  • 抽取业务系统中的公共流程服务部分,合并相似的组织,提供通用的服务能力,打通业务流程构建业务中台;

  • 抽取各个业务系统数据,对数据进行抽象、标准化、分析,进而提供统一、标准的数据服务。打通各业务线之间的数据和流程,实现数据共享和业务协同,构建数据中台。

数据中台的概念迅速自互联网企业阿里,腾讯,百度等头部企业兴起,并逐步扩散到传统企业,作为企业级的数据共享,能力复用平台帮助传统企业进行数字化转型。

03‍‍

数据中台建设方法

阿里的数据、业务双中台建设之路,给我们以启发。在讲究持续发展数字经济的当下,企业要想做好数字化转型,必须玩转数据,真正实现D2V,发掘数据价值。借助中台实现业务能力复用以及不同业务条线的联动合作,为企业的持续发展奠定基础,降本增效。数据中台建设要掌握正确的方式方法。

做事情都要有明确的目标,才能辅助我们做出正确的决策。我们希望数据中台能够打破数据孤岛,提供统一的数据口径,按照标准的数据规范、借助数据开发过程梳理数据资产,明确数据价值,并借助数据资产管理快速响应前台业务需求,实现需求的快速开发,减轻开发工作量。最后利用数据中台作为统一的数据运营平台,对数据的安全、质量、以及运营成本进行持续跟踪。

ab456a4442aa7f11f98b789ae159b5d9.png

数据中台建设五步走:

1.  理: 梳理业务构成和流程,探查数据分布和特征,采集数据模型

盘点企业现有数据资源,根据数据需求确定数据体量,确定未来建设的规模,并根据规模确定相关的实施工具以及资源。

2.  规: 规划数据资产管理组织,建设多级管理规程体系

由上至下,建立数据资产管理组织,统一企业战略意识,达成统一目标。因为中台建设,在整合资源的同时需要各部门的倾力合作,需要有足够话语权的领导确认并推动中台建设方针。制定合理的机制保障,建设过程的顺利进行。

3.  优: 统一数据标准,优化数据质量

什么样的数据是真实有效的,保障数据的有效性是分析数据的另一个前提。建立统一的数据标准,保障数据的完整性、准确性、一致性,提高数据质量。

4.  用:集约化数据开发管理,建立数据资产门户,驱动数据共享

资产门户的建设涉及数据汇聚、数据开发、数据质量等多个环节,通过数据资产门户,积淀企业资产数据,资产数据作为参考,为数据服务开发,实现数据变现提供基础。

5.  评: 评估数据价值,企业发展方向的风向标

建立持续的数据运营能力,挖掘数据现存、潜在的价值,为企业的提供发展的风向标。

8c2ee7e7bfae41033c8ce803d6e030f5.png

04‍‍

数据开发实践‍‍‍‍‍‍‍‍‍

鉴于篇幅以及结合开发经验,这里针对数据开发的一些实践经验,同大家共同探讨。数据开发我认为是数据中台建设中过程中占比很大的一项工作,在数据汇聚、数据质量、数据服务化等过程中都有它的影子。

普元数据开发平台各模块的组成结构如下图所示:

3c789c380d2afacde9b962b643e70da5.png

数据开发平台的初衷是屏蔽底层复杂实现,降低开发工作量、提升开发效率,为企业提供快速、便捷、稳定、易用的数据中台建设能力,降低企业实施成本。

9b8f102a5e18fe41d0388d92a8356692.png

基于项目空间,使数据团队不同角色更好的协作,打破团队间孤岛。通过项目配置实现人员、角色、资源(数据源、文件等)的统一管理。

基于项目空间,完成数据作业的开发、运行监控管理。

  • 完整的数据源支持

数据汇聚是数据中台建设的第一步。能否适配多源数据源是数据集成、同步的关键。普元数据开发平台支持20+主流数据源(持续扩展支持中),涵盖关系型数据库(JDBC的方式支持各种数据库)、文件存储(FTP、OSS等)、NoSQL(Elasticsearch、Mongo等)、消息中间件(KafKa、PMQ等),可对接各类大数据平台,开源含括 Hadoop,商业体系包括阿里MaxCompute、ADS(AnalyticDB)、CDH、HDP、星环。

基于自定义Classloader,打破双亲委派原则,提供同一套引擎下多数据源版本的支持,简化部署流程、降低部署成本。

在连接方式上支持多种协议认证,直连、Kerberos认证。

提供逻辑数据源多环境管理,降低一般开发人员对于数据的接触面,保障数据安全,防止数据泄密。

  • 提供多种通用数据处理组件,可视化便捷开发

基于数据集成数据同步开发的多年经验,普元积淀了很多通用的数据处理组件。通过在线编排的方式能够减少80%的数据开发工作量。比如字段映射、数据过滤、数据合并、数据脱敏、以及数据检验等等。

针对数据开发我们提供三种模式:

a)  在线编排自定义开发。借助50+输入、输出、转换组件,通过拖拉拽的方式对ETL过程进行组合编排开发。

b)  通用模版向导式开发。借助通用模版通过向导式配置,例如:多表同步、整库同步等。

c)  离线程序。离线程序作为能力补充,当在线开发不满足复杂业务需求情况下可以使用离线开发程序

f81140bd7d67a1e0dfe81f8888dade54.png

曾有人笑言数据开发就是写SQL,其实这句话也是有一定道理的,当然这里的SQL是一个广义的SQL了,它能够帮助我们进行取数(获取测试数据,辅助分析数据逻辑)以及对数(获取过程、结果数据,验证数据计算结果)。我们提供在线客户端辅助开发,免去在各种工具之间切换的繁琐。

cf43cd28842d656efb0257b4cc2fd6f4.png

当然作为一款在线的开发工具,在线调试运行是必不可少的。

0317a8c2c2b692050d8d71aa9656ef45.png

  • 数据作业运行监控

数据作业开发完成后,通过作业流进行包装并提交正式版本到调度引擎中,就可以通过调度管理模块进行运行监控。

8cd90c1f9bdd236bfaa177159dea92ea.png

同时针对已经运行的作业流实例支持多种操作:

暂停:(离线作业支持)等待当前运行的算子计算完毕后,暂停当前流程。

恢复运行:从暂停、停止的节点继续运行。

重跑:以相同的参数进行重跑当前作业流实例。

恢复失败:从失败的节点恢复,继续运行。

停止:停止当前作业流实例。

暂停:(离线作业支持)等待当前运行的算子计算完毕后,暂停当前流程。

  • 版本管理

支持保存开发期近10个任务草稿,以及正式版本切换。在遇到紧急情况下可以回滚至任意版本。

以上内容即我对数据中台建设过程中数据开发的一些个人理解,欢迎留言多多交流。

6e5c381e125051ae3c557b7699fa016c.png关于作者:瑞栋,普元资深工程师,负责普元数据类产品设计和研发,负责关于服务监控、日志监控等组件开发。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/648365.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【AUTOSAR】UDS协议的代码分析与解读(五)----ECU诊断服务

8 诊断服务 8.1 总览 此章节定义了本规范中可使用的诊断服务及其执行规则。 下表列出了h事业部定义的所有UDS诊断服务。ECU最终实现与下述定义不符之处必须得到h事业部 的认可。服务实现内容需在零部件诊断规范中详细说明。 表 9 诊断服务支持列表 诊断服务列表 APP Bootlo…

【手撕代码】同步 FIFO、LIFO/Stack

FIFO 是FPGA设计中最有用的模块之一。FIFO 在模块之间提供简单的握手和同步机制,是设计人员将数据从一个模块传输到另一个模块的常用选择。 在这篇文章中,展示了一个简单的 RTL 同步 FIFO,可以直接在自己的设计中配置和使用它,该设…

社区供稿 | RLHF 实践中的框架使用与一些坑 (TRL, LMFlow)

1 前言 之前看见文章总结了常见的一些 RLHF 框架的经验, 但是似乎没看见 Hugging Face 自己维护的 TRL 库的相关文章, 正好最近调 TRL 比较多, 就想写一个文章分享一下使用过程中踩到的坑,另外也介绍一下我们的全流程框架 LMFlow 。 LMFlow 框架示意图。 我们主要用…

架构思维的六要素

很多人都在私信问我随着ChatGPT等技术的兴起,自己的饭碗会不会没了。我的观点是:ChatGPT能做的工作十几年前早就没了。 十几年前还看到过招聘广告上写招程序员的,现在都是工程师起步,工程师是要有架构思维的。 像十几年前的黄金时…

手写SpringBoot启动器主要步骤

这里写目录标题 背景过程2.1自启动实现原理2.2手动实现SpringBoot自启动2.2.1宏观2.2.1微观2.2.1.1三个服务之间调用2.2.1.2自定义注解2.2.1.1业务组装2.2.1.3启动类 升华自定义注解:手动装配组件:简化启动过程:自动化注入依赖:简…

马原第三章复习1.

唯物史观和唯心史观过去出过小题 社会意识出小题 社会存在一般出大题 124 社会存在和社会意识(往往出大题) 社会历史性的基本问题 两种根本对立的历史史观 唯心主义: 至多考察人的思想动机 没有考虑思想背后的物质动因和经济根源 把社会史观看成人的思想,,不懂得…

关于酒店宾馆电气火灾隐患的预防与整改措施介绍 安科瑞 许敏

摘要:本文分析了酒店、宾馆电气火灾隐患的特点及产生的主要原因,并依此提出了消除火灾隐患的整改措施。 关键词:酒店宾馆;火灾;隐患;预防;整改;措施 1前言 随着旅居服务业的快速发展&#xf…

CVPR 2023 | 香港理工提出GrowSP:3D场景的无监督语义分割

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>【目标检测和Transformer】交流群 GrowSP: Unsupervised Semantic Segmentation of 3D Point Clouds 论文链接:https://arxiv.org/abs/2305.16404 代码&#xff1…

2023/6/11总结

CSS Less嵌套 子元素的选择器可以直接写在父元素里面。 如果不是它的后代元素,比如你想写伪类选择器、交集选择器,需要在前面加&号。 Less运算: 加减乘除都可以,运算符必须用空格隔开。如果俩个元素都有单位&#xff0…

binfmt_misc

一:binfmt_misc是什么 binfmt_misc是内核中的一个功能,它能将非本机的二进制文件与特定的解析器自动匹配起来,进行二进制解析。 例如,在x86上解析arm64架构的二进制。 通过binfmt_misc可以注册解析器来处理指定二进制文件格式的请…

Qt|QDialog的创建及使用

文章目录 创建一个新的类继承QDialog设置标题去掉问号,只保留关闭使窗口在屏幕中心显示设置窗口大小QDialog没有任务栏窗口图标问题将窗口永远置于上层可见 不会被遮盖阻塞除当前窗口之外的所有窗口添加closeEvent hideEvent同理调用dialog类接收dialog返回状态&…

华为OD机试真题 JavaScript 实现【跳房子II】【2023 B卷 100分】,附详细解题思路

一、题目描述 跳房子,也叫跳飞机,是一种世界性的儿童游戏。 游戏参与者需要分多个回合按顺序跳到第1格直到房子的最后一格,然后获得一次选房子的机会,直到所有房子都被选完,房子最多的人获胜。 跳房子的过程中&…

XGBoost超参数调优指南

本文将详细解释XGBoost中十个最常用超参数的介绍,功能和值范围,及如何使用Optuna进行超参数调优。 对于XGBoost来说,默认的超参数是可以正常运行的,但是如果你想获得最佳的效果,那么就需要自行调整一些超参数来匹配你的…

jupyter lab升级或者安装插件后编译失败

错误回显 报错提示:please run ‘jupyter lab build’ on the server for full output,那么就进入prompt执行一下jupyter lab build 继续接着报错 If you dont already have a jupyter_config.py file, you can create one by adding a blank file of th…

线下实体衰落,真是电商惹祸?实是贪婪以及服务理念落后所致

网上时不时就有人指责电商的兴起导致了线下实体衰落,然而如果各位比较了线下实体与电商的差异,就会明白导致如此结果完全是咎由自取,因为线下实体太贪婪以及服务理念落后于时代。 笔者最近就购买了某款国产手机,在该国产手机品牌的…

集显独显并存,ubuntu安装显卡驱动的坑

一、安装和启动黑屏卡死 1、怎么办?显示器先接集显,完成驱动安装。 (1)屏蔽nouveau驱动 只要是安装过NVIDIA显卡驱动的,nouveau一般都被禁止了。可以通过命令: lsmod | grep nouveau 查看。如果没有任…

实现设备的延时控制

1. 引言 当搭建IoT管理后台后,APP、设备、云端三端就可以实现交互;当点击APP中的控制按钮,其控制指令就可以经过云端转发到设备执行,当设备执行后将设备的状态上报到云端,APP通过轮训可以取到设备此时的状态&#xff0…

Spring Boot 优雅集成 Spring Security 5.7(安全框架)

Spring Boot 集成 Spring Security (安全框架) 本章节将介绍 Spring Boot 集成 Spring Security 5.7(安全框架)。 🤖 Spring Boot 2.x 实践案例(代码仓库) 介绍 Spring Security 是一个能够为基…

为行业变革注入新动能,行易道入选“高工智能汽车智驾榜单”

6月8日到9日,2023高工智能汽车开发者大会在上海成功举行。与会期间,北京行易道科技有限公司(以下简称“行易道”)营销副总裁袁泽雁带来了以“车载毫米波雷达进入成像时代”主题演讲,为大家分享了4D毫米波雷达如何以“新…

Java网络开发(Tomcat异步分页+增删改查)——从同步到异步 从jsp 到 js + axios + vue 实现 数据分页显示 数据增删改查

目录 引出一些固定的东西1.固定的响应格式2.name 变成 v-model 进行双向绑定3.下拉框选中--:value"type.id" v-model"companyDb.typeId"4.vue导包固定写法5.script固定写法6.axios的get请求7.axios的post请求---let params new URLSearchParams()8.前端美…