中纺集团×StarRocks:构建企业级数据资产管理的实践

news2024/11/24 21:03:41

中纺集团经过“十三五”信息化建设,生成了大量宝贵的数据资源,但也存在信息孤岛、系统壁垒、数据质量等问题。中纺结合企业实际需求,按照集团“十四五”信息化规划中有关数据中台的建设计划与目标要求,历经半年多的测试比选,最终选定 StarRocks  作为 OLAP 数据库。

其试点项目——中纺棉商情大数据平台已经完成实施上线,参与计算数据 3 亿多条,数据同步方式从 T+1 升级至秒级实时,查询速度明显提升。目前中纺已启动基于 StarRocks 的中纺棉数据资产管理平台,以此实现企业全域数据的有效治理。

#01

时代背景:数据要素市场化配置上升为国家战略

云计算、大数据、 AI 等技术的发展,全球数据量呈现爆发式增长:

2020 年 4 月,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,将“数据”与土地、劳动力、资本、技术并称为五种要素。

2021 年 3 月,《中华人民共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要》提出营造良好数字生态,关注数据要素市场规则和政策环境,关注统筹数据开发利用、隐私保护和公共安全等要求。

2022 年 6 月 22 日中央深改委第二十六次会议明确指出,“要完善数据要素市场化配置机制,推进公共数据、企业数据、个人数据分类分级确权授权使用,加快建立数据资源持有权、数据加工使用权、数据产品经营权分置的产权运行机制”,标志着我国数据要素市场建设正式进入了从顶层设计到机制落地的新阶段。

#02

发展趋势:大数据工作是企业实现数字化转型的必由之路

数据将渗透至企业设计、生产、管理、服务和运营的全流程,数字化转型要求企业通过优化资源获取和资源配置,从而提高企业竞争优势。

回顾数据发展历程,数据发展主要经历三个阶段。信息化时代:数据被视为业务记录的主要载体,数据管理与业务系统、管理系统相结合,从而具备一定的业务含义。大数据时代:随着数据规模持续增加以及技术成本投入下降,越来越多的组织开始搭建大数据平台,以实现数据资源的集中存储和管理。数据要素化时代:数据作为资产的理念正在成为共识,即以释放数据资产价值为核心目标,制定数据赋能业务发展战略,持续运营数据资产。

#03

自身实践:中纺集团的数字化转型之路

企业当前的数据规模属于 TB 级别,主要数据来源是已经建成在信息系统的传统数据库,部分数据库版本较老旧,绝大部分数据类型为关系型结构化数据。

充分考虑企业的数据应用现状后,项目组放弃了以 Hadoop 技术栈为基础的传统大数据架构,直接采用轻量级、敏捷型湖仓一体的大数据架构,将数据导入到 OLAP 数据库即可快速支撑数据应用需求。

因此需要选择一款部署和运维代价适中、适合现有开发团队技术栈演进的 OLAP 数据库,StarRocks 通过实际业务数据需求技术测试和方案验证脱颖而出。

测试方向具体内容ClickHouseApache DorisStarRocks
易用性建表和SQL改造改造成本高语法类似MySQL,相对简单,成本较低语法类似MySQL,相对简单,成本较低
查询性能业务场景查询测试性能表现优于Oracle,略低于StarRocks某些场景优于Oracle,个别场景略低于Oracle性能表现均优于Oracle,三者表现最佳
健壮性宕机测试一个节点或多个节点宕机,不影响使用,数据不会丢失一个节点或多个节点宕机,不影响使用,数据不会丢失一个节点或多个节点宕机,不影响使用,数据不会丢失
开源社区成熟度调研测试开源社区成熟,案例多,关注度高开源社区成熟,案例中等,关注度高开源社区在中国的影响力和成熟度高,技术支持力度大

POC 查询性能表现

数据量Oracle (现用)StarRocksApache DorisClickHouse
四张几百万到数十条的表关联查询最优中等较差
几十万级数据量单表查询最优较差中等
几十万与几万条数据关联查询最优中等较差

StarRocks 可以做到“统一安装、统一部署、统一管理、统一运维”,最终形成集团统一的数据资产目录。依据 “试点先行、小步快跑、标杆示范、以点带面”的建设原则,中纺首先将中纺棉商情大数据分析平台迁移至 StarRocks 平台,以验证 StarRocks 的稳定性和性能。

中纺棉商情大数据分析平台是棉花期现货经营的决策分析平台,棉花商情研发数据范围包括国内外棉花期现货价格、现货数量、棉花质量、USDA 数据、天气数据、海关数据、汇率、储备棉数据等等,数据来源繁杂,目前已经汇聚了近 3 亿条行业数据,平均每周增量近五十万条,商情研发工作对该系统高度依赖。在商情大数据平台的有力支撑下,2021 年,中纺棉商情部比美国农业部(USDA)提前半年研发出棉花全球年度平衡表,行业大数据应用首屈一指!

在原有的传统关系型数据库体系下,系统存在计算性能瓶颈,使用的 Oracle 一体机扩容难、计算资源紧张、无法划分租户,数据只能通过批量同步方式同步。数据时效性不好,存在个别数据量大、需要 Join 表多的 SQL 无法运行出结果,即便增加临时表,打开需要用时 2-3 分钟左右。

通过对商情平台数据分析底座数据库架构的迁移和改造工作,目前中纺棉商情大数据平台已经切换运行在 StarRocks 平台上。系统运行稳定,查询速度快,产品兼容性好,支持力量及时完备。分布式查询性能有保障、兼容性好,实现了异源异构数据秒级实时汇聚,计算性能好、改造代价低,原来跑不出结果的 SQL 可以返回结果,经过增加中间表、使用分区分桶等比较简单的操作即可将数据响应控制在 3 秒以内,大大提升了用户对系统的使用体验。

#04

StarRocks:一款值得推荐的OLAP数据库

StarRocks 运维管理更省心。StarRocks 有数据自动均衡功能,包括节点间的数据均衡,以及单节点扩缩容磁盘后的磁盘间数据均衡能力。企业版带有图形化的管理后台,是一站式全集群管理平台,对于提升集团型企业数据集中管理的便捷性和可靠性也至关重要。

StarRocks 有较为完善的技术服务生态。官网及产品论坛上提供了丰富的技术学习资料和教程,方便开发者自我学习,项目组也建立了解答技术问题的工作群,同事们提出的每个技术问题都会得到圆满的解答。

StarRocks 有专业的解决方案可供参考。除了数据的存算部分,Fink CDC、传统数据库接入、国产数据库等相关部分,也可以提供经过实战项目检验的成熟方案,企业完全可以直接借鉴,大大降低了验证测试时间和开发成本。

#05

当前工作:建设中纺棉数据资产管理平台

建立统一的数据资产管理平台是中纺棉花“十四五”数字化规划的重点工作任务之一,该平台设定了四个“一”的项目目标,即“一套数据、一套体系、一套标准、一个出口”。

具体任务是基于现有的数据中台组件,建设数据资产管理平台,集成现有各个系统中的有效数据,实现数据层面的整合共享集成,建立数据治理体系,明确数据标准,确保数据质量,构建数据资产目录,用统一的数据源头和计算逻辑对内、对外提供报送数据。并在此基础上,建立数据模型和指标体系,进行深度整合和科学分析,对决策提供准确有力的支撑。项目一期设计的具体工作内容为 3 个数据集。

#06

对StarRocks的期待

市场上,专业型 OLAP MPP 数据库存在很大的空白,希望 StarRocks 企业版尽早为信创替代提供更多、更优的选择,进一步优化可持续的远期发展规划,并持续构建企业的经验学习和交流平台。

关于 StarRocks 

StarRocks 面世两年多来,一直专注打造世界顶级的新一代极速全场景 MPP 数据库,帮助企业建立“极速统一”的数据分析新范式,助力企业全面数字化经营。

当前已经帮助腾讯、携程、顺丰、Airbnb 、滴滴、京东、众安保险等超过 170 家大型用户构建了全新的数据分析能力,生产环境中稳定运行的 StarRocks 服务器数目达数千台。 

2021 年 9 月,StarRocks 源代码开放,在 GitHub 上的星数已超过 3600 个。StarRocks 的全球社区飞速成长,至今已有超百位贡献者,社群用户突破 7000 人,吸引几十家国内外行业头部企业参与共建。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/43167.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用扩展有效对齐 SwiftUI 内容,创建自定义 SwiftUI 方法以快速对齐项目并使您的代码看起来简洁明了(教程含源码)

在开发 iOS 应用程序时,对齐内容可能是一个耗时的过程。如果应用程序有多个屏幕,则需要在不同的地方完成这件事,并可能导致看起来杂乱无章的视图。 作为一个始终致力于让我的代码看起来简单和流线型的人,实现目标所需的大量Spacer()元素常常让我恼火,这就是为什么当我发…

配置Nginx和其他应用的HTTPS访问

使用tomcat或者weblogic部署的应用默认都是http访问的,如果通过https访问,需要ssl证书。tomcat或者weblogic可以配置; 同时,另一种方法,https网站中,如果接口服务是http的,那么请求接口就会被拒…

[美国访问学者J1]签证的材料准备

对于美国访问学者J1签证材料的准备,在这里知识人网老师和大家分享一下: 1. 有效护照:如果您的护照将在距您预计抵美日期的六个月内过期、或已损坏、或护照上已无空白的签证签发页, 请在前来面谈之前先申请一本新护照。 2. DS-160表格确认页。…

vulnhub靶机darkhole

靶机下载地址:DarkHole: 1 ~ VulnHub Kali ip:192.168.174.128 靶机ip:192.168.174.135 靶机ip发现 sudo arp-scan -l 开放端口扫描 nmap -p- -sV -A 192.168.174.135 发现开启了22端口和80端口 目录扫描 gobuster dir -u http://192.168.174.135…

Seal库官方示例(一):bfv_basics.cpp解析

尽量理论来理解代码。 完整代码或者\native\examples里面 说到前面的话 两段官方的话 大致意思就是,这个库有门槛,需要先学会同态的概念,提供的例子必须要看要理解。必看的例子如下, 代码解析 基础加密 参数设置 三个核心…

flutter系列之:在flutter中使用流式布局

文章目录简介Flow和FlowDelegateFlow的应用总结简介 我们在开发web应用的时候,有时候为了适应浏览器大小的调整,需要动态对页面的组件进行位置的调整。这时候就会用到flow layout,也就是流式布局。 同样的,在flutter中也有流式布…

真题集P93---2017年计专真题

真题集P93---2017年计专真题六思路:模拟代码七思路一:哈希表法二:排序法 (利用排序去重)三:拓展代码(仅思路一)六 思路:模拟 1、接口介绍 int turnNum(int num[], int nums):拿来一…

数据库约束

约束概述 为什么需要约束 数据完整性(Data Integrity)是指数据的精准性(Accuracy)和可靠性(Reliability)。它是防止数据库中存在不符合语义规定的数据和防止因错误信息的输入输出造成无效操作或错误信息而…

种草软文怎么写?分享一些超实用的种草软文写作技巧。

一提起“种草”这个词语,想必很多小伙伴都不陌生,我们都有“被种草”的经历,指的就是把一件商品推荐给大家,分享给需要的人,然后促成销售转化的过程。 在一些主流的内容平台,比如知乎、小红书、得物、公众…

Android 9.0 MediaPlayer播放流程分析

1.MediaPlayer初始化流程 EventHandler是后面处理数据回调的handler. 在AudioFlinger.cpp中获取nextUniqueId: audio_unique_id_t AudioFlinger::nextUniqueId(audio_unique_id_use_t use) {// This is the internal API, so it is OK to assert on bad parameter.…

18-1、k8s 对外服务之ingress

一、什么是ingress 原来的项目是部署在一台电脑上的,这样爬取速度虽然很快,但是我们还能提升,联想到分布式的思想,我们是否可以通过多台电脑进行配合爬取,这样我们的爬取速度就能大幅度提升。 …

【Mysql】数据库的基本操作和表的增删改查

本章内容是,用sql语言实现对数据库的基本操作和表的基本操作 文章目录前言1. 数据库的基本操作1.1 创建数据库1.2 查看数据库1.3 选中数据库1.4 删除数据库2. 数据库基本数据类型3. 表的基本操作3.1 创建表3.2 显示数据库中的表3.3 查看表的构造3.4 删表4. 表的增删改查4.1 增加…

基于PHP+MySQL汽车查询系统的设计与实现

随着时代的发展,汽车已经逐渐成为人们代步的主要工具之一,按时因为工业的发展,汽车的品牌和型号也层出不穷,如此多的汽车信息如何能够让爱车人士更好的 汽车查询系统的主要功能包含:汽车的类别管理、汽车的信息管理、留言管理、用户的管理等。网站分为管理员、会员用…

开放与融合趋势下,工业互联网安全破圈之道

作者 | 伍杏玲 出品 | CSDN 在工业 4.0 和数字经济的发展促进下,工业互联网作为连接工业经济的重要要素,成为推动数字经济发展的重要基础设施。据统计,到 2025 年,全球 IoT 连接设备数量达 519 亿。 然而在 OT 和 IT 融合趋势下…

1721. 交换链表中的节点-仅遍历一次链表-考研满分答案

1721. 交换链表中的节点-仅遍历一次链表 给你链表的头节点 head 和一个整数 k 。 交换 链表正数第 k 个节点和倒数第 k 个节点的值后,返回链表的头节点(链表 从 1 开始索引)。 示例 1: 输入:head [1,2,3,4,5], k…

第1关:Hbase数据库的安装

在安装HBase之前你需要先安装Hadoop和Zookeeper,如果你还没有安装可以通过这两个实训来学习:Hadoop安装与配置,Zookeeper安装与配置。 本次实训的环境已经默认安装好了Hadoop,接下来我们就开始安装配置HBase吧。 HBase安装 HBas…

浙大MPA常规批复试上岸经验分享

在经历笔试和面试的备考后,去年终于来到了复试环节,好在通过自己的不懈努力和不放松的精神,最终成功上岸,现在把个人的备考经验做整理为大家做个参考! 一、复试前准备:在正式复试前建议一定要对浙大MPA项目…

【综合评价分析】topsis评价 原理+完整MATLAB代码+详细注释+操作实列

【综合评价分析】topsis评价 原理完整MATLAB代码详细注释操作实列 文章目录 1、TOPSIS法的原理 2、TOPSIS法案例分析 3.建立模型并求解 3.1数据预处理 3.2代码实现数据预处理 3.3 本案例中数据预处理的运用 4.计算距离和评价指标 4.1 代码 4.2 运行结果 5.总结 1、T…

基于Jsp的OA企业人事管理系统【论文、数据库设计、源码、开题报告】

数据库脚本下载地址: https://download.csdn.net/download/itrjxxs_com/86500769 主要使用技术 SpringspringMVCmybatisjspccsjsMysqlTomcat 功能介绍 部门管理:支持对部门信息(部门名称、部门类型、电话、传真、描述、上级部门&#xff…

外卖项目(项目优化1)10---缓存优化

优化前面已经创建好的项目:将一些问题进行优化处理。本节主要解决是下面的问题。 前面的的项目,是将短信验证码等数据缓存到session中,该部分进行优化后,是将数据内容缓存到Redis中。 目录 一、使用git管理代码(对ID…