海睿思分享 | 浅谈智能数据治理

news2024/9/21 4:36:24

随着大数据和AI技术的发展,利用企业内外部海量数据进行融合、治理、分析和应用,已成为企业经营管理越来越重要的手段。如何构建企业大数据分析平台发挥数据价值正成为企业数字化转型的核心战略任务。

基于大数据平台进行数据分析的完整流程分为:

采集现实世界的数据-->对数据进行治理和存储-->持续构建和扩展数据模型-->对治理后的数据进行查询分析计算。

大数据背景下,数据分析需要采集的数据范围和维度随着企业和用户认知的完善而不断扩展,整个数据治理和模型构建是一个持续的动态过程,决定未来数据价值是否能有效发挥。据统计,大数据平台建设过程中,60%~80%工作量集中于数据接入/抽取、清洗/转换、数据模型调整等数据治理工作。而失败的大数据应用项目有70%以上源自无效的、不专业的数据源管理,即传说的“GarbageIn GarbageOut”。因此,如何快速接入治理多源异构数据,不断调整扩展数据模型成为企业大数据平台建设的重大挑战。

中新赛克海睿思OceanMind大数据基础平台依托多年在制造业、创投、设计等行业的大数据平台项目建设经验,提出“数据接入+数据探查+数据抽取”三步走智能数据治理方法,并配套提供对应功能,帮助企业快速实现多源异构数据治理,完成企业数据资产动态建设。

(1)数据接入:支持超过10大类数据种类、30+多种数据格式,简单易用,通过可视化界面可快速完成数据接入,数据资源一目了然,数据接入效率提高60%以上。

(2)数据探查:数据探查包括智能对标和自动化治理流程。

智能对标以原始数据字段名称、字段类型、字段注释、字段内容、字段关联关系、字段归属关系等特征及数据标准为输入,利用OceanMind“知识图谱+文本挖掘”引擎中的命名实体识别、模糊匹配、相似度计算、模式识别、智能分词等功能,结合多年行业数据治理经验形成的经验规则库,实现智能探查,输出原始数据对标标准结果。

自动化治理流程包括字段内容标准化、字典转换、表公共字段添加、关联回填、重命名、格式校验等。基于智能对标输出的“映射关系”+“字段治理规则库”+“标准化的治理流程”,完成自动化治理流程的关键参数输入,从而实现一条治理流程适配不同数据源的要求,以实现数据治理的标准化、自动化。

(3)数据抽取:实现对已治理好的表进行资源和主题的抽取,以满足业务对于资源库和主题库的建设需求,抽取内容包括要素关系、要素重点行为、要素分布、要素内容等。数据抽取包括资源主题识别和自动化抽取流程。

资源主题识别利用OceanMind“知识图谱+文本挖掘”引擎中的实体抽取、关系抽取、主题抽取、地址归一化、文本分类等技术功能,结合经验规则库,自动判别数据源中可以提取的资源和主题类别。自动化抽取流程利用资源主题识别获取的参数作为输入,自动适配不同数据源的资源主题提取需求,实现资源主题抽取自动化。

OceanMind海睿思大数据基础平台基于智能数据治理技术,将数据治理工作从纯项目定制化工作逐步转变为构建产品的过程,大大降低了企业大数据分析项目建设的投入成本,建设效率提升60%以上。同时,标准化的数据治理过程也进一步提升数据分析计算结果的可信度,让大数据分析平台建设真正物美价廉。

OceanMind海睿思,您身边的企业数字化转型专家!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/512188.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MyBatis--映射关系一对一和MyBatis--映射关系多对一 -都有基于xml和注解的教程

目录 MyBatis--映射关系一对一 映射关系-官方文档 映射关系1 对1-基本介绍 注意细节 映射方式 方式1 创建idencardv 表 创建person表 创建新的 module(mybatis-mapping), 相关配置文件可以从上一个 module 拷贝 创建IdenCard.java对应表类 创建Person.java对应表类…

Vue2相关面试题(持续更新)

前言 目前这套面试题只适合 初级前端,后面会进行深层次补充和拓展以及Vue2源代码的讲解(虽然Vue2今年开始不维护了,但是我的面试题不会止步,冲冲冲)。在面试的过程中,一定要清楚哪些该说哪些不该说&#x…

云剪辑-B端在线剪辑⼯具架构设计与演进

腾讯云音视频的云剪辑致力于让客户在自己的应用(Web、小程序)中快速集成剪辑能力,同时强大的模板能力能够极大地提升视频生产效率。我们在探索B端在线剪辑产品的过程中遇到不少挑战:如何满足快速与定制两种集成场景?如…

Linux性能监控

一、htop 安装:yum install htop -ytop是linux下常用的监控程序,htop相当于其加强版,颜色显示不同参数,且支持鼠标操作,相对于top简单和人性化!第一行与第二行,显示CPU当前的运行负载&#xff…

F407标准库之时钟系统

主要参考正点原子数据手册和源码资料等。 第19讲 STM32时钟系统精讲_哔哩哔哩_bilibili 此处记录较为重要或者较易出错的一些遗漏之处,作为补充。 一般而言,时钟越高,速度越快,但同时抗干扰能力也越差,功耗也越高&am…

java入门学习

输入 数字输入(为什么类型的数字就是sc.next类型)float sumsc.nextFloat() int xsc.nextInt(); import java.util.Scanner;public class 相加问题 {public static void main(String[] args){Scanner scnew Scanner(System.in);int xsc.nextInt();int …

AMB300系列母线槽红外测温解决方案某锂电厂房项目案例分享

安科瑞 耿敏花 一、 行业背景 近年来,在国家政策引导与技术革新驱动的双重作用下,锂电产业保持快速增长态势,产业规模持续扩大,同时新能源产业工厂锂电池生产线对于电的依赖性很高,因而对供电设备的可靠性提出…

php+vue网上培训课程直播授课学习平台

运行环境:phpstudy/wamp/xammp等 开发语言:php 后端框架:Thinkphp5 前端框架:vue.js 服务器:apache 数据库:mysql 1、优智学在线授课平台主要是针对 疫情期间高校对在线教学直播的需求,为在校师生提供高质量…

TOGAF® 基本内容—架构开发方法—E阶段:机会和解决方案

本章描述识别有效交付的交付工具(项目、项目群或项目组合)的过程 在前面阶段确定的目标体系结构。 一、目标 E阶段的目标是: 根据差距分析和候选架构生成架构路线图的初始完整版本 阶段 B、C 和 D 的路线图组件确定是否需要增量方法&#xf…

WooCommerce电商开发:高性能订单存储HPOS性能基准测试

自去年以来,我们一直致力于构建和推出 HPOS(高性能订单存储)作为一项可选功能。这改变了我们在数据库中存储订单数据的方式,从自定义帖子类型 wp_post和wp_postmeta表到专门用于存储订单数据的自定义表。我们还发布了这些表的详细…

六、Spring Cloud Alibaba-nacos配置中心

一、Nacos配置中心 前面说了三、Spring Cloud Alibaba组件nacos,主要介绍的是服务发现。该篇主要介绍配置中心的功能。 官方地址: https://github.com/alibaba/spring-cloud-alibaba/wiki/Nacos-config。 Nacos 提供用于存储配置和其他元数据的 key/val…

tomcat集群下的session共享和负载均衡(memcache实现)

环境 操作系统:windows tomcat1:Apache Tomcat/7.0.52(8085) tomcat2:Apache Tomcat/7.0.52(8086) jdk:1.8.0_251 nginx:nginx-1.20.1(8070) memc…

美颜SDK的算法分析:探究其背后的机器学习模型

美颜SDK作为常见的美颜工具,其使用的算法也备受关注。本文将从机器学习的角度,深入分析美颜SDK的算法模型与实现原理。 一、算法模型 美颜SDK主要采用的算法模型是卷积神经网络(Convolutional Neural Network,CNN)。…

网卡名称排序

udev是一种动态设备管理系统,用于在Linux系统中自动管理设备的插拔、识别、配置等操作。它的主要作用是监视系统中的设备事件,并根据设备事件动态地创建、删除或修改系统中的设备节点。 udev的工作原理是通过读取系统中的硬件信息、驱动程序和设备特征信…

AI天后,在线飙歌,人工智能AI孙燕姿模型应用实践,复刻《遥远的歌》,原唱晴子(Python3.10)

忽如一夜春风来,亚洲天后孙燕姿独特而柔美的音色再度响彻华语乐坛,只不过这一次,不是因为她出了新专辑,而是人工智能AI技术对于孙燕姿音色的完美复刻,以大江灌浪之势对华语歌坛诸多经典作品进行了翻唱,还原…

李沐论文精度系列之九:InstructGPT

文章目录 一、背景1.1 时间线1.2 ChatGPT功能展示1.3 指示学习(Instruct Learning)和提示(Prompt Learning)学习1.4 人工反馈的强化学习(RLHF) 二、摘要三、导言3.1 算法3.2 结论 四、方法和实验细节4.1 数…

【数据结构与算法】树和二叉树

1 树 1.1 术语 关系术语 孩子结点 —— 子树的根 父结点 兄弟结点 —— 同一个结点的孩子结点互为兄弟 祖先结点 后代结点 层次类术语 根的层次为1 其余结点的层次为其父结点层次加1 高度/深度 —— 整个树中结点的最大层次 度 —— 结点的孩子数目称为结点的度 叶子&#xf…

Smartbi携手广州轻工集团打造集团价值创造型总部

广州轻工工贸集团有限公司(简称“广州轻工集团”)是广州市第一家工贸合一的大型企业集团公司,最早起源于1950年9月成立的广州市合作事业管理局,逐渐演化形成广州市轻工业局。1995年10月,广州市轻工业局成建制改建为经济…

spring-transaction源码分析(3)Transactional事务失效原因

问题概述 在Transactional方法中使用this方式调用另一个Transactional方法时&#xff0c;拦截器无法拦截到被调用方法&#xff0c;严重时会使事务失效。 类似以下代码&#xff1a; Transactional public void insertBlogList(List<Blog> blogList) {for (Blog blog : …

【人工智能】在VScode中使用AI插件Bito,功能与ChatGPT类似

文章目录 前言一、到官网下载VScode软件二、VScode软件安装步骤三、Bito插件下载与VScode软件中的使用四、注册Bito 前言 之前在VScode中使用ChatGPT中文版&#xff0c;后来要注册与收费&#xff0c;可采用一些ChatGPT中文版的替代插件。 后发现BitoAI插件功能同样强大&#…