随着大数据和AI技术的发展,利用企业内外部海量数据进行融合、治理、分析和应用,已成为企业经营管理越来越重要的手段。如何构建企业大数据分析平台发挥数据价值正成为企业数字化转型的核心战略任务。
基于大数据平台进行数据分析的完整流程分为:
采集现实世界的数据-->对数据进行治理和存储-->持续构建和扩展数据模型-->对治理后的数据进行查询分析计算。
大数据背景下,数据分析需要采集的数据范围和维度随着企业和用户认知的完善而不断扩展,整个数据治理和模型构建是一个持续的动态过程,决定未来数据价值是否能有效发挥。据统计,大数据平台建设过程中,60%~80%工作量集中于数据接入/抽取、清洗/转换、数据模型调整等数据治理工作。而失败的大数据应用项目有70%以上源自无效的、不专业的数据源管理,即传说的“GarbageIn GarbageOut”。因此,如何快速接入治理多源异构数据,不断调整扩展数据模型成为企业大数据平台建设的重大挑战。
中新赛克海睿思OceanMind大数据基础平台依托多年在制造业、创投、设计等行业的大数据平台项目建设经验,提出“数据接入+数据探查+数据抽取”三步走智能数据治理方法,并配套提供对应功能,帮助企业快速实现多源异构数据治理,完成企业数据资产动态建设。
(1)数据接入:支持超过10大类数据种类、30+多种数据格式,简单易用,通过可视化界面可快速完成数据接入,数据资源一目了然,数据接入效率提高60%以上。
(2)数据探查:数据探查包括智能对标和自动化治理流程。
智能对标以原始数据字段名称、字段类型、字段注释、字段内容、字段关联关系、字段归属关系等特征及数据标准为输入,利用OceanMind“知识图谱+文本挖掘”引擎中的命名实体识别、模糊匹配、相似度计算、模式识别、智能分词等功能,结合多年行业数据治理经验形成的经验规则库,实现智能探查,输出原始数据对标标准结果。
自动化治理流程包括字段内容标准化、字典转换、表公共字段添加、关联回填、重命名、格式校验等。基于智能对标输出的“映射关系”+“字段治理规则库”+“标准化的治理流程”,完成自动化治理流程的关键参数输入,从而实现一条治理流程适配不同数据源的要求,以实现数据治理的标准化、自动化。
(3)数据抽取:实现对已治理好的表进行资源和主题的抽取,以满足业务对于资源库和主题库的建设需求,抽取内容包括要素关系、要素重点行为、要素分布、要素内容等。数据抽取包括资源主题识别和自动化抽取流程。
资源主题识别利用OceanMind“知识图谱+文本挖掘”引擎中的实体抽取、关系抽取、主题抽取、地址归一化、文本分类等技术功能,结合经验规则库,自动判别数据源中可以提取的资源和主题类别。自动化抽取流程利用资源主题识别获取的参数作为输入,自动适配不同数据源的资源主题提取需求,实现资源主题抽取自动化。
OceanMind海睿思大数据基础平台基于智能数据治理技术,将数据治理工作从纯项目定制化工作逐步转变为构建产品的过程,大大降低了企业大数据分析项目建设的投入成本,建设效率提升60%以上。同时,标准化的数据治理过程也进一步提升数据分析计算结果的可信度,让大数据分析平台建设真正物美价廉。
OceanMind海睿思,您身边的企业数字化转型专家!