芳禾数据CTO李明:数据分类分级与治理驱动下的应用革命丨数据猿专访

news2024/11/28 1:00:30

6328486de3dc3c96ff267153b09ae9c4.png

1bc86f91aa5bb0f39b8e8650a1e31507.jpeg

2fa20a04d34b49551464d74d0f6172cc.png




‍数据智能产业创新服务媒体

——聚焦数智 · 改变商业


我们进入数字化时代,数据已经变得比任何时候都更加关键。每天,我们都在生成、处理和存储海量的数据,这些数据在企业决策、市场研究、产品开发等方面扮演着重要的角色。然而,数据的价值并非总是立即可见的,而是需要通过精细的数据分类分级和数据治理来挖掘。正确的分类和分级使我们能够更好地识别数据的性质,从而为其应用制定最佳策略。数据治理,则是通过一系列的技术和流程,保证数据的质量和安全,提高数据的透明度,以及便于监管。当这两个步骤得到妥善的处理,数据的真正价值就开始显现。

为了更深入的了解这个主题,我们有幸采访到了芳禾数据的CTO李明,与他探讨数据分类分级、数据治理的最新进展,以及如何基于数据治理更好推动数据应用的创新。

数据分类分级,构建有序数据世界的起点

数据,一直是企业的重要资产,但在数智化时代,我们对数据的理解和使用方式发生了深刻变化。数据不再是被动的记录和报告,而变成了主动的参与者,成为驱动业务的核心生产要素。在这个过程中,数据分类分级显得尤为重要。在与芳禾数据CTO李明的对话中,我们有机会深入探讨了这个话题,理解数据分类分级的核心思想、方法以及在实践中的应用。

337186c6b48317960aace280f3165dd6.png
数据分类分级原则   资料来源:芳禾数据

李明强调,数据分类分级不仅是将数据进行有序组织的过程,更是一种对数据理解和价值判断的过程。从这个角度看,数据分类分级实际上是一种数据的语义提炼和价值提升。而在这个过程中,敏感数据的保护与数据可用性的确保是一个重要的平衡点。

为了实现这个平衡,芳禾数据采用了多种技术和策略。首先,他们依据统一的数据分类分级标准,并针对不同行业、不同业务场景,进行特定的数据分类分级。这种标准与灵活相结合的方法,既保证了数据分类的全局一致性,又充分考虑了数据的行业特性和业务特性,提升了数据分类的精度和有效性。同时,根据数据的敏感性等级,芳禾数据设定了不同的数据安全策略,包括数据共享、存储、访问策略等,以达到保护敏感数据和确保数据可用性的目标。

人工智能技术在数据分类分级中的应用已经成为一个重要的发展趋势。根据李明的观点,深度学习和知识图谱等人工智能技术具有显著的优势,能够在很大程度上提升数据分类分级的效率和精度。

首先,深度学习技术可以用于非结构化数据的特征提取。在传统的数据分类过程中,非结构化数据(如文本、图片、音视频等)往往是难以处理的。但通过深度学习技术,我们可以从非结构化数据中提取出有用的特征,使其可以被有效地分类和使用。例如,深度学习可以通过自然语言处理(NLP)技术对文本数据进行分析,从中提取关键信息,然后根据这些信息对数据进行分类。同样,对于图像或者视频数据,可以通过卷积神经网络(CNN)提取视觉特征,再基于这些特征进行分类。

其次,知识图谱技术可以帮助构建数据之间的关联性,丰富数据的语义。知识图谱是一种结构化的知识表现形式,可以表达实体之间的复杂关系。在数据分类分级中,知识图谱可以帮助我们理解数据之间的关系,提升数据分类的准确性。例如,知识图谱可以帮助我们理解一个人名与某个地点、事件的关联关系,从而在分类这个人的数据时,可以将这些相关的地点、事件信息也考虑进来。

李明提到,芳禾数据致力于在数据分类分级实践中应用人工智能技术。他强调,人工智能技术不仅有助于提高数据分类分级的效率,而且能提升数据分类分级的准确性,使得数据分类分级的结果更加符合实际业务需求,从而有利于释放数据的价值。

数据质量革命,打造高效、可信的数据治理体系

数据分类分级和数据治理是数据管理领域中密不可分的两部分,数据分类分级作为数据治理的关键一环,不仅有助于理解数据的价值,也对保护敏感信息、遵守行业法规有重要作用。分类分级为数据的存储、访问和处理提供了明确的指南,这对维护数据的一致性和质量至关重要。接下来,我们将着眼于更广阔的领域——数据治理。

在李明看来,数据治理不仅仅是技术问题,也是一个管理规范问题。数据治理的核心组成部分包括元数据管理,数据标准的建立,数据分类分级,数据安全,以及数据的应用等。这是一个完整的数据管理生命周期,它要求我们综合考虑数据的来源、质量、安全性和用途。李明认为,良好的数据治理框架应该考虑到数据质量提升、多源异构数据治理的挑战与应对策略,同时要注意人工智能技术在数据治理中的应用。

1、加强元数据管理,借助先验知识验证、多源数据融合校验等多种方法,提升数据质量。

作为芳禾数据的CTO,李明深刻理解数据治理对数据质量提升的重要性。他坚信,数据治理并不仅仅是数据的管理过程,而是确保数据质量的关键,它为业务决策提供强大支持的基础。

李明首先强调了元数据管理的重要性。元数据,简单来说,就是关于数据的数据。它包括技术元数据和业务元数据,分别描述了数据的技术特性和在特定业务场景下的含义。在李明看来,良好的元数据管理是提升数据质量的关键一环。这是因为,通过元数据,我们可以全面了解数据的来源、结构、含义,以及如何正确使用这些数据。这为他们在芳禾数据提供了一种机制,既能保证数据的正确性,又能确保数据的一致性,最终实现数据质量的提升。

此外,李明认为,运用先验知识验证数据和通过多源数据融合校验,是数据治理中极为关键的步骤,它们直接决定了数据质量的优劣。这种方法基于一种理念,即认为数据质量并非由单一来源决定,而是多元、复杂的。对于芳禾数据来说,理解这种多元性并将其运用在实际治理中,是至关重要的。

先验知识的应用主要是基于行业知识、专业理解和以往的经验来对数据进行初步验证。例如,对于银行的数据,如果一项交易的金额超过了常规的范围,这可能意味着存在数据错误或者潜在的风险。多源数据融合校验则是在多个不同的数据源之间进行交叉验证,以发现和解决数据中的不一致性和错误。例如,客户在两个不同的系统中的信息可能存在微小的差异,通过多源数据融合校验,芳禾数据可以发现这些不一致性,进一步的解决它们,提高数据的一致性。

李明还提出,数据治理应遵循行业法规和标准,符合业务合规要求。这既是数据治理的基本原则,也是确保数据质量的重要手段。因为,只有遵循了行业规范,才能保证数据的标准化,从而提升数据的可用性。李明告诉数据猿,芳禾数据在数据治理过程中,致力于从元数据管理、数据校验和法规遵循等方面,努力提升数据治理的技术能力和服务水平。

2、数据呈现海量化、多元化和异构化特征,对数据治理带来全新挑战。

李明指出,数据的海量化、多元化和异构化带来的挑战,在如今数据管理的大背景下显得尤为突出。随着数据规模的日益增大和数据类型的不断拓宽,传统的数据管理方法已经难以应对。同时,数据异构性的增加使得数据治理的难度进一步升级。这些都使得数据治理面临前所未有的复杂性和挑战。

海量数据的治理需要考虑数据的规模和复杂性,如何在保证处理效率的同时,确保数据质量,是一个非常大的挑战。其次,多源异构数据的治理则需要考虑数据的一致性和完整性。不同数据源之间可能存在数据定义和格式的差异,需要进行数据清洗和转化,使数据达到可以被统一处理的状态。同时,也要考虑数据的完整性,避免在数据融合过程中丢失重要信息。李明提到,芳禾数据在元数据管理、数据标准化等方面持续探索,以期更好应对海量、多源异构数据所带来的数据治理挑战。

元数据作为不同数据源和系统之间的桥梁,促进了数据的整合和交互。通过对数据元素、结构和关系的描述,数据管理人员能够快速了解数据之间的关联性和依赖关系,从而更好地进行数据整合和融合。这有助于解决多源异构数据的集成和处理挑战,促进数据的共享和协同工作。总的来说,构建元数据是芳禾数据在应对海量、多源异构数据治理挑战中的关键步骤之一,它在保障数据治理效果和提升数据使用效率方面发挥了重要作用。

3、人工智能在数据自动分类、数据标注、数据标准的转化和映射等方面有重要应用。

李明认为,在数据治理过程中,人工智能技术发挥着越来越重要的作用,可以提升数据治理的效率并优化标准化工作。尤其是一些新兴的人工智能技术如ChatGPT大模型,对于数据治理的结合也引起了广泛关注。

深度学习作为一种强大的人工智能技术,可以用于数据分类分级和自动化标准化,从而提升数据治理的效率。通过训练深度学习模型,可以根据预设的标准和规则构建针对结构化和非结构化数据的显式和隐式特征库,对数据进行分类分级,一定程度地自动实现数据的分类分级和标准化工作。这种自动化的数据分类分级和标准化过程能够大大节省人工操作的时间和精力,提高数据治理的效率和一致性。

在数据治理中,数据标注是一个重要的工作环节。人工智能技术可以应用于自动化的数据标注过程,通过机器学习算法和自然语言处理技术,自动为数据进行标注,减轻人工标注的工作量,提高标注的准确性和效率。这为数据治理提供了更可靠、一致的标注结果,促进了后续的数据分析和应用工作。

在数据治理过程中,数据标准的转换和映射是一个关键的环节,而人工智能技术的应用为数据标准的自动化转换与映射提供了重要的解决方案。传统的数据标准转换通常需要大量的人工干预和人工规则定义,耗费时间和资源。而人工智能技术可以通过学习数据的语义和结构,自动识别和理解不同标准之间的映射关系,从而实现自动化的数据标准转换。同时,人工智能可以实时地适应新的数据标准和变化,快速进行映射调整,保证数据标准的持续匹配和一致性。这极大地简化了数据转换的流程,提高了转换的准确性和效率。

此外,李明认为,ChatGPT和类似的大模型在数据治理中具有重要的应用价值。大模型可以处理大量的数据,理解复杂的数据关系,从而帮助我们更好地进行数据治理。例如:通过训练大模型来具备更强大的自然语言处理和生成能力,从而用于自动化的数据标注、级别定义、质量分析和数据处理等任务;此外,大模型可以用于数据质量分析,它们可以更好识别数据中的异常值、缺失值和错误数据,并帮助发现潜在的数据质量问题。

另一方面,数据治理反过来可以为大模型的训练提供准确、一致的标注数据,提高了模型的训练效果和性能。通过数据治理的规范化和标准化工作,确保了标注数据的准确性和一致性,为大模型训练提供了更高质量的数据集。此外,数据治理还能验证和纠正标注数据中的错误,进一步提高数据质量。准确、一致的标注数据和高质量的数据质量有助于优化大模型的训练,减少错误信号的干扰,提升模型性能和应用价值。数据治理与大模型的相互促进,为数据驱动决策和创新提供了更可靠、高效的基础,推动了数据科学和人工智能的发展。

数据治理赋能数据应用,构建可信基础释放数据潜能

李明向数据猿介绍,在芳禾数据的实践中,他们提供数据合规运营解决方案,致力于帮助客户实现数据的合规性和数据价值变现。芳禾数据持续加强技术产品研发和商业拓展计划,不断提升数据治理和数据安全的能力,致力于为客户提供更全面、更智能的数据合规运营解决方案。

在李明看来,在数据分类分级和数据治理的基础上,通过数据应用,企业可以最大化释放数据的价值和潜力。具体来看,数据治理对数据应用的价值可以分为对内价值和对外价值。

对内价值,数据治理可以促进企业的数据应用和分析能力。通过数据治理,企业能够建立规范的数据管理框架和流程,优化数据的采集、存储、处理和分析过程。数据的准确性、一致性和可靠性提高,为企业的数据应用和分析提供了可靠的基础。此外,数据治理还可以帮助企业优化大数据分析和挖掘过程,提升分析的效率和准确性。通过合规的数据管理和数据质量的提升,企业可以更好地利用数据驱动决策,实现业务优化和创新。

以芳禾数据的关键指标监测平台——FUXI · 北斗为例,该平台提供多样性的BI可视化服务,支持建设完善的数据分析体系,满足客户对数据查询、分析和探索的需求,为高质量决策和业务执行提供数据基础服务。此前,芳禾数据的“文旅大数据安全分析与监测平台”正是基于FUXI· 北斗产品,实现客流监测分析、旅游景区分析统计、应急管理、5G消息等应用服务。该平台已在全国部分地市成功上线,并被广州市工业和信息化局评为“2022年广州市数字经济典型应用场景”。

对外价值,数据分类分级和数据治理可以推动数据流通、交易和共享。数据分类分级和数据治理是实现数据从资源过度到资产、资本的关键步骤。通过对数据进行分类分级和合规治理,可以建立可信的数据交易平台,促进数据的流通和交易。企业可以利用数据分类分级和治理的标准,对数据进行准确的定价和评估,实现更有针对性的数据交易。同时,数据的可信度和合规性也可以为数据共享提供更好的保障,推动数据合作和共享,加速创新和发展。通过对数据进行分类分级和合规治理,企业可以确保数据的安全性和合规性,增加数据的交易价值。以芳禾数据的数据融合与流通平台——FUXI · 飞数为例,该平台安全合规地拉通多源数据,完成智能化数据资产安全管理,并基于人工智能、区块链、大数据、隐私计算等技术,提供数据质量评估、数据治理与联合建模等数据融合服务,挖掘数据应用新价值,推进数据要素安全、高效与有序流通。

展望未来,李明认为,随着数据规模和复杂性的不断增加,行业在数据分类分级和数据治理方面的需求将更加迫切。然而,在数据分类分级、数据治理、数据安全和数据应用方面,仍面临一些挑战和瓶颈。其中,数据标准化、数据质量管理、数据隐私保护和合规监测是关键的挑战。行业需要加强标准的制定和推广,加强数据质量的度量和监控,加强数据隐私保护和合规能力的提升。

总之,数据分类分级和数据治理是推动数据应用和价值释放的关键要素。通过合规的数据管理、优化的数据质量和数据应用的提升,企业可以更好地利用数据进行决策和创新,实现业务的优化和发展。同时,芳禾数据这样的数据安全公司将继续关注数据安全、数据分类分级、数据治理和数据应用的发展趋势,以应对挑战,开拓新的突破方向,赋能企业的数据价值释放,推动数字经济与实体经济融合的高质量发展。

文:月满西楼 / 数据猿

2e229c263d6bdbc9c64bdd81e33ecd91.jpeg

a993a8ec0e7cff90b547e97318c70c95.png

f53da8f825e8de226e12b80aaa28ac65.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/648621.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Qt编写精美输入法(历时十年迭代/可换肤/支持Qt4/5/6/win/linux/mac/嵌入式等)

一、前言 大概是从2012年就开始研究用Qt写输入法,因为项目需要,嵌入式板子上,没有对应的输入法,当初使用过很多NVR,里面也是鼠标按下弹出输入法面板进行输入,可以切换数字和字母及中文,于是借鉴…

5大趋势与10大应用场景!未来的智能工厂要这么建...

在经济下行压力、人口红利消失、消费结构升级、疫情冲击等多种因素推动下,制造企业加快转型步伐,工厂正向高效化、智能化、绿色化方向跃迁升级,不断涌现出技术创新、应用领先、成效显著的智能工厂。 近日,中国信息通信研究院发布…

常见的台账在线、可视化数据看板工具

目前已知和常见的一些在线可视化数据看板工具: Trello:Trello 是一种流行且直观的看板工具,可让创建看板、列表和卡片来管理任务和项目。它提供了一个可视化界面,可以在其中跨工作流程的不同阶段拖放卡片。还可以添加截止日期、标…

cesium调用celestrak接口获取卫星数据

celestrak是一家免费开源提供卫星空间数据的非营利性组织 接口调用 import axios from "axios";const BASE_URL "https://celestrak.org";function getTleDataFromExternal(path "") {let uri ${BASE_URL}/NORAD/elements/gp.php?GROUP${…

复习并发编程的基础知识之线程池

并发编程中,线程池是很重要的一块内容。 线程池是一种池化技术,线程池、字符串常量池和数据库链接池都属于池化技术。 使用线程池的好处: 1.提高了线程的利用率(想一想,我们不可能每打一个电话,就去买一部手…

Unity编辑器扩展-第三集-添加按钮到组件菜单并且重置组件

第二集链接:Unity编辑器扩展-第二集-按钮排序/分组/放入右键菜单_菌菌巧乐兹的博客-CSDN博客 一、本节目标效果展示 1.把按钮放到组件菜单上 2.做一个类似Reset功能,点一下能改变里面的数据 二、 把按钮放到组件菜单上 如上图,我的的组件名…

echarts 配置相关

echarts更多模板链接 http://chart.majh.top/ 1、echarts.clear()是清空当前实例,会移除实例中所有的组件和图表。 echarts.dispose()是销毁实例,销毁后实例无法再被使用。 this.chart.dispose() this.chart.clear(); // 清空图表2、series虽然是[] 数…

BRC20赛道的刚需基础设施,BrccSwap如何延续新的造富神话?

引言 BRC20代币和去中心化交易所的背景 BRC20代币赛道的刚需SWAP BrccSwap如何延续新的造富神话 结语 引言 随着加密货币市场的不断发展,BRC20代币和去中心化交易所成为了越来越受欢迎的概念。BRC20代币是建立在比特币区块链上的代币,具有高级别的…

一季度亏损47亿,全系降价背后,蔚来能否实现自救?

降价之后,蔚来能否实现自救? 6月12日,蔚来汽车宣布全系车型起售价减 3 万元;新购车首任车主用车权益调整为整车6年或15万公里质保等;免费换电补能不再作为标准用车权益,新用户可灵活选择在家充电或到充换电…

new Vue后整个的流程

文章目录 new Vue后整个的流程Vue.js 创建应用程序流程概述使用 new Vue() 创建Vue 实例流程概述 new Vue后整个的流程 new Vue({el: #app,render: h > h(App),data() {return {message: hello vue}} }).$mount(#app)Vue.js 创建应用程序流程概述 在使用 Vue.js 创建一个应…

Linux:进程管理

进程:为管理程序的运行,操作系统会给每个运行的程序都注册为系统的一个进程,并为每个进程分配一个进程id 查看进程:Linux中可以通过ps命令查看系统中的进程信息,语法: ps [-e -f] -e选项:表示显…

0基础入门---第3章---神经网络(前向传播)

🌞欢迎来到深度学习的世界 🌈博客主页:卿云阁 💌欢迎关注🎉点赞👍收藏⭐️留言📝 🌟本文由卿云阁原创! 🙏作者水平很有限,如果发现错误&#xff…

退出印度之后,越南制造也有麻烦,苹果摆脱中国制造成幻想

日前媒体报道指苹果在越南的代工厂面临麻烦,由于越南缺乏足够的电力供应,越南的工厂出现断电的问题,工厂生产被迫暂停,最严重的时候连续20天白天无法开工,这对于苹果来说无疑是又一个重大打击。 一、苹果的印度制造计划…

MODNet Background Remover 环境搭建步骤

1、安装 Python 3.8以上 2、安装 CUDA环境 4、下载 MODNet Background Remover 5、解压并进入到 MODNet Background Remover文件夹 6、创建虚拟环境 python -m venv venv7、使用虚拟环境 .\venv\Scripts\activate8、安装依赖包 pip install --upgrade pippip install --upg…

阿里云服务器租用费用_轻量和ECS价格表

2023年阿里云服务器租用费用,阿里云轻量应用服务器2核2G3M带宽轻量服务器一年108元,2核4G4M带宽轻量服务器一年297.98元12个月,阿里云u1服务器2核4G、2核8G、4核8G、8核16G、4核16G、8核64等配置新人3折,云服务器c7、g7和r7均有活…

VMware Horizon 8 运维系列(二)桌面计算机无法访问代理

前言 Horizon 8 在使用即时克隆桌面池,偶尔会出现某个桌面计算机显示“无法访问代理”状态,这时该计算机无法通过客户机来访问。 一、问题描述 1、问题场景 桌面池类型:即时克隆桌面池 2、查看桌面池 查看桌面池,发现有计算机状态为“无法访问代理“,如下图: 二、问题…

回归预测 | MATLAB实现基于BiLSTM-AdaBoost双向长短期记忆网络结合AdaBoost多输入单输出回归预测

回归预测 | MATLAB实现基于BiLSTM-AdaBoost双向长短期记忆网络结合AdaBoost多输入单输出回归预测 目录 回归预测 | MATLAB实现基于BiLSTM-AdaBoost双向长短期记忆网络结合AdaBoost多输入单输出回归预测预测效果基本介绍模型描述程序设计参考资料 预测效果 基本介绍 1.MATLAB实现…

全民AI计划:通过langchain给LLM接上落地的大腿

langchain是一个开源项目 github.com/hwchase17/l… 。这个项目在GitHub上已经有45.5K个Star了。此项目由一位叫hwchase17的国外小哥在2022年底发布。 我有理由相信,这个项目是为了对接大语言模型才搞的。 一、企业困境: 如何应用大语言模型 大语言模型(Large La…

渗透专题丨web Top10 漏洞简述(2)

文件包含漏洞 1、漏洞简述 程序在引用文件的时,引用的文件名,用户可控的情况,传入的文件名校验不严,从而操作了预想之外的文件,就有可能导致文件泄漏和恶意的代码注入。这是因为程序开发时候会把重复使用的函数写到归…

springboot启动流程 (1) 流程概览

本文将通过阅读源码方式分析SpringBoot应用的启动流程,不涉及Spring启动部分(有相应的文章介绍)。 本文不会对各个流程做展开分析,后续会有文章介绍详细流程。 SpringApplication类 应用启动入口 使用以下方式启动一个SpringBoot应用: S…