数据资产入表-数据治理-标签设计标准

news2024/11/19 17:39:58

       前情提要:数据价值管理是指通过一系列管理策略和技术手段,帮助企业把庞大的、无序的、低价值的数据资源转变为高价值密度的数据资产的过程,即数据治理和价值变现。上一讲介绍了数据清洗标准设计的基本逻辑和思路。

上一讲介绍了其他的通用标准的基本逻辑和思路。

本章重点讲解标签建设标准设计

       前面我们把明细数据的处理已经做了一个详细的讲解,明细数据经过上述的处理之后,数据质量达到了一定的标准,接下来需要基于场景提取特征进行聚合的环节。

定义

        标签是实体的属性维度,是服务于业务场景,且能够为业务所用并产生数据价值的数据资源。

标签类型

按照标签产生路径:基于明细数据提取、基于标签的二次组合、基于分析数据的结论;

按照标签产生方式:事实标签、规则标签、模型标签;

按照标签产生路径

       基于明细数据提取的标签:是基于清洗好的明细数据,将信息凝练成一个描述性标签的过程;例如公司明细信息中展示了企业的注册资本,按照企业的注册资本提炼企业的注册资本规模标签(一亿以上;5000万-一亿;);

       基于标签的二次组合:是指基于其他维度产生的标签结果进行二次组合的标签;例如将中小企业划分为中型、小型、微型三种类型的标签建设,中小企业划型标准规定》在认定企业规模的过程中需要界定企业的行业分类、营业收入规模、从业人员规模三个维度,那么企业的划型标签就有三个标签维度组合而成。

       基于分析数据的结论:只是在基于一系列计算或者分析之后,基于分析的结果将实体进行分类的标签,还是以企业为例,例如要将企业划分为头部企业、腰部企业、踝部企业三个标签,那么基于一系列分析过程,对企业进行评分,最后基于评分结果划分档次,基于分数的档次将企业进行标签分类。

按照标签产生方式

       事实标签:事实标签(Fact Tags)通常是指在文本分析、内容管理系统或数据组织中用于描述或分类信息的标签,它们基于客观事实或数据,而不是主观意见或情感。通常的事实标签包含时间标签、空间标签、统计标签(数值标签、金额标签);

       规则标签:规则标签(Rule Tags)通常指的是通过一定的规则判断/过滤产生的标签。常见的规则标签包含 判断类标签、上述「中小企业划分标签」也属于规则标签;

       模型标签:模型标签(Model Tags)是指通过复杂的统计学模型计算或者机器学习模型分析而产生的结论,基于分析结论进行标签分类的标签。

标签建设步骤

step1:梳理实体维度

step2:构建实体下的标签树(标签结构),制定标签参数;

step3:梳理标签定义(包括业务定义和建立依据);

step4:梳理标签来源表、字段、来源表更新频率(后续可以作为冷热标签存储区分依据);

step5:制定标签生产规则(包含来源表、来源字段、生产逻辑、标签刷新频率);

step6:回归标签使用的场景;

建设步骤拆解

       step1梳理实体维度:标签建设过程中的实体梳理,是为了找到标签树的「树干」,所有的属性都是围绕实体展开,因此梳理实体维度至关重要,在关联关系标准中,介绍过5W1H方法论来梳理,这里不在赘述。

       step2构建标签树:标签树的构建是打地基的重要环节,标签树构建的合理与否会直接影响后续标签的延展空间和标签使用的便利性。构建标签树的依据可参考的维度有两个:一个是官方规定;第二个是业务需求;

       step3梳理标签定义:基于第二步构建的标签树,明确每个标签的业务定义和产生方式;

       例如「规划性政策」是有关部门对全社会或某一领域(交通、医疗、各产业等)出台的阶段性发展规划;

      建立依据:参考官方标准;

       step4梳理标签来源表、字段、来源表更新频率(后续可以作为冷热标签存储区分依据)

       step5制定标签生产规则(包含来源表、来源字段、生产逻辑、标签刷新频率);

       step6:回归标签使用的场景;

最后形成标签清单

注意点:

标签的分类存储

       在标签结果的存储上,尽可能将热数据(经常刷新的标签)和冷数据(不经常刷新的标签)分开存储,避免数据写入的压力;

标签的生命周期管理

       标签从构建、开发、验收、上线、下线迭代、重新上线、废弃的过程中,需要重新调整定义和梳理,要保障尽可能不更改标签树的结构;

标签的元数据管理

       标签的元数据管理尽可能详尽,确保标签尽可能避免重复建设;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1791745.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JVM类加载机制详解(JDK源码级别)

提示:从JDK源码级别彻底剖析JVM类加载机制、双亲委派机制、全盘负责委托机制、打破双亲委派机制的程序、Tomcat打破双亲委派机制、tomcat自定义类加载器详解、tomcat的几个主要类加载器、手写tomcat类加载器 文章目录 前言一、loadClass的类加载大概有如下步骤二、j…

centos8stream 编译安装 php-rabbit-mq模块

官方GitHub:https://github.com/php-amqp/php-amqp 环境依赖安装 dnf install cmake make -y 1.安装rabbitmq-c cd /usr/local/src/ wget https://github.com/alanxz/rabbitmq-c/archive/refs/tags/v0.14.0.tar.gz tar xvf v0.14.0.tar.gz cd rabbitmq-c-0.14.0/…

MYSQL数据库细节详细分析

MYSQL数据库的数据类型(一般只需要用到这些) 整型类型:用于存储整数值,可以选择不同的大小范围来适应特定的整数值。 TINYINTSMALLINTMEDIUMINTINTBIGINT 浮点型类型:用于存储带有小数部分的数值,提供了单精度(FLOA…

调用上传文件接口出现格式错误

一、造成这种错误的可能有很多 1.检查一下传递格式 2.检查一下接口要求的格式 二、举个例子 这两个有什么区别? 那就是json、和form-data,一定要看仔细接口 如果还是按照json的方式去传就会报错 三、更改header里Content-Type的类型 json等的heade…

iOS18 新变化提前了解,除了AI还有这些变化

iOS 18即将在不久的将来与广大iPhone用户见面,这次更新被普遍认为是苹果历史上最重要的软件更新之一。据多方报道和泄露的消息,iOS 18将带来一系列全新的功能和改进,包括在人工智能领域的重大突破、全新的设计元素以及增强的性能和安全性。现…

【成都信息工程大学】只考程序设计!成都信息工程大学计算机考研考情分析!

成都信息工程大学(Chengdu University of Information Technology),简称“成信大”,由中国气象局和四川省人民政府共建,入选中国首批“卓越工程师教育培养计划”、“2011计划”、“中西部高校基础能力建设工程”、四川…

SASAM软件架构静态分析法-系统架构师(六)

1、体系结构权衡分析法(Architecture Tradeoff Analysis Method ATAM)包含四个主要活动领域,分别是 场景和需求的收集、体系结构视图和场景的实现、()、折中。基于场景的架构分析方法(Scenarios-based Arch…

React常见的一些坑

文章目录 两个基础知识1. react的更新问题, react更新会重新执行react函数组件方法本身,并且子组件也会一起更新2. useCallback和useMemo滥用useCallback和useMemo要解决什么3. react的state有个经典的闭包,导致拿不到最新数据的问题.常见于useEffect, useMemo, useCallback4. …

Crosslink-NX器件应用连载(11): 图像(数据)远程传输

作者:Hello,Panda 大家下午好,晚上好。这里分享一个Lattice Crosslink-NX器件实现图像或数据(卫星数据、雷达数据、ToF传感器数据等)远程传输的案例(因为所描述的内容颇杂,晒图不好晒&#xff…

618数码好物推荐!精选便宜又实用的数码产品推荐!

着618购物盛宴的脚步日益临近,你是否已经锁定了心仪的宝贝?那些曾让你心动不已的数码产品,现在正是以最低价收入囊中的绝佳时机。618不仅是一场购物狂欢,更是各大电商平台竞相推出优惠政策的盛宴。为了满足大家的需求,…

C语言笔记第13篇:自定义类型(联合union和枚举enum)

1、联合体 1.1 联合体类型的声明 像结构体一样,联合体也是由一个或多个成员构成,这些成员可以是不同的类型。 但是编译器只为最大的成员分配足够的内存空间,联合体的特点是所有成员共用一块内存空间,所以联合体也叫&#xff1a…

HTML+CSS+JS实现2048经典小游戏(附完整源码)

2048 小游戏的目标是通过合并数字单元格&#xff0c;最终在 4x4 的棋盘上创建一个值为 2048 的单元格。 一、预览效果 二、程序源码 html代码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"…

Vue——组件数据传递与props校验

文章目录 前言组件数据传递的几种类型简单字符串类型数据专递其他类型数据(数字、数组、对象)传递注意事项 数据传递值校验限定数据类型 type给定默认值 default指定必选项 required 前言 组件与组件之间并不是完全独立的&#xff0c;他们之间可以进行一些数据的传递操作。传递…

宇宙探索:假如把银河系缩小到一个电子那么小,那宇宙会有多大?

“你知道银河系有多大吗?”“我们可以看到的宇宙有多大呢?”“那么假如把银河系缩小到一个电子那么小&#xff0c;那么我们可以看到的宇宙会有多大呢?”这样一个看似简单的问题却没有一个简单的答案&#xff0c;那么蕴藏其中的玄机是什么? 一、光是无法照亮宇宙的角落。 从…

思维,1209G1 - Into Blocks (easy version)

一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 Problem - 1209G1 - Codeforces 二、解题报告 1、思路分析 考虑&#xff1a; 最终状态为若干段相同数字&#xff0c;且任意两段数字不同 每个数字出现的最左下标和最右下标构成一个区间 连锁反应—…

月薪12万招聘AI人才,AI已成为大公司的竞争,小公司难以生存

前言 AI已经成为了时代的风口&#xff0c;这个风口的风力有多大呢&#xff1f; 一个月12-20万。 对&#xff0c;一个月120000-200000元&#xff01; 如果说&#xff0c;步入2024年最火的是什么&#xff0c;那一定就是ChatGPT所引领的开放式AI了&#xff0c;这个东西有多火呢…

AI绘画入门指南!一遍就会!AI绘画Stable Diffusion新手入门教程

我们尝试了一段时间Midjourney&#xff0c;发现其对图片的可控性较弱。于是研究起了Stable Diffusion。 SD的主要优势在于开源&#xff0c;因为开源会有很多无私的大佬分享自己的模型、插件及脚本等&#xff0c;让SD有了更丰富的扩展。在画面统一性和更像本人方面要比MJ容易实…

C++之虚函数与多态

1、多态 前面三种称为静态绑定&#xff08;静态多态&#xff09;&#xff0c;最后面的虚函数&#xff0c;则称为动态绑定&#xff08;动态多态&#xff09;。 2、静态绑定与动态绑定 要实现动态绑定&#xff0c;就必须使用虚函数。 3、虚函数 只有当你在&#xff1a;基类的指…

Mysql 常用命令 详细大全【分步详解】

1、启动和停止MySQL服务 // 暂停服务 默认 80 net stop mysql80// 启动服务 net start mysql80// 任意地方启动 mysql 客户端的连接 mysql -u root -p 2、输入密码 3、数据库 4、DDL&#xff08;Data Definition Language &#xff09;数据 定义语言, 用来定义数据库对象(数…

手机怎么压缩图片?通过三种压缩操作

手机怎么压缩图片&#xff1f;在智能手机日益普及的今天&#xff0c;拍照分享已成为日常生活的一部分。然而&#xff0c;高质量的照片往往占用较大的存储空间&#xff0c;且在网络上传输时速度较慢。那么&#xff0c;如何在手机上压缩图片呢&#xff1f;本文将介绍三种实用的手…