浅谈元年方舟数据中台之标签管理平台

news2024/12/23 22:10:36

在现如今的大数据时代,相信大家一定了解或者听说过下列几个场景:

购物APP:千人千面,意思不同用户使用相关的产品感觉是不一样的,不同用户看到的购物APP首页推荐内容和其他相关推荐流信息可能是完全不同的。

社交APP:社交广告,不同用户的个人主页或者其他媒体场景下的广告信息是不同的,会基于用户特征进行推荐。

资讯APP:信息价值,根据用户浏览信息,分析用户相关喜好,针对分析结果推荐相关的信息流,越关注某类内容,获取相关的信息越多。

那么这些场景是通过什么工具构建的呢,我想每个人都想了解背后的原理。在了解之前需要知道两个概念:

第一个是标签,标签在生活中非常常见,比如商品标签,个人标签,行业标签,例如提到996就想到程序员,提到程序员就想到格子衫。

第二个是用户画像,用户画像是标签集合的展示,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,把该用户相关联的数据可视化的展现,就形成了用户画像。

知道了这两个概念后,以上几种场景的逻辑就清楚了:基于不断分析用户的行为,生成用户的特征画像,然后再基于用户标签,定制化的推荐相关内容。
 

什么是标签

标签

对某一类特定群体或对象的某项特征进行的抽象分类和概括,其值(标签值)具备可分类性。

例:
对于“人”这类群体,可将“男”、“女”这类特征进行抽象概括,统称为“性别”,“性别”即一个标签;

对于“手机”这类对象,可将“骁龙835”、“骁龙845”这类特征进行抽象概括,统称为“手机处理器”,“手机处理器”即一个标签。

标签值

标签的实例,指某一标签所包含的具体内容,其特点是符合MECE原则(相互独立、完全穷尽)。
 

例:
对于标签“性别”,其标签值根据MECE原则可分为“男”、“女”、“未知”;

对于标签“年龄”,其标签值可分为“0-18”、“18-35”、“35-60”、“60-100”等。

用户画像

由某一特定群体或对象的多项特征构成,输出结果通常是对特征的具体描述。(也可理解为用户画像是由多个标签组合而成,其实例是由多个标签值构成)。

例:
小明是用户画像的一个实例,小明的输出结果为“男“、“20”、“iPhone”、“北京”、“足球”,是由多个标签中的具体标签值构成。

标签的分类

按统计方式分类的标签可分为事实类标签、规则类标签、预测类标签。

1) 事实类标签

事实类标签是用户画像最基础、最常见的标签,通常是基于原始数据清理后的归类,用于描述客观事实。例如,姓名、会员等级、终端类型、购买次数、购买金额等。

2) 规则类标签

规则类标签,顾名思义,是基于确定的规则而产生。与事实类标签不同的是,规则类标签拥有更多的业务属性,其业务规则需与业务人员共同制定。例如,将“活跃用户”标签可定义为,“过去30天发生a行为x次”&“过去30天发生b行为x次”,进行综合评定。

3) 预测类标签

预测类标签,基于现有事实及规则无法得出,需要运用决策树算法、贝叶斯算法等进行数据挖掘与训练,得出标签预测结果。
 

预测类标签复杂度高、开发周期长、开发成本高,且需要算法工程师参与,通常此类标签的占比较少。

什么是标签管理平台

当我们通过各种方式,计算、生成了大量的标签数据后,很快会发现一个问题:这么多的标签,该如何管理呢?这个时候需要构建产品化的标签管理平台,元年方舟数据中台之标签管理平台应运而生。
 

标签管理平台以打造一站式标签管理平台为目标,基于公司数据中台,构建公司级标签库,对内支撑提质增效,对外支撑数据增值变现,有效解决数据服务和数据产品灵活性差、建设周期长、成本高等问题,支撑数据中台的业务数据融通共享。标签管理平台提供一个统一的业务视角的、易操作的、高效的标签管理、分析、展现,以支撑公司基于标签或画像开展的业务应用。
 


标签管理平台以“业务精准化”为导向,涵盖标签需求梳理、标签体系设计、标签开发、标签管理与应用、标签评估优化等工作,实现标签的闭环管理。

标签需求梳理是根据标签需求,设计标签目录体系和具体的标签内容。标签开发是根据标签体系设计,完成设计确认、数据接入、标签开发、标签固化等。标签管理和应用是对标签从创建到下线的全生命周期管理,以及标签对业务应用和决策管理的支撑。标签评估优化是从标签的更新、使用、成效等方面评估,以优化标签设计。
 

如何构建标签管理平台

基于以上标签管理平台的需求,整体标签管理平台架构包括数据采集、数据加工、标签计算、标签管理、标签应用五个环节,如下图所示:


数据采集:基于采集工具按照T+1的方式采集业务系统数据以及外部互联网数据到数据中台的ODS层。通过汇聚海量数据,为后续的数据分析提炼提供数据基础。

数据加工:通过对海量数据的加工,分析和提取,按照数仓建设规范加工明细层、汇总层以及相关主题域数据,为数据标签加工提供基础数据大宽表。

标签加工:有了宽表的数据,接下来就可以创建标签体系。标签管理平台提供多种方式创建标签,包含了事实标签的映射、规则标签的加工、自定义SQL模式加工。标签创建完成形成标签的元数据和标签加工规则,系统依赖数据中台的离线计算能力和调度能力加工相关的标签结果数据物理表,标签体系通过计算沉淀业务所需的标签库。

标签管理:包括标签对象管理、标签元数据管理、标签审批、标签上下架、标签应用效果评估、衍生标签配置、标签圈群、标签画像等标签全生命周期管理功能。

标签应用:标签服务是依赖标签平台沉淀的物理表进行可视化拖拽快速生成API方便上层应用来调用标签数据。数据走了一大圈转换成标签,自然还是要回归到业务层面,通过对标签数据的分析,可以进行个性营销、精准推送和智能推荐等相关操作。
 

标签管理平台功能介绍

元年方舟数据中台之标签管理是集标签管理、定义、生产、分析、应用的一站式标签管理平台,主要包含了标签全景、标签管理、标签圈群、标签画像、标签协同、标签服务等六大功能模块。


标签全景

纵览所有标签包含标签地图,实现可视化查询标签目录、标签检索等功能,满足业务人员快速精准定位、使用管理标签。根据展示维度不同,可从标签主体、标签场景等维度检索标签及目录层级信息,支撑业务人员在不同的应用场景中检索运用标签。


标签对象管理

对离线计算加工的基础宽表进行统一配置与接入,实现对标签主体与标签源数据的有效管理。


标签管理模块

对庞大的标签体系进行统一有序的管理,通过体系化的标签全生命周期管理功能,实现对标签的统一有序管理,持续对标签进行评估优化,保证标签的实用实效。


群体筛选模块

通过基于标签与展性的目标群体筛选,让业务人员能快速筛选相应目标群体,支撑精准人的业务应用。


画像展示模块

通过画像展现的方式让标签以更加直观地方式让业务人员“看得着”,让业务人员可以直观地洞察业务对象特征。

标签系统应用成效

前面介绍了元年标签管理平台的架构和产品功能,下面介绍下在元年科技众多案例中标签管理平台产生的价值。元年科技为某省电力公司搭建的标签管理平台,充分利用数据中台的数据资源,以“数据驱动+用户驱动”理念建设用户多维度立体画像,通过固化申计规则和审计指标,以营销业务审计为试点,初步构建数字化审计以系统各单位为主体的营销域标签体系,固化营销用电用户和光伏扶贫用户标签138项,构建纳管电费回收风险分析等5个场景。通过标签管理平台整合全量营销数据,支撑客户数字化审计项目做深、做透。

结 语

本文主要介绍了标签管理平台的一些基础知识,包括标签定义、标签分类、标签画像、标签系统的数据架构。通过对平台的初步介绍,帮助读者对标签和画像以及平台有基本的了解。后续希望通过标签管理平台,基于数据中台数据资产搭建标签体系,帮助企业将技术数据转换为业务标签,实现数据的可见、可懂、可用、可运营,实现数据资产价值的萃取以及服务化,为企业的数字化转型和精细化运营赋能。

元年方舟数据中台白皮书

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/553697.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【MySQL新手到通关】第一章 数据库概述

文章目录 1. 为什么要使用数据库2. 数据库与数据库管理系统2.1 数据库的相关概念2.2 数据库与数据库管理系统的关系 3. MySQL介绍3.1 概述3.2 关于MySQL 8.03.3 为什么选择 MySQL3.4 Oracle vs MySQL 4. RDBMS 与 非RDBMS4.1 关系型数据库4.1.1 实质4.1.2 优势 4.2 非关系型数据…

基于QEMU的RISC-V架构linux系统开发(二)——RISC-V的Linux内核移植

1.在国内linux镜像源(网易)linux内核稳定版本V5.15.73(注意:因为buildroot不支持最新版本,因此不下载最新版本)的版本源码,链接如下所示: http://mirrors.163.com/kernel/v5.x/ 图1…

Linux 常用远程连接工具你用过几个?

想必大家对linux不陌生,但是一提起如何远程连接它可能一头雾水,今天通过下面的几个工具来简单探讨一下常用的linux远程连接工具的使用,希望对你的日常使用有所帮助。 1、Xshell 介绍: xshell 是一个非常强大的安全终端模拟软件…

如何借助Kafka持久化存储K8S事件数据?

大家应该对 Kubernetes Events 并不陌生,特别是当你使用 kubectl describe 命令或 Event API 资源来了解集群中的故障时。 $ kubectl get events15m Warning FailedCreate …

c语言笔试题整理

1、请填写 bool , float, 指针变量 与 “零值” 比较的 if 语句。 提示:这里“零值”可以是0, 0.0 , FALSE 或者“空指针”。 例如int 变量n 与“零值”比较的if 语句为: if ( n 0 ) if ( n ! 0 ) 以此类推。 (1)请写出bool flag 与“零值…

陪诊系统源码|陪诊系统开发|陪诊小程序源码

随着医疗技术的不断发展,陪诊已经成为了一个非常普遍的现象。随之而来的,就是一款名为“陪诊小程序”的应用产品的诞生。这款小程序通过互联网技术来提供陪诊服务,包含了很多实用功能。下面,我们就来详细介绍一下陪诊小程序的功能…

【历史上的今天】5 月 22 日:Windows 3.0 发布;虚幻引擎诞生;《吃豆人》问世

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 5 月 22 日,在 1994 年的今天,知名中文论坛曙光 BBS 站开通。1994 年 4 月 20 日,建立在中科院和北京大学、清华大学之间的…

Spring 官方建议的在 Spring Boot 应用中如何做单元测试

Spring Boot 提供了丰富的测试功能,主要由以下两个模块组成: ● spring-boot-test:提供测试核心功能。 ● spring-boot-test-autoconfigure:提供对测试的自动配置。 Spring Boot 提供了一个 spring-boot-starter-test一站式启动…

springboot+vue私人健身与教练预约管理系统(源码+文档)

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的私人健身与教练预约管理系统。项目源码以及部署相关请联系风歌,文末附上联系信息 。 💕💕作者&…

【Java】常见内存溢出OOM

文章目录 前言一、定义二、 为什么会OOM?三、JVM内存模型四、OOM常见类型4.1 java堆内存溢出4.2 方法区溢出4.3 JAVA虚拟机栈溢出 五、OOM分析--heapdump总结 前言 一、定义 内存溢出: out of memory,OOM,全称“Out Of Memory”&…

西门子S7-1200 PLC之间无线PROFINET通信

西门子S7-1200 PLC 使用Profinet通讯时,一个做Profinet IO控制器,一个做Profinet IO设备。一个Profinet IO控制器可以最多支持16个Profinet IO设备,Profinet通讯不使用通讯指令,只需要配置好数据传输地址,就能够实现数…

睿铂在广东,自然资源部经济管理科学研究所“多测合一”项目分享

引言 DG4 Pros倾斜摄影相机作为睿铂旗舰系列产品,它的硬件与软件配置都无愧于其顶级倾斜相机的称号。在它的帮助下,客户得以挑战很多以往受限于设备技术条件,实施起来非常困难的项目。 本次,自然资源部经济管理科学研究所&#…

App Store上线APP流程

现在App Store上已经有数百万款应用,因此对于App的规范要求也越来越高,对于新上线的APP需要满足这些规则并不是件容易的事。今天和大家分享这方面的知识,希望大家喜欢。北京木奇移动技术有限公司,专业的软件外包开发公司&#xff…

Mysql中存储引擎的区别及比较

MyISAM存储引擎 MyISAM基于ISAM存储引擎,并对其进行扩展。它是在Web、数据仓储和其他应用环境下最常使用的存储引擎之一。MyISAM拥有较高的插入、查询速度,但不支持事务。 MyISAM主要特性有: 1、大文件(达到63位文件长度&#…

AI人工智能随机森林分类器的原理、优缺点、应用场景和实现方法

随机森林分类器(Random Forest Classifier)是一种常用的机器学习算法,它是基于决策树的一种集成学习方法。在人工智能(Artificial Intelligence,简称AI)领域中,随机森林分类器是一种高效的算法&…

艺术签名免费设计的方法分享,快来收下

在今天的数字时代,艺术签名已经成为一个流行的趋势。无论是在社交媒体上,还是在个人品牌推广中,艺术签名都是一个重要的元素。但是,对于很多人来说,设计一个独特的艺术签名可能需要付出昂贵的代价。然而,有…

flstudio21更新内容介绍FL水果2023旗舰版下载

昨天为大家展示了 FL STUDIO21 新增的插件,今天让我们看一看还有哪些新变化?FL Studio中文版惯称水果, 是一个完整的电音软件音乐制作环境或数字音频工作站。是现在流行的数字音频工作站之一,包括撰写,整理,记录,编辑,电音,混音和掌握专业品质的音乐。 0…

Open Ai 常见接口参数说明以及常见报错总结

📋 个人简介 💖 作者简介:大家好,我是阿牛,全栈领域优质创作者。😜📝 个人主页:馆主阿牛🔥🎉 支持我:点赞👍收藏⭐️留言&#x1f4d…

【SPSS】生存-寿命表分析详细操作教程(附案例实战)

🤵‍♂️ 个人主页:艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞&#x1f4…