个推TechDay治数训练营直播回顾 | 企业级标签体系建设实践

news2024/10/5 18:25:03

标签作为当下最普遍的数据资产类型之一,对企业洞察用户画像、开展精细化运营等具有重要的支撑作用。企业标签体系的建设并非一蹴而就的,需要结合业务视角进行整体的规划,更涉及到复杂的数据治理和数据资产管理等工作。

本文对个推TechDay“治数训练营”第四期进行了回顾,为大家分享企业级标签体系的建设方法论、搭建流程及实践经验。

课程回顾

当前不少企业都已经或正在投入建设自身的标签体系,但是由于数据未得到有效治理、缺少整体的标签体系规划、未能对标签数据资产进行持续的运营管理等原因,一些企业在建设标签体系的过程中仍然面临标签数据用不起来、数据经验无法沉淀等难题。

针对以上情况,个推深度梳理自身标签体系建设经验,最终总结出企业级标签体系建设的方法论,通过简单五步即可完成高质量标签体系的构建。

一、确定目标

首先,我们需要根据业务需求来确定标签体系的建设目标。根据标签的使用场景,标签体系的建设目标可分为业务目标和系统目标两种。

业务目标,指的是最终给业务带来实际收益的目标。比如通过标签体系的建设和应用,使用户的次日留存率提升20%。

系统目标,指的是使用功能和系统性能等方面的目标要求。比如最终建设完成的标签系统/平台要能够支持可视化创建和管理标签;在性能方面,能够在1小时内完成千万级用户的标签计算和目标圈选。

二、标签体系设计

确定了标签体系建设目标后,接下来要开始标签体系的顶层设计。这其中,有以下几个核心问题需要关注:

1.如何确定标签目录?

我们建议企业充分结合业务需求和数据资产情况来确定标签目录,由“业务+数据”共同驱动标签的生产

业务驱动比较好理解,即根据业务诉求来确定要生产的标签,比如企业为提升风险识别能力,需要创建“风险账号”和“黑名单”等标签;而为了提升付费转化率,可以创建“商品偏好”和“价格敏感度”等标签。

数据驱动是指基于数据资产情况提出标签需求。一般而言,业务人员更聚焦业务,对于底层数据情况往往了解较少。这就需要数据开发工程师、数据分析师等深度介入,从数据资产中挖掘和提炼出有价值的标签,比如根据场景偏好数据,提炼出常驻地、旅游地偏好等标签;根据电商APP端内数据,提炼出消费水平、消费偏好等标签。

值得注意的是,企业在实际设计标签目录和标签体系的过程中,并不是仅仅依靠单纯的业务驱动或单纯的数据驱动就能实现,而是需要业务方和数据方不断沟通磨合,将业务需求和数据资产情况进行匹配,最终完成一份标签目录的设计。

经验总结

关于标签目录的确定,经常会遇到以下两个常见误区。
误区一:标签越多越好。其实业务方并不需要过多的标签,一般来说20%的标签就能满足业务方80%的需求
误区二:标签越高级越好。一些算法工程师或技术人员往往花费大量的时间优化模型,构建复杂的模型标签。其实,把基础标签、规则标签做好,基本就能满足业务方的绝大多数需求。

因此企业在建设标签体系的过程中需要考虑投入产出比,评估标签的实际应用需求强度、衡量不同标签对业务的提升效果。

2.当前数据基础能否支撑标签体系构建?

数据建设是标签体系的基石,企业只有打好数据基础,才能构建出一套高质量的标签体系。因此在进行标签体系的搭建之前,企业需要对数据进行综合治理,提升数据的质量和可用性。

3.如何确定标签规则?

根据生产方式的不同,标签可以分为事实标签、规则标签、模型标签等类型。

事实标签的规则定义比较简单,数据分析师在理解业务数据的前提下,从业务方的原始数据中提取即可。比如从用户注册信息中提取用户来源渠道、性别或者年龄阶段等标签。

规则标签拥有很强的业务属性,需要业务人员和数据分析师一起去分析探索,基于原始数据进行标签规则的创建和拼接。比如要创建一个“大学生”标签,那就需要从各个维度对“大学生”进行特征定义,比如年龄方面一般在18-25岁之间,线上应用偏好方面安装了一些大学生课程管理类App等等。

个推每日治数平台DIOS实现智能特征洞察

结合自身标签体系建设实践以及服务行业客户的经验,个推发现,标签规则定义是企业搭建标签体系过程中所普遍面临的痛点、难点。即使是专业的数据分析师团队和业务专家也需要先花费大量的时间和精力去理解数据和用户之间的关联性,再从中提炼出标签规则。

为了提升企业客户的标签生产效率,个推打造的数据智能操作系统,实现了目标智能特征洞察以及智能数据推荐,帮助客户快速定位所需数据、自动提炼标签规则,更加高效地进行标签生产

模型标签往往是参考已有事实数据来预测群体的偏好、特征和分类,例如根据流失用户群的特征来预测其他用户群的流失概率。一般在事实标签和规则标签的覆盖量级、饱和度、准确度等不足的情况下,我们就需要创建模型标签,来满足相关业务需求。

个推每日治数平台DIOS实现零代码搭建机器学习模型

传统的模型标签创建流程还是比较复杂的,涉及到算法开发、模型搭建、模型调优等复杂的工作。个推每日治数平台DIOS将自身建模方法论“五步法”产品化,实现了零代码建模能力,没有编程经验的业务人员也能在DIOS的可视化界面上拖拖拽拽,快速完成机器学习模型的搭建

三、标签开发

完成了整体的标签体系设计,接下来就进入到标签开发环节。一般而言,标签开发的过程可以拆解为工程开发、工程测试、工程上线等三个阶段。在工程开发阶段,研发工程师根据标签规则以及数据源情况进行工程的开发;然后由测试工程师结合业务诉求及工程结果对标签质量进行测试验收,确保标签准确性后最终上线。

这其中涉及到一个非常重要的问题,即如何对新构建的标签进行准确性校验

常见的校验方式有三种:

通过TGI进行逻辑自洽性校验。比如新构建了一个男性标签,通过TGI发现被打上男性标签的人群中有很大一部分也被打上了女性的标签,显然这是一种很不合理的现象。(说明:“TGI”指的是洞察人群某特征占比与对照组人群该特征占比的比值,用于比较人群间的特征差异。)

使用第三方平台校验。比如通过广点通,使用第三方数据来进行准确性的校验。

进行广告投放。圈选不同标签下的目标群体,进行A/B测试,根据投放结果校验标签的准确性。

完成了工程测试和标签准确性校验,就可以正式上线运行标签体系。我们建议,企业可以先在实际业务场景中进行小范围的多次检验,再大规模进行标签体系的上线,避免后期出现大范围的调整和改动。

四、标签全生命周期管理

作为一种重要的数据资产,企业还需要在标签体系上线以后,对标签资产进行全生命周期的精细化管理。

此外,我们还建议企业建立标签质量保障体系,设立责任人制度,确保标签第一负责人能够及时响应相关事项;梳理标签开发、上线的流程和经验,实现后续标签的开发、测试、上线等流程规范化和标准化;更加体系化地进行标签质量监控,比如通过定时工程监控标签计算工程、量级、饱和度等信息。

五、应用与反馈

企业建立标签体系的最终目的是服务业务。常见的标签业务应用场景有几种:

开发数据类产品。比如智能推荐系统正是基于标签大数据和算法实现。

用于目标群体的特征洞察和圈选。比如个推基于自身数千种标签和亿级别的特征数据,帮助品牌主、APP对细分人群进行画像分析,并使用不同的标签组合,智能圈选出符合目标特征的人群,为客户做广告投放、用户触达提供支撑。

精细化运营。完成对目标群体的画像洞察后,就可以进行更加精细化的运营。比如品牌主可以针对不同兴趣偏好的消费者群体制定差异化的广告素材、选择不同的媒体平台,提升广告投放效果。

针对在不同场景下的标签应用结果,企业还需要做好后效的分析,科学评估标签的质量、覆盖度等,并把新产生的下游数据进行入库处理,使整个标签体系的全生命周期得到体系化的管控,真正实现数据资产的持续增值。

以上是对个推TechDay“治数训练营”第四期直播内容的回顾,大家可以观看直播回顾视频进一步了解标签体系建设的相关要点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/125911.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

复习 [kuangbin带你飞]专题5 并查集

目录1. poj 2236 Wireless Network2. poj 1611 The Suspects3. hdu 1213 How Many Tables4. hdu 3038 How Many Answers Are Wrong5. poj 1182 食物链6. poj 1417 True Liars7. poj 1456 Supermarket8. poj 1733 Parity game9. poj1984 Navigation Nightmare10. poj 2912 A Bug…

MYSQL IN EXISTS LEFT JOIN 结果不同的问题?

随着问问题的同学越来越多,公众号内部私信回答问题已经很困难了,所以建立了一个群,关于各种数据库的问题都可以,目前主要是 POSTGRESQL, MYSQL ,MONGODB ,POLARDB ,REDIS 等,期待你的加入,加群请添加微信li…

智慧园区建设面临挑战,该如何应对?

随着全球物联网、移动互联网、云计算等新一轮信息技术的迅速发展和深入应用,“智慧园区”建设已成为发展趋势。近年来,我国的产业园区也向着智慧化、创新化、科技化转变。中国经济正在进入转型升级的关键时期,各地产业竞争态势越发激烈。可以…

ClickHouse 大数据量的迁移方式

关于Clickhouse 备份方式,其官方网站上就提供了多种备份方式可以参考,不同的业务需求有不同的使用场景,需要使用不同的备份方式,不存在一个通用的解决方案可以应对各种情况下的ClickHouse备份和恢复。今天这个文字,我们…

Qt+第三方库开发遇到的坑---kalrry

Qt依赖UG库开发遇到的坑---kalrry一、依赖引入坑二、Qt在Debug时报错1、编译器是 **MSVC** 还是 **MinGW**2、编译器 32位 还是 64位三、QtMSVC编译后中文乱码四、不能将const char*类型的值分配到const* 类型的实体五、debug编译后再发布程序无法运行六、Qt 环境配置提示警告警…

Spring @Transactional注解事务六大失效场景

Transactional事务失效场景1:注解在非public修饰的方法上。 原因:Spring强制的要求。 代码示例: Transactionalprivate void createOrder(){} Transactional事务失效场景2:注解在被final关键字修饰的方法上。 原因:Spr…

推荐一款好用的设备维护管理系统,你用过了吗

设备维护管理系统层出不穷,找到一款好用的适配的,也要花费大量的时间去挑选! 对于企业来说,一个好的设备管理系统应该能够: 1. 适应企业高度场景化的设备管理工作,覆盖设备的采购、常规检查、养护、添装、…

“三刷”牛客网844道Java题目,易错知识点总结,带你清扫Java基础面试障碍

目录 前言 1、子类通过哪些办法,可以调用继承自父类的方法? 2、volatile、Lock、transient 哪个关键字不能用来处理线程安全 3、Hashtable 和 HashMap 的区别是?(容易忽略的两点) 4、如何声明了一个适合于创建50个字…

flask框架实现文件下载接口

方式一: app.route("/download1") def download():# return send_file(test.exe, as_attachmentTrue)return send_file(2.jpg)# return send_file(1.mp3)如果不加as_attachment参数,则会向浏览器发送文件,比如发送一张图片&#x…

Revit技巧:快速隔离一个小构件,拉伸屋顶转折处连接

一、Revit中如何快速单独隔离一个小构件 今天跟大家分享的是一个快速隔离的小技巧,你可以理解为快速用剖面框拉成你需要的构件区域。我就举个例子让大家简单容易理解,如图1所示,假设我只需要编辑那个墙的装饰,但又需要用剖面框&am…

704二分查找法--搜索区间

二分查找法–搜索区间的深入理解 二分查找法是算法学习中很基础的算法&#xff0c;但是其也是很重要的算法&#xff0c;将二分查找法搞明白对后续算法的学习有着事半功倍的作用。 本体难点&#xff1a;二分搜索区间的判断 搜索区间 [left,right] int search(vector<int>…

026_SS_MoFusion A Framework for Denoising-Diffusion-based Motion Synthesis

MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis 本文提出了一种利用diffusion生成人体motion的方法。这种方法可以将音频和文本作为条件。 损失函数 对于diffusion的损失中&#xff0c;加入了运动损失。 其中第一项 LdaL_{da}Lda​ 是原始的diffusio…

微信公众号如何接入ChatGPT机器人

不难&#xff0c;代码总共也就25行&#xff0c;大致逻辑如下。 总共分为是下面两步 文章目录在云服务器上部署自定义消息处理服务微信公众号配置自己的消息处理服务器在云服务器上部署自定义消息处理服务 这里需要我们自定义来处理用户发送过来的消息 首先导入werobot&#x…

Linux操作系统实验2——进程描述

实验要求&#xff1a; 1.查看task_struct的结构&#xff0c;找到其中的pid&#xff0c;state&#xff0c;prio&#xff0c;parent pid字段 2.在task_struct结构中找到vma相关字段&#xff0c;vm_start,vm_end,vm_next 3.打印指定pid的基本信息&#xff0c;包括基本信息及VMA内存…

分组卷积与dw卷积

分组卷积&#xff08;Group Convolution&#xff09; 分组卷积在ResNext中用到了 首先必须明确&#xff1a; 常规卷积&#xff08;Convolution&#xff09;的参数量是&#xff1a; K*K*C_in*n K是卷积核大小&#xff0c;C_in是input的channel数&#xff0c;n是卷积核个数(outp…

共享模型之管程(一)

1.共享带来的问题 1.1.线程安全问题 例如: 两个线程对初始值为0的静态变量一个做自增,一个做自减,各做5000次,结果是0吗? Slf4j public class TestThread {//静态共享变量static int counter 0;public static void main(String[] args) throws InterruptedException {Threa…

【Axure教程】拖动排序——扣款顺序

随着移动支付的发展&#xff0c;移动支付的途径和方式也越来越多&#xff0c;常见的有钱包余额支付、支付宝支付、微信支付、银行卡支付……随着绑定的账户越来越多&#xff0c;我们需要一个设置扣款顺序的功能页面。 所以今天作者就教大家如果做一个拖动排序的扣款顺序的原型…

机器学习的4种经典模型总结

机器学习&#xff08;Machine Learning&#xff09;是人工智能的一个分支&#xff0c;也是人工智能的一种实现方法。机器学习的核心是“使用算法解析数据&#xff0c;从中学习&#xff0c;然后对新数据做出决定或预测”&#xff0c;机器学习的概念就是通过输入海量训练数据对模…

【财务】FMS财务管理系统---质保金与预付款

在FMS财务管理系统中&#xff0c;如何对质保金和预付款进行管理&#xff0c;笔者做了详细的业务流程拆解。 上一篇主要说了财务应收管理&#xff0c;有一些朋友留言提出了很多建议&#xff0c;在这里必须谢谢。 关于应收分为ToC与ToB两部分&#xff0c;每一部分都与前端业务系…

新一代自动出价范式:在线强化学习SORL框架

丨目录&#xff1a; 摘要 动机&#xff1a;在离线不一致问题 问题建模 方法&#xff1a;SORL框架 实验结果 总结 关于我们 参考文献▐ 摘要近年来&#xff0c;自动出价已成为广告主提升投放效果的重要方式&#xff0c;在真实广告系统&#xff08;RAS&#xff09;中&#xff0c;…