内容运营工具:标签体系

news2024/11/17 14:30:40

一.分类和标签的区别

■标签是扁平的,分类是层级的。
■标签是精确的,分类是粗糙的。
■标签是多维的,分类是一维的。

二.标签的本质:元数据

事实上,在数据领域,有一个鼎鼎大名的词汇与标签极其雷同,无论它的定义、适用范围,还是它的衍生应用都与标签令人惊讶地一致。它就是:元数据。
元数据:用来描述数据的数据,是从数据中抽取出来用于说明其特征的数据,是结构化数据。
■元数据是结构化数据。
■元数据是可被搜索和精确定位的。
■元数据可以附属在任意结构数据上。
■元数据使得图片、文档、视频这些无法搜索内容的非结构化数据也可以被搜索、组织和管理。

三.标签的两种类型

1.规则标签
这类标签最简单,就是运营团队人为制定的规则,然后给这堆规则命名。例如沉默用户,定义为启动 APP 后10分钟内就离开的用户;流失用户,定义为3个月内没有回访的注用户。这里的默和用就是规则标签。规则标签,有时候也叫业务标签。
2.特征标签
在内容分发领域,更多应用的是特征标签,不再是人为制定的规则,而是通过机器学习来理解内容并提取特征作为标签,即把原始的图文或视频的文本信息丢进 NLP ,然后 NLP 去分析和理解并输出特征文本,即标签。一篇文章,有可能全篇的文字都没有提到比尔·盖茨,但是 NLP 也能输出比尔·盖茨,这种操作用高级的说法就是:内容理解

四.标签系统的核心逻辑

1.标签是结构化数据
标签常态下是一个普通得不能再普通的文本,文本一定是可以结构化的,也就是说标签是可以被结构化,可以被有效存储、组织、管理、搜索和精确定位的。总之,结构化数据的特点和治理方式可以完美地套用到标签上。
2.标签是可被搜索和精确定位的
由于标签是结构化的,是可以在关系型数据库中有效组织、存储和管理的,那么,它就一定能被搜索且被精确定位。也就是说,我们总是有很高效的办法来定位每一个标签。
这一点非常重要,结构化数据总是能够被高效地搜索和定位,这样就让标签数量可以无后顾之忧地爆发性增长。而随着标签数量的不断增长,标签能够愈加精确地去描述信息,让信息本身也愈加容易被精确定位和搜索,这是一个双赢的结果。
3.标签可用于各种数据结构上
虽然标签是结构化的,但其本身并不局限于只能描述结构化的数据。
事实上,标签用以描述的信息是普适性的,也就是说标签可以应用于任意数据结构,比如常规的文本、图片、视频、音频、超链接,甚至更抽象的信息。
4.标签可以使原本无法描述、搜索和定位的数据也可以被描述、搜索和定位
这个特性简直就是标签的黑科技,如果把标签比作天火,数据比作擎天柱,那么给数据加上标签,也就等于给擎天柱附加了天火的飞行引擎。众所周知,视频这种非结构化数据不仅存储起来让人头疼,搜索起来更让人头疼。因为非结构化数据很难被搜索和精确定位。而上述的给视频增加文件名、标题甚至大段描述文字的效果依然很差,因为这种
描述的信息量非常有限。

百度就已经开始研发针对视频的每一帧来打标签的技术,而最能让群众接受和喜闻乐见的针对视频内容或者视频帧的标签,就是二次元们用的弹幕。
B站的视频弹幕列表,不仅标记了弹幕出现的时间点,还能双击弹幕快速跳转到对应的视频内容时间点上。

五.标签和权重

当我们给某些信息打上这些标签时,其实我们潜意识是有一个预期和判断的,大致就是一线城市和十线县城赋予信息的重要程度是完全不一样的,即信息被打上广州和被打上曲麻莱县具有完全不同的含义,也就是说:标签是有权重的
■有了权重,标签就有了分级,于是使用标签的信息就有了分级。
■有了权重,标签就有了优先级,于是使用标签的信息就有了优先级。
■有了权重,标签可以满足个性需求,于是使用标签的信息就可以体现个性需求。

六.最佳实践1:BAT是怎么建设标签体系的

1.工程应用中的标签体系
在实际工程应用中,标签体系通常是和分级体系结合在一起成为完整的内容分类体系。相对粗粒度的分类体系和相对细粒度的标签体系各司其职,共同发挥作用。在内容分发平台中( UC 头条、今日头条等 APP )。
在这里插入图片描述

(1)一级类
最顶层,最粗粒度,也是最通用的分类,例如社会、娱乐、科技等。一般有15~20个,各个内容分发平台差别不大,各个内容类型(图文、短视频、音频等)差异也不大。

(2)二级分类次级,次粒度的分类,二级分类很好理解,把一级分类细拆下来就是了,例如一级分类的娱乐细拆为电影、音乐、电视剧等二级分类。

(3)三级分类
这个不是每家都有,原因在于:三级分类已经和标签的粗粒度差不多,可以用标签来代替三级分类;三级分类数量太大,体系化管理和维护成本太高。某信息流产品的一级分类有22个,二级分类有88个,再拆到三级分类就是指数级的增加了。于是,三级分类在工程应用中的定位是填补上层二级分类和下层标签体系之间的粒度空白。

什么是粒度空白?例如一级分类是娱乐,二级分类是电影,标签是王家卫,可能会出现下面这种情况:假设我是一个文艺电影爱好者,如果用二级分类的电影做推荐,那可就太粗了。如果用王家卫的标签做推荐,那可就太细了,文艺片有好多导演的嘛, CTR 肯定惨不忍睹。那怎么办呢?简单,在电影和王家卫之间增加一个:文艺片,既比电影的粒度细,又比王家卫的粒度粗,既可以满足看文艺片的需求,也不会天天推王家卫这么局限。

研究中文语义和词义的专家就给出了解决方案:针对指向性不明显,建议标签优先使用名词,且唯一指代。

实体词代表的标签称为实体标签。实体标签必须是名词,且必须是唯一指代。
苹果,是实体标签吗?并不是。
因为实体标签的要求:名词,且唯一指代。苹果,是名词,但不是唯一指代,苹果可以指代科技公司、手机、水果、牛仔裤。所以如果用"苹果"作为标签去推荐,我看了苹果手机,你却给我推1斤3元的苹果,岂不是让人啼笑皆非?
在这里插入图片描述

难道我就不能用"苹果"了吗?当然可以用,只不过要给它另外起个名字:概念标签。概念标签通常表示的是**"一类"或"某种相似"的内容,**

在这里插入图片描述

2.图文和短视频的标签生产有什么不同?
现代工程中,基本上是通过 NLP 来生产标签的,也就是把图文或者短视频丢进 NLP 模型,模型呼啦呼啦一顿运算找出"自认为"最符合输入内容特征的标签,完事。这个事的核心逻辑是 NLP 模型的效果(准确率,召回率和覆盖率,简称准召覆)严重依赖输入的信息以及信息量。依赖的信息仅为文本信息,图片、语音没用,并且信息量越多越好,越纯净越好

**图文信息的 NLP 准召覆业内平均都可以做到85%以上,短视频的 NLP 准召覆能到70%就不错了。**针对短视频的文本信息少,有效信息都在视频和音频中,一般采用融合模型来搞定。融合模型:不仅分析短视频仅有的文本信息,同时对视频帧和音频进行处理,故谓之融合模型。

七.最佳实践2:BAT是如何让标签赋能各个业务模块的

1.标签如何赋能内容管理和运营
内容均衡化和针对性入库,内容库运营者负责内容源、内容质量等,分类的粒度太粗了,而且同一分类下的内容也会千差万别。举个例子,假如内容库有社会这个分类,那么极有可能出现这种可能:
■国家领导人出访友邻达成友好共识。
■磊叔家隔壁的小哥哥聚众打架引发青少年教育反思。
当热点运营者发现社会分类的 CTR 显著高于大盘,那么到底是教育这个二级分类火了,还是青少年教育这个标签火了,还是隔壁小哥哥打架这件鸡毛蒜皮的事情爆冷突然火了呢?
通过分析分类体系和标签体系的 CTR ,运营者发现是"青少年教育"这个标签打上的内容都火了,接下来就可以人工监控"青少年教育"这个标签的热度,控制好推荐策略中的权重,太热容易失控,这叫热点运营;同时自媒体运营同学可以告诉广大自媒体作者:老师您好,写个青少年教育的文章呗,保量下发,这叫创作引导。

2.标签如何赋能冷启动
用户冷启动:通常会引导我们关注一堆内容,本质是标签。
内容冷启动:内容被打上标签,第一次下发时,优先下发给与标签相匹配的用户。

3.标签如何赋能相关推荐
标签简直就是天然为推荐场景而生的,毕竟都在讲要个性化推荐,都在讲精准推荐。标签的精准指向恰好就是为此服务的。标签推荐下发场景的应用丰富多彩,玩法五花八门,各家也是百花齐放。
对于常见的内容型产品,典型的用户路径是这样的:
某个用户触达入口→内容 list →内容详情页→返回内容 list →另一个内容详情页→ repeat →退出。
这么描述可能有点抽象,我们找个有代入感的场景来说明。
例如,用户收到一条推送,点击进入推送列表,点击某条内容进入详情页,看完后要么写个评论,要么分享点赞收藏,要么什么都不做就闪人。
发现问题了吗?停留时间太短,好不容易拉来的流量过来溜达一圈就走了。如此浪费流量自然不能坐视不理,得想点办法。有了,让用户在某个页面多停留一会儿不就解决了。看来看去,好像只有详情页有点空间增加一些内容来留住用户。如果用户点进来,而且浏览到正文末尾了,那么可以认为
用户对此内容有强兴趣。可以在正文末增加与当前内容强相关的推荐,行话叫相关推荐。
这么描述还是抽象,我们再说得具体一些:
■ A 君点击了一篇办理港澳通行证的文章。
■ A 君看到了最后一行。
■ A 君发现后面还有"你可能还想看",里面推荐了香港和澳门的旅游景点和美食。
■ A 君觉得还不错,看了一篇有关香港旅游的文章。
■ A 君不仅看完了文章,还在"你可能想看"又点击了其他内容。
■"无限循环"。
然后运营者发现, APP 使用时长猛增几十倍,可喜可贺。描述得有点简单,不过实际情况确是如此,相关推荐的核心逻辑是这样:
■如果内容的阅读完成率和阅读时长达到某个阈值,即认为当前内容命中了用户的即时兴趣。
■如果命中了用户的即时兴趣,即认为当前内容的某些特征命中了用户的即时兴趣。
■如果当前内容的某些特征命中了用户当前兴趣,即认为用户有更高的可能性去浏览基于这些特征推荐的其他内容。
■如此这般就形成了基于标签的相关推荐场景下的流量莫比斯环。
核心逻辑的关键词就是内容的特征,即标签,命中了用户的即时兴趣,即当前浏览下的兴趣。

4.标签赋能产品
上面几个赋能都是运营相关的,那么产品呢?产品方面有标签露出、关注标签。分别对应的产品有: B 站 APP 的视频详情页有露出相关的标签;什么值得买的标签可以订阅,标签命中的内容如有更新会主动告知用户.

5.标签赋能用户画像和兴趣探索
这里更好玩,用户画像和兴趣与标签系统是基于同一套标签库的,不然怎么样进行用户兴趣和内容推荐的匹配呢,不多解释。好玩的反而是在兴趣探索,为什么?总不能一直给用户推荐相似的内容吧,天天吃龙虾也会腻的。

八.最佳实践3:标签系统的局限和劣势

准确地说是实体标签的局限和劣势。实体标签的定义是:名词,且唯一指代,优点是精准,局限是太精准,故导致实体标签的覆盖率有天花板,现代工程中实体标签的覆盖率大概只能到70%~75%,因为精准,所以局限;同时易导致推荐策略过度收敛。在推荐系统中,实体标签很精准,特征很明显,好处是描述用户兴趣非常准确,有利于提高推荐系统的效果,但容易导致推荐系统判断用户兴趣时变得极其狭隘和过度精准,行话就是过度收敛。由于标签会让推荐越来越收敛,所以在推荐策略中的核心关注点就是保持推荐的精准和兴趣探索的平衡。
■增加负反馈,让用户明确告诉推荐系统不喜欢哪些内容,并且这种负反馈的权重很大,优先级很高。
■ ReRank 层增加强策略,人为约束标签的过度收敛。
■人工运营中,可能会打压部分热门标签的流量或者降低权重。某些时效性很强的标签,比如娱乐圈的那些破事,爆出来后时效性也就那么几天,没必要一直霸着好位置占流量,所以这类标签通常在推荐系统中会被加上一个时间衰减函数,让它们尽快衰减。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1226718.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

再高级的打工人也只是打工人!

再高级的打工人也只是打工人! OpenAI CEO 奥特曼被罢免的事情人尽皆知「虽然,今天又复职了。。」,我们能从中学到什么呢? CEO 也能被裁,这应该是最近几年被裁名单里面,职级最高的一个人了吧。你再也不用担…

吐血整理,金融银行测试的“火“到底在哪里?银行测试真正实施...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 银行里的软件测试…

C#WPF中的实现读取和写入文件的几种方式

说明:C#中实现读取和写入的类根据需要来选择。 1、File类 File类是用于操作文件的工具类,提供了对文件进行创建、复制、删除、移动和打开单一文件的静态方法。但需要注意的是,WPF中使用File的类,需要先引用System.IO下的命名空间。…

数据结构【DS】图的遍历

BFS 要点 需要一个辅助队列visited数组,防止重复访问 复杂度 时间复杂度:访问结点的时间访问所有的边的时间 广度优先生成树 邻接表存储的图的表示方式不唯一,生成树也不唯一 DFS 复杂度 时间复杂度:访问结点的时间访问所有…

Java工具包Hutool框架

Hutool是一个Java基础工具类,对文件、流、加密解密、转码、正则、线程、XML 等 JDK 方法进行封装,组成各种 Util 工具类。官网地址:https://www.hutool.cn/。 添加依赖 <dependency><groupId>cn.hutool</groupId><artifactId>hutool-all</artif…

气候更换,气运也会随之变化

天人合一&#xff0c;人天相应&#xff0c;人体与宇宙天体的运行互相感应相通&#xff0c;与大自然的万千变化紧密联系。阴阳转换&#xff0c;带来的气场和磁场的变化&#xff0c;对自然界万事万物和人影响很大。 蒹葭苍苍&#xff0c;白露为霜&#xff0c;所谓伊人&#xff0…

基于未来搜索算法优化概率神经网络PNN的分类预测 - 附代码

基于未来搜索算法优化概率神经网络PNN的分类预测 - 附代码 文章目录 基于未来搜索算法优化概率神经网络PNN的分类预测 - 附代码1.PNN网络概述2.变压器故障诊街系统相关背景2.1 模型建立 3.基于未来搜索优化的PNN网络5.测试结果6.参考文献7.Matlab代码 摘要&#xff1a;针对PNN神…

2023最新最全【Nacos】零基础安装教程

一、下载Nacos1.4.1 二、单机版本安装 2.1 将下载的nacos安装包传输到服务器2.2 解压文件2.3 进入bin目录下 单机版本启动2.4 关闭nacos2.5 访问Nacos地址 IP&#xff1a;8848/nacos 三、集群版本的安装 3.1 复制nacos安装包&#xff0c;修改为nacos8849&#xff0c;nacos88…

HR人才测评,提高招聘效率降低用人风险

随着社会的不断进步&#xff0c;越来越多的企业在人力资源管理中&#xff0c;引入人才测评工具。人才是构成一个企业的基础&#xff0c;是企业不断发展的保障&#xff0c;同时&#xff0c;人才也是一个企业的核心竞争力之一。所以&#xff0c;人才的素质对一个企业至关重要。现…

[ 一刷完结撒花!! ] Day50 力扣单调栈 : 503.下一个更大元素II |42. 接雨水 | 84.柱状图中最大的矩形

Day50 力扣单调栈 : 503.下一个更大元素II &#xff5c;42. 接雨水 | 84.柱状图中最大的矩形 503.下一个更大元素II第一印象看完题解的思路实现中的困难感悟代码 42. 接雨水第一印象看完题解的思路暴力解法单调栈解法 实现中的困难感悟代码 84.柱状图中最大的矩形第一印象看完…

037、目标检测-SSD实现

之——简单实现 目录 之——简单实现 杂谈 正文 1.类别预测层 2.边界框预测 3.多尺度输出联结做预测&#xff08;提高预测效率&#xff09; 4.多尺度实现 5.基本网络块 6.完整模型 杂谈 原理查看&#xff1a;037、目标检测-算法速览-CSDN博客 正文 1.类别预测层 类别…

【力扣面试经典150题】(链表)K 个一组翻转链表

题目描述 力扣原文链接 给你链表的头节点 head &#xff0c;每 k 个节点一组进行翻转&#xff0c;请你返回修改后的链表。 k 是一个正整数&#xff0c;它的值小于或等于链表的长度。如果节点总数不是 k 的整数倍&#xff0c;那么请将最后剩余的节点保持原有顺序。 你不能只…

“释放视频潜力,批量放大视频尺寸,高效提升视频质量“

在视频制作和编辑的过程中&#xff0c;我们经常需要调整视频的尺寸。然而&#xff0c;一个一个地手动调整不仅耗时&#xff0c;还容易出错。为了解决这个问题&#xff0c;现在有一款全新的视频批量剪辑工具&#xff0c;可以帮助你批量将视频尺寸放大&#xff0c;提升工作效率。…

Argo Rollouts结合Service进行Blue-Green部署

删除03 部署04 rootk8s-master01:~/learning-jenkins-cicd/09-argocd-and-rollout/rollout-demos# kubectl delete -f 03-rollouts-with-prometheus-analysis.yaml rootk8s-master01:~/learning-jenkins-cicd/09-argocd-and-rollout/rollout-demos# kubectl apply -f 04-rol…

C++多线程编程(3):接收线程处理函数的返回值

文章首发于我的个人博客&#xff1a;欢迎大佬们来逛逛 文章目录 处理带返回值的函数asyncpackaged_taskpromise 处理带返回值的函数 有三种方法&#xff1a; asyncpackaged_taskpromise async 第一种方法是使用 async 函数。 步骤&#xff1a; 使用 async 创建线程处理函…

pom.xml格式化快捷键

在软件开发和编程领域&#xff0c;"格式化"通常指的是将代码按照一定的规范和风格进行排列&#xff0c;以提高代码的可读性和维护性。格式化代码有助于使代码结构清晰、统一&#xff0c;并符合特定的编码规范。 格式化可以包括以下方面&#xff1a; 缩进&#xff1a…

HR应用在线人才测评,给企业招聘带来的好处

一、什么是人才测评&#xff1f; 人才测评是指运用一系列的科学方法&#xff0c;对人的基本素质&#xff0c;专业能力&#xff0c;心理健康&#xff0c;性格进行选拔&#xff0c;评价及发展人才的一种科学方法。近十多年&#xff0c;它被广泛运用于国有大型企业的人才招聘和人…

策略模式在数据接收和发送场景的应用(升级版)

1.背景 在数据接收和发送场景打算使用了 if else 进行判断&#xff1a; if("A".equals(system)){ASystem.sync("向A同步数据"); } if("B".equals(system)){BSystem.sync("向B同步数据"); } ... 非常麻烦&#xff0c;需求多了很臃肿&…

AI对开发者职业的影响,保持领先的7 个行动指南

在不断发展的技术领域&#xff0c;人工智能(AI)已经成为一股变革性的力量&#xff0c;重塑了行业&#xff0c;重新定义了我们解决问题的方式。对于开发人员来说&#xff0c;学习AI的决定不仅仅是为了保持相关性&#xff0c;而是在他们的职业生涯中开启一个新的可能性维度。 1.…

Scalable Exact Inference in Multi-Output Gaussian Processes

Orthogonal Instantaneous Linear Mixing Model TY are m-dimensional summaries&#xff0c;ILMM means ‘Instantaneous Linear Mixing Model’&#xff0c;OILMM means ‘Orthogonal Instantaneous Linear Mixing Model’ 辅助信息 作者未提供代码