广告行业中那些趣事系列62:keybert在实际业务中的使用分享

news2024/12/28 18:34:23

导读:本文是“数据拾光者”专栏的第六十二篇文章,这个系列将介绍在广告行业中自然语言处理和推荐系统实践。本篇作为之前keybert的补充主要介绍了keybert在实际业务中的使用分享,对于希望在实际业务场景中使用keybert的小伙伴可能有帮助。

欢迎转载,转载请注明出处以及链接,更多关于自然语言处理、推荐系统优质内容请关注如下频道。

知乎专栏:数据拾光者

公众号:数据拾光者

d2841ce843ad8ed5523f5ed7aea36dee.png

摘要:本篇主要从实际工作业务角度补充介绍了keybert。首先介绍了keybert抽取关键词的三个流程,重点介绍了在我们实际业务场景工业实践的做法;然后展示了keybert在我们实际场景中的抽取示例,通过实验的方式对比了不同的预训练模型对抽取关键词效果的影响,其中chinese_roformer-sim-char-ft_L-6_H-384_A-6预训练模型效果是最好的。对于希望将keybert应用到实际工作中的小伙伴可能会有帮助。

下面主要按照如下思维导图进行学习分享:

a294dbddcfadc72fc1505c9cc9558e6b.jpeg

01 使用keybert抽取关键词整体流程

之前的文章《广告行业中那些趣事系列60:详解超好用的无监督关键词提取算法Keybert》主要从理论和动手实践的角度介绍了keybert,本篇主要会补充一些keybert在实际公司业务中使用的经验分享。

ae2878f972d6ddf48b657d8798e26d21.png

图1 使用keybert抽取关键词整体流程

整体来看,使用keybert抽取关键词主要包括三个阶段:

第一个阶段是召回阶段,主要目的是获取候选词。在中文场景中需要对文档进行分词操作,这里常规的可以使用jieba分词,还可以尝试使用哈工大的pkuseg分词,还可以考虑使用基于bert的分词。经过分词操作之后,可以通过n-gram、CountVectorizer和Tfidf等方式获取候选词。在实际工业落地实践中,我们为了提升获取候选词的效率,还会从业务角度来积累候选词,比如通过积累的app名、各种实体库数据,还会通过广告主上传的关键词等也会作为候选词。将这些候选词去搜索query、浏览资讯title和广告文案等文本中去进行匹配计算得到uv/pv,根据pv/uv获取头部候选词,然后人工去review头部候选词,尾部的则直接去掉。因为尾部的候选词占比在60%甚至更高,所以通过这种方式可以有效的提升获取候选词库的效率。但是这种方式也存在一定的缺点,可能会漏掉一些新词,这里会定时的去挖掘新词;

第二个阶段是排序阶段,主要目的是给候选词打分。这里主要分成有监督学习方法和无监督学习方法。有监督学习方法目前用的比较多的是基于bert+crf经典套路。而无监督学习方法主要常用的有tfidf和一些主题模型,还有我们介绍的keybert方法。Keybert在排序阶段主要是使用bert预训练模型对文档和候选词进行编码得到embedding,使用余弦相似度计算embedding得分进行排序操作;

第三阶段是后处理阶段。这里有很多方面,其中一个点是提升关键词的多样性。Keybert主要通过MSS(Max Sum Similarity)算法和MMR(Maximal Marginal Relevance)算法来提升抽取关键词的多样性。

02 使用keybert在实际应用场景中的抽取示例

case1:

query

民国悬疑剧《甜心美探》,搜狐视频全网独播

标注

悬疑剧、民国悬疑剧、甜心美探、搜狐视频

roformer-sim-char-ft-L6

民国悬疑剧:0.7526 /甜心美探:0.6728 /视频全网独播:0.6238 /搜狐视频全网:0.5615 /悬疑剧:0.5708 /

roformer-sim-char

甜心美探:0.8833 /民国悬疑剧:0.8624 /视频全网独播:0.8229 /悬疑剧:0.8419 /美探:0.819 /

roberta_L-4_H-312

搜狐视频全网:0.8308 /民国悬疑剧:0.7694 /独播:0.7626 /视频全网独播:0.8172 /搜狐视频:0.7816

roberta_L-6_H-384_

搜狐视频全网:0.8236 /民国悬疑剧:0.7715 /全网独播:0.804 /甜心美探:0.6803 /搜狐视频:0.8076

tinybert_L-4

民国悬疑剧:0.9652 /搜狐视频全网:0.9499 /甜心美探:0.9486 /视频全网独播:0.9499 /甜心美:0.9421

case2:

query

天才神医,一手鬼谷医术纵横都市,邂逅各路美女,走上人生巅峰

标注关键词

神医、天才神医、邂逅美女、鬼谷艺术、人生巅峰

roformer-sim-char-ft

鬼谷医术纵横:0.6293 /走上人生巅峰:0.5773 /天才神医:0.6129 /美女:0.5358 /医术纵横都市:0.5692 /鬼谷医术:0.5539

roformer-sim-char

走上人生巅峰:0.8374 /鬼谷医术纵横:0.8249 /天才神医:0.8328 /美女:0.7684 /医术纵横都市:0.8102

roberta_L-4_H-312

医术纵横都市:0.7842 /走上人生巅峰:0.7504 /天才神医:0.7297 /邂逅:0.6383 /鬼谷医术纵横:0.7618

roberta_L-6_H-384_

天才神医:0.8088 /走上人生巅峰:0.7932 /鬼谷医术纵横:0.8026 /医术纵横都市:0.7935 /鬼谷:0.7039

tinybert_L-4

走上人生巅峰:0.9402 /走上人生:0.9296 /医术纵横都市:0.9239 /鬼谷医术纵横:0.9241 /人生巅峰:0.9223 

case3:

query

网购千万别花冤枉钱了,在这里,新人领券下单,便宜哭了

标注关键词

新人领券、领券下单

roformer-sim-char-ft

新人领券下单:0.7365 /便宜哭:0.6147 /网购:0.654 /领券下单:0.6774 /新人领券:0.6646 

roformer-sim-char

新人领券下单:0.8395 /花冤枉钱:0.8256 /便宜哭:0.8239 /网购:0.7742 /便宜:0.7772 

roberta_L-4_H-312

花冤枉钱:0.762 /新人领券下单:0.7573 /网购:0.701 /便宜哭:0.6062 /新人领券:0.7219

roberta_L-6_H-384_

花冤枉钱:0.7661 /新人领券下单:0.7636 /便宜哭:0.7363 /网购:0.6792 /下单:0.7146 

tinybert_L-4

新人领券下单:0.9552 /领券下单:0.9327 /新人领券:0.9317 /花冤枉钱:0.9285 /冤枉钱:0.9143 

case4:

query

新春将至,家中常备这4款酒,纯粮酿造口感好,宴请送礼倍有面儿

标注关键词

纯粮酿造、宴请送礼

roformer-sim-char-ft

粮酿造口感:0.6088 /宴请送礼:0.5518 /纯粮酿造:0.5735 /新春:0.4946 /纯粮:0.5268

roformer-sim-char

粮酿造口感:0.8215 /宴请送礼:0.779 /常备:0.7362 /新春:0.7186 /面儿:0.7112 

roberta_L-4_H-312

粮酿造口感:0.7565 /宴请送礼:0.6923 /新春:0.6656 /常备:0.6494 /面儿:0.6042

roberta_L-6_H-384_

粮酿造口感:0.759 /新春:0.7247 /送礼:0.7291 /纯粮:0.7092 /面儿:0.6848

tinybert_L-4

粮酿造口感:0.9241 /酿造口感:0.9187 /口感:0.9022 /新春:0.8877 /纯粮酿造:0.897

case5:

query

聚焦新能源汽车发展趋势,厦门企业聚合发展建立生态共享

标注关键词

新能源汽车、厦门企业、生态共享

roformer-sim-char-ft

新能源汽车发展趋势:0.7606 /厦门企业聚合:0.7471 /发展建立生态:0.7184 /聚焦新能源汽车:0.7349 /企业聚合发展:0.6857

roformer-sim-char

新能源汽车发展趋势:0.8986 /建立生态共享:0.8797 /企业聚合发展:0.8833 /聚焦新能源:0.8925 /聚焦新能源汽车:0.8903

roberta_L-4_H-312

聚合发展:0.8362 /聚焦新能源汽车:0.7554 /企业聚合发展:0.8355 /聚合发展建立:0.7895 /新能源汽车发展趋势:0.6976

roberta_L-6_H-384_

企业聚合发展:0.8758 /建立生态共享:0.836 /聚焦新能源汽车:0.7733 /厦门企业聚合:0.8196 /聚合发展建立:0.831

tinybert_L-4

新能源汽车发展趋势:0.9735 /发展建立生态:0.961 /建立生态共享:0.9618 /聚焦新能源汽车:0.9592 /聚合发展建立:0.9534

case6:

query

卫龙·大面筋,儿时辣条风靡几十年还是老味道,重,卫龙,其体息以1688APP内力准

标注关键词

大面筋、辣条、味道、卫龙

roformer-sim-char-ft

辣条风靡:0.62 /大面筋:0.495 /卫龙:0.4525 /APP内力准:0.446 /辣条:0.513

roformer-sim-char

辣条风靡:0.8256 /大面筋:0.787 /老味道:0.8143 /APP内力准:0.7579 /卫龙:0.7454 

roberta_L-4_H-312

辣条风靡:0.788 /APP内力准:0.7342 /老味道:0.7646 /辣条:0.7695 /大面筋:0.7113

roberta_L-6_H-384_

大面筋:0.7303 /APP内力准:0.6887 /辣条:0.625 /体息:0.6138 /卫龙:0.6211

tinybert_L-4

APP内力准:0.9203 /APP:0.8898 /APP内力:0.9056 /辣条风靡:0.8938 /内力准:0.9015

03 keybert使用不同预训练模型效果

0492911d598c6d13fd364abb45d40b57.png

45db6119206b80d62e0e236eeff9b420.png

上图中分别使用0.5和0.6作为阈值,通过实验对比使用不同的预训练模型进行编码操作的p、r和f1得分。整体发现,chinese_roformer-sim-char-ft_L-6_H-384_A-6在我们当前的任务场景中关键词抽取的效果是比较好的。

总结和反思

本篇主要从实际工作业务角度补充介绍了keybert。首先介绍了keybert抽取关键词的三个流程,重点介绍了在我们实际业务场景中的做法;然后展示了keybert在我们实际场景中的抽取示例,通过实验的方式对比了不同的预训练模型对抽取关键词效果的影响,其中chinese_roformer-sim-char-ft_L-6_H-384_A-6预训练模型效果是最好的。对于希望将keybert应用到实际工作中的小伙伴可能会有帮助。

最新最全的文章请关注我的微信公众号或者知乎专栏:数据拾光者。

0b3d5e55fdae6e4e4d5fd61271dd34d2.png

码字不易,欢迎小伙伴们点赞和分享。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/553300.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

微信小程序-页面生命周期方法

在经过上一篇文章的介绍之后&#xff0c;我们知道了大体的生命周期在什么时候执行&#xff0c;这次主要是以代码的形式来展示一下具体的阶段执行什么生命周期方法。 首先我们编写一个代码可以从首页跳转到日志页面&#xff1a; <!--index.wxml--> <text>首页</t…

项目中excel表格中由合同内容--转换为验收清单的办法(python操作excel表格)

需求&#xff1a; 把合同内容--转换为验收清单的办法&#xff08;python操作excel表格&#xff09; 1.字段重新排序 2.选择需要的表格列 原始的表格内容&#xff1a; 需要的格式&#xff1a; 涉及的技术点&#xff1a; 1.读取原始表格“readexcel1.xlsx”内容&#xff0c;修改…

第十一章 Productions最佳实践 - 生产电子表格

文章目录 第十一章 Productions最佳实践 - 生产电子表格生产电子表格界面设计 第十一章 Productions最佳实践 - 生产电子表格 生产电子表格 维护一个电子表格是很有帮助的&#xff0c;它可以逐个应用程序地组织信息系统。作为一般准则&#xff0c;应该为每个提供传入或传出数…

# 性能诊断 JProfiler 工具使用

性能诊断 JProfiler 工具使用 JProfiler是一个重量级的JVM监控工具&#xff0c;提供对JVM精确监控&#xff0c;其中堆遍历、CPU剖析、线程剖析看成定位当前系统瓶颈的得力工具。可以统计压测过程中JVM的监控数据&#xff0c;定位性能问题。 官网地址&#xff1a;Java Profiler…

初识linux之网络基础概念

目录 一、网络发展 1. 独立模式 2. 网络互联 二、认识协议 1. 为什么要有协议 2. 什么是协议 三、网络协议初识 1. 协议分层 2. 协议分层的优点 3. 理解分层 4. OSI七层模型 4.1 概念 4.2 模型形式 4.3 各层的作用 5. TCP/IP五层&#xff08;或四层&#xff09…

书评 | 《深入理解高并发编程:JDK核心技术》

书评 | 《深入理解高并发编程&#xff1a;JDK核心技术》 作者简介 冰河&#xff1a;互联网资深技术专家、数据库技术专家、分布式与微服务架构专家&#xff1b;多年来一直致力于分布式系统架构、微服务、分布式数据库、分布式事务与大数据技术的研究&#xff0c;在高并发、高可…

MySQL高级篇——关联查询和子查询优化

导航&#xff1a; 【黑马Java笔记踩坑汇总】Java基础进阶JavaWebSSMSpringBoot瑞吉外卖SpringCloud黑马旅游谷粒商城学成在线设计模式牛客面试题 目录 1. 关联查询优化 1.0 优化方案 1.1 数据准备 1.2 左外连接&#xff1a;优先右表创建索引&#xff0c;连接字段类型要一致…

numpy-stl实战3D建模【Python】

想象一下&#xff0c;我们需要用 python 编程语言构建某个物体的三维模型&#xff0c;然后将其可视化&#xff0c;或者准备一个文件以便在 3D 打印机上打印。 有几个库可以解决这些问题。 让我们来看看&#xff0c;如何在 Python 中从点、边和图元构建 3D 模型。 如何执行基本的…

如何对图片进行卷积计算

1 问题 如何对图片进行卷积计算&#xff1f; 2 方法 先导入torch和torch里的nn类&#xff0c;然后设置一个指定尺寸的随机像素值的图片&#xff0c;然后使用nn.conv2d函数进行卷积计算&#xff0c;然后建立全连接层&#xff0c;最后得到新的图片的尺寸 步骤: (1) 导入实验所需要…

CyberLink的音频编辑软件AudioDirector Ultra 13.4版本在win10系统的下载与安装配置教程

目录 前言一、AudioDirector Ultra安装二、使用配置总结 前言 AudioDirector Ultra是由CyberLink公司开发的一款强大的音频编辑工具&#xff0c;旨在为用户提供全面的音频后期制作和编辑解决方案。该软件支持多种音频格式&#xff0c;包括MP3、WAV、M4A等&#xff0c;并且可以…

网络工程师精选习题详解(二)

请点击↑关注、收藏&#xff0c;本博客免费为你获取精彩知识分享&#xff01;有惊喜哟&#xff01;&#xff01; 201.通常使用&#xff08;&#xff09;为IP数据报进行加密。 A.IPSec B.PP2P C.HTTPS D.TLS 答案&#xff1a;A IP Sec可以为IP数据报进行加密。 …

【004hive基础】hive的文件存储格式与压缩

文章目录 一.hive的行式存储与列式存储二. 存储格式1. TEXTFILE2. ORC格式3. PARQUET格式 ing 三. Hive压缩格式1. mr支持的压缩格式:2. hive配置压缩的方式:2.1. 开启map端的压缩方式:2.2.开启reduce端的压缩方式: 四. hive中存储格式和压缩相结合五. hive主流存储格式性能对比…

【分立元件】MOSFET的工作原理

MOSFET适用于瓦至十数千瓦的中小功率,特别适用于电源管理行业的入门学习。IGBT和MOSFET使用相似,但属于中大功率场合才使用,如果想使用好IGBT,也要先学习MOSFET。 对于MOSFET的学习我们需要学习它的工作原理,知道MOSFET的主要参数,MOSFET的开关过程以及如何驱动MOSFET,应…

技术最强,干活最多,但不会来事,又不是嫡系,得不到领导重用,这种情况去创业公司会不会好点?...

能力强但情商不高&#xff0c;许多程序员都有这样的问题&#xff0c;这种情况怎么办&#xff1f; 一位程序员问&#xff1a; 组内技术能力最强&#xff0c;干活最多&#xff0c;解决不了的问题就会派他上&#xff0c;领导嘴上认可&#xff0c;但因为他不会来事&#xff0c;又不…

一文搞定十大排序算法

文章目录 概述冒泡排序 (Bubble Sort)算法步骤图解算法代码实现算法分析 选择排序 (Selection Sort)算法步骤算法图解代码实现算法分析 插入排序(Insertion Sort)算法步骤图解算法代码实现算法分析 希尔排序 (Shell Sort)算法步骤图解算法代码实现算法分析 归并排序 (Merge Sor…

多维时序 | MATLAB实现GA-LSTM遗传算法优化长短期记忆网络的多变量时间序列预测

多维时序 | MATLAB实现GA-LSTM遗传算法优化长短期记忆网络的多变量时间序列预测 目录 多维时序 | MATLAB实现GA-LSTM遗传算法优化长短期记忆网络的多变量时间序列预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 MATLAB实现GA-LSTM遗传算法优化长短期记忆网络的数据多…

系统集成实验模拟总公司和分公司之间通信(涉及mpls vxn,链路聚合,nat,vlan划分,单臂路由,dhcp....)

目录 一 需求描述 二 需求分析 三 实验拓扑 四 实验配置 4.1 总公司 4.1.1 vlan间通信 4.1.2 dhcp自动分配ip 配置地址池 接口开启dhcp 4.1.3 链路聚合 4.1.4 ospf实现内网通信 4.2 分公司 4.2.1 单臂路由 4.2.2 dhcp自动获取ip 4.2.3 ospf实现内网通信 4.3 mp…

判断传入数据是否为列表、数组、数据框等数据结构pd.api.types.is_list_like()

【小白从小学Python、C、Java】 【计算机等考500强证书考研】 【Python-数据分析】 判断传入数据是否为 列表、数组、数据框等数据结构 pd.api.types.is_list_like() 选择题 下列说法错误的是? import pandas as pd import numpy as np print("【执行】pd.api.ty…

基于html+css的图展示85

准备项目 项目开发工具 Visual Studio Code 1.44.2 版本: 1.44.2 提交: ff915844119ce9485abfe8aa9076ec76b5300ddd 日期: 2020-04-16T16:36:23.138Z Electron: 7.1.11 Chrome: 78.0.3904.130 Node.js: 12.8.1 V8: 7.8.279.23-electron.0 OS: Windows_NT x64 10.0.19044 项目…

深度学习之使用Keras构建分类问题的MLP神经网络——用于糖尿病预测

大家好&#xff0c;我是带我去滑雪&#xff01; Keras 是一个用于构建和训练深度学习模型的高级 API&#xff0c;它基于 Python编写&#xff0c;并能够运行于 TensorFlow, CNTK, 或者 Theano 等深度学习框架之上。Keras简化了深度神经网络的构建流程&#xff0c;让用户能够更加…