利用人工优化的数据,改善搜索相关性算法

news2025/1/12 12:07:06

在着手改善搜索算法时,有哪些可用的工具?我们将和来自于 Adobe 和 Etsy 的客户一起就他们每天使用的一些工具和策略,是如何改进他们的搜索算法展开讨论。

为什么需要人工优化的数据?

通过挖掘个人对搜索结果的评估,您将获得明确的相关性判断,这是一个比点击次数更优质的可用于优化的指标例如,Etsy 请求澳鹏帮助他们提升品牌亲和力。他们想确保最符合 Etsy 品牌形象的产品(也可以说是最“Etsy-ness”的产品)出现在搜索结果最前沿。这是一个需要人工判断的问题。

由于 Etsy 平台的性质,典型的点击数据不足。比如,有一个明显的事实可以证明这一点:浏览 Etsy 是一件很有趣的事情。如果用户一页一页地点击搜索结果,这并不代表他们找不到所需的内容,仅表明他们喜欢浏览Etsy网页。

为什么我们要使用人工优化的数据?

Etsy 使用我们的数据服务来创建更好的筛选搜索,从而减轻独立卖家为产品贴标签的负担,他们将这项工作交给了澳鹏的数据服务团队。拥有超过 4000 万产品的生态系统,这可不是一件容易的事。

在着手为人工优化后的数据建立相关性评分系统时,我们建议您让内容标注团队给当前的搜索算法评分,确立一个基准。然后,您可以根据适合您和您的网站的指标进行变更,再重新测试新算法针对旧查询在同一随机查询集上生成的查询结果配对。

通过这种方法,您可以了解新算法是否有所改进,或者您是否应该进一步变更算法。

内容标注员(contributor)可以帮您提升算法的方法:

对查询结果对进行评分:最有效方法是利用内容标注员(contributor)对查询结果对进行评分,以评估相关性。要建立该指标,您必须设计一个数值量表(通常我们的客户会创建一个 2、3 或 5 分数量表),内容标注员(contributor)用来对每个查询结果对进行评分。这样,您就能清晰地了解搜索相关性算法表现如何,并且可以在以后的相关性测试中尝试超过这个分数。

附加标记:元数据项可以大大提高搜索的相关性。可以采用内容标注员(contributor)标注方式,或者结合基于机器学习的自动化标记功能,用新标签快速填充产品数据库。数据清理和产品分类:产品数据库非常混乱。制造商可能使用不同的措辞描述类似的产品;不同的分销商可以用不同的方式描述或命名相同的产品;有时,您可能只是将几个图像与一个产品关联起来,却无法知道哪个图片最好。内容标注员可以轻松调和这些差异

结语: 要实现搜索相关性算法从良好到卓越的跨越,人工优化的数据是关键。想了解澳鹏、Adobe 和 Etsy 数据科学负责人的一些真实的相关性评分示例,请和我们的专家联系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1266989.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

卡码网语言基础课 | 16. 出现频率最高的字母

目录 一、 哈希表 二、 编写解题 2.1 统计出现次数 2.2 解答 通过本次练习,将学习到C中哈希表的基础知识 题目: 给定一个只包含小写字母的字符串,统计字符串中每个字母出现的频率,并找出出现频率最高的字母,如果…

[数据结构]-map和set

前言 作者:小蜗牛向前冲 名言:我可以接受失败,但我不能接受放弃 如果觉的博主的文章还不错的话,还请点赞,收藏,关注👀支持博主。如果发现有问题的地方欢迎❀大家在评论区指正 目录 一、键值对…

上市公司-绿色专利申请、授权(2000-2022年)

一、数据介绍 数据名称:上市公司-绿色专利申请、授权 数据范围:A股上市公司 数据年份:2000-2022年 数据样本:56167条 数据来源:国家知识产权局、WIPO绿色专利清单 数据整理:自主整理 二、数据用途 数…

Tomcat 修改版本号

lib 目录下增加文件 /lib/org/apache/catalina/util/ServerInfo.properties ServerInfo.properties文件里面只需要输入server.info显示的版本号 其他可配置信息 server.infonginx server.number22.0 server.builtMay 11 2023 08:22:10 UTC 显示效果

解决掘金量化平台,赋权原因导致委托异常(委托价格低于标的[xxxx]当日的跌停价格)

文章目录 解决方法问题解析 解决方法 修改为全部使用不复权数据ADJUST_NONE进行回测,最新的版本支持分红配股了, 在交易的时候控制市值即可 问题解析 首先,已经设置数据参考前复权数据:run(backtest_adjustADJUST_PREV) 以长生…

图片去水印怎么弄?手把手教你几个去水印方法

在生活中,我们常常会遇到一些心仪的图片,然而这些图片往往带有水印或是不必要的杂物,如路过的行人、标志、商标等元素。这些元素通常位于图片的边角或中心,严重破坏了图片的整体美感,影响了我们的视觉体验。为了解决这…

怎样去除视频上的水印?这几个视频去水印方法简单无痕

作为全民自媒体时代,越来越多的人投身于自媒体行业,对于初学者,往往会遇到网上下载的视频素材会嗲有水印,影响二次创作以及视频观看度,那么怎样去除视频上的水印呢?别着急,今天分享三种视频去水…

2020年8月11日 Go生态洞察:Go 1.15版本发布深度解析

🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文…

Active Directory 帐户锁定问题

Active Directory(AD)帐户可能由于多种原因而被锁定,IT 管理员需要发现帐户被锁定的原因并解锁它们,但是手动执行此操作是一项耗时且复杂的活动。 最重要的是,帐户锁定如此普遍的事实只会使解锁这些帐户更具挑战性&am…

新手必备!这款在线制作电子书神器,收藏起来慢慢学!

​随着互联网的普及,越来越多的人开始关注电子书市场。如果你是一名新手,想要尝试制作自己的电子书,那么可以跟着小编一起学习一下如何制作电子书! 首先找到一款合适自己的电子书制作神器,小编一直用的都是FLBOOK在线制…

【飞桨星河社区五周年线下工坊-杭州站】

? 欢迎大家参加杭州极客工坊,深入了解大模型前沿技术和创新应用,一站式体验AI原生应用开发? 精彩议程敬请期待~ ? 时间:2023年12月3日 14:00-17:30 ? 地点:杭州西湖区花蒋路3号西溪润泽园度假酒店 ? 主题&#xf…

TikTok革新挑战者:全球小众创作者的崛起

随着数字娱乐的快速发展,TikTok以其独特的短视频形式和开放的创作平台,成为全球范围内小众创作者崛起的推动者。本文将深入剖析TikTok在这一领域的革新,以及全球范围内小众创作者如何通过这一平台崭露头角。 TikTok:小众创作者的乐…

MES管理系统在智能工厂建设中的五个核心作用

随着制造业的数字化转型,智能工厂已经成为了现代工业生产的标志。而在智能工厂中,MES生产管理系统扮演着至关重要的角色。MES管理系统是一种用于管理和监控生产过程的软件系统,通过集成生产计划、资源调度、设备控制、质量管理等功能&#xf…

vue3-在自定义hooks使用useRouter 报错问题

文章目录 前言一、报错分析报错的Vue warn截图:查看文档 二、那么在hook要怎么引入路由呢? 前言 记录在vue3项目中,hook使用useRouter 报错问题 一、报错分析 报错的Vue warn截图: 警告 inject() can only be used inside setup…

zookeeper实操课程Acl 访问权限控制,命令行测试

本系列是zookeeper相关的实操课程,课程测试环环相扣,请按照顺序阅读测试来学习zookeeper。阅读本文之前,请先阅读----​​​​​​zookeeper 单机伪集群搭建简单记录(实操课程系列)。 阅读本文之前,请先阅读…

手机笔记工具怎么加密?

选择用手机笔记工具记事,大家可以记录很多学习笔记、读书笔记、私密日记等,手机作为随身携带的设备,记录相关的笔记比较快捷且方便,当手机笔记中记录的内容比较私密时,大家担心手机笔记会被别人误看,这时候…

跨境电商火爆出圈,自建商城平台如何评估商城源码的安全性?

近日,知名互联网评论人士阑夕的一则朋友圈刷屏。起因来自他在商家群里看到的一位跨境卖家后台晒单截图,说在速卖通上1天卖了快50万美元,比去年双11全周期还高,感叹“现在的跨境电商发展就如同10年前的天猫淘宝,潜力无限…

500元价位开放式耳机哪款好用、百元价位开放式耳机推荐

经常佩戴入耳式耳机的朋友应该都遇到过耳朵肿胀的感觉,这个时候,就是耳朵在告诉你,该休息一会了。如果耳朵里经常塞着耳机听歌,时间久了很容易引起听力衰退等问题,这是不可逆的伤害。各位朋友如果和我一样每天都戴着耳…

Find My电容笔|苹果Find My技术与电容笔结合,智能防丢,全球定位

随着平板电脑的流行,有不少厂商都投入到了电容笔的开发当中,现在的电容笔不仅在精度上有了提高,甚至在笔触和压感上的研究都有进步。电容笔是利用导体材料制作的具有导电特性、用来触控电容式屏幕完成人机对话操作用的笔,电容笔通…

「Verilog学习笔记」整数倍数据位宽转换8to16

专栏前言 本专栏的内容主要是记录本人学习Verilog过程中的一些知识点,刷题网站用的是牛客网 根据时序图,数据是在第二个数据到来之后输出,当仅有一个数据到来时,不产生输出,所以内部需要一个指示信号valid_cnt&#xf…