搜索算法之内容质量评估:如何对作者和文章进行质量评价

news2024/10/6 0:29:15

paperClubIP属地: 江苏

编辑文章

对于搜索引擎而言,用户算法的核心价值是用户体验,包括搜索内容的相关性、内容质量及时效性等,其中内容质量是前置步骤,既可以用于优质内容源筛选,又可以作为搜索召回结果排序因素,是决定高质量搜索结果前提。

内容质量主要有两个维度。第一,EAT 分数,主要取决于文档的来源和作者。EAT是专业性(expertise)、权威性(authoritativeness)、可信赖(trustworthiness)三个词的首字母缩写;第二,文字和图片质量,包括文本质量和图片质量(参考:https://toutiao.io/posts/izme1z1/preview,https://cloud.tencent.com/developer/news/490036)等。

爬虫采集到了作者编号(account_id),作者昵称(master_name),作者领域(master_property),文章编号(pid),文章内容(doc),文章类目(category),文章发布时间(publish_time),浏览量(view_num),收藏量(collect_num),一共12w行。通过 作者编号(account_id),作者昵称(master_name),作者领域(master_property),通过作者发文时间等字段,及计算作者创作年龄(span_date)汇总为author.csv数据,通过编号(account_id),作者昵称(master_name)文章编号(pid),文章内容(doc),文章类目(category),文章发布时间(publish_time),浏览量(view_num),收藏量(collect_num)汇总为works.csv数据。

作者权重及排序

我们希望通过对作者进行打分,获得‘’大师、专家‘’列表,用于在文章权威性评价指标。由于是初始阶段我们无法获得大师名单列表,甚至作者名单都不全,因此需要先对爬虫数据结构有一定了解。

我们根据auther.csv数据,将作者排序因素分类为作者影响力水平(eindex)、作者领域专业度(pindex)、作者流行性度(h index)等,其中:

(1)作者影响力水平评价:以作者作品浏览量和收藏数的H Index加权和作为影响力排序指标;

(2)作者领域专业度评价:分别计算作者行业作品浏览率与行业平均浏览率占比和作者行业作品收藏率与行业平均收藏率占比,然后求两项加权和作为评判作者在行业领域内的专业度;

(3)作者流行性度:以作者月平均产出作品数、月平均作品浏览量、月平均作品收藏量、月平均主页访问量、月平平粉丝数加权和作为作者流行度评价指标。

通过对多个因子进行组合和筛选,可以看到部分因子和作者权重有较好的一致性。

作者权重score分布及分级:

作品权重及排序

我们根据works.csv数据,选取以作品认可度(avalue)、作品影响力(ivalue)、作品流行度(hvalue)、作品内容分数(cvalue)等为指标进行排序,其中:

(1)作品认可度:作品评分 * 认可率,作品评分通过浏览量、收藏量进行均值计算,认可度通过浏览量、收藏量做权重占比分布计算;

(2)作品影响力:以月评价文章浏览量、收藏量为特征项,分别计算与行业同类别文章月平均值比率的加权和作为排序指标;

(3)作品流行度:以文章浏览量、收藏量和发布时间为特征项计算文章热度值,作为文章受欢迎的评判指标;

(4)作品内容分:作者权重 + 文、图质量分数 + 惩罚分数;

因子筛选组合:

作品分级:

通过以上处理,我们可以初步拿到作者和作品的打分结果和排序结果,并作为初步把关的标准之一。

#paperclub

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/947820.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Leetcode.100 相同的树

给你两棵二叉树的根节点 p 和 q ,编写一个函数来检验这两棵树是否相同。 如果两个树在结构上相同,并且节点具有相同的值,则认为它们是相同的。 力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台 代码如下:…

【STM32】串口初步使用

本文只作为学习笔记,对串口进行一个简单的介绍,正确的使用方式还需要进行实际的调试 通信的类型: 同步 异步 单工 双工 串行 并行 STM32的串口通信: 配置片上外设的控制寄存器,通信双方进行相同的配置,…

【Vue】集成高德地图

Vue 集成高德地图 步骤 注册成为高德开发者 获取申请的安全密钥、申请好的Web端开发者Key 创建Vue 工程 创建地图组件 引入地图组件 高德地图开发平台地址 https://lbs.amap.com/官方示例地址 https://lbs.amap.com/demo/list/js-api-v2示例 首先创建一个vue工程 安装 npm …

jvm与锁

今天是《面霸的自我修养》的第二弹,内容是Java并发编程中关于Java内存模型(Java Memory Model)和锁的基础理论相关的问题。这两块内容的八股文倒是不多,但是难度较大,接下来我们就一起一探究竟吧。 数据来源&#xff…

CAC2.0准实时威胁检测,“无人化”防暴力破解

客户背景 上海微盟企业发展有限公司(以下简称“微盟”),香港主板上市企业,成立于2013年,致力于为商家打造去中心化的数字化转型SaaS产品及全链路增长服务,助力商家经营可持续增长。 在这个快节奏的网络时…

《发电厂电气部分》进出线停送电倒闸操作理解

在《发电厂电气部分》(部分学校也叫《供配电技术》)中,停电/送电时的倒闸操作在笔者看来是比较难理解的一件事,即使是在bilibili上看了实际架空线路上的倒闸操作,还是感觉云里雾里。这里分享一下自己的理解。 这里以最…

对于前端模块化的理解与总结(很全乎)

目录 模块化的好处 模块化的commonJS导入导出 暴露(导出)模块:module.exports value或exports.xxx value 导入模块——使用 es6模块化 方法一逐个导出 方法二默认导出 方法三 方法四 方法五 export 和import 同时存在 多个文件导出到一个文件后在相关文件…

解决 quill Cannot import modules/imageResize. Are you sure it was registered?

这个插件是在富文本编辑器中调整图片大小的,发现拉下来的依赖会报错,于是替换了nodejs版本,没有解决,但是用同时之前拉下来的,莫名其妙正常,后来经过尝试,发现删除demo和node_modules文件夹后正常. 删除后,不报错,正常了

python遍历文件夹下的所有子文件夹,并将指定的文件复制到指定目录

python遍历文件夹下的所有子文件夹,并将指定的文件复制到指定目录 需求复制单个文件夹遍历所有子文件夹中的文件,并复制代码封装 需求 在1文件夹中有1,2两个文件夹 将这两个文件夹中的文件复制到 after_copy中 复制单个文件夹 # coding: ut…

电源管理(PMIC)TPS63070RNMR、TPS650942A0RSKR、LM5175RHFR器件介绍、应用及特点。

一、TPS63070RNMR,降压升压 开关稳压器 IC 正 可调式 2.5V 1 输出 3.6A(开关) 15-PowerVFQFN 1、概述 TPS63070高输入电压降压-升压转换器是一款高效的低静态电流降压-升压转换器。这些器件适用于输入电压高于或低于输出电压的应用。升压模式…

Java-day12(泛型)

泛型 解决元素存储的安全性问题 解决获取数据元素时,需要类型强转的问题 核心思想:把一个集合中的内容限制为一个特定的数据类型 静态方法中不能使用类的泛型 不能在catch中使用泛型 如果泛型类是一个接口或抽象类,则不可创建泛型类的对…

Docker技术--Docker镜像管理

1.Docker镜像特性 ①.镜像创建容器的特点 Docker在创建容器的时候需要指定镜像,每一个镜像都有唯一的标识:image_id,也可也使用镜像名称和版本号做唯一的标识,如果不指定版本号,那么默认使用的是最新的版本标签(laster)。 ②.镜像分层机制 Docker镜像是分层构建的,并通过…

Springboot集成Docker并将镜像推送linux服务器

案例使用springboot项目,在IDEA 中集成Docker生成镜像,并将镜像发布到linux服务器 具体步骤如下: 1、Centos7安装Docker 更新系统的软件包列表 sudo yum update安装Docker所需的软件包和依赖项: sudo yum install docker完成…

vue3中右侧26个英文字母排列,点击字母,平滑到响应内容

效果图如下&#xff1a; 右侧悬浮 <!-- 右侧悬浮组件 --><div class"right-sort"><div v-for"(item, index) in list" :key"index" class"sort-item" :class"index activeIndex ? sort-item-active : " c…

大众汽车ceo施文韬到访中国,与中国团队会面,加速推出纯电产品

根据大众汽车官方公众号8月30日的消息透露&#xff0c;大众汽车乘用车品牌首席执行官施文韬和董事会成员上周到访了中国大众汽车总部V-SPACE。这次访问不仅与大众汽车中国团队和合资公司伙伴会面&#xff0c;还会见了经销商&#xff0c;并与中国核心媒体进行了沟通见面会。 中国…

固定式无线农业气象综合监测站

固定式无线农业气象综合监测站采用无线传输的方式&#xff0c;适合长距离之间的数据传输&#xff0c;用户可以在手机或者电脑登录并查看固定式无线农业气象综合监测站监测到的气象数据&#xff0c;稳定可靠。 技术特点&#xff1a; ①具有一路 ModBus-RTU 主站接口可接入485变…

运营商云强势崛起,互联网云开始艰难“守擂台”

大数据产业创新服务媒体 ——聚焦数据 改变商业 随着云计算的兴起&#xff0c;大佬纷纷入局赛道&#xff0c;阿里巴巴2009年正式成立阿里云&#xff0c;腾讯、百度、华为等企业也在2016年前后加速布局云计算产业。除此之外&#xff0c;中国电信、移动、联通等玩家也各有动作&a…

基于机器学习的fNIRS信号质量控制方法

摘要 尽管功能性近红外光谱(fNIRS)在神经系统研究中的应用越来越广泛&#xff0c;但fNIRS信号处理仍未标准化&#xff0c;并且受到经验和手动操作的高度影响。在任何信号处理过程的开始阶段&#xff0c;信号质量控制(SQC)对于防止错误和不可靠结果至关重要。在fNIRS分析中&…

DNS 协议都没听过?你配做开发?

一、什么是DNS协议&#xff1f; DNS协议是一种用于将域名转换为IP地址的分布式命名系统。它通过将用户提供的域名映射到相应的IP地址&#xff0c;实现了互联网上资源的定位和访问。DNS协议采用了层次化的域名结构&#xff0c;使得域名之间可以建立逻辑上的关联。 二、DNS解析过…