作者:小5聊
简介:一只喜欢全栈方向的程序员,专注基础和实战分享,欢迎咨询,尽绵薄之力答疑解惑!
公众号:有趣小馆,一个有趣好玩的关键词回复互动式公众号,欢迎前来体验
1、标题质量
1.1、标题质量应该做到以下几点
符合自然语言语法的主谓/动宾结构 | |
1 | 部分词汇在术语词典中,重点是主语和宾语 |
2 | 如果一个标题只有术语词典中的词,做一定的降权 |
3 | 标题的情感分析结果应趋向于中立,情绪激烈的予以降权 |
4 | 对包含负分数词汇的标题降权 |
1)排序依据
内容质量分,这个质量,并不是严格遵循主观上的内容质量,而仅仅是一个排序依据,
属于推荐系统的一部分
2)目标
基于统计算法而非人工干涉,尽可能在统计上将更优质的内容推荐给用户,
推荐系统也不能保证推荐的内容能够百分百就是用户想要的
1.2、标题推荐
标题推荐,主要目标是两个
1)第一个目标,标题应该符合专栏题材或搜索关键字
这方面,要重点对抗通过标题堆砌关键字来提高命中率的行为(标题堆砌,容易降权,需要特别注意)
2)第二个目标,标题要能符合文章本身的内容
要对抗“标题党”行为(容易降权,需要特别注意),目前C站博主大多数标题质量还是很高的,标题党占比率还是很低的,
个人也非常认同这一点,推荐到的文章,标题和内容都是非常匹配一致的,这点必须给C站技术人员点赞!
2、内容质量
标题的质量显然不能决定一篇文章的质量,博文内容评估仍然是一个比较难定量的问题,对文章的质量进行自动化的量化评估,是一件很有争议的事情,哪怕是仅仅评估文章的形式质量,也很难做到精准明确
1)高阶词汇的差文
博文目前存在的情况,内容可能命中很多高阶词汇,但仍然是一篇很差的文章,甚至可能是不符合自然语言的词语堆砌,仅仅是符合词法语法的机器判定
2)多项式评估
总体来说,质量分计算是一个多项式,它由一组指标项的加权求和,再乘一组因子项,求得的结果做归一化处理来实现
看到这个公式,只想说,算法是个技术量很高的领域,佩服做算法的程序员
函数 f(x):归一化处理的工具函数,主要是为了将计算结果约束在一个有限的区间内,便于比较
因子项p:指以乘法作用于质量分的那些指标项,它们通常都在(0, 1]区间
总结:从这个式子可以看出,每一个低分的因子会明显的降低最终的质量分,这些因子也基本都是一些降权机制
3)重点关注指标
内容质量,关注的指标 | ||
1 | 博客文章的长度 | 1)文章针对性强和目标清晰 直白点就是,文章说1就是1,不要说1出来1、2、3,没有一个重点,不符合标题和内容不匹配 2)太长或太短的文章,会被降低分数 3)避免啰嗦或者,导致糟糕的阅读体验 4)过长的文章也不利于读者消化吸收其中的知识 5)结构和章节清晰 一篇博客,更接近于一章甚至一节 6)过长文章,鼓励按专栏或者打标签,提高用户阅读体验和知识消化 7)段落结构,要主次分明,不要标题字段比内容还多 |
2 | 链接等超文本内容的比例和质量 | 1)超链接比例过高 显然是不正常的,这样的文章我们会予以降权,目前比例阀值非常的高,作者们可以放心,文章带有内部目录,或者常见的包含引用资料等链接的文章,不会触发这个规则,仅针对文章都是链接的情况 2)图片比例过高的文章进行降权 |
3 | 代码等文本格式问题 | 1)代码块格式混乱,或者行号串位,其中一部分我们通过技术手段识别出来,并对其降权 点击查看代码混乱例子:https://bbs.csdn.net/topics/392404771 2) |
4 | 代码复杂度 | 1)非决定一篇文章的质量,但作为一个非关键性因素,尝试识别文章代码中包含的信息复杂程度,甄别出认真写作的作者,和一些可能存在的对抗行为 2)注水代码和无意义的代码,会降低质量分 3)代码质量分是加法项x中的一个指标,并不会决定性的提升最终的质量分 |
5 | 段落结构 | 1)合理的段落结构 鼓励在结构上均衡,不会有过多极短段落,也不会有非常长的长段落的文章 |
- 代码复杂度,简单举例
第一段代码
for i in range(1, 10):
print(i)
第二段代码
print(1)
print(2)
print(3)
print(4)
print(5)
print(6)
print(7)
print(8)
print(9)
print(10)
为什么会出现第二种情况,业内有一个笑话,说有团队按代码行数计算工作量,于是就有程序员把循环展开写
这两段代码在输入输出上是等效的,如果单纯按代码行数,第二段应该分数更高,但是在信息复杂度上,其实第一段比第二段更复杂,它描述了一个有边界条件的循环,而第二段是简单的重复。在我们的代码质量分计算中,第一段质量更高
3、实际验证,优化效果
通过小5的这篇文章来验证:【Sql Server】数据库的表变量和临时表的区别,并通过变量表随机生成姓名_小5聊的博客-CSDN博客
3.1、优化前文章质量分
3.2、优化后文章质量分
优化方向
1)拆分代码展示和底部增加总结
影响不大
2)增加内置目录和丰富内容描述
3)继续调整段落结构和完善内容描述,并更新内置目录
4)标题优化
【Sql Server】数据库的表变量和临时表的区别,并通过变量表随机生成姓名
【Sql Server】数据库变量表和临时表的区别,并运用变量表遍历和随机生成姓名记录
总结:CSDN 质量分是一项公开的 CSDN 博文内容质量分析服务,其综合分析了内容的标题、段落结构、正文长度、代码格式及复杂度、链接和超文本内容比例及质量等因素,为 IT 技术文章提供客观公共的质量分析结果。
【参考内容】
官方博客质量分计算,推荐文章阅读,也是本篇文章的参考方向
博客质量分计算(一)
博客质量分计算(二)
博客质量分计算(三)
https://blog.csdn.net/ccat/article/details/127891341?spm=1001.2014.3001.5502