如何用Python统计CSDN质量分

news2024/9/29 23:24:34

文章目录

    • CSDN质量分查询
    • selenium
    • 爬取博客地址
    • 单篇测试
    • 批量查询
    • 分析

CSDN质量分查询

CSDN对博客有一套分数评价标准,其查询入口在这里:质量分查询,效果大致如下

在这里插入图片描述
如果质量分太低,就会在博文的标题下面出现黄底黄字:在这里插入图片描述
这个提示其实已经很客气了,我记得去年刚上线的时候写的是低质量博客,总之很有攻击性。

但是,这个评分标准毕竟不是一早就有的,所以早些年间写的博客不可能完全符合现在的CSDN的要求,为了找到需要改进质量的博客,可以通过爬虫的方式,逐一对博客质量进行检测。

selenium

考虑到查询需要有一个交互过程,所以这里采用selenium作为爬虫工具。如果没装的话,需要安装一下

pip install selenium

然后需要下载webdriver,各浏览器下载地址如下

EdgeChromeFirefoxIEx
WebdrivergeckodriverchromedriverIEDriverServer

下载之后解压,并将解压地址添加到环境变量,就可以顺利调用了。

爬取博客地址

首先第一步是获取所有需要查询的博客的地址,这一步并不需要用到selenium,urllib可以轻松搞定,这一步如果有疑问可以参考这篇:用Python标准库统计CSDN阅读量

import urllib.request as ur
import re
article = r'details/[0-9]*'
blogId = []
for i in range(1, 25):
    print(i)
    url = f'https://tinycool.blog.csdn.net/article/list/{i}'
    res = ur.urlopen(url)
    text = res.read().decode('utf-8')
    details = re.findall(article, text)
    blogId += [int(d.split('/')[-1]) for d in details]
    if len(details)==61:
        break

blogId = list(set(blogId))

网址https://tinycool.blog.csdn.net/article/list/是个人主页,好处是可以指定页码。但网页中除了博客栏之外,其他地方也会出现博客地址,从而导致最终得到的网址会重复,故而最后通过set去重。

单篇测试

在批量查询之前,先来测试一下单篇博客查询是否可行

from selenium import webdriver
from selenium.webdriver.common.by import By


input_xpath = '/html/body/div[2]/div/div/div/div/div/div/div[1]/div/div/div[2]/div[1]/div[1]/input'
btn_xpath = '/html/body/div[2]/div/div/div/div/div/div/div[1]/div/div/div[2]/div[2]'
code_xpath = '/html/body/div[2]/div/div/div/div/div/div/div[1]/div/div[2]/p[1]'

url = 'https://tinycool.blog.csdn.net/article/details/111595416'

driver = webdriver.Edge()
driver.get("https://www.csdn.net/qc?utm_source=1966961068")
driver.find_element(By.XPATH, input_xpath).send_keys(url)
driver.find_element(By.XPATH, btn_xpath).click()
code = driver.find_element(By.XPATH, code_xpath).text
# 得到code=99

批量查询

单篇博客查询没问题,那么批量无非是外面套一个循环而已

import time
blogCode = []
def getOneCode(path):
    driver.find_element(By.XPATH, input_xpath).clear()
    driver.find_element(By.XPATH, input_xpath).send_keys(path)
    driver.find_element(By.XPATH, btn_xpath).click()
    time.sleep(0.5)		# 给一个延时,否则点击未必会响应
    code = driver.find_element(By.XPATH, code_xpath).text
    return int(code)

for id in blogId:
    path = f"https://tinycool.blog.csdn.net/article/details/{id}"
    try:
    	blogCode.append([id, getOneCode(path)])
    except:
    	blogCode.append([id, -1])    
    print(blogCode[-1])

效果如下

在这里插入图片描述

分析

没统计之前其实没意识到,统计之后发现一共有14篇博客得到了99分,超过60分的博客数目分别如下

在这里插入图片描述

c99 = [bc for bc in blogCode if bc[1] == 99]
print(len(c99))
# 14
from pprint import pprint
## 下面是99分的博客id
[[103475445, 99],
 [103465319, 99],
 [100534775, 99],
 [103439486, 99],
 [103398694, 99],
 [103769447, 99],
 [103519671, 99],
 [103669180, 99],
 [103568966, 99],
 [103964310, 99],
 [100175523, 99],
 [97750903, 99],
 [111595416, 99],
 [103847843, 99]]
  • Julia数值微积分
  • Julia实现数值代数中的经典算法
  • F#语言快速教程
  • C语言实现八种排序算法
  • Julia实现经典的插值算法
  • C++面向对象入门这一篇就够了
  • C语言实现链表、堆栈和队列
  • C语言实现高级数据结构之B树
  • 确定不收藏一下吗?你想要的语言环境这里都有
  • Clojure极简教程
  • python实现光线追迹(中):空间关系
  • 用C语言写一个计算器
  • go语言实现图的广度优先与深度优先搜索

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/804116.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

华为OD机试真题 Java 实现【数字涂色】【2022Q4 100分】,附详细解题思路

目录 专栏导读一、题目描述二、输入描述三、输出描述四、解题思路五、Java算法源码六、效果展示 华为OD机试 2023B卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试(JAVA)真题(A卷B卷)》。 刷的越多&…

程序员,必须要知道的热门开源项目!

🏆 文章目标:了解热门开源项目 🍀 入门篇:程序员,必须要知道的热门开源项目! ✅ 创作者:熊猫Jay ✨ 个人公众号: 熊猫Jay字节之旅 (文末有链接) 🍁 展望:若本篇讲解内容帮助到您,请帮…

使用easyexcel实现复杂excel表格导出

1、问题描述 最近在做一个自动化开发票的需求,就是把网页预览的发票导出成一个excel文件。其实这个很好实现,就是使用blob就可以实现把网页的html内容导出成一个.xls的文件就行了。 Blob把html导出为excel文件_blob导入导出excel_金斗潼关的博客-CSDN博…

【我们一起60天准备考研算法面试(大全)-第二十七天 27/60】【真分数】

专注 效率 记忆 预习 笔记 复习 做题 欢迎观看我的博客,如有问题交流,欢迎评论区留言,一定尽快回复!(大家可以去看我的专栏,是所有文章的目录)   文章字体风格: 红色文字表示&#…

HTTP——一、了解Web及网络基础

HTTP 一、使用HTTP协议访问Web二、HTTP的诞生1、为知识共享而规划Web2、Web成长时代3、驻足不前的HTTP 三、网络基础TCP/IP1、TCP/IP协议族2、TCP/IP的分层管理3、TCP/IP 通信传输流 四、与HTTP关系密切的协议:IP、TCP和DNS1、负责传输的 IP 协议2、确保可靠性的TCP…

搭建简单的chatbot并部署到HuggingFace上

调用ChatGPT接口完成聊天任务 下面的代码调用ChatGPT的ChatCompletion接口实现聊天任务,生成的结果如下图打印的信息所示。而且,在封装Conversation class中,message一直使用append进行追加,即每次调用ChatCompletion接口时都传入…

【C++入门到精通】C++入门 —— 类和对象(构造函数、析构函数)

目录 一、类的6个默认成员函数 二、构造函数 ⭕构造函数概念 ⭕构造函数的特点 ⭕常见构造函数的几种类型 三、析构函数 ⭕析构函数概念 ⭕析构函数的特点 ⭕常见析构函数的几种类型 四、温馨提示 前言 这一篇文章是上一篇的续集(这里有上篇链接)…

qt服务器 网络聊天室

widget.cpp #include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this);//给服务器指针实例化空间server new QTcpServer(this); }Widget::~Widget() {delete ui; }//启动…

C++ malloc/free和new/delete

1.malloc和free malloc是开辟内存单元的库函数&#xff1b; malloc不会调用构造函数&#xff1b; free只是释放malloc所开辟的空间&#xff1b; free不会调用析构函数。 #include <iostream> using namespace std; class A { public:A(int i0) { cout << "A&…

BUG分析以及BUG定位

一般来说bug大多数存在于3个模块&#xff1a; 1、前台界面&#xff0c;包括界面的显示&#xff0c;兼容性&#xff0c;数据提交的判断&#xff0c;页面的跳转等等&#xff0c;这些bug基本都是一眼可见的&#xff0c;不太需要定位&#xff0c;当然也不排除一些特殊情况&#xf…

25.6 matlab里面的10中优化方法介绍—— 遗传算法(matlab程序)

1.简述 遗传算法&#xff08;Genetic Algorithm, GA&#xff09;是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型&#xff0c;是一种通过模拟自然进化过程搜索最优解&#xff08;所找到的解是全局最优解&#xff09;的方法。 参数编码、初始群体的设定…

「乐天世界」VoxEdit 创作大赛

&#x1f389;参加激动人心的乐天世界 VoxEdit 大赛&#xff01;&#x1f3a8; 召集所有体素艺术家和韩国文化爱好者&#xff01;您准备好展示自己的体素设计技能&#xff0c;用自己的独特风格为乐天世界心爱的吉祥物 Lotty 赋予生命了吗&#xff1f;让我们看看您的想象力和设计…

Acwing.91 最短Hamilton路径(动态规划)

题目 给定一张n个点的带权无向图&#xff0c;点从0~n-1标号&#xff0c;求起点0到终点n-1的最短Hamilton路径。Hamilton路径的定义是从0到n-1不重不漏地经过每个点恰好一次。 输入格式 第—行输入整数n。 接下来n行每行n个整数&#xff0c;其中第i行第j个整数表示点i到j的距…

使用go与智能合约交互之abi调用

上一篇文章&#xff0c;我们讲解了go如何使用函数选择器的方式进行智能合约的调用&#xff0c;接下来让我们一起学习一下如何使用abi的方式进行智能合约的调用 本系列课程&#xff1a; 第一节&#xff1a;使用go与智能合约交互之函数选择器调用 第二节&#xff1a;使用go与智能…

堆喷射的小例子

引自&#xff1a;https://blog.csdn.net/lixiangminghate/article/details/53413863 照着作者的意思&#xff0c;自己的测试代码&#xff1a; #include <iostream> #include <windows.h> #include <stdio.h>class base {char m_buf[8]; public:virtual int…

上传图片到腾讯云对象存储桶cos

1、首先登录腾讯云官网控制台 进入对象存储页面 2、找到跨越访问CIRS设置 配置规则 点击添加规则 填写信息 3、书写代码 这里用VUE3书写 <template><div><input type"file" change"handleFileChange" /></div> </template&g…

JS学习之ES6

一、ES简介 ES6是一个泛指&#xff0c;指EDMAJavaScript之后的版本。它是JS的语言标准。 Nodejs 简介&#xff1a;它是一个工具&#xff0c;主攻服务器&#xff0c;使得利用JS也可以完成服务器代码的编写。 安装&#xff1a; 安装Nodejs的同时&#xff0c;会附带一个npm命令…

QT--day4(定时器事件、鼠标事件、键盘事件、绘制事件、实现画板、QT实现TCP服务器)

QT实现tcpf服务器代码&#xff1a;&#xff08;源文件&#xff09; #include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this);//给服务器指针实例化空间server new QTc…

无涯教程-jQuery - show( )方法函数

show()方法仅显示匹配元素中的每个元素(如果隐藏)。此方法还有另一种形式&#xff0c;可以控制动画的速度。 show( ) - 语法 selector.show( ); show( ) - 示例 以下是一个简单的示例&#xff0c;简单说明了此方法的用法- <html><head><title>The jQuer…

PostgreSQL-Centos7源码安装

卸载服务器上的pg13 本来是想删除原来的postgis重新源码安装就行,但是yum安装的PostgreSQL不能直接使用,会提示以下问题: 之前服务是用yum安装的,现在需要删除 -- 删除数据的postgis插件 drop extension postgis; drop extension postgis cascade;删除相关安装包 # 查询…