用Python标准库统计CSDN阅读量

news2024/11/22 20:18:20

urllib基础

一般做爬虫其实很少有推荐urllib的,但urllib乃是Python标准库成员,在要求比较简单的情况下,采用urllib还是比较方便的。

作为爬虫入门必学包,urllib最常用的函数一定是urllib.request中的urlopen。其返回对象是HTTPResponse,这个类也只能作为urlopen的返回值,而无法通过什么构造函数创建。

import urllib.request as ur
res = ur.urlopen("https://tinycool.blog.csdn.net/")

其成员变量和无参函数如下

成员说明成员说明
version版本11length内容长度50672
status状态200getcode()
url.code
状态码200
readable()是否可读Truewritable()是否可写False
seekable()是否可seekFalsechunked是否已编码False
closed
url.isclosed()
是否已关闭Falseisatty()False
fileno底层套接字序号700msg状态信息‘ok’

此外,变量res.url链接'https://tinycool.blog.csdn.net/'

其他像诸如close()flush()read()write与文件操作中的函数类似。例如,read(5)表示读取5个字符,read()表示读取所有内容,readline表示读取一行。

统计CSDN博客阅读量

CSDN非常友好地为创作者提供了诸多统计工具,对近期博客进行数据可视化。然而,似乎并没有对文章的阅读数做实时的记录,所以只能查看每日阅读量,而不能更加细致地查看每小时的阅读量。对于程序员来说,获取这个信息是轻而易举的。

import urllib.request as ur
url = 'https://tinycool.blog.csdn.net/article/list/1'
res = ur.urlopen(url)
text = res.read().decode('utf-8')

即准备爬取的页面如下,想要爬取的内容是文章列表的链接

在这里插入图片描述

唯一有点麻烦的就是,在获取网页数据之后,需要对这个数据进行解析。一般来说,适用于爬虫的最佳拍档是BeautifulSoup,但考虑到本文主要介绍标准库中的urllib,不宜引入更多其它的模块,所以接下来用正则表达式来实现对网页的解析。

首先,考虑到我们的目的是获取所有文章的链接,而文章链接基本都是https://tinycool.blog.csdn.net/article/details/128429200这种比较统一的格式,其中最后是9位数字表示博客序号。

import re
article = r'details/[0-9]*'
details = re.findall(article, text)
len(details)
# 结果为101,即找到了101篇博客

但这101篇博客中,有不少是左侧热门文章之类的,但是没关系,最后只需将所有文章号做个单值化就好了。而且经过实测,发现其中有61篇都是不知道哪来的博客。

blogId = []
for i in range(1, 100):
    url = f'https://tinycool.blog.csdn.net/article/list/{i}'
    res = ur.urlopen(url)
    text = res.read().decode('utf-8')
    details = re.findall(article, text)
    blogId += [int(d.split('/')[-1]) for d in details]
    if len(details)==61:
        break

blogId = list(set(blogId))

接下来就可以逐一爬取每篇博客了,其中准备爬取的内容包括博客名、发布时间、阅读数,所需爬取的内容包括

TITLE = 'id="articleContentId">.*</h1>'
TIME = '>于&nbsp;\d*-\d\d-\d\d'
VIEW = '"read-count">\d*'
def parseRes(url):
    res = ur.urlopen(url)
    text = res.read().decode('utf-8')
    title = re.findall(TITLE, text)[0]
    title = title.split('>')[1][:-4]
    print(title)
    t = re.findall(TIME, text)[0]
    t = t.split(';')[1]
    v = re.findall(VIEW, text)[0]
    v = v.split('>')[1]
    return [title, t, v]

然后对所有数据进行相同的操作

infos = []
for id in blogId:
    url = f'https://tinycool.blog.csdn.net/article/details/{id}'
    try: infos.append(parseRes(url))
    except: continue

获取所有数据之后,可查看一下阅读量分布

views = [int(i[2]) for i in infos]
import matplotlib.pyplot as plt
plt.hist(views)

得到结果如下,可见大部分博客的阅读量都在1000以内,实在是太凄惨了。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/126945.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ES学习路程(二)

关于ES第一篇是在Linux安装&#xff0c;为了方便我在windows搭建一套ES和kibana版本&#xff08;7.15.0&#xff09; 第一步&#xff1a;下载安装ES在windows 官网下载相应版本的es和kibana&#xff1a; https://www.elastic.co/cn/downloads/past-releases/elasticsearch-7…

《图解TCP/IP》阅读笔记(第八章 8.6、8.7)—— 网络管理与其他应用层协议

前言 本篇是第八章的最后一篇 8.6 网络管理 从前&#xff0c;网络管理凭借管理员的记忆和直觉进行&#xff0c;但是网络规模越大&#xff0c;人的力量就越不足&#xff0c;所以需要一个严密的管理工具或方法。 在TCP/IP的网络管理中&#xff0c;可以使用SNMP&#xff08;Si…

uni-app——小程序实现本地图片的上传以及身份证的智能识别

文章目录 前言一、示例图二、实现过程 1.完成提交图片的api地址2.获取本地图片3.将本地图片上传至开发者服务器三、具体实现代码四、身份证的智能识别总结前言 上传本地图片的功能很常见&#xff0c;那么具体该如何实现呢&#xff1f; 一、示例图 二、实现过程 1.完成提交图…

操作系统接口系统调用的实现

接口 连接两个东西&#xff0c;信号转换&#xff0c;屏蔽细节… 操作系统接口 连接上层用户和操作系统软件&#xff0c;方便了使用&#xff0c;屏蔽了细节。 操作系统接口的形式 为应用层提供一些重要的函数&#xff0c;如printf&#xff0c;write&#xff0c;read等。接口…

Windows Active Directory —— 常见的远程控制对比

在windows环境中,需要远程访问的时候很多,使用的工具和命令也各式各样,我把自己常用的命令和工具总结一下 远程访问方式: 1)对服务器而言,RDP这个绝对是最常见的方式,mstsc /v:remoteserver 即可打开 2)winrs和winrm,这个可以允许我们通过命令行来远程访问,远程服务…

TypeScript基础类型

目录 数字 number 字符串 string 布尔 boolean 数组 Array 元组 枚举 enum 任意值 any void Null 和 Undefined null undefined Never 数字 number let age: number 24; 虽然爆红&#xff0c;但是依然能改 字符串 string let name:string"张三" 布尔 bo…

ef参数设置说明(faiss)

1、模型参数&#xff1a;1000代表聚类中心个数 随着聚类个数的增加&#xff0c;模型索引的构建时间近似指数增加但搜索精度也线性增加&#xff0c;不影响内存占用&#xff0c;几乎不影响搜索耗时 结论&#xff1a;在 Faiss 引擎的聚类情况下&#xff0c;对于百万级别的数据大概…

B/S结构和C/S结构详细介绍

什么是c/s结构、b/s结构 1、C/S结构&#xff0c;即Client/Server(客户机/服务器)结构&#xff0c;是大家熟知的软件系统体系结构&#xff0c;通过将任务合理分配到Client端和Server端&#xff0c;降低了系统的通讯开销&#xff0c;充分利用两端硬件环境的优势。早期的软件系统…

Haploview做单倍型教程1--软件安装

大家好&#xff0c;我是邓飞&#xff0c;这里介绍一下如何使用Haploview进行单倍型的分析。 计划分为三篇文章&#xff1a; 第一篇&#xff1a;Haploview做单倍型教程1–软件安装第二篇&#xff1a;Haploview做单倍型教程2-分析教程第三篇&#xff1a;Haploview做单倍型教程3…

HCIA(1)

一. 计算机网络的诞生及发展 1946年2.14日&#xff0c;美国宾夕法尼亚大学为了美国军方用于导弹计算&#xff0c;发明了世界上第一台计算机&#xff0c;而计算机改变并且引领了世界的发展。 计算机是现代一种用于高速计算的电子计算机器&#xff0c;可以进行数值计算&#x…

『C语言』字符串的输入gets()和输出puts()

&#x1f6a9;write in front&#x1f6a9; &#x1f50e;大家好&#xff0c;我是謓泽&#xff0c;希望你看完之后&#xff0c;能对你有所帮助&#xff0c;不足请指正&#xff01;共同学习交流&#x1f50e; &#x1f3c5;2021年度博客之星物联网与嵌入式开发TOP5&#xff5…

MATLAB-fplot绘图函数

前面介绍的plot函数是将外部输人或者通过函数数值计算得到的数据矩阵转化为二维图形。在实际的应用中&#xff0c;用户可能并不知道所要绘制的二维图形中函数随着变量变化的趋势,假如此时用plot函数来绘制图形&#xff0c;则可能会由于变量的取值间隔不合理而导致所绘制的二维图…

2022年广西最新建筑施工焊工(建筑特种作业)模拟试题及答案

百分百题库提供特种工&#xff08;焊工&#xff09;考试试题、特种工&#xff08;焊工&#xff09;考试预测题、特种工&#xff08;焊工&#xff09;考试真题、特种工&#xff08;焊工&#xff09;证考试题库等,提供在线做题刷题&#xff0c;在线模拟考试&#xff0c;助你考试轻…

C++【跳表】

文章目录一、什么是跳表二、跳表的实现三、跳表性能分析一、什么是跳表 skiplist本质上也是一种查找结构&#xff0c;用于解决算法中的查找问题&#xff0c;跟平衡搜索树和哈希表的价值是一样的&#xff0c;可以作为key或者key/value的查找模型。 skiplist是由William Pugh发…

rabbitmq镜像模式

rabbitmq集群模式分为两种&#xff1a;普通模式和镜像模式 如果不设置集群模式则为普通模式&#xff0c;下面是将集群修改为镜像模式 镜像集群 RabbitMQ镜像功能&#xff0c;需要基于RabbitMQ策略来实现&#xff0c;策略policy是用来控制和修改群集范围的某个vhost的队列行为…

STM32/51单片机实训day8——基于Keil5+Proteus8使用DHT11温度传感器实现温湿度采集并在LM016L液晶屏上显示

目录 任务指导 1 DHT11产品概述 2 应用领域 3 传感器性能说明 4 接口说明 5 电源引脚 6 串行接口(单线双向) 通讯过程如图3所示&#xff1a; 任务实现​​​​​​​ 内 容&#xff1a;本任务使用DHT11温度传感器实现基本的端口配置、初始化时序。 学 时&#xff1a;3…

深度学习——样式迁移(笔记)

样式迁移&#xff1a;计算机视觉应用之一 1.将样式图片中的样式&#xff08;比如油画风格&#xff09;迁移到内容图片上&#xff0c;得到合成的图片 2.基于CNN的样式迁移 ①初始化合成图像&#xff0c;将其初始化内容图像。合成图像是风格迁移过程中唯一需要更新的变量X&#…

ChatGPT一战封神,和它聊完后,我更想躺平了

11 月 30 日&#xff0c;OpenAI 发布了名为 ChatGPT 的 AI 对话模型&#xff0c;它是 InstructGPT 的衍生模型&#xff0c;是根据 GPT-3.5 系列中的一个模型微调而来的&#xff0c;于 2022 年初完成训练。 用户规模达到 100 万需要多久&#xff1f;Netflix 用了三年半时间&…

刷题记录:牛客NC26257小雨坐地铁 [分层图跑最短路]

传送门:牛客 题目描述: 题目暂略 输入: 5 2 1 4 2 2 3 1 3 5 2 1 4 2 3 4 5 输出: 7一道分层图的经典题型,可以细细体会,这道题模拟出了经典的分层图题型 主要思路: 首先我们那道这道题应该不难想到最短路(这是显然的吧).大多数人应该都是卡在了建边的部分.每一条线路各自的…

【不共视的天敌】手眼标定AX = XB

一 . 手眼标定的作用及目的 机器人视觉应用中,手眼标定是一个非常基础且关键的问题。简单来说手眼标定的目的就是获取机器人坐标系和相机坐标系的关系,最后将视觉识别的结果转移到机器人坐标系下。 手眼标定行业内分为两种形式,根据相机固定的地方不同,如果相机和机器人末…