1. 如何爬取自己的CSDN博客文章列表(获取列表)(博客列表)(手动+python代码方式)

news2024/10/2 10:30:00

文章目录

    • 写在最前
    • 步骤
      • 打开chrome浏览器,登录网页
      • 按pagedown一直往下刷呀刷呀刷,直到把自己所有的博文刷出来
      • 然后我们按F12,点击选取元素按钮
      • 然后随便点一篇博文,产生如下所示代码
      • 然后往上翻,找到头,复制
      • 然后到编辑器里粘贴,然后保存文件为export.html
      • 用vscode格式化
      • 撰写python代码parse.py
      • 将export.html恢复之前的格式
      • 执行解析代码
      • 查看articles.json文件
    • 本篇文章就告一段落了,如有兴趣,可以看我下一篇文章,我们基于本篇文章得到的结果,获取每篇CSDN博文质量分并将列表展示在网页上

下一篇:2. 获取自己CSDN文章列表并按质量分由小到大排序,并展示在网页上(文章质量分、博文质量分)

写在最前

一开始我想弄个python代码,直接爬取https://blog.csdn.net/Dontla?type=blog页面的的所有已发布文章列表,但是貌似爬不到,也不知道是什么原因,可能是大佬做了限制,不让爬。。。

我只能想其他办法了,,,

后来想到一个办法,既然不让爬,就自己手工拷贝吧,这还是能做到的。

步骤

打开chrome浏览器,登录网页

https://blog.csdn.net/Dontla?type=blog

在这里插入图片描述

按pagedown一直往下刷呀刷呀刷,直到把自己所有的博文刷出来

在这里插入图片描述

刷完老费劲了

然后我们按F12,点击选取元素按钮

在这里插入图片描述

然后随便点一篇博文,产生如下所示代码

这里每一个article开头的都我们刚刚刷出来的一篇博文:

在这里插入图片描述

然后往上翻,找到头,复制

找到这个div data...>的头,然后点击右键,选择复制复制–>复制outerHTML:

在这里插入图片描述

然后到编辑器里粘贴,然后保存文件为export.html

在这里插入图片描述

用vscode格式化

格式化之后,就很清晰了,每个article标签就是我们的一篇博文,我们就是要对每个article标签内的内容实行抓取:

在这里插入图片描述

撰写python代码parse.py

求助最强大脑:

我有一个export.html文件,里面有很多个article标签,每个标签内容大致如下:

  <article data-v-6fe2b6a7="" data-v-bb5f5e3e="" class="blog-list-box"><a data-v-6fe2b6a7=""
      href="https://dontla.blog.csdn.net/article/details/132237839" target="_blank"
      data-report-click="{&quot;spm&quot;:&quot;3001.5502&quot;}" data-report-query="spm=3001.5502">
      <div data-v-6fe2b6a7="" class="blog-img-box"><img data-v-6fe2b6a7=""
          src="https://img-blog.csdnimg.cn/3b61264764cb43f8ad91b6b5b7e4e65e.png" alt="" class="course-img"></div>
      <div data-v-6fe2b6a7="" class="list-box-cont">
        <div data-v-6fe2b6a7="">
          <div data-v-6fe2b6a7="" class="blog-list-box-top">
            <h4 data-v-6fe2b6a7="">python虚拟环境venv安装报错:error: invalid command ‘bdist_wheel‘(需要在虚拟环境中安装wheel包,pip install
              wheel)</h4>
          </div>
          <div data-v-6fe2b6a7="" class="blog-list-content">
            是一个Python的打包工具,用于构建和安装Python软件包。包,然后再安装之前安装报错的包。在虚拟环境中运行以下命令安装。这个错误通常是由于缺少。</div>
        </div>
        <div data-v-6fe2b6a7="" class="blog-list-footer">
          <div data-v-6fe2b6a7="" class="blog-list-footer-left">
            <div data-v-6fe2b6a7="" class="article-type article-type-yc">
              原创
            </div> <!----> <!----> <!---->
            <div data-v-6fe2b6a7="" class="view-time-box">
              发布博客&nbsp;2 小时前&nbsp;·
            </div>
            <div data-v-6fe2b6a7="" class="view-num-box"><span data-v-6fe2b6a7="" class="view-num">6<span
                  data-v-6fe2b6a7="" class="two-px">&nbsp;阅读&nbsp;·</span></span></div>
            <div data-v-6fe2b6a7="" class="give-like-box"><span data-v-6fe2b6a7="" class="give-like-num">0<span
                  data-v-6fe2b6a7="" class="two-px">&nbsp;点赞&nbsp;·</span></span></div>
            <div data-v-6fe2b6a7="" class="comment-box"><span data-v-6fe2b6a7="" class="comment-num">0<span
                  data-v-6fe2b6a7="" class="two-px">&nbsp;评论&nbsp;·</span></span></div>
            <div data-v-6fe2b6a7="" class="comment-box"><span data-v-6fe2b6a7="" class="comment-num">0<span
                  data-v-6fe2b6a7="" class="two-px">&nbsp;收藏</span></span></div>
          </div> <!---->
        </div>
      </div>
    </a></article>

我需要你用python帮我遍历这个文件,然后将每个article中的内容提取出来,做成一个json文件,每个文章提取为一个数组元素,数组元素中要有以下字段:article_url字段(class="blog-list-box"后面那个)、article_title字段(class="blog-list-box-top"后面那个)、article_type(class="article-type article-type-yc"后面那个)

根据最强大脑给出的结果,我再删删改改,得出了这样一个代码:

(parseHtml.py)

from bs4 import BeautifulSoup
import json

# 读取HTML文件
with open('export.html', 'r', encoding='utf-8') as f:
    html = f.read()

# 创建BeautifulSoup对象
soup = BeautifulSoup(html, 'html.parser')

# 遍历article标签
articles = []
for article in soup.find_all('article'):
    # 提取字段内容
    article_url = article.find('a')['href']
    article_title = article.find('h4').text
    article_type = article.find(class_='article-type').text.strip()

    # 构造字典
    article_dict = {
        'article_url': article_url,
        'article_title': article_title,
        'article_type': article_type
    }

    # 添加到数组
    articles.append(article_dict)

# 生成json文件
with open('articles.json', 'w', encoding='utf-8') as f:
    json.dump(articles, f, ensure_ascii=False, indent=4)

代码解释:使用BeautifulSoup库来解析HTML文件,并使用json库来生成json文件。

将export.html恢复之前的格式

执行前我们先恢复原始格式,因为我的vscode格式化之后,貌似加入了很多无关的\n以及空格,搞到后面解析结果不好了:

在这里插入图片描述

我们把export.html文本恢复成这样:

在这里插入图片描述

执行解析代码

在这里插入图片描述

执行python代码:

python3 parse.py

在这里插入图片描述
在这里插入图片描述

生成了articles.json文件。

查看articles.json文件

可以说结果非常的完美:

在这里插入图片描述

[
{
“article_url”: “https://dontla.blog.csdn.net/article/details/132237839”,
“article_title”: “python虚拟环境venv安装报错:error: invalid command ‘bdist_wheel‘(需要在虚拟环境中安装wheel包,pip install wheel)”,
“article_type”: “原创”
},
{
“article_url”: “https://dontla.blog.csdn.net/article/details/132212623”,
“article_title”: “Docker可视化容器监控工具portainer.io(docker监控docker)(Docker Standalone、Docker Swarm、Kubernetes、ACI、Nomad)监控容器”,
“article_type”: “原创”
},
{
“article_url”: “https://dontla.blog.csdn.net/article/details/132216588”,
“article_title”: “FQDN是什么?全限定域名(Fully Qualified Domain Name)(主机名、次级域名、顶级域名)”,
“article_type”: “转载”
},
{
“article_url”: “https://dontla.blog.csdn.net/article/details/132178650”,
“article_title”: “ubuntu python虚拟环境venv搭配systemd服务实战”,
“article_type”: “原创”
}
]

本篇文章就告一段落了,如有兴趣,可以看我下一篇文章,我们基于本篇文章得到的结果,获取每篇CSDN博文质量分并将列表展示在网页上

下一篇:2. 获取自己CSDN文章列表并按质量分由小到大排序,并展示在网页上(文章质量分、博文质量分)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/865178.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

DC-9靶机(端口敲门服务Knockd)

DC-9靶机地址 信息收集 主机发现 靶机MAC&#xff1a;00:0C:29:5A:C1:F4 arp-scan -l端口扫描 nmap -A -p- 192.168.80.142访问80端口 目录爆破 dirsearch -u 192.168.80.139 -i 200点击页面上的四个标签&#xff0c;发现 有个搜索 框&#xff0c;有个登录框 先用bp抓个包…

atxserver2环境搭建

1. 卸载python3.11.4版本 $sudo rm -rf /Library/Frameworks/Python.framework/Versions/3.11/ $sudo rm -rf /Applications/Python\ 3.11/ 第三步&#xff1a;删除指向python的链接 cd /usr/local/bin/ ls -l /usr/local/bin | grep /Library/Frameworks/Python.framework/…

利用logstash将graylog日志传输到kafka中

1.graylog配置输出 在System-outputs&#xff0c;选择GELF Output&#xff0c;填写如下内容&#xff0c;其它选项默认 在要输出的Stream中&#xff0c;选择Manage Outputs 选择GELF Output&#xff0c;右边选择刚才创建好的test。 2.安装logstash&#xff0c;作为中间临时…

Vue 整合 Element UI 、路由嵌套和参数传递(五)

一、整合 Element UI 1.1 工程初始化 使用管理员的模式进入 cmd 的命令行模式&#xff0c;创建一个名为 hello-vue 的工程&#xff0c;命令为&#xff1a; # 1、目录切换 cd F:\idea_home\vue# 2、项目的初始化&#xff0c;记得一路的 no vue init webpack hello-vue 1.2 安装…

记录一次使用python调用java代码

Python调用Java代码的主要原理是通过使用Java虚拟机&#xff08;JVM&#xff09;和相关的库/工具实现的。 在Python中&#xff0c;可以使用以下几种方式来调用Java代码&#xff1a; 使用subprocess模块&#xff1a;可以通过subprocess模块来启动一个子进程&#xff0c;并在子进…

OpenGL纹理

纹理采样器----纹理坐标 只有纹理坐标&#xff0c;纹理没有作用。 纹理坐标是在顶点着色器中设置&#xff0c;需要传入片段着色器&#xff0c;在片段着色器中需要定义纹理采样器。 然后调用texture函数利用采样器和纹理坐标对纹理进行采样。 我们使用GLSL内建的texture函数…

大模型落地金融业,想象力在哪?

金融大模型的难点在于&#xff0c;能否在产业中扎得更深&#xff1b;其颠覆性也更建立在&#xff0c;纵深到产业中去&#xff0c;赋能金融行业的长尾场景发展&#xff0c;以及重拾“金融信任”。 作者|思杭 编辑|皮爷 出品|产业家 “从经济角度讲&#xff0c;整个金融业…

界面设计用什么工具好?还不知道这5个吗?

无论是在APP设计&#xff0c;还是网站设计中&#xff0c;界面设计都是非常重要的&#xff0c;今天本文将为大家推荐5个优质的界面设计软件&#xff0c;一起来看看吧&#xff01; 1、即时设计 即时设计是新一代界面设计软件&#xff0c;它不仅为设计师提供了精细的矢量编辑功能…

纯C#使用Visionpro工具1

各个工具的程序集名称 一般分类 一般情况是去掉Tool和Cog就是命名空间&#xff0c;如CogBlobTool对应于Cognex.Visionpro.Blob 也有特殊情况 忘了怎么办 可以借用ToolBlock引入工具后打开高级脚本查看 了解工具类和对象

过河卒(c++题解)

题目描述 棋盘上 A 点有一个过河卒&#xff0c;需要走到目标 B 点。卒行走的规则&#xff1a;可以向下、或者向右。同时在棋盘上 C 点有一个对方的马&#xff0c;该马所在的点和所有跳跃一步可达的点称为对方马的控制点。因此称之为“马拦过河卒”。 棋盘用坐标表示&#xff…

【Tool】虚拟机安装与调试与设置与主机共享文件

前言 安装了vm17&#xff0c;实现了与主机文件共享&#xff0c; 步骤 下载虚拟机&#xff08;试用版&#xff09; Download VMware Workstation Pro 双击安装 暂不激活或者 使用如下激活码 KRNJX-22GXY-HCW46-MWYHY-YWRDB RDHTN-YFFKY-8YVR7-Q996Y-K74X3 N2XRH-GCH84-MV…

Linux系统上多文件C程序的编译与调试

一、先建立一个头文件add.h 通过vi创建一个add.h&#xff0c;并进行编写该文件&#xff0c;用来存放求和函数add()的声明&#xff1a; 二、建立一个add.c文件 通过vi创建一个add.c文件&#xff0c;并进行编写&#xff0c;用来存放求和函数add()的实现&#xff1a; 三、建立一…

写给 Android 应用工程师的 Binder 原理剖析

一. 前言 这篇文章我酝酿了很久&#xff0c;参考了很多学习文档&#xff0c;读了很多源码&#xff0c;却依旧不敢下笔。生怕自己理解上还有偏差&#xff0c;对大家造成误解&#xff0c;贻笑大方。又怕自己理解不够透彻&#xff0c;无法用清晰直白的文字准确的表达出 Binder 的…

构建之法 - 软件工程实践教学:一线教师的13问

福州大学单红老师的软工课程总结 2020春&#xff0c;不一样的学期不一样的软工实践 单红⽼师在总结中&#xff0c;提出了13条疑惑&#xff0c;《构建之法》的作者邹欣⽼师就单红⽼师提出的每⼀条疑惑&#xff0c;给出了⾃⼰的思考&#xff0c;与他进⾏探讨交流。欢迎你也来参与…

怎么系统的学习机器学习、深度学习?当然是看书了

目录 前言 内容简介 学完本书&#xff0c;你将能够 作者简介 本书目录 京东自购链接 前言 近年来&#xff0c;机器学习方法凭借其理解海量数据和自主决策的能力&#xff0c;已在医疗保健、 机器人、生物学、物理学、大众消费和互联网服务等行业得到了广泛的应用。自从Ale…

新机器到了要做的事情

文章目录 新机器到了要做的事情背景检查机器安装系统装系统步骤 总结 新机器到了要做的事情 背景 运维 一台机器到了&#xff0c;去看看机器情况&#xff0c;小编之前是开发呀&#xff0c;由于种种原因&#xff0c;阴差阳错的做了运维&#xff0c;本以为是应用运维&#xff0c…

《Java-SE-第三十四章》之Optional

前言 在你立足处深挖下去,就会有泉水涌出!别管蒙昧者们叫嚷:“下边永远是地狱!” 博客主页&#xff1a;KC老衲爱尼姑的博客主页 博主的github&#xff0c;平常所写代码皆在于此 共勉&#xff1a;talk is cheap, show me the code 作者是爪哇岛的新手&#xff0c;水平很有限&…

2023/8/11题解

时间限制: 1000MS 内存限制: 65536KB 解题思路 建树 模拟 &#xff0c;复杂在于建树&#xff0c;此处从题目需求可知需要按层建树&#xff0c;所以需要队列模拟&#xff0c;查找比较容易就是普通的深搜 参考代码 #include<bits/stdc.h> using namespace std; vector<…

【自用】云服务器 使用 docker 搭建 HomeAssistant + MQTT 物联网平台

总览 1.搭建流程概述 2.准备工作 3.开始搭建&#xff01; 4.总结 如果想看 ESP32 或其他使用 MicroPython 编程的单片机如何连接到该云服务器&#xff0c;实现 HomeAssistant 控制 单片机的内容&#xff0c;请看我这篇博客的下一篇。 一、搭建流程概述 0.总体流程 我们需要…

Excel小技巧揭秘:结合3行Bat代码,轻松提升工作效率

在日常工作中&#xff0c;Excel是一个不可或缺的工具&#xff0c;而掌握一些小技巧可以大大提升我们的工作效率。今天&#xff0c;我们将介绍一种巧妙的方法&#xff0c;结合仅有3行Bat代码&#xff0c;让你在Excel中实现更多的功能&#xff0c;让同事们都会对你赞叹不已&#…