爬取CSDN博文到本地(包含图片,标签等信息)

news2024/10/23 2:40:43

文章目录

  • csdnToMD
    • 改进
    • 将CSDN文章转化为Markdown文档
    • 那有什么办法快速得到md文档?
    • 例如:
      • 获取单个文章markdown
      • 获取所有的文章markdown
    • 项目中待解决的问题

csdnToMD

项目原作者:https://gitee.com/liushili888/csdn-is—mark-down

改进后仓库地址:https://github.com/Xiamu-ssr/csdnToMD

改进

这里进行一定的改进,可以更准确获取时间,也可以选择图片的存放方式是否集中或分离到每篇文章的同名文件夹,以适应部分md扩展语法,比如{% asset_img 1.png %}

爬取结果截图
在这里插入图片描述
在这里插入图片描述

将CSDN文章转化为Markdown文档

很多情况下,我们需要将CSDN中的文章转化为markdown文档,直接复制全文是不可以的,CSDN不支持。

那有什么办法快速得到md文档?

原理:

  • 由于CSDN不是获取数据不是前后端分离的,所以无法根据接口获取文章的所有数据,它的数据是和页面元素组合在一起的,需要根据页面中的元素标签转化为markdown中的元素标签。
  • 使用jsoup解析csdn文档
  • 利用jericho-htmlflexmark-alljsoupselenium等工具将html文档转化为markdown文档

使用:

  • https://googlechromelabs.github.io/chrome-for-testing/下载chromedriver,解压后修改DynamicScraperTime函数的驱动地址。如果不下载驱动也可以,把String time = DynamicScraperTime(startUrl);的获取换成下一行被注释的就行,但是因为页面动态加载的原因,会无法获取准确的时间。
  • 然后直接将CSDN文章的url放入crawler类即可

例如:

获取单个文章markdown

public class Main {
    private static final String CSDN_URL = "https://blog.csdn.net/m0_51390969/";

    public static void main(String[] args) {
        AbstractCrawler crawler = new CsdnCrawler();
        crawler.crawlOne("https://blog.csdn.net/m0_51390969", "131172667");
    }
}

获取所有的文章markdown

public class Main {
    private static final String CSDN_URL = "https://blog.csdn.net/m0_51390969/";

    public static void main(String[] args) {
        AbstractCrawler crawler = new CsdnCrawler();
        crawler.crawl(CSDN_URL);
    }
}

项目中待解决的问题

在这里插入图片描述

TODO ‘> ’标签中包含代码块,需要处理

TODO 代码中格式待处理

TODO 增加GUI页面

TODO 公式、表格标签的处理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1844229.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

全球AI新闻速递6.20

1.国家药监局综合司:关于印发药品监管人工智能典型应用场景清单的通知。 2.Canalys:预计今年全球 AI 手机市场份额达 16%。 3.Adobe Acrobat 升级 AI 技能:文生图、梳理信息等。 4.中国科大人形机器人研究院揭牌。 5.华为官方预告&#x…

如何下载DVS Gesture数据集?解决tonic.datasets.DVSGesture错误HTTP Error 403: Forbidden

1 问题 DVSGesture数据集是一个专注于动态视觉传感(Dynamic Vision Sensor, DVS)技术的数据集,它包含了基于事件的图像记录,用于手势识别任务。DVSGesture数据集由一系列动态图像组成,这些图像是通过动态视觉传感器捕…

静态网页处理复杂请求

目录 1.定制请求头 (1).查看请求头 (2).设置请求头 2.验证 Cookie 3.保持会话 4. SSL 证书验证 在互联网中,网页中的内容是千变万化的,如果只根据请求 URL 发送基本请求,则可能 无法获取网站的响应数据&#xff0…

[创业之路-118] :制造业企业的必备管理神器-ERP-制造业的基本方程式与ERP的发展历程,哪些企业需要ERP?

目录 一、制造业的基本方程式 1.1 基本方程式 1.2 制造的数学模型 二、ERP的发展历程 2.1 发展历程 2.2 比较 三、过往产品回顾 3.1 定货点法 3.2 时段式ERP 3.3 闭环式MRP 3.4 ERP 四、哪些企业需要ERP 4.1 概述 4.2 软件企业需要ERP吗? 一、制造业的…

扫码点餐小程序搭建 商家智能化服务的新趋势

在这个数字化飞速发展的时代,独具个性的扫码点餐小程序也成为了人们对于店铺整体形象的加分项,店铺界面设计新颖、点餐操作简捷、让人心情愉悦的取餐时间差都成为了大家公认的打卡理由之一。因此,高颜值的实用点餐小程序也成为了商家们的店铺…

Hadoop安装和测试

一,下载 地址:Index of /dist/hadoop/common 选择3.3.6版本(最新版本之前的一个版本,一般比较稳定) 二,解压 解压到/data/module目录,这里随便自定义就好。 tar -zxvf hadoop-3.3.6.tar.gz …

超级好用的JSON格式化可视化在线工具

JSON是开发非常常用的一种报文格式,最常见的需求就是将JSON进行格式化,最好是有图形化界面显示结构关系,以便进行数据分析。 理想的在线JSON工具,应该支持快速格式化、可压缩、快捷复制、可下载导出,对存在语法错误的地方能明确显示。提供搜索定位功能,可视区足够大,最好…

CPU核心是如何影响VPS性能的?

为什么VPS对于各种类型和规模的网站和应用程序来说都是非常出色的解决方案? 首先,它比其他类型的托管具有许多优势,但也许它最大的优势是它可以以合适的价格为您提供合适的性能。 然而,只有当您满足所需的规格时它才会这样做。 …

Linux环境编程基础学习2

For循环累加求和,两种方式,c方式的运算更快 打开文件操作 cat操作的实现 EOF: 1.diff A B比较两个文件是否一样,一样则什么结果都没有 Od -c 文件名可以显示出文件中的不可见字符

贴图法美化Button按钮

贴图法美化Button按钮 项目是在下面这篇文章里的基础上进行美化的:MFC实现INI配置文件的读取 1. 初始效果 2.最终效果 3. 增加 CImgButton 类 1.1 ImgButton.h 头文件 #pragma once // CImgButtonclass CImgButton : public CBitmapButton {DECLARE_DYNAMIC(CImgBu…

IT人周末兼职跑外面三个月心得分享

IT人周末兼职跑外面三个月心得分享 这四个月来,利用周末的时间兼职跑外面,总共完成了564单,跑了1252公里,等级也到了荣耀1,周末不跑就会减分。虽然收入只有3507.4元。 - 每一次的接单,每一段路程&#xff…

定时器-前端使用定时器3s轮询状态接口,2min为接口超时

背景 众所周知,后端是处理不了复杂的任务的,所以经过人家的技术讨论之后,把业务放在前端来实现。记录一下这次的离大谱需求吧。 如图所示,这个页面有5个列表,默认加载计划列表。但是由于后端的种种原因,这…

Vue3 + Element-plus + TS —— 动态表格自由编辑

前期回顾 《 穿越时空的代码、在回首:Evil.js两年后的全新解读 》-CSDN博客 Vue3 TS Element-Plus 封装Tree组件 《亲测可用》_ https://blog.csdn.net/m0_57904695/article/details/131664157?spm1001.2014.3001.5501 态表格 自由编辑 目录 ♻️ 效果图…

【物联网】物联网操作系统简介

目录 一、物联网操作系统概述 1.1内存占用 1.2 内存管理 二、物联网操作系统构成 三、物联网操作系统关键特性 3.1 调度方式 3.2 I/O操作方式 3.3 网络服务 3.3.1 TinyOS网络协议栈 3.3.2 LiteOS网络协议栈 一、物联网操作系统概述 物联网操作系统是支撑物联网大规模…

极限编程里最容易被忽略的实践

在前面的一篇文章里面我和大家聊过了极限编程的重要性,今天想和大家聊聊极限编程里面最简单但也往往最容易被忽略的实践——编码规范。 说到编码规范,每一个开发人员都非常熟悉,每一个团队也都有自己的编码规范。但实际的执行情况如何呢&…

MySQL 8版本的新功能和改进有哪些?(MySQL收藏版)

目录 1. 简单介绍 2. 发展历史 3. MySQL 8产品特性 4. 数据库性能重点分析 1. 原生 JSON 支持改进 2. 隐式列优化 3. 改进的查询优化器 4. 并行查询 5. 分区表改进 MySQL 是一个流行的开源关系型数据库管理系统(RDBMS),由瑞典公司 M…

变长的时间戳设计

以前的时间戳有32位,以秒为单位,231秒≈68年,从1970年开始,到2038年会出问题。 后来出现的时间戳有64位,以纳秒为单位,263纳秒≈292年。 本次设计的变长时间戳,以32比特为单位,总共…

“尚泉杯”2024 演讲朗诵公益展演展播在京启动

2024 年 6 月 15 日“尚泉杯”2024 演讲朗诵公益展演展播启动仪式在北京隆重举行。本次活动宗旨是响应领导讲话精神,通过演讲朗诵等形式弘扬中国文化,展现中国魅力,促进文化交流。 活动以“爱我中华”为主体线索,鼓励参与者采用不…

显卡nvidia的CUDA和cuDNN的安装

显卡版本,和nvidia下载的 CUDA版本和CUDNN的关系 1. 显卡版本 nvidia-smi 硬件环境:显卡版本 4090 NVIDIA-SMI-555.85 我的驱动是510.85.02,驱动附带cuda12.5 2. nvidia下载的cuda版本 nvcc -V 我下载的是cuda12.5 cuda在安装版本过程…

新手下白对Latex下手啦!

第一次使用latex,浅浅地记录一下子吧。 首先我们一般会下载一个latex模板,如果想知道咋下载,评论去告诉俺哟! 新手小白首先要看懂结构,不然完全下不了手,本文就以IEEE的模板,从头往下讲咯~ 第…