Python爬虫实战(实战篇)—17获取【CSDN某一专栏】数据转为Markdown列表放入文章中

news2024/9/25 1:13:40

文章目录

  • 专栏导读
  • 背景
  • 结果预览
  • 1、页面分析
  • 2、通过返回数据发现适合利用lxml+xpath
  • 3、进行Markdown语言拼接
  • 总结

专栏导读

在这里插入图片描述

🔥🔥本文已收录于《Python基础篇爬虫》

🉑🉑本专栏专门针对于有爬虫基础准备的一套基础教学,轻松掌握Python爬虫,欢迎各位同学订阅,专栏订阅地址:点我直达

🤞🤞此外如果您已工作,如需利用Python解决办公中常见的问题,欢迎订阅《Python办公自动化》专栏,订阅地址:点我直达

🔺🔺此外《Python30天从入门到熟练》专栏已上线,欢迎大家订阅,订阅地址:点我直达

背景

  • 我经常会将CSDN写过的某一专栏的其他文章转为Markdown列表,放入到新的文章中,这样方便友友们看到我之前的写的文章,然后点击链接即可跳转查看!!,我觉得这样非常方便

结果预览

在这里插入图片描述

1、页面分析

  • 就以我的【爬虫专栏进行分析】

  • 爬取URL:https://blog.csdn.net/weixin_42636075/category_11978272.html

  • 爬取方法:GET

  • 返回数据:整个页面(TXT)

在这里插入图片描述

在这里插入图片描述

  • 初步代码

# -*- coding: UTF-8 -*-
'''
@Project :项目名称
@File    :程序.py
@IDE     :PyCharm
@Author  :一晌小贪欢
@Date    :2024/05/27 17:00
'''

import json
import requests
from lxml import etree

url = 'https://top.baidu.com/board?'
cookies = {
    'Cookie': '填写自己的Cookie',
}

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',

}

params = {
'spm': '1001.2014.3001.5482'
}

res_data = requests.get(url=url, params=params, headers=headers, cookies=cookies)
res_data.encoding = "utf-8"
print(res_data.text)

在这里插入图片描述

2、通过返回数据发现适合利用lxml+xpath

  • 我们发现返回的数据是整个网页,其中每一个【文章标题】以及【文章链接】都在其中

  • 经过分析得到,所有的 【文章标题】以及【文章链接】都在如下的xpath中

  • //ul[@class="column_article_list"]//li//a【文章链接】
  • //ul[@class="column_article_list"]//li//div[@class="column_article_title"]//h2【文章标题】

3、进行Markdown语言拼接

  • 搞定!!

-在这里插入图片描述

文章名称链接
Python爬虫实战(实战篇)—16获取【百度热搜】数据—写入Ecel(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—15获取东方财富网股票数据—写入csv(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—14获取【巴黎圣母院新闻网(Notre Dame News)】新闻写入Word(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—13获取《人民网》【最新】【国内】【国际】写入Word(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—11—360翻译(附完整代码)点我进行跳转
爬虫模板(附完整代码+案例)点我进行跳转
Python爬虫实战(基础篇)—10获取故宫博物院—故宫壁纸(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—9获取某个城市天气(附完整代码)点我进行跳转
Python爬虫实战(进阶篇)—8获取TOP电影信息并存入Excel(附完整代码)点我进行跳转
Python爬虫实战(进阶篇)—7获取每日菜价(附完整代码)点我进行跳转
关于一些xpath定位小技巧(svg,img,g等元素的定位问题)点我进行跳转
Python爬虫实战(进阶篇)—6获取微某博信息(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—5获取xx小说(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—4获取古诗词给孩子学习(附完整代码)点我进行跳转
Python爬虫实战(高级篇)—3百度翻译网页版爬虫(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—2获取一首歌的歌词(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—1获取微博TOP10热搜(附完整代码)点我进行跳转
Xpath定位同级、父级元、子级元素、最后一个元素点我进行跳转
Python+Fiddler爬取手机app1----配置(保姆级)点我进行跳转
Python控制selenium之谷歌驱动器切入iframe(内嵌框架)点我进行跳转
Python—selenium控制本地浏览器并获取网页数据点我进行跳转
python解决输入框支持输入多个单号(5000单)快速复制粘贴进去点我进行跳转
国税局验证码识别 & 识别不了我还不能input吗点我进行跳转
selenium之显示等待(等到某个元素出现后再继续执行)点我进行跳转

总结

  • 希望对初学者有帮助

  • 致力于办公自动化的小小程序员一枚

  • 希望能得到大家的【一个免费关注】!感谢

  • 求个 🤞 关注 🤞

  • 此外还有办公自动化专栏,欢迎大家订阅:Python办公自动化专栏

  • 求个 ❤️ 喜欢 ❤️

  • 此外还有爬虫专栏,欢迎大家订阅:Python爬虫基础专栏

  • 求个 👍 收藏 👍

  • 此外还有Python基础专栏,欢迎大家订阅:Python基础学习专栏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1706130.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

振弦式土压力计:功能优势与专业应用

振弦式土压力计,作为一种广泛应用于土木工程领域的测量仪器,具有多种功能优势,使得它成为了解被测结构物内部土压力变化的有效工具。下面我将详细介绍振弦式土压力计的功能优势及其在土木工程中的应用。 点击输入图片描述(最多30字…

如何查询自己银行卡发卡银行归属地

一、引言 银行卡归属地是指银行卡的发卡银行所在的城市或地区。对于持卡人而言,了解银行卡的归属地不仅有助于管理个人账户,还能在需要时快速联系到发卡银行。本文将详细介绍如何查询银行卡的归属地。 二、查询方法 通过银行卡号查询 银行卡号中的前几…

工业触摸屏一般用哪种

工业触摸屏一般使用以下几种类型:1.电阻式触摸屏:电阻式触摸屏是最常见和常用的工业触摸屏类型之一。它由两层导电层组成,当屏幕上的物体接触到触摸屏时,两个导电层之间会发生电阻变化,触摸点的坐标信息可以通过测量电…

软件设计师中级 重点 笔记

文章目录 下午题目网络DNS域名解析分类:域名协议简介网络设备 算法软件工程实体联系图(E-R图) 其它 下午题目 数据流图补充原则 22年下半年真题 更早-真题大全 答题技巧 网络 DNS域名解析分类: 递归查询的顺序:1.本…

概率分布函数与误差函数的关系

正态函数(高斯分布) 对其求[b,x]区间的积分 标准误差函数 以下两个方程相等(a,b取值任意) 两个函数重合 可知正态函数 f(t) 在[b,x]的区间上积分等于 引用desmos计算器:Desmos | Lets learn together.

Linux--进程间通信(1)(匿名管道)

目录 1.了解进程通信 1.1进程为什么要通信 1.2 进程如何通信 1.3进程间通信的方式 2.管道 2.1管道的初步理解 2.2站在文件描述符的角度-进一步理解管道 2.3 管道的系统调用接口(匿名管道) 2.3.1介绍接口函数: 2.3.2编写一个管道的代…

javaee---IO代码练习

实现一个小程序要求: 扫描指定目录,并找到名称中包含指定字符的所有普通文件(不包含目录),并且要求询问用户是否要删除这个文件 代码示例 public static void main(String[] args) {//1.先让用户指定一个要扫描的目录Scanner scanner new Scanner(System.in);System.out.pri…

振弦式位移计主要应用在哪些工程领域

随着科技的不断发展,工程建设的规模和复杂度也在逐步提升,因此对于工程安全性的要求也日益增高。在这一背景下,振弦式位移计作为一种先进的测量工具,逐渐在工程安全监测领域得到了广泛的应用。本文将详细介绍振弦式位移计的原理、…

企企通入选第一新声《2024年中国CIO数字化产品选型白皮书》供应链数字产品可信名录

近日,第一新声研究院根据多年产业数字化研究,历经近半年时间,并综合近200位CIO调研与推荐意见,发布《2024年中国CIO数字化产品选型白皮书》,并推出企业CIO选型指南及可信产品名录。企企通凭借其优秀的采购数字化与供应…

【VTKExamples::Utilities】第六期 DataAnimation

很高兴在雪易的CSDN遇见你 VTK技术爱好者 QQ:870202403 公众号:VTK忠粉 前言 本文分享VTK样例DataAnimation,并解析接口vtkProgrammableFilter,希望对各位小伙伴有所帮助! 感谢各位小伙伴的点赞+关注,小易会继续努力分享,一起进步! 你的点赞就是我的动力(^U…

Vue 组件生命周期:探索钩子

title: Vue 组件生命周期:探索钩子 date: 2024/5/27 18:42:38 updated: 2024/5/27 18:42:38 categories: 前端开发 tags: 生命周期异步加载通信原理父子通信兄弟通信跨层通信性能优化 第 1 章:介绍与背景 1.1 什么是 Vue 组件生命周期? …

小程序大能量:盲盒平台搭建与营销策略

一、引言 在移动互联网的浪潮下,小程序以其轻量级、即用即走的特点,成为了商家与消费者沟通的新桥梁。盲盒经济作为近年来兴起的消费趋势,结合小程序平台,不仅为用户带来了全新的购物体验,也为商家带来了更多的商业机…

unity知识点 专项二 DoTween动画

一、 动画序列(Sequence) 1.1 动画序列相关api 解释 sequence.Append(Tween tween) // 添加一个动画到序列末尾。 sequence.AppendCallback(TweenCallback callback) // 添加回调函数到序列末尾。 sequence.AppendInterval(float interval) // 添加一段…

考试“挂了“用日语怎么说,柯桥商务日语培训

1、もえる 热衷于……,燃烧 除了“燃烧”,还有“热衷于……”的意思,如“家が燃える(房子着火了)”,“勉強に燃える(热衷于学习)”。 A:今(いま&…

重磅,下一代 iOS 迎来重大更新,国行或无缘

iOS 18 近日,海外记者爆料,苹果已与 OpenAI 达成协议,将聊天机器人 ChatGPT 集成到 iOS 18,双方的合作伙伴关系预计将于 WWDC 2024 上官宣。 作为全球供应链大师的苹果,自然也会把「硬件」的一套带到「软件」当中&…

公告:关于博主的重要通知

大家好,我是博主夏目。 本期不分享知识,博主想说明一下博主的一些重要提示。 分享的内容,从不收费,也未向任何人进行收费。 意在分享知识,传播文化,结交更多志同道合的朋友。 截至目前,从未…

企业数据资产入表之数据资产管理【AMT企源】

题记: 近几年以来,我国数字经济占GDP的比重逐年提高,数据资源在经济发展中的重要作用愈发凸显。在数字时代,数据是新型生产要素,也是企业未来的战略性资源。数据驱动创新,驱动经济提质增效,催化…

R包Colorfindr识别图片颜色|用刀剑神域方式打开SCI科研配色

1.前言 最近忙里偷闲,捣鼓一下配色,把童年回忆里的动漫都搬进来,给科研信仰充值吧~ 提取颜色之前写过一个Py的,那个很准确不过调参会有点麻烦。这里分享一个比较懒人点的R包吧,虽然会有一定误差&#xff…

【JavaScript】P3 JavaScipt 注释方法、结束符、输入输出

小结: Js 注释: 单行注释://多行注释:/* */ Js 结束符: 分号; 可以加也可以不加 Js 输入输出: 输入:prompt()输出:document.write() 在页面中打印,console.log() 在控制…

【教程】PaddleOCR高精度文字识别

转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~ PaddleOCR/doc/doc_ch/quickstart.md at main PaddlePaddle/PaddleOCR GitHub 安装 pip install paddlepaddle -i https://mirror.baidu.com/pypi/s…