探索CSDN博客数据:使用Python爬虫技术

news2025/1/5 5:46:47

探索CSDN博客数据:使用Python爬虫技术

在数字化的浪潮中,数据的获取与分析变得日益关键。CSDN作为中国领先的IT社区和服务平台,汇聚了海量的技术博客与文章,成为一座蕴藏丰富的数据宝库。本文将引领您穿梭于Python的requests和pyquery库之间,探索如何撷取CSDN博客的点滴信息,并进行初步的数据处理。

前提声明

  • 爬虫应遵守目标网站的robots.txt协议,尊重版权和用户隐私。
  • 本代码仅供学习和研究使用,不得用于商业用途。
  • 请确保在合法合规的前提下使用本代码。
  • 本代码所爬取的数据为公开可选择的博客信息。

目录

  1. 引言
  2. 环境准备
  3. 爬虫代码解析
  4. 代码解释
  5. 效果展示
  6. 注意事项
  7. 结语
  8. 全部代码

引言

在数字化时代,数据的获取和分析变得越来越重要。作为一名程序员或数据分析师,我们经常需要从各种在线平台抓取数据以进行进一步的分析或学习。CSDN作为中国最大的IT社区和服务平台,拥有大量的技术博客和文章,是一个丰富的数据源。本文将介绍如何使用Python的requests和pyquery库来爬取CSDN博客的信息,并进行简单的数据处理。

环境准备

在开始之前,确保你的环境中已经安装了Python,并且安装了以下库:

  • requests:用于发送网络请求。
  • pyquery:一个解析HTML的库,类似于jQuery。

可以通过pip安装这些库:

pip install requests pyquery

爬虫代码解析

import requests
from pyquery import PyQuery as pq

# 用户输入CSDN账号
account = input('请输入CSDN ID:')

# 构建基本的URL
baseUrl = f'http://blog.csdn.net/{account}' 
myUrl = f'{baseUrl}/article/list/1'

# 设置请求头,模拟浏览器访问
headers = {
    'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
}

# 发送请求并获取页面内容
myPage = requests.get(myUrl, headers=headers).text
doc = pq(myPage)

# 打印博客的一些基本信息
data_info = doc("aside .data-info dl").items()
for i, item in enumerate(data_info):
    if i == 0:
        print("原创:" + item.attr("title"))
    if i == 1:
        print("粉丝:" + item.attr("title"))
    if i == 2:
        print("喜欢:" + item.attr("title"))
    if i == 3:
        print("评论:" + item.attr("title"))

# 爬取文章列表
page_num = 1
while True:
    myUrl = f'{baseUrl}/article/list/{page_num}'
    myPage = requests.get(myUrl, headers=headers).text
    if len(myPage) < 30000:
        break

    print(f'-----------------------------第 {page_num} 页---------------------------------')
    doc = pq(myPage)
    articles = doc(".article-list > div").items()
    for i, item in enumerate(articles):
        if i == 0:
            continue
        title = item("h4 > a").text()[2:]
        date = item("p > .date").text()
        num_item = item("p > .read-num").items()
        article_info = [date, title]
        for j, jitem in enumerate(num_item):
            if j == 0:
                article_info.append(jitem.text())
            else:
                article_info.append(jitem.text())
        print(" ".join(article_info))
    page_num += 1

代码解释

  1. 用户输入
    脚本首先提示用户输入CSDN的ID,这个ID用于构建访问CSDN博客的URL。

  2. 请求头设置
    为了模拟浏览器访问,脚本设置了请求头。这是为了避免被网站的反爬虫机制识别,因为很多网站会检查请求头中的User-Agent来确定访问者是否为真实用户。

  3. 获取页面内容
    使用requests库发送HTTP请求,获取博客页面的HTML内容。这是爬虫的基础步骤,通过发送请求并接收响应来获取网页数据。

  4. 解析HTML
    使用pyquery库解析HTML内容,提取所需的信息。pyquery类似于jQuery,可以方便地选择HTML元素并提取数据。在这个脚本中,它被用来提取博客的原创、粉丝、喜欢和评论数量等信息。

  5. 爬取文章列表
    通过循环,脚本爬取每一页的文章列表,包括文章的标题、发布日期、阅读量和评论数。这是通过构造不同的URL(根据页码)并重复发送请求来实现的。每次循环都会检查响应内容的长度,如果内容过短,则认为已经到达最后一页,循环结束。

效果展示
image.png

注意事项

  • 遵守爬虫规范:在进行数据爬取时,应该尊重网站的robots.txt文件,这是网站所有者设定的爬虫访问规则。合理设置爬取频率,避免在短时间内发送大量请求,以免给网站服务器带来不必要的压力和负担。同时,也要注意不要爬取那些被明确禁止爬取的内容。

  • 数据使用:获取的数据应仅用于个人学习或研究,不得用于商业用途。在使用爬取的数据时,应遵守数据的版权和知识产权规定,尊重数据的原创性和所有权。如果数据中包含个人信息,还应遵守相关的隐私保护法规,不得泄露或滥用这些信息。

  • 法律风险:在爬取数据前,确保你的行为不违反相关法律法规。不同国家和地区对于数据爬取有不同的法律规定,因此在进行爬取活动前,应充分了解并遵守当地的法律法规。避免侵犯版权、商标权、专利权等知识产权,以及违反个人隐私保护法规。

  • 技术道德:在技术实践中,应遵循技术道德,尊重他人的劳动成果。在爬取和使用数据时,应考虑到数据来源网站的利益,避免对网站的正常运营造成影响。同时,也应考虑到其他用户的利益,避免因个人行为而损害社区的整体利益。

  • 透明度和责任:在使用爬虫技术时,应保持透明度,对自己的行为负责。如果爬取的数据将被公开或用于研究,应明确数据来源,并在可能的情况下,征得数据所有者的同意。在发现数据中的错误或不准确信息时,应及时更正,并对自己的行为承担相应的责任。

  • 持续学习:技术环境和法律法规都在不断变化,因此,作为技术人员,应持续学习最新的技术发展和法律动态,以确保自己的行为始终符合最新的标准和要求。

结语
本文介绍了如何使用Python的requests和pyquery库来爬取CSDN博客的数据,并进行简单的数据处理。CSDN作为中国最大的IT社区和服务平台,拥有大量的技术博客和文章,是一个丰富的数据源。通过这个简单的爬虫脚本,用户可以轻松地获取CSDN博客的数据,进行进一步的分析或学习。

首先,文章强调了爬虫应遵守目标网站的robots.txt协议,尊重版权和用户隐私,并确保在合法合规的前提下使用代码。接着,介绍了环境准备,包括安装Python和必要的库。然后,文章通过详细的代码解析,展示了如何构建URL、设置请求头、发送请求、解析HTML以及爬取文章列表的过程。

代码首先提示用户输入CSDN的ID,以便构建访问的URL。然后,设置请求头模拟浏览器访问,使用requests库发送HTTP请求获取博客页面的HTML内容。利用pyquery库解析HTML,提取博客的原创、粉丝、喜欢和评论数量等信息。通过循环,爬取每一页的文章列表,包括文章的标题、发布日期、阅读量和评论数。

文章还提供了效果展示,通过截图展示了爬虫脚本的运行结果。同时,强调了在爬取数据时应当遵守的规范和法律风险,提醒用户获取的数据应仅用于个人学习或研究,不得用于商业用途。

最后,文章总结了通过这个爬虫脚本,用户可以提升自己的数据处理能力,并在实际工作中应用所学知识。同时,鼓励读者探索技术的无限可能,并在遇到问题时联系作者寻求帮助。

整体而言,这篇文章不仅提供了一个实用的爬虫工具,还强调了在爬取数据时应当遵守的规范和法律风险,对于希望学习网络爬虫技术的读者来说,是一篇很好的入门教程。

在数字化时代,数据的获取和分析变得越来越重要。CSDN作为中国最大的IT社区和服务平台,拥有大量的技术博客和文章,是一个丰富的数据源。本文介绍了如何使用Python的requests和pyquery库来爬取CSDN博客的信息,并进行简单的数据处理。通过这个简单的爬虫脚本,你可以轻松地获取CSDN博客的数据,进行进一步的分析或学习。这不仅是一次编程实践,更是对网络请求、HTML解析和数据处理的深入理解。希望读者能够将所学应用到更多有趣和有益的项目中去,并在实践中不断提升自己的编程能力。如果有任何问题或需要进一步的帮助,请随时联系作者。让我们一起探索技术的无限可能!

全部代码

# 例如输入:lwcwam

import requests
from pyquery import PyQuery as pq

# 当前的博客列表页号
page_num = 1

account = str(input('print csdn id:'))
#account = "lwcwam"
# 首页地址
baseUrl = 'http://blog.csdn.net/' + account
# 连接页号,组成爬取的页面网址
myUrl = baseUrl + '/article/list/' + str(page_num)

headers = {'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'}
# 构造请求

# 访问页面
myPage = requests.get(myUrl,headers=headers).text

doc = pq(myPage)

data_info = doc("aside .data-info dl").items()
for i,item in enumerate(data_info):
    if i==0:
        print("原创:"+item.attr("title"))
    if i==1:
        print("粉丝:"+item.attr("title"))
    if i==2:
        print("喜欢:"+item.attr("title"))
    if i==3:
        print("评论:"+item.attr("title"))

grade_box = doc(".grade-box dl").items()
for i,item in enumerate(grade_box):
    if i==0:
        childitem = item("dd > a")
        print("等级:"+childitem.attr("title")[0:2])
    if i==1:
        childitem = item("dd")
        print("访问:"+childitem.attr("title"))
    if i==2:
        childitem = item("dd")
        print("积分:"+childitem.attr("title"))
    if i==3:
        print("排名:"+item.attr("title"))


# 获取每一页的信息
while True:

    # 首页地址
    baseUrl = 'http://blog.csdn.net/' + account
    # 连接页号,组成爬取的页面网址
    myUrl = baseUrl + '/article/list/' + str(page_num)
    # 构造请求
    myPage = requests.get(myUrl,headers=headers).text
    if len(myPage) < 30000:
        break

    print('-----------------------------第 %d 页---------------------------------' % (page_num,))

    doc = pq(myPage)
    articles = doc(".article-list > div").items()
    articleList = []
    for i,item in enumerate(articles):
        if i == 0:
            continue
        title = item("h4 > a").text()[2:]
        date = item("p > .date").text()
        num_item = item("p > .read-num").items()
        ariticle = [date, title]
        for j,jitem in enumerate(num_item):
            if j == 0:
                read_num = jitem.text()
                ariticle.append(read_num)
            else:
                comment_num = jitem.text()
                ariticle.append(comment_num)
        articleList.append(ariticle)
    for item in articleList:
        if(len(item)==4):
            print("%s %s %s %s"%(item[0],item[1],item[2],item[3]))
    page_num = page_num + 1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2268167.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

实战案例——ZooKeeper集群部署(新手教程超详细)

案例目标 了解ZooKeeper分布式应用程序协调服务使用3台机器搭建ZooKeeper集群使用ZooKeeper集群 案例分析 规划节点 ZooKeeper集群节点规划 Ip 主机名 节点 192.168.110.10 zookeeper1 集群节点 192.168.110.20 zookeeper2 集群节点 192.168.110.30 zookeeper3 …

如果你的网站是h5网站,如何将h5网站变成小程序-除开完整重做方法如何快速h5转小程序-h5网站转小程序的办法-优雅草央千澈

如果你的网站是h5网站&#xff0c;如何将h5网站变成小程序-除开完整重做方法如何快速h5转小程序-h5网站转小程序的办法-优雅草央千澈 h5如何转小程序 如果当年你们开发网站是用的h5但是没有开发小程序&#xff0c;也没有使用uniapp这样的混开框架&#xff0c;但是目前根据业务需…

阿里云redis内存优化——PCP数据清理

在阿里云安装了一个redis节点&#xff0c;今天使用时忽然想着点击了一下分析内存。好家伙&#xff0c;居然崩出了一个30多M的块出来。问题是我本地安装的redis没有这个啊&#xff0c;怎么奇怪冒出这个来了。 本着把系统用干榨尽的态度&#xff0c;研究了下这个问题的来源。网上…

学系C++:循环练习案例

一&#xff0c;猜数字 案例描述&#xff1a;系统随机生成一个1到100之间的数字&#xff0c;玩家进行猜测&#xff0c;如果猜错&#xff0c;提示玩家数字过大或过小&#xff0c;如果猜对恭喜玩家胜利&#xff0c;并且退出游戏。 #include <iostream> using namespace st…

六大基础深度神经网络之CNN

左侧是传统卷积网络输入的是一列像素点&#xff0c;右侧是卷积神经网络&#xff0c;输入的是具有长宽通道数的原始图像 下图为整体架构。卷积层可以认为提取特征&#xff0c;池化层是压缩特征。全连接层是把图像展平然后计算10个类别的概率值 给出一张图像不同区域的特征不同&a…

SemiDrive E3 MCAL 开发系列(6)– Icu 模块的使用

一、 概述 本文将会介绍 SemiDrive E3 MCAL Icu 模块的简介以及基本配置&#xff0c;其中还会涉及到 Xtrg 模块的配置。此外会结合实际操作的介绍&#xff0c;帮助新手快速了解并掌握这个模块的使用&#xff0c;文中的 MCAL 是基于 PTG3.0 的版本&#xff0c;开发板是官方的 …

嵌入式入门Day35

网络编程 Day2 套接字socket基于TCP通信的流程服务器端客户端TCP通信API 基于UDP通信的流程服务器端客户端 作业 套接字socket socket套接字本质是一个特殊的文件&#xff0c;在原始的Linux中&#xff0c;它和管道&#xff0c;消息队列&#xff0c;共享内存&#xff0c;信号等…

【Redis】:初识Redis

1.1 盛赞 Redis Redis 是⼀种基于键值对&#xff08;key-value&#xff09;的 NoSQL 数据库&#xff0c;与很多键值对数据库不同的是&#xff0c;Redis 中的值可以是由 string&#xff08;字符串&#xff09;、hash&#xff08;哈希&#xff09;、list&#xff08;列表&#xf…

MATLAB 车牌自动识别系统设计 图像分割与图像增强方法 车牌识别

一 车牌自动识别系统总体设计 基于matlab的车牌识别系统&#xff0c;第一种方法采用图像分割与图像增强的方法&#xff0c;采集的车牌后将图像传入程序中&#xff0c;对图像进行处理后将车牌号提取出来&#xff0c;然后与数据库的样本进行对比后输出结果。 本课题拟采用的思路&…

Windows下C++使用SQLite

1、安装 进入SQLite Download Page页面&#xff0c;下载sqlite-dll-win-x86-*.zip、sqlite-amalgamation-*.zip、sqlite-tools-win-x64-*.zip三个包&#xff0c;这三个包里分别包含dll文件和def文件、头文件、exe工具。 使用vs命令行工具生成.lib文件&#xff1a;进入dll和def文…

module ‘django.db.models‘ has no attribute ‘FieldDoesNotExist‘

module ‘django.db.models’ has no attribute ‘FieldDoesNotExist’ xadmin报错 原因 django与xadmin版本不匹配。 django==3.2.7 xadmin-django==3.0.2解决方案 在xadmin/view/edit.py的388行改为 from django.core import exceptions if self.request_method ==

3.微服务灰度发布落地实践(组件灰度增强)

文章目录 前言调用链示图dubbo服务之间的的调链cloud 服务之间的调用链 网关servlet容器: 标签续传1.定义插件2.实现灰度增强拦截 线程池: 标签续传1.拦截Runnable或Callable,接口增强实现标签续传;Callable 插件定义Runnable 插件定义拦载Callabl或Runnable构造(可共用)拦载ru…

UE5 丧尸类杂兵的简单AI

A、思路 1、关卡初始化时&#xff0c;自动产生随机巡逻点&#xff0c;小兵到达后&#xff0c;去另一个随机巡逻点。 2、加入视力&#xff0c;发现主角后&#xff0c;不再巡逻&#xff0c;而开始追击主角并攻击。条件循环。 3、加入听力。主角的奔跑与射击会产生噪音&#xf…

数据库管理-第275期 Oracle 23ai:画了两张架构图(20241225)

数据库管理275期 2024-12-25 数据库管理-第275期 Oracle 23ai&#xff1a;画了两张架构图&#xff08;20241225&#xff09;1 系统管理分片2 用户定义分片总结 数据库管理-第275期 Oracle 23ai&#xff1a;画了两张架构图&#xff08;20241225&#xff09; 作者&#xff1a;胖…

【代码分析】Unet-Pytorch

1&#xff1a;unet_parts.py 主要包含&#xff1a; 【1】double conv&#xff0c;双层卷积 【2】down&#xff0c;下采样 【3】up&#xff0c;上采样 【4】out conv&#xff0c;输出卷积 """ Parts of the U-Net model """import torch im…

小程序基础 —— 08 文件和目录结构

文件和目录结构 一个完整的小程序项目由两部分组成&#xff1a;主体文件、页面文件&#xff1a; 主体文件&#xff1a;全局文件&#xff0c;能够作用于整个小程序&#xff0c;影响小程序的每个页面&#xff0c;主体文件必须放到项目的根目录下&#xff1b; 主体文件由三部分组…

Maven 测试和单元测试介绍

一、测试介绍 二、单元测试 1&#xff09;介绍 2&#xff09;快速入门 添加依赖 <dependencies><!-- junit依赖 --><dependency><groupId>org.junit.jupiter</groupId><artifactId>junit-jupiter</artifactId><version>5.9…

大数据技术-Hadoop(一)Hadoop集群的安装与配置

目录 一、准备工作 1、安装jdk&#xff08;每个节点都执行&#xff09; 2、修改主机配置 &#xff08;每个节点都执行&#xff09; 3、配置ssh无密登录 &#xff08;每个节点都执行&#xff09; 二、安装Hadoop&#xff08;每个节点都执行&#xff09; 三、集群启动配置&a…

android sqlite 数据库简单封装示例(java)

sqlite 数据库简单封装示例&#xff0c;使用记事本数据库表进行示例。 首先继承SQLiteOpenHelper 使用sql语句进行创建一张表。 public class noteDBHelper extends SQLiteOpenHelper {public noteDBHelper(Context context, String name, SQLiteDatabase.CursorFactory fact…

【CSS in Depth 2 精译_095】16.3:深入理解 CSS 动画(animation)的性能

当前内容所在位置&#xff08;可进入专栏查看其他译好的章节内容&#xff09; 第五部分 添加动效 ✔️【第 16 章 变换】 ✔️ 16.1 旋转、平移、缩放与倾斜 16.1.1 变换原点的更改16.1.2 多重变换的设置16.1.3 单个变换属性的设置 16.2 变换在动效中的应用 16.2.1 放大图标&am…