python爬虫爬取某图书网页实例

news2024/11/15 15:35:58

文章目录

      • 导入相应的库
      • 正确地设置代码的基础部分
      • 设置循环遍历
      • 遍历URL
      • 保存图片和文档
      • 全部代码即详细注释

下面是通过requests库来对ajax页面进行爬取的案例,与正常页面不同,这里我们获取url的方式也会不同,这里我们通过爬取一个简单的ajax小说页面来为大家讲解。(注:结尾附赠全部代码与详细注释)

导入相应的库

爬取数据必须有相应的库,这里我们使用爬虫脚本中常用的几个Python库:os.path、fake_useragent 和 requests。
1.os.path:

  • 这个模块主要用于处理文件和目录的路径。它提供了一系列的功能来进行路径的拼接、拆分、查询等操作,以确保路径的跨平台兼容性(比如Windows和Unix/Linux系统的路径分隔符不同)。
  • 在爬虫中,os.path 通常用于构建本地文件系统的路径,以便保存从网络上下载的图片、文本数据等。

2.fake_useragent:

  • 这个库用于生成随机的、看起来像是真实浏览器的User-Agent字符串。User-Agent是一个在HTTP请求中发送给服务器的头部信息,它告诉服务器发起请求的客户端(通常是浏览器)的类型、版本和操作系统等信息。
  • 在爬虫中,由于许多网站会检查User-Agent来识别爬虫请求并阻止它们,因此使用fake_useragent可以帮助爬虫绕过这种简单的反爬虫机制。

3.requests:

  • requests是Python中非常流行的HTTP库,用于发送HTTP/1.1请求。它提供了一个简单易用的API,用于处理各种HTTP请求,如GET、POST、PUT、DELETE等。
  • 在爬虫中,requests库是发送网络请求并获取响应的主要工具。它支持会话(Session)对象、HTTPS请求、文件上传、Cookie处理、重定向、连接池等功能,非常适合用于构建复杂的爬虫系统。
import os.path  
import fake_useragent  
import requests  

正确地设置代码的基础部分

这里我们生成一个随机的User-Agent、检查并创建目录以便储存爬取的图片、以及打开(或创建)一个文本文件来保存数据。

import os.path  
import fake_useragent  
import requests  
  
# 判断是否是直接运行该脚本  
if __name__ == '__main__':  
    head = {"User-Agent": fake_useragent.UserAgent().random}  
 
    if not os.path.exists("./biqugePic"):  
        os.mkdir("./biqugePic")  
    f = open("./biquge.txt", 'w', encoding='utf8')  

设置循环遍历

循环遍历URL(这里为大家提供具体url的获取方法,并循环了1至9页的数据为大家做案例),并发送了带有随机User-Agent的GET请求。这是爬虫中常见的做法,用于从网站的不同页面获取数据。

 for i in range(1, 10):  
        url = f"https://www.bqgui.cc/json?sortid=1&page={i}"  
        resp = requests.get(url, headers=head)  

首先进入网页,点击F12打开自定义与控制工具,点击fecth/XHR,此时显示部分为空白。在这里插入图片描述
这个时候我们滚动鼠标滚轮,就会出现相应的url,这里的https://www.bqgui.cc/json?sortid=1&page=2,其中尾部2表示滚轮页面第二页,想要获取1至9我们只需要进行一个简单的循环遍历即可。

在这里插入图片描述

遍历URL

遍历从URL获取的JSON响应,该响应包含多个项目。对于每个项目,您都提取了图片URL、文章名、作者和简介,并计划将这些信息打印到控制台以及下载图片和保存文本信息到文件。

 for item in resp.json():  
	# 从每个JSON对象中提取所需的信息  
	img_url = item['url_img']  
	articlename = item['articlename']  
	author = item['author']  
	intro = item["intro"]  
	  
	# 打印提取的信息到控制台  
	print(img_url, author, articlename, intro)  
	  
	# 发送另一个GET请求到图片URL,以获取图片内容  
	img_rest = requests.get(img_url, headers=head)  

在这里插入图片描述

保存图片和文档

设置代码来保存图片到以文章名命名的文件中,并将作者、文章名和简介信息写入到"./biquge.txt"文件中。

with open(f"./biqugePic/{articlename}.jpg", "wb") as fp:  
# 将图片内容写入文件  
fp.write(img_rest.content)  
# 将作者、文章名和简介信息写入到"./biquge.txt"文件中  
f.write(author + '#' + articlename + '#' + intro + "\n")

全部代码即详细注释

import os.path  
import fake_useragent  
import requests  
  
# 判断是否是直接运行该脚本  
if __name__ == '__main__':  
    # 创建一个包含随机User-Agent的HTTP请求头  
    head = {"User-Agent": fake_useragent.UserAgent().random}  
  
    # 检查是否存在名为"./biqugePic"的文件夹,如果不存在则创建它  
    if not os.path.exists("./biqugePic"):  
        os.mkdir("./biqugePic")  
  
    # 以写入模式打开(或创建)一个名为"./biquge.txt"的文件,用于保存数据  
    f = open("./biquge.txt", 'w', encoding='utf8')  
  
    # 循环从第1页到第9页(注意,range函数是左闭右开的,所以不包括10)  
    for i in range(1, 10):  
        # 构造请求URL,这里假设每个页面的数据都可以通过此URL以JSON格式获取  
        url = f"https://www.bqgui.cc/json?sortid=1&page={i}"  
  
        # 发送GET请求到URL,并带上之前创建的请求头  
        resp = requests.get(url, headers=head)  
  
        # 假设服务器返回的是JSON格式的数据,我们遍历这些数据  
        # 注意:这里有个潜在的问题,因为内部循环的变量也使用了'i',这会覆盖外层循环的'i'  
        # 为了避免混淆,应该使用另一个变量名,比如'item'  
        for item in resp.json():  
            # 从每个JSON对象中提取所需的信息  
            img_url = item['url_img']  
            articlename = item['articlename']  
            author = item['author']  
            intro = item["intro"]  
  
            # 打印提取的信息到控制台  
            print(img_url, author, articlename, intro)  
  
            # 发送另一个GET请求到图片URL,以获取图片内容  
            img_rest = requests.get(img_url, headers=head)  
  
            # 打开(或创建)一个文件,用于保存图片,文件名基于文章名  
            with open(f"./biqugePic/{articlename}.jpg", "wb") as fp:  
                # 将图片内容写入文件  
                fp.write(img_rest.content)  
  
            # 将作者、文章名和简介信息写入到"./biquge.txt"文件中  
            f.write(author + '#' + articlename + '#' + intro + "\n") 

注意:

  1. 代码假设了服务器返回的JSON结构是固定的,并且每个对象都包含’url_img’, ‘articlename’, ‘author’, 和 'intro’键。
  2. 在实际应用中,网络请求可能会失败(如404、500等HTTP错误),应该添加错误处理逻辑。
  3. 由于网络延迟和带宽限制,大量请求可能会导致性能问题或被服务器封锁。
  4. 使用fake_useragent生成随机User-Agent可以帮助绕过一些简单的反爬虫机制,但不一定对所有网站都有效。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2048016.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第N6周:中文文本分类-Pytorch实现

本文为365天深度学习训练营 中的学习记录博客原作者:K同学啊 一、准备工作 任务说明 本次将使用PyTorch实现中文文本分类。主要代码与N1周基本一致,不同的是本次任务中使用了本地的中文数据,数据示例如下: 任务: ●1…

Diffusion Model相关论文解析之(二)DENOISING DIFFUSION IMPLICIT MODELS

目录 1、摘要2、创新点3、主要公式4、自己的理解,对错不确定 1、摘要 ‌Denoising Diffusion Implicit Models (DDIM)‌是一种扩散模型的改进版本,旨在加速采样过程并提高采样速度。DDIM通过引入非马尔可夫扩散过程,相对于传统的去噪扩散概率…

H. Ksyusha and the Loaded Set

https://codeforces.com/contest/2000/problem/H div3 H 一开始看就感觉要维护一些比较有趣的量 看了一下数据范围ai<2e6,k<2e6 似乎可以直接开一个线段树来表示是否存在集合当中 我们开4e6维护每个数字是否存在&#xff0c;ai2e6时候k2e6&#xff0c;最大是4e6 存在…

用python 实现一个简易的“我的世界”游戏(超详细教程)

编写一个完整的“我的世界”游戏风格的程序在Python中是一个相当复杂的任务&#xff0c;因为它涉及到图形渲染、物理引擎、用户交互等多个方面。然而&#xff0c;我们可以创建一个简化的、基于文本的“我的世界”风格的探险游戏&#xff0c;来展示基本的游戏逻辑和交互。 第一步…

基于Spring Boot的高效宠物购物平台

✍✍计算机编程指导师 ⭐⭐个人介绍&#xff1a;自己非常喜欢研究技术问题&#xff01;专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目&#xff1a;有源码或者技术上的问题欢迎在评论区一起讨论交流&#xff01; ⚡⚡ Java实战 |…

STM32单片机 主、从、触发模式

主模式&#xff0c;将定时器内部信号映射到TRGO引脚&#xff0c;用于触发别的外设 在手册 控制寄存器2 一节可以知道各种主模式的解释从模式&#xff0c;接收其他外设或者自身外设的一些信号&#xff0c;用于控制自身定时器的运行&#xff0c;被别的信号控制触发源选择&#xf…

使用Logstash同步MySql数据到Elasticsearch

1、下载Logstash logstash下载地址 环境为 windows 2、将Logstash压缩包进行解压 将 mysql 驱动文件放在文件夹内 在Logstash根目录下创建 mysql-es.conf文件 input {jdbc {jdbc_driver_library > "E:\linshi\mysql-connector-java-8.0.11\mysql-connector-java-8.…

医院器械管理系统的设计与开发(全网独一无二,24年最新定做)

目录 文章目录: 前言&#xff1a; 系统功能&#xff1a; 1.用户 2.管理员 系统详细实现界面&#xff1a; 参考代码&#xff1a; 为什么选择我&#xff1a; 前言&#xff1a; 博主介绍&#xff1a; ✌我是阿龙&#xff0c;一名专注于Java技术领域的程序员&#xff0c;全…

数据库基础增删改练习

1.student学生表中&#xff0c;字段有姓名name&#xff0c;年龄age&#xff0c;要求查询姓张&#xff0c;并且年龄在18到25岁之间的学生 2.查询article文章表中&#xff0c;发表日期create_date在2019年1月1日上午10点30分至2019年11月10日下午4点2分的文章 3.查询article文章表…

Deepin-获取屏幕缩放比例

Deepin-获取屏幕缩放比例 一、概述二、实现代码 一、概述 环境&#xff1a;UOS、Deepin 我的目的是为了获取屏幕的缩放比例值&#xff0c;就是获取如下的值 我们可以去读取当前的环境变量值&#xff0c;在Qt Creator中可以看到这个值 二、实现代码 相关的Qt接口如下&…

基于vue框架的爱宁HPV疫苗管理系统4c7o1(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。

系统程序文件列表 项目功能&#xff1a;用户,审核员,城市,疫苗信息,接种预订,接种信息 开题报告内容 基于Vue框架的爱宁HPV疫苗管理系统 开题报告 一、项目背景与意义 随着全球对公共卫生健康的日益重视&#xff0c;HPV&#xff08;人乳头瘤病毒&#xff09;疫苗的接种已…

2024 Google 开发者大会深度探秘与AI技术前瞻

◆ 大会概览◆ 主旨与技术亮点◆互动体验区探秘◆智汇Google技术问答◆未来展望与建议 2024 Google 开发者大会于8月7日、8日在北京召开&#xff0c;很荣幸我作为嘉宾参加了这次大会&#xff0c;有机会与大家一同聚焦 Google 最新 AI 技术。在这篇文章中我们将一起亲眼见证 Goo…

Python3网络爬虫开发实战(11)JavaScript 逆向爬虫(上)

文章目录 一、网站加密和混淆技术简介1. URL/API 参数加密2. JavaScript 压缩3. JavaScript 混淆4. WebAssembly 二、浏览器调试常用技巧2.1 面板介绍2.2 节点事件2.3 断点调试2.4 观察调用栈2.5 Ajax 断点2.6 改写 JavaScript 文件 三、JavaScript Hook 的使用3.1 Hook 操作3.…

宝兰德持续赋能 助力金融数智化变革

金融机构作为助推数字经济发展的中坚力量&#xff0c;近些年在数字化转型叠加信创改造、AI大模型高速演进、监管环境变化等因素下&#xff0c;面临多重挑战&#xff0c;不得不重新审视传统IT架构&#xff0c;确保金融数据的安全性、可用性&#xff0c;从而激活自身动能&#xf…

计算机毕业设计 饮食营养管理信息系统 平衡膳食管理系统 Java+SpringBoot+Vue 前后端分离 文档报告 代码讲解 安装调试

&#x1f34a;作者&#xff1a;计算机编程-吉哥 &#x1f34a;简介&#xff1a;专业从事JavaWeb程序开发&#xff0c;微信小程序开发&#xff0c;定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事&#xff0c;生活就是快乐的。 &#x1f34a;心愿&#xff1a;点…

【嵌入式开发之网络编程】网络分层、OSI七层模型、TCP/IP及五层体系结构

计算机网络体系的形成 两台计算机要互相传送文件需解决很多问题&#xff0c;比如&#xff1a; 必须有一条传送数据的通路。发起方必须激活通路。要告诉网络如何识别接收方。发起方要清楚对方是否已开机&#xff0c;且与网络连接正常。发起方要清楚对方是否准备好接收和存储文…

JS UI库DHTMLX Suite v8.4全新发布——图表、网格组件等API全面升级

DHTMLX UI 组件库允许您更快地构建跨平台、跨浏览器 Web 和移动应用程序。它包括一组丰富的即用式 HTML5 组件&#xff0c;这些组件可以轻松组合到单个应用程序界面中。DHTMLX JS UI 组件可用于任何服务器端技术&#xff1a;PHP、Java、ASP.NET、Ruby、Grails、ColdFusion、Pyt…

糟糕界面集锦-控件篇10

想要让自己的程序别具一格&#xff0c;正是出于这种被误导的动机。IBM 的Aptiva Communitations Center 开发者决定不使用Windows 自己的控件&#xff0c;用自行开发的控件取而代之。他们非常成功地做到了这一点&#xff1a;该程序看上去与其他Windows 环境下运行的程序完全不同…

C语言-在主函数中输入10个等长的字符串。用另一函数对他们进行排序,然后再主函数输出这10个排好序的数列(分别用①数组法和②指针法实现)

在主函数中输入10个等长的字符串。用另一函数对他们进行排序&#xff0c;然后再主函数输出这10个排好序的数列&#xff08;分别用数组法和指针法实现&#xff09; 一、数组法实现 #define _CRT_SECURE_NO_WARNINGS 1 #include<stdio.h> void str_sort(char str[][32], …

【C语言】时间函数详解

目录 C语言时间函数详解表格汇总1. time2. localtime3. gmtime4. strftime5. clock6. difftime函数详解示例解释 7. mktime8. asctime9. ctime10. clock_gettime 和 clock_settime总结9. 结束语相关文章&#xff1a; C语言时间函数详解 在C语言中&#xff0c;时间处理功能由标…