爬虫案例（读书网）

爬虫案例（读书网）

news2026/2/13 16:14:02

一.我们还是使用简单的bs4库和lxml，使用xpath：

导入下面的库：

import requests
from bs4 import BeautifulSoup
from lxml import etree

我们可以看见它的div和每个书的div框架，这样会观察会快速提高我们的简单爬取能力。

二.实例代码：

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36'}
link="https://www.dushu.com/"
r=requests.get(link,headers=headers)
r.encoding='utf-8'

soup=BeautifulSoup(r.text,'lxml')
house_list=soup.find_all('div',class_="border books-center")
html=etree.HTML(r.text)
    # name=html.xpath('//div[@class="property-content-title"]/h3/text()')
# for house in house_list:
#     name=soup.find('div',class_="nlist").a.strong.text()
#
#     print(name)
name=html.xpath('//div[@class="bookname"]/a/text()')
# href=html.xpath('//div[@class="nlist"]/div/ul/li/a/@href')

print(name)
for i in name:
    print(i)

运行结果如下：

我们成功抓取了网页上书籍的名字，我们可以把它放入一个文件或者文本里面。

三.总结

我们简单的抓取书籍，先找到它需要的大div或者是ur、然后在里面找到自己需要抓取的数据，我们开始练习这样简单案例，会提高爬虫的理解。下次我会加上数据库和可视化

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1715093.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Nginx网页服务

Nginx网页服务

nginx的配置: 1、全局块：全局配置，对全局生效； 2、events块：配置影响 Nginx 服务器与用户的网络连接； 3、http块：配置代理，缓存，日志定义等绝大多数功能和第三方模块的配置&#xf…

阅读更多...

C语言---文件操作

C语言---文件操作

【C语言详解】——文件操作（建议收藏）_c语言写文件原理-CSDN博客一、文件的读取 # define _CRT_SECURE_NO_WARNINGS #include<stdio.h> #include<errno.h> #include<string.h>int main() {FILE * pffopen("C:\\Users\\zhw\\De…

阅读更多...

Java中的ORM框架——myBatis

Java中的ORM框架——myBatis

一、什么是ORM ORM 的全称是 Object Relational Mapping。Object代表应用程序中的对象，Relational表示的是关系型数据库，Mapping即是映射。结合起来就是在程序中的对象和关系型数据库之间建立映射关系，这样就可以用面向对象的方式&#xff0c…

阅读更多...

Vue3使用Composition API实现响应式

Vue3使用Composition API实现响应式

title: Vue3使用Composition API实现响应式 date: 2024/5/29 下午8:10:24 updated: 2024/5/29 下午8:10:24 categories: 前端开发 tags: Vue3CompositionRefsReactiveWatchLifecycleDebugging 1. 介绍 Composition API是Vue.js 3中新增的一组API，用于在组件中组…

阅读更多...

服装服饰商城小程序的作用是什么

服装服饰商城小程序的作用是什么

要说服装商家，那数量是非常多，厂家/经销门店/小摊/无货源等，线上线下同行竞争激烈，虽然用户群体广涵盖每个人，但每个商家肯定都希望更多客户被自己转化，渠道运营方案营销环境等不可少。以年轻人为主的消费…

阅读更多...

30【Aseprite 作图】桌子——拆解

30【Aseprite 作图】桌子——拆解

1 桌子只要画左上方，竖着5，斜着3个1，斜着两个2，斜着2个3，斜着一个5，斜着一个很长的然后左右翻转再上下翻转在桌子腿部分，竖着三个直线，左右都是斜线；这是横着水平线不…

阅读更多...

使用NuScenes数据集生成ROS Bag文件：深度学习与机器人操作的桥梁

使用NuScenes数据集生成ROS Bag文件：深度学习与机器人操作的桥梁

在自动驾驶、机器人导航及环境感知的研究中，高质量的数据集是推动算法发展的关键。NuScenes数据集作为一项开源的多模态自动驾驶数据集，提供了丰富的雷达、激光雷达（LiDAR）、摄像头等多种传感器数据，是进行多传感器融合…

阅读更多...

检索字符串

检索字符串

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 在Python中，字符串对象提供了很多应用于字符串查找的方法，这里主要介绍以下几种方法。 （1）count()方…

阅读更多...

Visual Studio 的调试

Visual Studio 的调试

目录引言一、调试的基本功能设置断点启动调试检查变量逐步执行代码调用堆栈使用即时窗口二、调试技巧条件断点日志断点数据断点异常调试三、调试高级功能远程调试多线程调试内存调试性能调试诊断工具四、调试策略与最佳实践系统化的…

阅读更多...

Docker-一文详解容器通信的基础网络模式及衍生的自定义网络模式

Docker-一文详解容器通信的基础网络模式及衍生的自定义网络模式

启动容器时，通过-p 宿主机端口:容器端口，就可以通过访问宿主机端口访问到容器，这种原理机制是啥，有没有其它方式可以让宿主机和容器通信，以及容器与容器之间如何通信。带着这几个问题开始学习Docker的网络知识。文章…

阅读更多...

浅谈路由器转发数据包

浅谈路由器转发数据包

当路由器转发数据包时，它会经历一系列步骤，包括接收数据包、路由表查询、以及转发数据包。以下是详细的步骤描述： 1. 接收数据包以太网帧到达端口：当一个以太网帧到达路由器的某个网络接口（端口）时&#…

阅读更多...

$STL库--stack$

STL库--stack

目录 stack的定义 stack容器内元素的访问 stack常用函数实例解析 stack的常见用途 stack的定义其定义的写法和其他STL容器相同，typename可以任意基本类型或容器： stack<typename> name; stack容器内元素的访问由于栈本身就是一种后进先出…

阅读更多...

成都欣丰洪泰文化传媒有限公司助力品牌快速崛起

成都欣丰洪泰文化传媒有限公司助力品牌快速崛起

在当今数字化浪潮汹涌的时代，电商行业作为新经济的代表，正以其独特的魅力和无限的潜力，引领着商业模式的创新与变革。在这个充满机遇与挑战的领域里，成都欣丰洪泰文化传媒有限公司凭借其专业的电商服务能力和前瞻性的战略眼光&…

阅读更多...

【Python】解决Python报错：TypeError: ‘int‘ object is not iterable

【Python】解决Python报错：TypeError: ‘int‘ object is not iterable

🧑 博主简介：阿里巴巴嵌入式技术专家，深耕嵌入式人工智能领域，具备多年的嵌入式硬件产品研发管理经验。 📒 博客介绍：分享嵌入式开发领域的相关知识、经验、思考和感悟，欢迎关注。提供嵌入式方向…

阅读更多...

[测试开发]如何让IDEA实时显示内存

[测试开发]如何让IDEA实时显示内存

🔥 交流讨论：欢迎加入我们一起学习！ 🔥 资源分享：耗时200小时精选的「软件测试」资料包 🔥 教程推荐：火遍全网的《软件测试》教程 📢欢迎点赞 👍 收藏 ⭐留言 &#x1…

阅读更多...

GoFly框架快速新增接口/上手写代码

GoFly框架快速新增接口/上手写代码

拿到一个新框架大家可能无从下手，因为你对框架设计思路、结构不了解，从而产生恐惧，所以我们框架是通过简单可视化界面安装，安装后即可看到效果，然后点击先点点看各个功能，看现有的功能是怎么写的&#xff0…

阅读更多...

[双指针] --- 快乐数盛最多水的容器

[双指针] --- 快乐数盛最多水的容器

Welcome to 9ilks Code World (๑•́ ₃ •̀๑) 个人主页: 9ilk (๑•́ ₃ •̀๑) 文章专栏： 算法Journey 本篇博客我们分享一下双指针算法中的快慢指针以及对撞双指针，下面我们开始今天的学习吧~ 🏠 快乐数 📒 题…

阅读更多...

如何让你的网站能通过域名访问

如何让你的网站能通过域名访问

背景当我们租一台云服务器，并在上面运行了一个Web服务，我们可以使用云服务器的公网IP地址进行访问，如下： 本文主要记录如何实现让自己的网站可以通过域名访问。买域名可以登录腾讯云等主流公有云平台的，购买域名…

阅读更多...

【保姆级介绍下Foxmail 邮箱】

【保姆级介绍下Foxmail 邮箱】

🌈个人主页: 程序员不想敲代码啊 🏆CSDN优质创作者，CSDN实力新星，CSDN博客专家 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益，如有不足之处，欢迎在评论区提出指正，让我们共…

阅读更多...

精选10款手机必备精品APP，每一款都不容错过！

精选10款手机必备精品APP，每一款都不容错过！

AI视频生成：小说文案智能分镜智能识别角色和场景批量Ai绘图自动配音添加音乐一键合成视频https://aitools.jurilu.com/ 1.二维码而设计的应用程序——二维码设计二维码设计 App 是一款专为用户创建和定制二维码而设计的应用程序。该应用适用于iOS和Android平台…

阅读更多...

推荐文章

最新文章