爬虫入门指南(1):学习爬虫的基础知识和技巧

news2025/4/13 4:00:53

文章目录

  • 爬虫基础知识
        • 什么是爬虫?
        • 爬虫的工作原理
        • 爬虫的应用领域
  • 爬虫准备工作
        • 安装Python
        • 安装必要的库和工具
  • 网页解析与XPath
        • 网页结构与标签
        • CSS选择器与XPath
        • Xpath 语法
            • XPath的基本表达式:
            • XPath的谓语(Predicate):
            • XPath的轴(Axis):
            • XPath的运算符:
            • XPath的函数:
        • 使用XPath解析网页
  • 未完待续...

爬虫基础知识

爬虫基础知识

什么是爬虫?

什么是爬虫

爬虫是一种自动化程序,用于从互联网上获取数据。它通过模拟浏览器行为,访问指定的网页,并从中提取所需的信息。爬虫工作的核心是发送HTTP请求、获取网页内容、解析网页结构并提取数据。

爬虫的工作原理

爬虫的工作原理

爬虫的工作原理可以分为以下几个步骤:

  • 发送HTTP请求:爬虫通过发送HTTP请求来访问目标网页。
  • 获取网页内容:目标网站接收到请求后,会返回网页的HTML源代码作为响应。
  • 解析网页内容:爬虫利用解析技术(如XPath、正则表达式等)对HTML源代码进行解析,从中提取需要的信息。
  • 存储数据:爬虫将提取到的数据进行存储,可以保存到本地文件或写入数据库。

爬虫的应用领域

爬虫的应用领域

爬虫在各个领域都有广泛应用:

  • 数据采集与分析:爬虫可以用于采集互联网上的各种数据,如新闻、商品信息、股票数据等。这些数据可以用于后续的数据分析、挖掘和建模。
  • 搜索引擎:搜索引擎利用爬虫技术来获取互联网上的网页信息,并建立搜索索引,以提供给用户相关的搜索结果。
  • 舆情监测:企业或政府可以利用爬虫技术来监控社交媒体等平台上的舆情动态,及时获取和分析公众的意见和反馈。
  • 价格监测:电商平台可以利用爬虫定期监测竞争对手的商品价格,以调整自己的定价策略。
  • 其他领域:爬虫还广泛应用于个性化推荐系统、自然语言处理、机器学习等领域。

爬虫准备工作

爬虫准备工作

安装Python

爬虫通常使用Python进行开发,因此需要先安装Python。您可以从Python官方网站(https://www.python.org/)下载最新版本的Python,并按照安装向导进行安装。

安装必要的库和工具

爬虫开发中需要使用一些常用的库和工具来简化开发流程:

  • requests:用于发送HTTP请求和处理响应。可以通过pip install requests命令安装。
  • BeautifulSoup:一个优秀的HTML/XML解析库,可以方便地从网页中提取数据。可以通过pip install beautifulsoup4命令安装。
  • lxml:一个高性能的XML/HTML解析库,可以用于XPath解析。可以通过pip install lxml命令安装。

网页解析与XPath

网页解析与XPath

网页结构与标签

网页通常使用HTML(超文本标记语言)编写,它由一系列标签组成。标签用于定义网页的结构和呈现。常见的HTML标签有<html><head><body><div><p>等等。通过理解这些标签及其嵌套关系,可以更好地理解网页的结构。

CSS选择器与XPath

网页解析可以使用不同的方法,其中两种常见的方法是CSS选择器和XPath。

  • CSS选择器:CSS选择器是一种用于选择HTML元素的语法。它通过使用标签名、类名、ID等属性,可以方便地定位到指定的元素。例如,通过.classname选择类名为classname的元素,通过#id选择ID为id的元素。

  • XPath:XPath是一种用于在XML和HTML文档中进行选择的语言。XPath使用路径表达式来选择节点或节点集合。例如,使用//表示选择从根节点开始的所有节点,使用/表示选择当前节点的子节点,使用[]表示筛选条件等。

Xpath 语法

XPath的基本表达式:
# 选择所有名为"book"的节点
xpath_expression = "//book"

# 选择根节点下的所有名为"title"的子节点
xpath_expression = "/root/title"

# 选择当前节点
xpath_expression = "."

# 选择当前节点的父节点
xpath_expression = ".."

  • nodename:选择指定名称的节点。
  • //nodename:选择文档中所有匹配名称的节点。
  • /:从根节点开始选择。
  • .:选择当前节点。
  • ..:选择当前节点的父节点。
XPath的谓语(Predicate):

谓语用于进一步筛选节点,可以使用一些条件进行过滤。

# 选择第2个名为"book"的节点
xpath_expression = "//book[2]"

# 选择最后一个名为"title"的节点
xpath_expression = "//title[last()]"

# 选择位置小于3的名为"book"的节点
xpath_expression = "//book[position()<3]"

# 选择具有属性lang的名为"book"的节点
xpath_expression = "//book[@lang]"

# 选择属性lang的值为"en"的名为"book"的节点
xpath_expression = "//book[@lang='en']"

# 选择文本内容为"Python"的名为"title"的节点
xpath_expression = "//title[text()='Python']"

# 选择属性lang包含"en"的名为"book"的节点
xpath_expression = "//book[contains(@lang, 'en')]"

# 选择属性lang以"en"开始的名为"book"的节点
xpath_expression = "//book[starts-with(@lang, 'en')]"

# 选择属性lang以"en"结束的名为"book"的节点
xpath_expression = "//book[ends-with(@lang, 'en')]"

  • []:用于定义谓语条件。
  • [n]:选择第n个节点。
  • [last()]:选择最后一个节点。
  • [position()<n]:选择位置小于n的节点。
  • [@attribute]:选择具有指定属性的节点。
  • [@attribute='value']:选择具有指定属性值的节点。
  • [text()='value']:选择具有指定文本值的节点。
  • [contains(@attribute, 'value')]:选择属性包含特定值的节点。
  • [starts-with(@attribute, 'value')]:选择属性以特定值开始的节点。
  • [ends-with(@attribute, 'value')]:选择属性以特定值结束的节点。
XPath的轴(Axis):

轴用于在节点之间建立关联,常见的轴包括:

# 选择所有祖先节点
xpath_expression = "//book/ancestor::node()"

# 选择所有祖先节点和当前节点自身
xpath_expression = "//book/ancestor-or-self::node()"

# 选择当前节点的属性节点
xpath_expression = "//book/attribute::node()"

# 选择当前节点的所有子节点
xpath_expression = "//book/child::node()"

# 选择当前节点的所有后代节点
xpath_expression = "//book/descendant::node()"

# 选择当前节点的所有后代节点和自身
xpath_expression = "//book/descendant-or-self::node()"

# 选择当前节点之后的所有节点
xpath_expression = "//book/following::node()"

# 选择当前节点之后的所有同级节点
xpath_expression = "//book/following-sibling::node()"

# 选择当前节点的父节点
xpath_expression = "//book/parent::node()"

# 选择当前节点之前的所有节点
xpath_expression = "//book/preceding::node()"

# 选择当前节点之前的所有同级节点
xpath_expression = "//book/preceding-sibling::node()"

# 选择当前节点
xpath_expression = "//book/self::node()"

  • ancestor:选择所有祖先节点。
  • ancestor-or-self:选择所有祖先节点和当前节点自身。
  • attribute:选择当前节点的属性节点。
  • child:选择当前节点的所有子节点。
  • descendant:选择当前节点的所有后代节点。
  • descendant-or-self:选择当前节点的所有后代节点和自身。
  • following:选择当前节点之后的所有节点。
  • following-sibling:选择当前节点之后的所有同级节点。
  • namespace:选择当前节点的命名空间节点。
  • parent:选择当前节点的父节点。
  • preceding:选择当前节点之前的所有节点。
  • preceding-sibling:选择当前节点之前的所有同级节点。
  • self:选择当前节点。
XPath的运算符:

XPath支持使用运算符进行条件筛选,常见的运算符包括:

# 判断两个值是否相等
xpath_expression = "//book[price=10]"

# 判断两个值是否不相等
xpath_expression = "//book[price!=10]"

# 判断一个值是否小于另一个值
xpath_expression = "//book[price<10]"

# 判断一个值是否大于另一个值
xpath_expression = "//book[price>10]"

# 判断一个值是否小于等于另一个值
xpath_expression = "//book[price<=10]"

# 判断一个值是否大于等于另一个值
xpath_expression = "//book[price>=10]"

# 用于逻辑与操作
xpath_expression = "//book[price=10 and lang='en']"

# 用于逻辑或操作
xpath_expression = "//book[price=10 or lang='en']"

# 用于逻辑非操作
xpath_expression = "//book[not(price=10)]"

  • =:判断两个值是否相等。
  • !=:判断两个值是否不相等。
  • <:判断一个值是否小于另一个值。
  • >:判断一个值是否大于另一个值。
  • <=:判断一个值是否小于等于另一个值。
  • >=:判断一个值是否大于等于另一个值。
  • and:用于逻辑与操作。
  • or:用于逻辑或操作。
  • not:用于逻辑非操作。
XPath的函数:

XPath提供了一些内置函数,可以在选择节点时进行一些操作和转换。常用的函数包括:

# 选择节点的文本内容
xpath_expression = "//title/text()"

# 选择节点的名称
xpath_expression = "name(//book)"

# 连接多个字符串
xpath_expression = 'concat("Hello", " ", "World")'

# 判断一个字符串是否包含另一个字符串
xpath_expression = 'contains("Hello World", "Hello")'

# 判断一个字符串是否以另一个字符串开始
xpath_expression = 'starts-with("Hello World", "Hello")'

# 判断一个字符串是否以另一个字符串结束
xpath_expression = 'ends-with("Hello World", "World")'

# 获取字符串的长度
xpath_expression = 'string-length("Hello World")'

# 移除字符串两端的空白字符并压缩中间的空白字符
xpath_expression = 'normalize-space("   Hello    World   ")'

# 计算节点的数量
xpath_expression = 'count(//book)'

  • text():选择节点的文本内容。
  • name():选择节点的名称。
  • concat():连接多个字符串。
  • contains():判断一个字符串是否包含另一个字符串。
  • starts-with():判断一个字符串是否以另一个字符串开始。
  • ends-with():判断一个字符串是否以另一个字符串结束。
  • string-length():获取字符串的长度。
  • normalize-space():移除字符串两端的空白字符并压缩中间的空白字符。
  • count():计算节点的数量。

使用XPath解析网页

使用XPath解析网页可以方便地定位和提取需要的数据。以下是使用Python的lxml库进行XPath解析csdn中python专栏的示例代码:

import requests
from bs4 import BeautifulSoup
import time
from selenium import webdriver

# 发送HTTP请求获取网页内容
url = "https://blog.csdn.net/nav/python"

# 使用Chrome浏览器,需提前安装ChromeDriver并配置环境变量
driver = webdriver.Chrome()

# 打开网页
driver.get(url)

# 等待网页内容加载完成(根据实际情况调整等待时间)
time.sleep(3)

# 获取完整的网页内容
html = driver.page_source

# 关闭浏览器
driver.quit()

# 解析网页内容
soup = BeautifulSoup(html, "lxml")

# 提取所需信息
articles = soup.select(".Community .active-blog")
# print(articles)
for article in articles:
    title = article.select_one(".content .desc").text.strip()
    author = article.select_one(".operation .operation-c span").text.strip()
    print("标题:", title)
    print("作者:", author)
    print("-" * 50)

代码中,我们使用requests库发送HTTP请求获取网页内容,然后使用lxml库的etree模块将HTML源代码转换为可解析的树形结构。接下来,我们使用XPath路径表达式来选择所需的节点,并通过xpath()方法提取出标题和作者等信息。
效果如图:
在这里插入图片描述

未完待续…

python 爬虫

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/703018.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

实测视频!为什么独立比贴片IMU更适合智能驾驶?

在汽车智能化这场行业变革中&#xff0c;作为智能驾驶的标配&#xff0c;高精度定位系统已成L2级及以上智能驾驶“照进现实”进程中四两拨千斤的存在。 惯性测量单元IMU因其工作不依赖包括卫星在内的外界信号&#xff0c;已是智能汽车高精度定位系统的核心元器件。然而行业对于…

2023年跨境物流行业研究报告

第一章 行业概况 跨境物流行业是指那些提供将货物从一个国家运输到另一个国家的服务的公司。这些服务可能包括运输、仓储、包装、分拣、清关和货物跟踪等。跨境物流行业是全球贸易的重要组成部分&#xff0c;它使得商品可以从生产地运输到全球各地的消费者手中。 图 物流运输…

Nmap命令使用

该命令可以扫描目标地址所开放的端口地址&#xff0c;nmap 扫描器主要基本功能有三个&#xff0c;一是探测主机是否在线、其次是扫描主机端口、嗅探所提供的网络服务&#xff0c;还可以推断主机所用的操作系统。也可以深入探测 UDP 或者 TCP 端口&#xff0c;直至主机所使用的操…

华为项目管理认证--东方智慧,能力革新︱华为全球培训中心项目管理认证资深架构师张全军

华为全球培训中心项目管理认证资深架构师张全军先生受邀为由PMO评论主办的2023第十二届中国PMO大会演讲嘉宾&#xff0c;演讲议题&#xff1a;华为项目管理认证——东方智慧&#xff0c;能力革新。大会将于8月12-13日在北京举办&#xff0c;敬请关注&#xff01; 议题简要&…

Windows上安装Redis教程

Windows上安装Redis教程 一、下载 Redis1. 下载 Redis 压缩包2. 把下载好的压缩包移动到自己的安装目录下 二、安装 Redis三、配置 Redis3.1 配置 Redis 环境变量3.2 配置 Redis 后台服务 一、下载 Redis 1. 下载 Redis 压缩包 我这里下载的是 Redis 5.0 下载地址&#xff1a;…

6.30黄金双线收官打响保卫战,今日多空如何布局?

近期有哪些消息面影响黄金走势&#xff1f;今日黄金多空该如何研判&#xff1f; ​黄金消息面解析&#xff1a;金价周四收复盘中部分失地&#xff0c;在一系列强劲美国经济数据推动金价短暂跌破1900美元关键心理位后&#xff0c;投资者逢低买入。美国上周初请失业金人数创20个…

Python 基本数据类型(三)

文章目录 每日一句正能量数值运算数值类型实例String&#xff08;字符串&#xff09; 每日一句正能量 人的相处&#xff0c;靠的是真心&#xff0c;不是套路。合得来的人&#xff0c;坦诚相待&#xff0c;合不来的人&#xff0c;客气寒暄&#xff1b;谁也别给谁冷脸看&#xff…

文章ACCEPT之后填写内容教程-Springer-Verlag即施普林格

目录 确认通讯作者邮箱或者直接登录您的投稿官网进行确认 有的大学机构是能免费出版的&#xff1a;清华&#xff0c;北大都行 缴纳APC和订阅模式的区别 签订出版协议 英文的作者顺序是没有先后的&#xff0c;后期校稿自己可以调节 选择不彩印&#xff1a;彩印费用也是比较…

来自我的B站数码up主推荐

本人在什么值得买发过&#xff0c;现在只不过是为了让账号看起来更丰盈一点&#xff0c;现在再发一次。 我写下这篇文章的目的&#xff0c;就是陶冶情操啦 首先此文章只代表个人观点&#xff0c;我的想法是比较喜欢数码&#xff0c;所以下我们可以从以下入手。 科技美学&…

华为OD机试真题 Python 实现【基站维修工程师】【2023Q1 200分】,附详细解题思路

目录 一、题目描述二、输入描述三、输出描述四、解题思路五、Python算法源码六、效果展示1、输入2、输出 一、题目描述 小王是一名基站维护工程师&#xff0c;负责某区域的基站维护。 某地方有n个基站&#xff08;1<n<10&#xff09;&#xff0c;已知各基站之间的距离s…

C++ 异常处理

异常是程序在执行期间产生的问题。C 异常是指在程序运行时发生的特殊情况&#xff0c;比如尝试除以零的操作。 异常提供了一种转移程序控制权的方式。C 异常处理涉及到三个关键字&#xff1a;try、catch、throw。 throw: 当问题出现时&#xff0c;程序会抛出一个异常。这是通…

运动新风尚,听歌不用线——南卡OE真无线骨传导耳机

以往在选择运动耳机时&#xff0c;通常会选择骨传导耳机&#xff0c;骨传导耳机有着传统入耳式耳机以及头戴式耳机所不具备的优势。例如在运动稳定性以及安全性方面&#xff0c;骨传导耳机则更胜一筹&#xff0c;它在使用时&#xff0c;双耳是开放的&#xff0c;首先它不会有传…

0. 深度生成模型-基于得分的生成模型

深度生成模型-基于得分的生成模型 1. 概述1.1. 深度生成模型1.2. 本文内容 2. 基于得分的生成模型2.1. 分数匹配2.1.1. 去噪分数匹配2.1.2. 切片分数匹配 2.2. 朗之万动力学采样 3. 基于分数的生成式建模所面临的挑战3.1. 流形假说3.2. 低数据密度区域3.2.1 与分数匹配的分数估…

redis运维

redis运维 1.主从复制 互联网三高架构&#xff1a;高并发、高性能、高可用 单机redis的风险与问题&#xff1f; 问题1.机器故障 现象&#xff1a;硬盘故障、系统崩溃本质&#xff1a;数据丢失&#xff0c;很可能对业务造成灾难性打击结论&#xff1a;基本上会放弃使用redis.…

前端人必须掌握的抓包技能

1. 前言 时隔 3 年&#xff0c;重新接触了移动端 h5 页面开发&#xff0c;上一次还是大四实习。这一次是 hybrid 开发&#xff0c;涉及到 h5 页面与原生 app 的交互&#xff0c;h5 页面需要与原生打通登录态&#xff0c;以及调用原生app 的接口&#xff0c;比如调用原生相机进…

牙科口腔小程序开发 用科技呵护口腔健康

随着人们生活经济水平的提高&#xff0c;对于健康也更加重视&#xff0c;牙科口腔是重要的一个方面&#xff0c;尤其是青少年因为饮食习惯的问题尝尝需要看牙科&#xff0c;口腔科等&#xff0c;传统的牙科口腔医院服务流程繁琐&#xff0c;给用户造成了极大困扰。随着互联网技…

企业实施BI的时机和选择考虑

如果你的企业还只处在初创阶段&#xff0c;但又需要为日后的BI数据化做准备时。在数聚股份看来出于成本考虑&#xff0c;你可以先用Excel梳理好业务核心数据&#xff0c;聚焦核心指标&#xff0c;接着发展用户&#xff0c;积累业务数据。 当你的Excel报表已经无法承载你的业务量…

kafka3.x 入门 安装(一)

一、下载地址 http://kafka.apache.org/downloads.html 二、 zookeeper安装教程 https://blog.csdn.net/weixin_43205308/article/details/130426019 三、解压 这里使用的是kafka_2.12-3.0.0.tgz tar -zvxf kafka_2.12-3.0.0.tgz四、修改配置 进入到安装路径的config文件夹下…

青岛大学_王卓老师【数据结构与算法】Week03_05_线性表的链式表示和实现5_学习笔记

本文是个人笔记&#xff0c;仅用于学习分享&#xff0c;素材来自青岛大学王卓老师的教学视频&#xff0c;如有侵权&#xff0c;请留言作删文处理。 课程视频链接&#xff1a; 数据结构与算法基础–第3周05–2.5线性表的链式表示和实现5–单链表基本操作3–清空单链表 &#…

Linux基于thundersvm使用GPU对svm进行加速

Linux基于thundersvm使用GPU对svm进行加速 文章目录 Linux基于thundersvm使用GPU对svm进行加速下载方法pip快速下载命令 普通下载命令问题解决方法以下操作需要使用sudo权限 使用thundersvm调用方式 在代码中的使用训练代码更改更改内容 加载模型同样需要导入thundersvm更改内容…