爬虫入门指南:学习爬虫的基础知识和技巧

news2024/12/24 0:07:46

文章目录

  • 爬虫基础知识
        • 什么是爬虫?
        • 爬虫的工作原理
        • 爬虫的应用领域
  • 爬虫准备工作
        • 安装Python
        • 安装必要的库和工具
  • 网页解析与XPath
        • 网页结构与标签
        • CSS选择器与XPath
        • Xpath 语法
            • XPath的基本表达式:
            • XPath的谓语(Predicate):
            • XPath的轴(Axis):
            • XPath的运算符:
            • XPath的函数:
        • 使用XPath解析网页
  • 未完待续...

爬虫基础知识

爬虫基础知识

什么是爬虫?

什么是爬虫

爬虫是一种自动化程序,用于从互联网上获取数据。它通过模拟浏览器行为,访问指定的网页,并从中提取所需的信息。爬虫工作的核心是发送HTTP请求、获取网页内容、解析网页结构并提取数据。

爬虫的工作原理

爬虫的工作原理

爬虫的工作原理可以分为以下几个步骤:

  • 发送HTTP请求:爬虫通过发送HTTP请求来访问目标网页。
  • 获取网页内容:目标网站接收到请求后,会返回网页的HTML源代码作为响应。
  • 解析网页内容:爬虫利用解析技术(如XPath、正则表达式等)对HTML源代码进行解析,从中提取需要的信息。
  • 存储数据:爬虫将提取到的数据进行存储,可以保存到本地文件或写入数据库。

爬虫的应用领域

爬虫的应用领域

爬虫在各个领域都有广泛应用:

  • 数据采集与分析:爬虫可以用于采集互联网上的各种数据,如新闻、商品信息、股票数据等。这些数据可以用于后续的数据分析、挖掘和建模。
  • 搜索引擎:搜索引擎利用爬虫技术来获取互联网上的网页信息,并建立搜索索引,以提供给用户相关的搜索结果。
  • 舆情监测:企业或政府可以利用爬虫技术来监控社交媒体等平台上的舆情动态,及时获取和分析公众的意见和反馈。
  • 价格监测:电商平台可以利用爬虫定期监测竞争对手的商品价格,以调整自己的定价策略。
  • 其他领域:爬虫还广泛应用于个性化推荐系统、自然语言处理、机器学习等领域。

爬虫准备工作

爬虫准备工作

安装Python

爬虫通常使用Python进行开发,因此需要先安装Python。您可以从Python官方网站(https://www.python.org/)下载最新版本的Python,并按照安装向导进行安装。

安装必要的库和工具

爬虫开发中需要使用一些常用的库和工具来简化开发流程:

  • requests:用于发送HTTP请求和处理响应。可以通过pip install requests命令安装。
  • BeautifulSoup:一个优秀的HTML/XML解析库,可以方便地从网页中提取数据。可以通过pip install beautifulsoup4命令安装。
  • lxml:一个高性能的XML/HTML解析库,可以用于XPath解析。可以通过pip install lxml命令安装。

网页解析与XPath

网页解析与XPath

网页结构与标签

网页通常使用HTML(超文本标记语言)编写,它由一系列标签组成。标签用于定义网页的结构和呈现。常见的HTML标签有<html><head><body><div><p>等等。通过理解这些标签及其嵌套关系,可以更好地理解网页的结构。

CSS选择器与XPath

网页解析可以使用不同的方法,其中两种常见的方法是CSS选择器和XPath。

  • CSS选择器:CSS选择器是一种用于选择HTML元素的语法。它通过使用标签名、类名、ID等属性,可以方便地定位到指定的元素。例如,通过.classname选择类名为classname的元素,通过#id选择ID为id的元素。

  • XPath:XPath是一种用于在XML和HTML文档中进行选择的语言。XPath使用路径表达式来选择节点或节点集合。例如,使用//表示选择从根节点开始的所有节点,使用/表示选择当前节点的子节点,使用[]表示筛选条件等。

Xpath 语法

XPath的基本表达式:
# 选择所有名为"book"的节点
xpath_expression = "//book"

# 选择根节点下的所有名为"title"的子节点
xpath_expression = "/root/title"

# 选择当前节点
xpath_expression = "."

# 选择当前节点的父节点
xpath_expression = ".."

  • nodename:选择指定名称的节点。
  • //nodename:选择文档中所有匹配名称的节点。
  • /:从根节点开始选择。
  • .:选择当前节点。
  • ..:选择当前节点的父节点。
XPath的谓语(Predicate):

谓语用于进一步筛选节点,可以使用一些条件进行过滤。

# 选择第2个名为"book"的节点
xpath_expression = "//book[2]"

# 选择最后一个名为"title"的节点
xpath_expression = "//title[last()]"

# 选择位置小于3的名为"book"的节点
xpath_expression = "//book[position()<3]"

# 选择具有属性lang的名为"book"的节点
xpath_expression = "//book[@lang]"

# 选择属性lang的值为"en"的名为"book"的节点
xpath_expression = "//book[@lang='en']"

# 选择文本内容为"Python"的名为"title"的节点
xpath_expression = "//title[text()='Python']"

# 选择属性lang包含"en"的名为"book"的节点
xpath_expression = "//book[contains(@lang, 'en')]"

# 选择属性lang以"en"开始的名为"book"的节点
xpath_expression = "//book[starts-with(@lang, 'en')]"

# 选择属性lang以"en"结束的名为"book"的节点
xpath_expression = "//book[ends-with(@lang, 'en')]"

  • []:用于定义谓语条件。
  • [n]:选择第n个节点。
  • [last()]:选择最后一个节点。
  • [position()<n]:选择位置小于n的节点。
  • [@attribute]:选择具有指定属性的节点。
  • [@attribute='value']:选择具有指定属性值的节点。
  • [text()='value']:选择具有指定文本值的节点。
  • [contains(@attribute, 'value')]:选择属性包含特定值的节点。
  • [starts-with(@attribute, 'value')]:选择属性以特定值开始的节点。
  • [ends-with(@attribute, 'value')]:选择属性以特定值结束的节点。
XPath的轴(Axis):

轴用于在节点之间建立关联,常见的轴包括:

# 选择所有祖先节点
xpath_expression = "//book/ancestor::node()"

# 选择所有祖先节点和当前节点自身
xpath_expression = "//book/ancestor-or-self::node()"

# 选择当前节点的属性节点
xpath_expression = "//book/attribute::node()"

# 选择当前节点的所有子节点
xpath_expression = "//book/child::node()"

# 选择当前节点的所有后代节点
xpath_expression = "//book/descendant::node()"

# 选择当前节点的所有后代节点和自身
xpath_expression = "//book/descendant-or-self::node()"

# 选择当前节点之后的所有节点
xpath_expression = "//book/following::node()"

# 选择当前节点之后的所有同级节点
xpath_expression = "//book/following-sibling::node()"

# 选择当前节点的父节点
xpath_expression = "//book/parent::node()"

# 选择当前节点之前的所有节点
xpath_expression = "//book/preceding::node()"

# 选择当前节点之前的所有同级节点
xpath_expression = "//book/preceding-sibling::node()"

# 选择当前节点
xpath_expression = "//book/self::node()"

  • ancestor:选择所有祖先节点。
  • ancestor-or-self:选择所有祖先节点和当前节点自身。
  • attribute:选择当前节点的属性节点。
  • child:选择当前节点的所有子节点。
  • descendant:选择当前节点的所有后代节点。
  • descendant-or-self:选择当前节点的所有后代节点和自身。
  • following:选择当前节点之后的所有节点。
  • following-sibling:选择当前节点之后的所有同级节点。
  • namespace:选择当前节点的命名空间节点。
  • parent:选择当前节点的父节点。
  • preceding:选择当前节点之前的所有节点。
  • preceding-sibling:选择当前节点之前的所有同级节点。
  • self:选择当前节点。
XPath的运算符:

XPath支持使用运算符进行条件筛选,常见的运算符包括:

# 判断两个值是否相等
xpath_expression = "//book[price=10]"

# 判断两个值是否不相等
xpath_expression = "//book[price!=10]"

# 判断一个值是否小于另一个值
xpath_expression = "//book[price<10]"

# 判断一个值是否大于另一个值
xpath_expression = "//book[price>10]"

# 判断一个值是否小于等于另一个值
xpath_expression = "//book[price<=10]"

# 判断一个值是否大于等于另一个值
xpath_expression = "//book[price>=10]"

# 用于逻辑与操作
xpath_expression = "//book[price=10 and lang='en']"

# 用于逻辑或操作
xpath_expression = "//book[price=10 or lang='en']"

# 用于逻辑非操作
xpath_expression = "//book[not(price=10)]"

  • =:判断两个值是否相等。
  • !=:判断两个值是否不相等。
  • <:判断一个值是否小于另一个值。
  • >:判断一个值是否大于另一个值。
  • <=:判断一个值是否小于等于另一个值。
  • >=:判断一个值是否大于等于另一个值。
  • and:用于逻辑与操作。
  • or:用于逻辑或操作。
  • not:用于逻辑非操作。
XPath的函数:

XPath提供了一些内置函数,可以在选择节点时进行一些操作和转换。常用的函数包括:

# 选择节点的文本内容
xpath_expression = "//title/text()"

# 选择节点的名称
xpath_expression = "name(//book)"

# 连接多个字符串
xpath_expression = 'concat("Hello", " ", "World")'

# 判断一个字符串是否包含另一个字符串
xpath_expression = 'contains("Hello World", "Hello")'

# 判断一个字符串是否以另一个字符串开始
xpath_expression = 'starts-with("Hello World", "Hello")'

# 判断一个字符串是否以另一个字符串结束
xpath_expression = 'ends-with("Hello World", "World")'

# 获取字符串的长度
xpath_expression = 'string-length("Hello World")'

# 移除字符串两端的空白字符并压缩中间的空白字符
xpath_expression = 'normalize-space("   Hello    World   ")'

# 计算节点的数量
xpath_expression = 'count(//book)'

  • text():选择节点的文本内容。
  • name():选择节点的名称。
  • concat():连接多个字符串。
  • contains():判断一个字符串是否包含另一个字符串。
  • starts-with():判断一个字符串是否以另一个字符串开始。
  • ends-with():判断一个字符串是否以另一个字符串结束。
  • string-length():获取字符串的长度。
  • normalize-space():移除字符串两端的空白字符并压缩中间的空白字符。
  • count():计算节点的数量。

使用XPath解析网页

使用XPath解析网页可以方便地定位和提取需要的数据。以下是使用Python的lxml库进行XPath解析csdn中python专栏的示例代码:

import requests
from bs4 import BeautifulSoup
import time
from selenium import webdriver

# 发送HTTP请求获取网页内容
url = "https://blog.csdn.net/nav/python"

# 使用Chrome浏览器,需提前安装ChromeDriver并配置环境变量
driver = webdriver.Chrome()

# 打开网页
driver.get(url)

# 等待网页内容加载完成(根据实际情况调整等待时间)
time.sleep(3)

# 获取完整的网页内容
html = driver.page_source

# 关闭浏览器
driver.quit()

# 解析网页内容
soup = BeautifulSoup(html, "lxml")

# 提取所需信息
articles = soup.select(".Community .active-blog")
# print(articles)
for article in articles:
    title = article.select_one(".content .desc").text.strip()
    author = article.select_one(".operation .operation-c span").text.strip()
    print("标题:", title)
    print("作者:", author)
    print("-" * 50)

代码中,我们使用requests库发送HTTP请求获取网页内容,然后使用lxml库的etree模块将HTML源代码转换为可解析的树形结构。接下来,我们使用XPath路径表达式来选择所需的节点,并通过xpath()方法提取出标题和作者等信息。
效果如图:
在这里插入图片描述

未完待续…

python 爬虫

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/695254.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据挖掘与数据分析之统计知识篇

1、自由度是什么&#xff1f;怎么确定&#xff1f; 统计学上&#xff0c;自由度是指当以样本的统计量估计总体的参数时&#xff0c;样本中独立或能自由变化的数据个数叫自由度。一般来说&#xff0c;自由度等于独立变量减掉其衍生量数。举例来说&#xff0c;变异数的定义是样本…

Revit U型墩柱的绘制方法和生成柱方法

一、Revit U型墩柱的绘制方法 这里教大家一个墩柱的绘制步骤&#xff0c;我们采用一级等级考试第八期中的U型墩柱试题来给大家演示绘制步骤。 首先我们要明白这里需要采用族样板来绘制&#xff0c;新建一个族样板打开我们的公制常规模型样板 进入立面绘制题目中所需要的参照先&…

java基础(并发编程)-设计模式~同步模式之保护性暂停

一、同步模式之保护性暂停定义 保护性暂停即Guarded Suspension&#xff0c;用在一个线程等待另一个线程的执行结果。 要点 有一个结果需要从一个线程传递到另一个线程&#xff0c;让他们关联到同一个Guarded Object。如果有结果不断从一个线程到另一个线程&#xff0c;那么…

Covex combination和affine combination

Covex combination和affine combination是两种常见的线性组合方法。 Covex combination&#xff08;凸组合&#xff09;是指在线性组合中&#xff0c;所有权重&#xff08;coefficients&#xff09;取非负值且总和为1的情况。也就是说&#xff0c;对于给定的一组向量或点集合&…

Linux系统编程:详解进程地址空间

目录 一. 进程空间的布局 二. 进程地址空间 2.1 早期CPU访问物理内存的方式 2.2 什么是虚拟地址&#xff08;进程地址空间&#xff09; 2.3 操作系统对地址空间的管理方法 三. 地址空间存在的意义 四. 总结 一. 进程空间的布局 在语言层面学习C/C时&#xff0c;根据变量…

android studio 单独运行java 文件

首先&#xff0c;创建一个新的java文件。 然后&#xff0c;在Test.java文件中写上如图所示的代码。 接下来&#xff0c;我们把目录模式从Android转换成Project。 打开.idea文件夹下的gradle.xml文件。 在gradle.xml文件中添加上红色方框中的内容。 <option name"delega…

MySQL GROUP BY 多个字段的用法说明

MySQL GROUP BY 多个字段的用法说明 1. 说明2. 举例附录 1. 说明 在 mysql 中使用 group by 的意思是分组查询。如果 group by 后面跟的是单个字段&#xff0c;那么表示按照这个字段分组查询&#xff0c;如果 group by 后面跟的是多个字段&#xff0c;那么表示按照这些字段的不…

关于使用idea中遇到给Dependencies没有加入jar包,但是在war_exploded中lib有

lib文件夹无jar包 Dependencies无jar包 war_exploded中存在此jar 原因是在此有jar包 当去掉时

深入解析 css.1.5

❑ 控制选择器的优先级。 ❑ 不要混淆层叠和继承。 ❑ 某些属性会被继承&#xff0c;包括文本、列表、表格边框相关的属性。 ❑ 不要混淆initial和auto值。 initial是一个CSS属性的初始值&#xff0c;它会将属性的值重置为浏览器默认值。例如&#xff0c;如果将background-co…

其实失败才是人生常态,赢者通吃确实存在,但那不代表绝大多数人。

其实失败才是人生常态&#xff0c;赢者通吃确实存在&#xff0c;但那不代表绝大多数人。 &#x1f4e2;今年的就业难度可能是之前5年最难的一年&#xff0c;也有可能是以后5年最好的一年。 &#x1f4e2;&#x1f4e2;疫情的回落&#xff0c;仿佛只带动了旅游业的发展&#x…

在EasyCVR中调用快照接口返回404是什么原因?如何解决?

EasyCVR视频融合平台基于云边端一体化架构&#xff0c;能在复杂的网络环境中将前端设备进行统一集中接入&#xff0c;实现视频资源的汇聚管理、直播鉴权、转码处理、多端分发、智能告警、数据共享等能力与服务。此外&#xff0c;平台也提供了丰富的API接口供用户自由调用、集成…

【XKCD】XKCD 风格的图像

目录 1. XKCD 2. 实战 1. XKCD xkcd是一种风格独特的漫画风格&#xff0c;以幽默、讽刺、科学和技术为主题。这种风格通常采用简单的线条和草图&#xff0c;表达出作者的思考和观点。xkcd的图像经常涉及科学、数学、计算机科学、社会和文化问题&#xff0c;以及作者个人的生…

181_带你体验 Power BI 开发者模式 pbip

181_带你体验 Power BI 开发者模式 pbip 一、背景 如果你是一个 Power BI 重度用户&#xff0c;你是不是也有如下的情况&#xff1f; 是的&#xff0c;Power BI 的版本控制全靠复制一份重命名来实现&#xff0c;而且版本之间的特点和差异时间久了就不记得了&#xff0c;还要加…

人工智能将怎样改变未来?TVP读书会带你探索!

引言 数十年前&#xff0c;图灵抛出的时代之问“机器能思考吗&#xff1f;”&#xff0c;将 AI 从科幻拉至现实&#xff0c;随着无数计算机科学先驱的共同努力&#xff0c;人工智能已经发展为引领未来的战略性技术。 AI 无处不在&#xff0c;智能时代触手可及&#xff0c;从 NL…

小程序 view clearfix 不起作用,边距还是被折叠

问题&#xff1a; 多个同级view情况下设置最后view clearfix&#xff0c;让底部露一些空白局域&#xff0c;此时clearfix不启作用。 .wxss .clearfix:before,.clearfix:after{content: "";clear: both;display: table;border-bottom: 1px solid black; } /*边距*/…

软件测试金字塔是什么,它的目的是什么,以及它包含哪些层次?

一、测试金字塔的概念&#xff1a; 测试金字塔是2009年Mike Cohn在他的著作《Succeeding with Agile》一书正式提出的。他是一个类比的概念&#xff0c;形容每一层&#xff0c;或者说不同集成阶段测试覆盖率和知行效率之间的一个相对关系。 测试金字塔最初的原型分三层&#…

如何找回删除的文件?这些文件恢复方法,超实用!

大家快看看我&#xff01;我一不小心删除了非常重要的文件&#xff0c;突然不知道该怎么办了&#xff01;我对电脑的操作也不熟悉&#xff0c;不敢轻易进行操作&#xff01;大家有什么比较好的方式可以找回删除的文件吗&#xff1f; 在使用电脑时&#xff0c;误删文件的情况经常…

基于Python所写的五子棋设计

点击以下链接获取源码资源&#xff1a; https://download.csdn.net/download/qq_64505944/87952977 《五子棋&#xff08;控制台版&#xff09;》程序使用说明 在PyCharm中运行《五子棋&#xff08;控制台版&#xff09;》即可进入如图1所示的系统主界面。 图1 游戏主界面 具…

掌握客户参与:终极指南有效的CRM管理

随着信息技术的快速发展&#xff0c;企业面对的市场竞争日益激烈&#xff0c;客户需求也变得越来越多样化和个性化。传统的销售和营销模式已经不能适应当前的市场环境&#xff0c;企业需要更加精细化、个性化的管理客户关系。CRM管理应用解决方案应运而生&#xff0c;它能够帮助…

allure环境搭建教程

pytest的安装:&#xff08;这里着重介绍Windows&#xff09; allure是基于Java的一个程序&#xff0c;需要Java1.8的环境,所以安装之前需要配置jdk环境 pytest是python的一个第三方单元测试框架&#xff0c;在这里用于生成原始的执行结果。 一、一定别选最新的&#xff0c;3.…