爬虫 | 基础模块了解

news2025/1/12 23:30:14

文章目录

  • 📚http协议
  • 📚requests模块
  • 📚re模块
    • 🐇 re.I 或 re.IGNORECASE
    • 🐇re.M或 re.MULTILINE
    • 🐇re.S 或 re.DOTALL
    • 🐇 re.A 或 re.ASCII
    • 🐇 re.X 或 re.VERBOSE
    • 🐇特殊字符类
  • 📚xpath模块
    • 🐇节点的排序
    • 🐇函数用法
    • 🐇节点关系
    • 🐇补充语法

📚http协议

  • 计算机网络|第二章:应用层
  • Python爬虫教程(一):基础知识
    在这里插入图片描述
  • 请求行:请求方式(get/post)请求地址
  • User-Agent:请求载体的身份标识(不同浏览器不同)
  • cookie:本地字符串数据信息(用户登录信息)
  • 请求体:放一些请求参数

在这里插入图片描述在这里插入图片描述

📚requests模块

  • 发送HTTP请求:通过调用requests库中的get()post()put()delete()等函数,可以发送不同类型的HTTP请求。
  • 添加请求参数:可以通过传递参数给get()post()函数,向请求中添加查询字符串参数、请求头等信息。
  • 处理响应:收到服务器的响应后,可以访问返回的响应状态码、头部信息和内容等,并根据需要进行处理。
  • 管理会话:使用Session对象可以创建和管理会话,以便在多个请求之间保持一致的会话状态,如使用cookies和身份验证等。
  • 处理异常:requests模块具有内置的异常处理机制,可以捕获和处理请求过程中可能出现的异常情况。

import requests

# 发送HTTP GET请求,获取网页内容
url = "https://example.com"
response = requests.get(url)

# 判断请求是否成功
if response.status_code == 200:
    # 输出网页内容
    print(response.text)
else:
    print("请求失败")
  • 用requests库发送了一个HTTP GET请求,并指定了要请求的网址。然后,通过访问 ​response.status_code​属性,判断请求是否成功(状态码为200表示成功)。如果请求成功,通过 ​response.text​属性获取到网页内容,并将其打印出来。

import requests

# 创建Session对象
session = requests.Session()

# 发送登录请求,获取cookies
login_url = "https://example.com/login"
payload = {"username": "your_username", "password": "your_password"}
response = session.post(login_url, data=payload)

# 判断登录是否成功
if response.status_code == 200:
    # 发送带有cookies的请求,获取其他页面内容
    profile_url = "https://example.com/profile"
    response = session.get(profile_url)
    
    # 判断请求是否成功
    if response.status_code == 200:
        # 输出页面内容
        print(response.text)
else:
    print("登录失败")
  • 创建了一个Session对象。Session对象可以保持会话状态,并自动管理cookies。
  • 发送一个登录请求(POST请求),传递用户名和密码等表单数据。登录成功后,会话中会自动保存返回的cookies信息。
  • 通过使用相同的Session对象发送另一个请求(GET请求),这次访问一个需要登录后才能查看的页面。由于我们使用的是之前的会话,会携带之前登录成功后返回的cookies信息。
  • 判断请求是否成功,并输出页面内容。

📚re模块

  • 正则表达式匹配:使用re模块的match()(从字符串的开头开始匹配)、search()(搜索第一个匹配)和findall()(返回所有匹配的结果)等函数,可以根据指定的正则表达式,在字符串中查找匹配的内容。
  • 替换字符串:通过使用re模块的sub()subn()函数,可以将匹配到的内容替换为指定的字符串。sub()函数会替换所有匹配项,而subn()函数还会返回替换的次数。
  • 分割字符串:re模块的split()函数可以根据指定的正则表达式,将字符串分割为子字符串列表。
  • 匹配对象的操作:re模块中的Match对象表示一个匹配项,可以从中获取匹配的内容、位置以及其他相关信息。
  • 正则表达式修饰符:re模块提供了一些修饰符,用于控制正则表达式的匹配行为,如忽略大小写、多行匹配、全局匹配等。

🐇 re.I 或 re.IGNORECASE

  • 忽略大小写匹配,不论目标字符串的字母是大写还是小写,都可以与正则表达式模式相匹配。
    import re
    pattern = r"hello"
    text = "Hello, World!"
    result = re.search(pattern, text, re.I)
    print(result.group())  # 输出:Hello
    

🐇re.M或 re.MULTILINE

  • re.Mre.MULTILINE用于指定多行模式匹配。

  • 正则表达式通常按照默认的单行模式进行匹配,也就是只将目标文本视为单个行。在这种模式下,^表示字符串的开头,$表示字符串的结尾。

  • 而使用re.M标志可以将正则表达式切换到多行模式,即将目标文本视为多个行。在多行模式下,^$分别表示行的开头和行的结尾,而不再仅限于字符串的开头和结尾。

    import re
    text = "Hello\nWorld\nHow are you?"
    pattern = re.compile("^H", re.M)
    matches = pattern.findall(text)
    print(matches)
    
  • 由于使用了多行模式,模式中的^表示行的开头,因此只有以字母H开始的行会与模式进行匹配。所以最终的输出结果是['H', 'How'],分别对应于第一行和第三行匹配成功的结果。

🐇re.S 或 re.DOTALL

  • re.Sre.DOTALL单行匹配,用于指定点字符(.)匹配任意字符,包括换行符。
  • 在正则表达式中,.通常表示匹配除了换行符之外的任意字符。默认情况下,它不匹配换行符,但是使用re.S标志可以使其匹配包括换行符在内的任意字符。
    import re
    pattern = r"hello.*world"
    text = "hello\nworld"
    # 匹配以 "hello" 开始,并以 "world" 结尾,中间可以有任意数量的任意字符。
    result = re.search(pattern, text, re.S)
    print(result.group())  # 输出:hello\nworld
    

🐇 re.A 或 re.ASCII

  • 限制模式中的字符匹配为ASCII字符集。
    import re
    pattern = r"\w+"
    text = "你好, World!"
    result = re.findall(pattern, text, re.A)
    print(result)  # 输出:['World']
    

🐇 re.X 或 re.VERBOSE

  • 冗长模式,忽略正则表达式中的空白和注释。
    import re
    pattern = r"""
        hello        # 匹配 hello
        \s+          # 匹配一个或多个空格字符
        world        # 匹配 world
    """
    text = "hello     world"
    result = re.search(pattern, text, re.X)
    print(result.group())  # 输出:hello     world
    

🐇特殊字符类

  1. \d:匹配任意数字。相当于[0-9]
  2. \D:匹配任意非数字字符。相当于[^0-9]
  3. \s:匹配任意空白字符,包括空格、制表符、换行符等。
  4. \S:匹配任意非空白字符。
  5. \w:匹配任意字母、数字和下划线字符。相当于[a-zA-Z0-9_]
  6. \W:匹配任意非字母、数字和下划线字符。
  • 这些特殊字符类可以在正则表达式中使用,以便更精确地匹配特定类型的字符。需要注意的是,大写形式的特殊字符类(例如\D\S\W)表示相反的意义,即匹配对应类别之外的字符。

  • 例如,使用\d+可以匹配一个或多个连续的数字,而\D+则匹配一个或多个连续的非数字字符。

📚xpath模块

  • XPath(XML Path Language)是一种用于在 XML 文档中定位选择元素的语言。使用 XPath 模块,可以根据指定的 XPath 表达式从 XML 文档中定位和选择节点,提取所需的数据。
  • XPath 模块提供了以下主要功能:
    • 解析 XML 文档:使用 xml.etree.ElementTree.parse() 函数加载 XML 文件,并返回一个表示整个 XML 文档的树结构
    • 定位节点:使用 XPath 表达式 tree.xpath(xpath_expr) 在 XML 树结构中定位满足条件的节点。XPath 表达式描述了节点的路径或属性等选择条件。
    • 选择节点:使用 Element.xpath(xpath_expr) 方法在当前节点下选择满足条件的子节点。
    • 提取数据:使用 element.text 获取节点的文本内容,使用 element.attrib 获取节点的属性信息。
    from lxml import etree
    
    # 解析 XML 文档
    tree = etree.parse("data.xml")
    
    # 使用 XPath 表达式定位和选择节点
    # 从 XML 或 HTML 文档的根节点 catalog 中选取所有 book 元素下的 title 子元素,并提取它们的文本内容
    title = tree.xpath("/catalog/book/title/text()")
    author = tree.xpath("/catalog/book/author/text()")
    
    # 获取节点的文本内容
    title_text = title[0]
    author_text = author[0]
    
    # 打印结果
    print("Title:", title_text)
    print("Author:", author_text)
    
    • ​​title = tree.xpath("/catalog/book/title/text()")​:选择XML文档中所有 ​​节点的文本内容。
    • ​.text()​表示获取节点的文本内容,而不是节点本身。

🐇节点的排序

# 使用 [下标]来选择指定位置的节点,注意 XPath 下标从 1 开始计数
tree.xpath('//div[@class="root"]/div/p[2]/text()')

# 获取当前层同级节点中的最后一个位置的节点 
tree.xpath('//div[@class="root"]/div/p[last()]/text()')

# 获取倒数第二个位置的节点
tree.xpath('//div[@class="root"]/div/p[last()-1]/text()')

# 获取位置小于等于2的节点
tree.xpath('//div[@class="root"]/div/p[position() <= 2]/text()')

🐇函数用法

# 用于筛选嵌套文本长度大于5的嵌套文本
tree.xpath("//ul/li[string-length(text()) > 5]/text()")

# 判断属性是否包含指定的子字符串
tree.xpath("//ul/li[contains(@class, 'price')]/text()")

# 匹配以指定字符开头的节点
tree.xpath("//ul/li[starts-with(text(), '啦啦')]/text()")

# 计算节点数量
tree.xpath("count(//ul/li)")

🐇节点关系

# self::代表当前节点自身
tree.xpath('//div/p/self::p/text()')

# * 代替标签名称,匹配任何标签
tree.xpath('//div/p/self::*/text()')

# following-sibling::选取当前节点之后的同级节点
tree.xpath("//div/p[text()='第三段']/following-sibling::*/text()")

# preceding-sibling::选取当前节点之前的同级节点: 
tree.xpath("//div/p[text()='第三段']/preceding-sibling::*/text()")

# 父辈节点:parent::
tree.xpath('//div[@class="self"]/parent::*/@class')

# 先辈节点:`ancestor::` 和 `ancestor-or-self::`
tree.xpath('//div[@class="self"]/ancestor::*/@class')
tree.xpath('//div[@class="self"]/ancestor-or-self::*/@class')

# 后代关系:子节点 `child::`、所有后代节点 `descendant::` 和所有后代节点及自身 `descendant-or-self::`
tree.xpath("//div[@class='uncle']/child::*/@class")
tree.xpath("//div[@class='grandpa']/descendant::*/@class")
tree.xpath("//div[@class='grandpa']/descendant-or-self::*/@class")

🐇补充语法

  • 使用 * 通配符匹配任何满足条件的节点,不需要考虑父节点
    • tree.xpath("//*[@class='price' or @class='price-item']/text()")
  • 使用正则表达式模式匹配节点
    • tree.xpath("//ul/li[ns:match(text(), '哈哈$')]/text()", namespaces={"ns": "http://exslt.org/regular-expressions"})
    • 匹配带有以字母 “哈哈” 结尾的文本内容的 li 元素,并返回这些 li 元素的文本内容。同时使用 ​namespaces​ 参数来定义命名空间的映射。

参考博客:

  • Python爬虫教程(一):基础知识

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1092364.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

嵌入式学习笔记(55)LCD简介

12.1.1什么是LCD (1)Liquid Crystal Display&#xff0c;俗称液晶显示 (2)液晶是一种材料&#xff0c;液晶这种材料具有一种特点&#xff1a;可以在电信号的驱动下液晶分子进行旋转&#xff0c;旋转时会影响透光性&#xff0c;因此我们可以在整个液晶面板后面用白光照&#x…

SystemVerilog Assertions应用指南 第一章(1.25章节 “first_match”运算符)

任何时候使用了逻辑运算符(如“and”和“or”)的序列中指定了时间窗,就有可能出现同一个检验具有多个匹配的情况。“ first match”构造可以确保只用第一次序列匹配,而丢弃其他的匹配。当多个序列被组合在一起,其中只需时间窗内的第一次匹配来检验属性剩余的部分时,“ first ma…

2023年09月 C/C++(七级)真题解析#中国电子学会#全国青少年软件编程等级考试

C/C编程&#xff08;1~8级&#xff09;全部真题・点这里 Python编程&#xff08;1~6级&#xff09;全部真题・点这里 第1题&#xff1a;红与黑 有一间长方形的房子&#xff0c;地上铺了红色、黑色两种颜色的正方形瓷砖。你站在其中一块黑色的瓷砖上&#xff0c;只能向相邻的黑色…

闲鱼的商品结构化是如何演进的

闲鱼商品结构化和淘宝/天猫最大的区别在于闲鱼卖家都是个人用户&#xff0c;无论是专业程度还是行动力远不及淘宝卖家。为了不阻碍商品发布&#xff0c;闲鱼一直倡导轻发布&#xff0c;理想状况用户拍完照片输入一段描述即可完成发布。但是这和商品结构化相悖&#xff1a;卖家输…

基于php+thinkphp+vue的校园二手交易网站

运行环境 开发语言&#xff1a;PHP 数据库:MYSQL数据库 应用服务:apache服务器 使用框架:ThinkPHPvue 开发工具:VScode/Dreamweaver/PhpStorm等均可 项目简介 随着社会的发展&#xff0c;社会的各行各业都在利用信息化时代的优势。计算机的优势和普及使得各种信息系统的开发…

Folium 笔记:使用PopUp突出subzone的空间分布

0 效果图 点开某一个区域后&#xff0c;内容是这个区域的用地类型分布 1 读取数据 import folium import matplotlib.pyplot as plt import re import geopandas as gpd subzonegpd.read_file(MasterPlan2019PlanningAreaBoundaryNoSea.geojson) subzone 2 提取subzone 信息 …

thinkphp6

unexpected , expecting case (T_CASE) or default (T_DEFAULT) or } 在模板中应用{switch}{/switch}标签,报错,其实是switch的问题&#xff0c;模板解析后&#xff0c;switch:和第一个case:之间不能有有输出的&#xff0c;一个空格也不行&#xff0c;所以第一个要紧跟着 Thi…

【LeetCode刷题(数据结构)】:对称二叉树

给你一个二叉树的根节点 root 检查它是否轴对称 输入&#xff1a;root [1,2,2,3,4,4,3] 输出&#xff1a;true 输入&#xff1a;root [1,2,2,null,3,null,3] 输出&#xff1a;false 提示&#xff1a; 树中节点数目在范围 [1, 1000] 内 -100 < Node.val < 100 对称二叉…

芯片学习记录AM26LS31INSR

AM26LS31INSR 芯片介绍 AM26LS31 系列器件是四路互补输出线路驱动器&#xff0c;可 满足 ANSI TIA/EIA-422-B 和 ITU &#xff08;原 CCITT &#xff09;建议 V.11 的要求。三态输出可提供用于驱动双绞线或平行 双线传输线路等平衡线路的高电流&#xff0c;并在断电情况下处…

C# 解决从其他地方迁移项目,引用中大多数包是感叹号的问题

当在 Visual Studio 中复制别人的 C# 项目时&#xff0c;遇到许多包冒感叹号的问题通常是因为缺少相关的 NuGet 包或引用不正确导致的。这会在解决方案资源管理器中的引用下显示感叹号。 解决办法如下&#xff1a; 在 Visual Studio 中打开项目。 在解决方案资源管理器中&…

Ubuntu 上传项目到 GitHub

一、前言 GitHub 作为时下最大的开源代码管理项目&#xff0c;广泛被工程和科研人员使用&#xff0c;本文主要介绍如何如何将自己的项目程序上传到 GitHub 上。 要上传本地项目到 GitHub 上&#xff0c;主要分为两步&#xff0c;第一步是 二、创建 SSH keys 首先登录 GitHu…

[Linux打怪升级之路]-管道

前言 作者&#xff1a;小蜗牛向前冲 名言&#xff1a;我可以接受失败&#xff0c;但我不能接受放弃 如果觉的博主的文章还不错的话&#xff0c;还请点赞&#xff0c;收藏&#xff0c;关注&#x1f440;支持博主。如果发现有问题的地方欢迎❀大家在评论区指正 本期学习目标&…

SystemVerilog Assertions应用指南 第一章(1.25章节 “throughout”运算符)

蕴含( (implication)是目前讨论到的允许定义前提条件的一项技术。例如,要对一个指定的序列进行检验,必须某个前提条件为真。也有这样的情况,要求在检验序列的整个过程中,某个条件必须一直为真。蕴含只在时钟边沿检验前提条件一次,然后就开始检验后续算子部分,因此它不检测先行算…

“一馆一策”保亚运,精准气象服务背后的数据魔法

第十九届杭州亚运会已隆重闭幕&#xff0c;十五个比赛日留下了无数精彩的瞬间&#xff1a;开幕式数字火炬手点燃主火炬、男女100米接力赛的激情澎湃、“时间孤勇者”丘索维金娜的坚持、围棋选手柯洁的泪洒赛场…… 作为亚洲水平最高的综合型运动会&#xff0c;本届杭州亚运会竞…

指令跳转:原来if...else就是goto

目录 CPU 是如何执行指令的&#xff1f; 从 if…else 来看程序的执行和跳转 如何通过 if…else 和 goto 来实现循环&#xff1f; 小结 你平时写的程序中&#xff0c;肯定不只有 int a 1 这样最最简单的代码或者指令。我们总是要用到 if…else 这样的条件判断语句、while 和…

教你怎么在电脑端下载西瓜视频源文件

家里长辈平时爱用西瓜视频&#xff0c;看到喜欢的广场舞就会收藏&#xff0c;甚至想下载到视频机&#xff0c;晚上去广场跟着跳&#x1f923;。 这时计算机专业出身的我&#xff0c;就派上用场了。不废话&#xff0c;直接上手&#xff1a; 打开西瓜视频官网&#xff0c;搜索到…

SystemVerilog Assertions应用指南 第一章(1.27章节 “within”运算符)

“ within”构造允许在一个序列中定义另一个序列。 seq1 within seq2 这表示seq1在seq2的开始到结束的范围内发生,且序列seq2的开始匹配点必须在seq1的开始匹配点之前发生,序列seq1的结束匹配点必须在seq2的结束匹配点之前结束。属性p32检查序列s32a在信号“ start”的上升沿和…

【Redis】Java客户端使用list命令

lpush/lrange rpush/rpop/lpop blpop/brpop llen

SQL Server——数据与表的操作

SQL Server 一、实验目的二、实验内容三、实验要求四、实验过程图形化界面完成此实验使用SQL语句进行创建数据库、表格&#xff0c;修改数据库内容、删除数据库 五、实验心得与体会&#xff1a; 一、实验目的 1)熟悉management studio环境。2)掌握management studio环境下创建…

Hadoop3教程(五):NameNode和SecondaryNameNode

文章目录 &#xff08;59&#xff09;NN和2NN的工作机制&#xff08;60&#xff09;FsImage镜像文件&#xff08;61&#xff09;Edits编辑日志&#xff08;62&#xff09;Checkpoint时间设置参考文献 &#xff08;59&#xff09;NN和2NN的工作机制 NameNode的数据是存储在磁盘…