爬虫 | 正则、Xpath、BeautifulSoup示例学习

news2024/10/4 22:39:57

文章目录

  • 📚import requests
  • 📚import re
  • 📚from lxml import etree
  • 📚from bs4 import BeautifulSoup
  • 📚小结

契机是课程项目需要爬取一份数据,于是在CSDN搜了搜相关的教程。在博主【朦胧的雨梦】主页学到很多😄。本文基于大佬给出的实例学习记录自用。以下将相关博客列出,推荐学习~

  • Python |浅谈爬虫的由来
  • Python爬虫 | 利用python爬虫获取想要搜索的数据
  • Python爬虫经典战役——正则实战
  • Python爬虫| 一文掌握XPath
  • Python爬虫之美丽的汤——BeautifulSoup

📚import requests

  • 使用模板

    import requests   
    url ='xxxxxxxxxxxx' 
    #发送请求                              
    response = request.get(url, params,headers)  (get请求或者post请求)  
    #根据相应的格式解码
    response.encoding=response.appareent_encoding
    

  • 在爬虫应用中,伪装请求头里的User-Agent和Cookie具有以下作用和目的:

    • User-Agent:User-Agent是HTTP请求头的一部分,用于告诉服务器发送请求的客户端的信息,其中常用的是浏览器标识。在爬虫中,通过设置一个合适的User-Agent,可以模拟不同的浏览器或客户端发起请求,使得请求看起来更像是来自真实的人而不是自动化程序。有些网站可能会根据User-Agent的不同来返回不同的内容,所以在编写爬虫时,设置合适的User-Agent可以提高请求的成功率。
    • Cookie:Cookie是存储在客户端(浏览器)中的一小段数据,用于跟踪用户的会话状态。在爬虫中,有些网站会使用Cookie来记录用户的登录状态、浏览历史等信息。为了模拟用户登录状态或以合适的身份进行访问,我们可以在请求头中添加Cookie信息。通过使用合适的Cookie值,可以使请求看起来更像是经过登录验证的用户发起的请求,从而获取到需要登录才能访问的内容。
  • 通过伪装请求头中的User-Agent和Cookie,可以增加爬虫对目标网站的访问成功率,避免被服务器拒绝访问或返回错误的内容。另外,在使用伪装请求头时,需要注意遵守网站的使用规则和避免非法操作,以免违反相关法律法规或引起不必要的麻烦。


  • 代码精读

    import requests
    
    data = input('输入你想要查找的数据:').split()
    # 地址
    url ='http://www.baidu.com/s'
    
    # 伪装请求头
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36',
        'Cookie': 'BIDUPSID=CDE3B4BEE7AE0D336C4D0734E42BCF8B; PSTM=1664331801; BAIDUID=CDE3B4BEE7AE0D33996D27FED1DDB4DB:FG=1; BD_UPN=12314753; BDUSS=JNdXVzTXMyWmFKM0x1VWJ5eG9GUjg4UmVCRFQxY1dtejBPVDFBfjc0VHhYRnRqRVFBQUFBJCQAAAAAAAAAAAEAAACse3WjanNuZGJpZAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAPHPM2PxzzNjTT; BDUSS_BFESS=JNdXVzTXMyWmFKM0x1VWJ5eG9GUjg4UmVCRFQxY1dtejBPVDFBfjc0VHhYRnRqRVFBQUFBJCQAAAAAAAAAAAEAAACse3WjanNuZGJpZAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAPHPM2PxzzNjTT; newlogin=1; ZFY=utLrULRdQjGdhXHuTriamg7jZ2PZMLmnKmUCBUiVrTw:C; BAIDUID_BFESS=CDE3B4BEE7AE0D33996D27FED1DDB4DB:FG=1; BA_HECTOR=ag04ah242k2l2h0la0010ofe1ho8t901f; BDORZ=FFFB88E999055A3F8A630C64834BD6D0; COOKIE_SESSION=765400_1_9_9_5_15_1_0_9_7_0_0_1292084_0_0_0_1668919087_1669684425_1669684425%7C9%234656831_6_1669684425%7C3; B64_BOT=1; BDRCVFR[7FEYkXni5q3]=mk3SLVN4HKm; BD_HOME=1; H_PS_PSSID=26350; BD_CK_SAM=1; PSINO=3; delPer=1; H_PS_645EC=3d48biiwjEvDlNFtMaUHuepsRu67OxRgPoEiOrMKvfRketUwB4GowDbv4KmDa%2BaTHUgCCoc; baikeVisitId=e1f583c7-eb15-4940-a709-054666f30f48; BDSVRTM=443'
    }
    
    data = {
    	# 'wd'​是百度搜索的关键字参数
        'wd': data
    }
    # 获得响应
    response = requests.get(url=url, params=data, headers=headers)
    # 智能解码
    response.encoding = response.apparent_encoding
    # 返回响应内容
    print(response.text)
    

📚import re

在这里插入图片描述

  • 贪婪匹配,尽可能多的匹配字符:.*
  • 非贪婪匹配,尽可能少的匹配字符:.*?

  • 代码精读

    import requests
    import re
    
    # 目标网页的URL
    url = 'https://movie.douban.com/top250'
    # 请求头信息
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36'
    }
    # 使用requests库发送GET请求,获取目标网页的内容,并将其编码为对应的字符编码格式。
    response = requests.get(url=url, headers=headers)
    response.encoding = response.apparent_encoding
    # 响应内容的文本形式,存储在变量h
    h = response.text
    # 通过正则表达式模式匹配和提取电影信息
    pattern = re.compile(r'<img width="100" alt="(?P<name>.*?)"'
                         r'.*?<p class="">.*? '
                         r'导演: (?P<director>.*?)&nbsp.*?'
                         r'主演: (?P<actors>.*?)<br>'
                         r'(?P<year>.*?)&nbsp;.*?'
                         r'/&nbsp;(?P<country>.*?)&nbsp;.*?'
                         r';(?P<type>.*?)</p>.*?'
                         r'<span class="rating_num" property="v:average">(?P<mark>.*?)</span>.*?'
                         r'<span>(?P<evaluate>.*?)</span>', re.S)
    # 在字符串h中搜索与pattern匹配的内容,并返回一个迭代器对象
    result = pattern.finditer(h)
    for item in result:
        with open('豆瓣电影信息.txt', 'a', encoding='utf-8') as fp:
            fp.write('\n')
            # 使用group方法获取每个匹配项中各个信息字段的值
            fp.write(item.group('name'))
            # 写入文件
            fp.write('\n')
            fp.write(item.group('director'))
            fp.write('\n')
            fp.write(item.group('actors'))
            fp.write('\n')
            fp.write(item.group('year').strip())
            fp.write('\n')
            fp.write(item.group('country'))
            fp.write('\n')
            fp.write(item.group('type'))
            fp.write('\n')
            fp.write(item.group('mark'))
            fp.write('\n')
            fp.write(item.group('evaluate'))
            fp.write('\n')
    print('爬取完成')
    

    在这里插入图片描述


在这里插入图片描述在这里插入图片描述


  • <img width="100" alt="(?P<name>.*?)"
    • 匹配电影海报的img标签,其中包含了电影名称。(?P<name>.*?)使用?P<name>为该匹配项命名为’name’,并使用非贪婪模式匹配任意字符。

  • .*?<p class="">.*?
    • 匹配电影信息中的起始标签<p class="">之后的任意字符。

  • 导演: (?P<director>.*?)&nbsp.*?
    • 匹配导演姓名,导演姓名使用(?P<director>.*?)命名为’director’,并使用非贪婪模式匹配任意字符。

  • 主演: (?P<actors>.*?)<br>
    • 匹配主演姓名,主演姓名使用(?P<actors>.*?)命名为’actors’,并使用非贪婪模式匹配任意字符。该部分以<br>标签结尾。

  • (?P<year>.*?)&nbsp;.*?
    • 该部分匹配包含电影年份的文本,年份使用(?P<year>.*?)命名为’year’,并使用非贪婪模式匹配任意字符。该部分以&nbsp;结尾。

  • /&nbsp;(?P<country>.*?)&nbsp;.*?
    • 匹配电影国家/地区,国家/地区使用(?P<country>.*?)命名为’country’,并使用非贪婪模式匹配任意字符。该部分以&nbsp;结尾。

  • ;(?P<type>.*?)</p>.*?
    • 匹配包含电影类型的文本,类型使用(?P<type>.*?)命名为’type’,并使用非贪婪模式匹配任意字符。该部分以;</p>标签结尾。

  • <span class="rating_num" property="v:average">(?P<mark>.*?)</span>.*?
    • 匹配电影评分,评分使用(?P<mark>.*?)命名为’mark’,并使用非贪婪模式匹配任意字符。该部分以<span class="rating_num" property="v:average"></span>标签结尾。

  • <span>(?P<evaluate>.*?)</span>
    • 匹配电影评价,评价使用(?P<evaluate>.*?)命名为’evaluate’,并使用非贪婪模式匹配任意字符。该部分以<span></span>标签结尾。

📚from lxml import etree

  • 代码精读
    import requests
    from lxml import etree
    # 需要请求的url
    url = 'https://www.duanmeiwen.com/xinshang/3203373.html'
    # 伪装请求头
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36',
    }
    # 获得响应
    response = requests.get(url=url, headers=headers)
    # 智能解码
    response.encoding = response.apparent_encoding
    
    # 提取数据
    # 使用etree.HTML函数将HTML文本转换为可进行XPath操作的树结构对象tree。
    tree = etree.HTML(response.text)
    # 指定了要提取的目标位置
    # 即在HTML文档中,位于/html/body/div[2]/div[2]/div/div[2]/h2这个路径下的<h2>标签。
    # div[2]表示选择第二个div元素
    # text()表示提取选定元素的文本内容。
    # 将结果存储在titles变量
    titles = tree.xpath('/html/body/div[2]/div[2]/div/div[2]/h2/text()')
    # 同上
    message = tree.xpath('/html/body/div[2]/div[2]/div/div[2]/p/text()')
    
    #遍历保存数据
    for i in range(len(message)):
        with open('优美文艺句子.txt', 'a', encoding='utf-8') as fp:
            fp.write(message[i])
            fp.write('\n')
    print('文章爬取完成')
    

在这里插入图片描述

📚from bs4 import BeautifulSoup

在这里插入图片描述
在这里插入图片描述


  • 代码精读

    import requests
    from bs4 import BeautifulSoup
    
    # 需要请求的url
    url = 'https://www.starbucks.com.cn/menu/'
    # 伪装请求头
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36',
    }
    # 获得响应
    response = requests.get(url=url, headers=headers)
    # 智能解码
    response.encoding = response.apparent_encoding
    
    # 提取数据
    soup = BeautifulSoup(response.text, 'lxml')
    # 通过选择器找到了class为"grid padded-3 product"的ul元素下的strong标签,并将其结果存储在name_list变量中
    name_list = soup.select('ul[class="grid padded-3 product"] strong')
    print(name_list)
    
    # 保存数据
    for i in name_list:
        with open('星巴克.txt', 'a', encoding='utf-8') as fp:
            # 提取HTML或XML文档中指定元素的文本内容
            fp.write(i.get_text())
            fp.write('\n')
    print('文章爬取完成')
    

    在这里插入图片描述

    在这里插入图片描述

📚小结

在爬虫应用中,常用的第三方库包括requests、re、lxml和beautifulsoup。

  • requests库:requests是一个功能强大且易于使用的HTTP库,用于发送HTTP请求。它可以方便地进行网页的访问和数据的获取,包括发送GET和POST请求,设置请求头、参数、Cookie等,并获取响应结果。它可以用于下载网页内容、API数据等。

  • re库:re是Python内置的正则表达式库,它提供了丰富的方法来处理字符串匹配和替换的操作。在爬虫应用中,re经常被用来从HTML页面或文本中提取所需的信息,比如通过正则表达式来匹配特定的文本内容或URL。

  • lxml库:lxml是一个用于解析XML和HTML的库,并提供了XPath和CSS选择器等灵活的选择器语法,用于定位和提取HTML或XML文档中的元素和文本。lxml库具有高效的解析速度和稳定的性能,在爬虫应用中经常被用来解析HTML页面,提取所需的数据。

  • BeautifulSoup库:BeautifulSoup库是基于lxml或者html.parser库构建的Python库,用于将HTML或XML文档解析为可以操作和搜索的树形结构,更方便地进行数据提取。BeautifulSoup提供了直观而简洁的API,可以使用选择器语法来定位元素、获取文本内容、提取属性等。它还具有处理错误和不完整的HTML文档的能力,方便地处理各种网页结构。在爬虫应用中,BeautifulSoup经常被用来解析和处理网页数据,从中提取所需的信息。

这些库在爬虫应用中通常是相互配合使用的,requests用于发送HTTP请求获取网页内容,re用于对网页内容进行正则匹配提取,lxml用于解析网页内容,而BeautifulSoup则用于定位和提取所需的数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1093491.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vsc连接wsl安装vsc时遇到权限问题的解决方案

当点击左下角的连接 遇到下面的权限提示时 mkdir: cannot create directory ‘/home/xxx(用户名)/.vscode-server’: Permission denied 可以新建文件 /etc/wsl.conf&#xff0c;并拷贝如下内容 # Automatically mount Windows drive when the distribution is launched [aut…

面试总结之Java基础

1、反射 1.1、概述 反射&#xff1a;加载类&#xff08;通过反射将类的字节码文件加载到内存中&#xff09;&#xff0c;并允许以编程的方式解剖类中的各种成分&#xff08;成员变量、方法、构造器等&#xff09;反射需要掌握的内容&#xff1a; 1&#xff09;记载类&#xf…

实习项目遇到的bug

问题1&#xff1a; 大概是因为没设置ts类型&#xff0c;它查不到的问题&#xff0c;不定义的话加上问号&#xff0c;加上可选链就不会报错了 {{bizEquipmentInfo.lastUnlockingVO?.lastUnlockingTime.replace(T, )? bizEquipmentInfo.lastUnlockingVO?.lastUnlockingTime.r…

通讯网关软件024——利用CommGate X2Access实现Modbus TCP数据转储Access

本文介绍利用CommGate X2ACCESS实现从Modbus TCP设备读取数据并转储至ACCESS数据库。CommGate X2ACCESS是宁波科安网信开发的网关软件&#xff0c;软件可以登录到网信智汇(http://wangxinzhihui.com)下载。 【案例】如下图所示&#xff0c;实现从Modbus TCP设备读取数据并转储…

【EventLoop】问题一次搞定

&#x1f4cd; JS的事件循环机制恐怕是大多数前端开发者头顶上的一座大山之一&#xff0c;最近通过拜读两篇文档&#xff0c;对eventloop进行了深刻的理解&#xff1b;通过这篇文档对要点进行总结&#xff1b; article1&#xff1a; 波神的这篇eventLoop文章适合反复重温&…

Ubuntu22安装Docker engine(apt安装方式)

一、准备工作 新创建一个虚拟机。 进入虚拟机&#xff1a; 二、安装docker docker现在对用不同主机提供了不同安装包&#xff1a;docker engine 和 docker desktop。 docker desktop适用于图形化的桌面电脑&#xff0c;docker engine适用于服务器。我们这里当然是安装docker…

Mac 远程 Ubuntu

1. Iterm2 添加ssh 参考&#xff1a;https://www.javatang.com/archives/2021/11/29/13063392.html 2. Finder 添加远程文件管理 2.1 ubuntu 配置 安装samba sudo apt-get install samba配置 [share]path /home/USER_NAME/shared_directoryavailable yesbrowseable ye…

快速计算发票金额

快速计算发票总额 背景 在日常的工作中&#xff0c;我们不免需要面临费用报销问题&#xff0c;在进行费用报销时&#xff0c;我们需要提供费用相关的发票&#xff0c;并需要在报销单上填写相关的金额数据。这时我们将面临核对和计算发票金额的需求。 核对发票 如今&#xf…

基于和声优化的BP神经网络(分类应用) - 附代码

基于和声优化的BP神经网络&#xff08;分类应用&#xff09; - 附代码 文章目录 基于和声优化的BP神经网络&#xff08;分类应用&#xff09; - 附代码1.鸢尾花iris数据介绍2.数据集整理3.和声优化BP神经网络3.1 BP神经网络参数设置3.2 和声算法应用 4.测试结果&#xff1a;5.M…

STM32成熟变频逆变器方案

该方案是一款成熟的变频逆变器的方案&#xff0c;主要是把电源从直流到3相交流的转换&#xff0c;包含变频控制板&#xff0c;逆变主板&#xff0c;IO板&#xff0c;变频控制板主控是STM32F103VET6&#xff0c;配套软件。每一块板子都是原理图和PCB一一对应&#xff0c;并且配套…

函数调用:为什么会发生stack overflow?

在开发软件的过程中我们经常会遇到错误&#xff0c;如果你用 Google 搜过出错信息&#xff0c;那你多少应该都访问过Stack Overflow这个网站。作为全球最大的程序员问答网站&#xff0c;Stack Overflow 的名字来自于一个常见的报错&#xff0c;就是栈溢出&#xff08;stack ove…

Python中图像相似性度量方法汇总

1. 引言 在当前到处充满着图像的世界里&#xff0c;测量和量化图像之间的相似性已经成为一项关键的任务。无论是图像检索、内容推荐还是视觉搜索&#xff0c;图像相似性方法在现代计算机视觉的应用中都发挥着关键的作用。 幸运的是&#xff0c;Python提供了大量的工具和库&am…

Zabbix监控系统系列之二十二:ESXi虚拟化监控

背景概述 此前写了一篇VMware虚拟化监控的文章&#xff0c;但它主要是针对vCenter Server而不是ESXi。 Zabbix监控系统系列之七&#xff1a;VMware虚拟化监控 本次自己家中组建HomeLab实验环境&#xff0c;因此我将对于ESXi单机环境的监控方式进行记录。 操作步骤 创建ESXi普…

独立式三相无源逆变电源设计

摘要 面对全球日趋严重的能源危机问题&#xff0c;可再生能源的开发和利用得到了人们的高度重视。其中辐射到地球太阳能资源是十分富饶的&#xff0c;绿色清洁的太阳能不会危害我们的生存环境&#xff0c;因而受到了人们的广泛利用。光伏发电作为可再生能源被广泛的应用&#x…

阿里云在云原生领域喜获多项 OSCAR 开源尖峰案例奖

当前&#xff0c;国内开源技术正逐渐在各领域落地&#xff0c;越来越多的企业已经或准备使用开源&#xff0c;优秀的开源案例可以起到领航和参考作用。为了更好地推动开源技术在中国市场的落地&#xff0c;鼓励企业和厂商使用开源&#xff0c;鼓励企业或个人进一步探索我国开源…

Leetcode 23.旋转排序数组

整数数组 nums 按升序排列&#xff0c;数组中的值 互不相同 。 在传递给函数之前&#xff0c;nums 在预先未知的某个下标 k&#xff08;0 < k < nums.length&#xff09;上进行了 旋转&#xff0c;使数组变为 [nums[k], nums[k1], ..., nums[n-1], nums[0], nums[1], ..…

crypto:rsarsa

题目 下载压缩包后得到提示文本 根据提示文本信息&#xff0c;我们知道p q e c&#xff0c;可以求出n、φ(n)、d&#xff0c;进而求出m import gmpy2p 964842302901051567659055174001042653494573763923573980064398935203985250729849139956103500916342705037010757073363…

数据结构之堆排序和前,中,后,层序遍历,链式二叉树

首先我们要知道升序我们要建小堆&#xff0c;降序建大堆&#xff0c;这与我们的大多人直觉相违背。 因为我们大多数人认为应该将堆顶的数据输出&#xff0c;但如果这样就会导致堆顶出堆以后&#xff0c;堆结构会被破坏&#xff0c;显然我们不能这样。 所有我们反其道而行&…

anzo capital昂首资本:MT4和MT5 EA测试的主要区别

MT4和MT5EA测试仪的主要区别&#xff0c;anzo capital昂首资本认为体现在以下方面&#xff1a; 首先&#xff0c;对于专业模式的测试&#xff0c;MT4所需的时间大约为30分钟&#xff0c;MT5最多需要10分钟&#xff0c;显然MT5效率更高。 在优化方面&#xff0c;MT4对优化建议…

嵌入式养成计划-41----C++ auto--lambda表达式--C++中的数据类型转换--C++标准模板库(STL)--list--C++文件操作

九十九、auto 99.1 概念 C11引入了自动类型推导&#xff0c;和Python不一样&#xff0c;C中的自动类型推导&#xff0c;需要auto关键字来引导比如 &#xff1a;auto a 1.2; 会被编译器自动识别为 a 为 double 类型 99.2 作用 auto修饰变量&#xff0c;可以自动推导变量的数…