《0基础》学习Python——第二十讲__网络爬虫/<3>

news2024/11/14 6:13:39

一、用post请求爬取网页

        同样与上一节课的get强求的内容差不多,即将requests.get(url,headers=head)代码更换成requests.post(url,headers=head),其余的即打印获取的内容,如果content-type=json类型的,打印上述代码的请求,则用一个命名去获取信息,例如命名reponse=requests.post(url,headers=head),则用response.json去打印请求到的信息,类似于下列代码内容:

import requests

url = 'http://example.com/api'
data = {'key1': 'value1', 'key2': 'value2'}  # POST请求的数据

response = requests.post(url, data=data)
print(response.text)  # 打印服务器返回的响应内容
import requests
 
 
head = {  #进行UA伪装
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0"
}
 
url = "https:---------"
 
# 2、发送请求post带参数
response = requests.post(url, headers=head)
 
#打印数据,以content-type中写的方式去打印
print(response.json)

二、状态码解析

        1、2** 成功,操作被成功接收并处理

        2、3** 重定向,需要进一步的操作以完成请求

        3、4** 客户端错误,请求包含语法错误或无法完成请求

        4、5** 服务器错误,服务器在处理请求的过程中发生了错误

例如下列:

三、页面解析

        1、引入lxml库的etree模块

通过win+cmd输入以下命令,安装lxml库

pip install lxml

通过from lxml import etree 来调用库里面etree模块

因为上部分取出页面内容为response.text 或者response.json等格式,此时通过etree来解析这段内容,如果是将网页源码爬取到文件夹中保存下来再去解析,则用etree.parse()方法,括号内写该文件的地址,如果直接在网页爬取的同时进行解析,那么便用etree.HTML()方法,括号里面写get请求得到的数据,其返回的是element对象,etree.HTML()将HTML文本解析为一个ElementTree对象的根节点(也称为树根或根元素)。ElementTree对象表示了整个HTML文档的结构,可以通过遍历树的节点和元素来提取信息或修改HTML文档。然后对这根节点进行xpath处理即访问标签内容。

        2、HTML()

   etree.HTML()是一个用于构建解析HTML文档的函数。它将HTML文本作为输入,并返回一个Element对象,可以通过该对象来访问和操作HTML文档的元素和属性。

        具体而言,etree.HTML()将HTML文本解析为一个ElementTree对象的根节点(也称为树根或根元素)。ElementTree对象表示了整个HTML文档的结构,可以通过遍历树的节点和元素来提取信息或修改HTML文档。例如线下部分代码:

from lxml import etree

html_text = '''
<html>
  <body>
    <h1>这是一个标题</h1>
    <p>这是一个段落。</p>
  </body>
</html>
'''

root = etree.HTML(html_text)  # 使用etree.HTML()解析HTML文本

# 通过XPath选取元素并获取其文本内容
title = root.xpath('//h1/text()')[0]
paragraph = root.xpath('//p/text()')[0]

print(title)  # 打印标题文本
print(paragraph)  # 打印段落文本

        在这个例子中,我们使用etree.HTML()将HTML文本解析为树,并使用XPath表达式选取了<h1><p>元素的文本内容。然后,我们通过索引[0]获取了第一个匹配结果的文本,并将其打印输出。

        通过使用etree.HTML(),我们可以方便地解析HTML文档,并从中提取所需的信息,如元素、属性或文本内容。

2、xpath()

        XPath是一种用于在XML文档中定位和选择节点的语言。它是一种基于路径表达式的查询语言,可以通过路径表达式来定义从根节点到目标节点的路径,并通过一系列的内置函数、运算符和谓词来筛选出符合条件的节点。

        XPath可以用于XML文档的解析和数据提取。它可以根据节点的标签名、属性、文本内容等进行节点选择和过滤。XPath提供了灵活而强大的定位和选择机制,可以快速、准确地定位到需要处理的数据,并对其进行操作。例如下列代码:

from lxml import etree

xml = '''
<bookstore>
  <book category="cooking">
    <title lang="en">Italian Recipes</title>
    <author>John Doe</author>
    <year>2010</year>
    <price>20.00</price>
  </book>
  <book category="travel">
    <title lang="en">Paris Travel Guide</title>
    <author>Jane Smith</author>
    <year>2012</year>
    <price>15.00</price>
  </book>
</bookstore>
'''

root = etree.fromstring(xml)  # 解析XML文档

# 使用XPath选择节点和提取数据
titles = root.xpath('//title/text()')
authors = root.xpath('//author/text()')

# 打印提取的数据
for title, author in zip(titles, authors):
    print(f'Title: {title}, Author: {author}')

在这个例子中,我们使用lxml库的etree模块将XML文档解析为一个Element对象,并使用XPath选择title和author节点的文本内容。然后,通过遍历titles和authors列表,我们可以打印出提取的数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1946034.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

argon主题调整日记

前言 argon主题是一款由solstice23开发的一款简洁美观的WordPress主题&#xff0c;在使用过程中也发现了几个可以优化的点&#xff0c;在查阅主题文档无果后对其进行以下几点修改。 1、使用子主题 为了避免修改源文件而引起主题更新后修改丢失的问题&#xff0c;还是尽量使用子…

一个C++模板工厂的编译问题的解决。针对第三方库的构造函数以及追加了的对象构造函数。牵扯到重载、特化等

一窥模板的替换和匹配方式&#xff1a;偏特化的参数比泛化版本的还要多&#xff1a;判断是不是std::pair&#xff1c;,&#xff1e;。_stdpair模板参数太多-CSDN博客 简介 在一个项目里&#xff0c;调用了第三封的库&#xff0c;这个库里面有个类用的很多&#xff0c;而且其构…

Mindspore框架循环神经网络RNN模型实现情感分类|(六)模型加载和推理(情感分类模型资源下载)

Mindspore框架循环神经网络RNN模型实现情感分类 Mindspore框架循环神经网络RNN模型实现情感分类|&#xff08;一&#xff09;IMDB影评数据集准备 Mindspore框架循环神经网络RNN模型实现情感分类|&#xff08;二&#xff09;预训练词向量 Mindspore框架循环神经网络RNN模型实现…

【Vue实战教程】之 Vue Router 路由详解

Vue Router路由 1 路由基础 1.1 什么是路由 用Vue.js创建的项目是单页面应用&#xff0c;如果想要在项目中模拟出来类似于页面跳转的效果&#xff0c;就要使用路由。其实&#xff0c;我们不能只从字面的意思来理解路由&#xff0c;从字面上来看&#xff0c;很容易把路由联想…

CV13_混淆矩阵、F1分数和ROC曲线

1.1 混淆矩阵Confusion Matrix 混淆矩阵&#xff08;Confusion Matrix&#xff09;是机器学习和统计学中用于描述监督学习算法性能的特定表格布局。它是一种特定类型的误差矩阵&#xff0c;可以非常直观地表示分类模型在测试数据集上的预测结果与实际结果之间的对比。 混淆矩…

谣言检测文献阅读十二—A Convolutional Approach for Misinformation Identification

系列文章目录 谣言检测文献阅读一—A Review on Rumour Prediction and Veracity Assessment in Online Social Network谣言检测文献阅读二—Earlier detection of rumors in online social networks using certainty‑factor‑based convolutional neural networks谣言检测文…

FreeModbus学习——读输入寄存器eMBFuncReadInputRegister

FreeModbus版本&#xff1a;1.6 当功能码为04时&#xff0c;也就是读输入寄存器MB_FUNC_READ_INPUT_REGISTER 看一下它是怎么调用读输入寄存器处理函数的 当功能码为04时&#xff0c;调用读输入寄存器处理函数 这个函数在数组xFuncHandlers中&#xff0c;也就是eMBFuncRead…

Mysql数据库第四次作业

mysql> create table student(sno int primary key auto_increment,sname varchar(30) not null unique,Ssex varchar(2) check (Ssex男 or Ssex女) not null,Sage int not null,Sdept varchar(10) default计算机 not null); mysql> create table Course(Con int primar…

【通信协议-RTCM】MSM语句(2) - RINEXMSM7语句总结(重要!自动化开发计算卫星状态常用)

注释&#xff1a; 在工作中主要负责的是RTCM-MSM7语句相关开发工作&#xff0c;所以主要介绍的就是MSM7语句相关内容 1. 相位校准参考信号 2. MSM1、MSM2、MSM3、MSM4、MSM5、MSM6和MSM7的消息头内容 DATA FIELDDF NUMBERDATA TYPENO. OF BITSNOTES Message Number - 消息编…

1. Docker的介绍和安装 (二)

5 Docker的原理 5.1 Namespace Namespace&#xff08;命名空间&#xff09;提供了一个独立的工作环境&#xff0c;Docker使用Namespace来隔离容器&#xff0c;使得每个容器都有自己独立的系统资源&#xff08;如进程ID、主机名、网络等&#xff09;。 PID Namespace&#xf…

SBTI科学碳目标认证是什么?SBTI科学碳目标的重要性

SBTI科学碳目标认证&#xff0c;作为企业在应对气候变化和追求可持续发展道路上的重要里程碑&#xff0c;其认证过程严谨而系统。以下是获得SBTI科学碳目标认证的详细步骤&#xff1a; 首先&#xff0c;企业需要在线注册并提交承诺书&#xff0c;郑重承诺在未来24个月内提交科学…

Linux网络-配置IP

作者介绍&#xff1a;简历上没有一个精通的运维工程师。希望大家多多关注作者&#xff0c;下面的思维导图也是预计更新的内容和当前进度(不定时更新)。 本来IP配置应该放在Linux安装完成的就要配置的&#xff0c;但是由于那个时候对Linux不怎么熟悉&#xff0c;所以单独列了一个…

每日一题 LeetCode03 无重复字符的最长字串

1.题目描述 给定一个字符串 s &#xff0c;请你找出其中不含有重复字符的最长字串的长度。 2 思路 可以用两个指针, 滑动窗口的思想来做这道题,即定义两个指针.一个left和一个right 并且用一个set容器,一个length , 一个maxlength来记录, 让right往右走,并且用一个set容器来…

扫雷-C语言

一、前言&#xff1a; 众所周知&#xff0c;扫雷是一款大众类的益智小游戏&#xff0c;它的游戏目标是在最短的时间内根据点击格子出现的数字找出所有非雷格子&#xff0c;同时避免踩雷&#xff0c;踩到一个雷即全盘皆输。 今天&#xff0c;我们的目的就是通过C语言来实现一个简…

Open函数使用 Json与pickle Os模块

一. 文件操作与 open() 函数 Open函数是Python中用于打开文件的内置函数&#xff0c;其基本语法如下&#xff1a; open(file, moder, buffering-1, encodingNone, errorsNone, newlineNone, closefdTrue, openerNone) 各参数说明&#xff1a; file&#xff1a; 要打开的文件…

34_YOLOv5网络详解

1.1 简介 YOLOV5是YOLO&#xff08;You Only Look Once&#xff09;系列目标检测模型的一个重要版本&#xff0c;由 Ultralytics 公司的Glenn Jocher开发并维护。YOLO系列以其快速、准确的目标检测能力而闻名&#xff0c;尤其适合实时应用。YOLOV5在保持高效的同时&#xff0c…

El-Table 表格的表头字段切换

最近写了一个小功能&#xff0c;比较有意思&#xff0c;特此博客记录。 提出需求&#xff1a;需要表头字段变化&#xff0c;但是我在官网上的表格相关上查找&#xff0c;没有发现便捷方法。 于是我有两个想法&#xff1a;1.做三个不同的表格。2.做一个表格使用不同的表头字段。…

2024.7.24 远程连接到另一设备(win)上的vrep时无响应(防火墙!)

Windows防火墙禁止了软件的端口的通信&#xff0c;打开即可 如何设置Windows 7 防火墙端口规则

字典集合案例

1.统计字符 统计字符串中每个字符出现的次数 s l like summer very much #去掉空格 s s.replace(" ","") d dict() for i in s:if i in d:d[i] 1else:d[i] 1 for i in d:print(i,d[i]) 2.求不重复的随机数 #导入随机数 import random a int(input(&q…

VMware 上安装 CentOS 7 教程 (包含网络设置)

**建议先看一些我安装VMware的教程&#xff0c;有些网络配置需要做一下 1.打开VMware&#xff0c;创建虚拟机 2.勾选自定义&#xff0c;点击下一步 3.点击下一步 4.勾选“稍后安装操作系统”&#xff0c;点击下一步 5.勾选linux&#xff0c;勾选centos7&#xff0c;点击下一步…