python爬虫-网页数据提取

python爬虫-网页数据提取

news2026/2/12 18:03:22

import requests
#headers = 网页右键->Network->最下面的User-Agent复制。
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36"}
#你想要的网址
url = "https://www.xinpianchang.com/discover/article?from=navigator"
response = requests.get(url, headers=headers)
print(response)# 打印200 说明访问成功
#下面是正式的数据提取，构建xpath的对象
from lxml import etree
tree = etree.HTML(response.text)#页面的元素树
##示例1 标题
elements = tree.xpath('//h2[@class="truncate block"]')#在Elements寻找你想要的元素，可以在页面移动#光标
for element in elements:
    print(element.text)
##也可以在elements中右键copy xpath，这里需要分析一下，将复制的xpath删除一部分
print(tree.xpath('//*[@id="__next"]/section/main/div/div/div/div/div/a/div/ul/li[1]/span[2]')[0].text)
print(tree.xpath('//*[@id="__next"]/section/main/div/div/div/div/div/a/div/ul/li[2]/span[2]')[0].text)
print(tree.xpath('/html/body/div/section/main/div/div/div/div/div/div/a/h2')[1].text)

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/914530.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

基于大语言模型知识问答应用落地实践 – 知识库构建（上）

基于大语言模型知识问答应用落地实践 – 知识库构建（上）

01 背景介绍随着大语言模型效果明显提升，其相关的应用不断涌现呈现出越来越火爆的趋势。其中一种比较被广泛关注的技术路线是大语言模型（LLM）知识召回（Knowledge Retrieval）的方式，在私域知识问答方面可以…

阅读更多...

HTTP协议（JavaEE初阶系列15）

HTTP协议（JavaEE初阶系列15）

目录前言： 1.HTTP协议 1.1HTTP协议是什么 1.2HTTP协议的报文格式 1.2.1抓包工具的使用 1.2.2HTTP请求 1.2.3HTTP响应 2.HTTP请求 2.1首行的组成 2.2.1URL的组成 2.2认识“方法”（method） 2.2.1GET方法 2.2.2POST方法 2.2.3GET…

阅读更多...

【AIGC】单图换脸离线版软件包及使用方法

【AIGC】单图换脸离线版软件包及使用方法

云端再好，都不如放自己手里啊，想怎么就怎么玩。云端再好，都不如放自己手里啊，想怎么就怎么玩。 Roop作为一个新出的开源项目，配置起来还是有一定难度的。我已经把各种依赖，模型，环境配置已经…

阅读更多...

c++--动态规划回文串问题

c++--动态规划回文串问题

1.回文子串力扣（LeetCode）官网 - 全球极客挚爱的技术成长平台给定一个字符串 s ，请计算这个字符串中有多少个回文子字符串。具有不同开始位置或结束位置的子串，即使是由相同的字符组成，也会被视作不同的子串。示…

阅读更多...

23-props详解

23-props详解

一. 什么是prop Prop定义: 组件上注册的一些自定义属性 Prop作用: 想子组件传递数据特点: 1. 可以传递任意数量的Prop 2. 可以传递任意类型的Prop 二. Props校验思考: 组件的prop 可以乱传吗? 作用: 为组件的 prop 指定验证要求,不符合要求,控制台就会有提示错误 …

阅读更多...

图神经网络与分子表征：2. 读懂SchNet

图神经网络与分子表征：2. 读懂SchNet

SchNet 在2018年的面世彻底引爆了神经网络势函数(NNP, Neural Network Potential)领域，虽然说NNP的开山鼻祖还要更早，但均未像 SchNet 这样真正被物理化学家接受，引发变革。这篇博客浅浅记录下自己阅读SchNet代码的心得。2023年的今天&…

阅读更多...

shell 脚本基础（四十三）

shell 脚本基础（四十三）

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档目录前言一、概述 1. 概念 2. 学习路径 2.1表达式 2.2 语句 2.3 函数 2.4 正则表达式 2.5 文件操作四剑客二、表达式 1.shell 2.1 变量 2.2.1组成 2.2.2 类型 2.2.3 作用域…

阅读更多...

二级评论列表功能

二级评论列表功能

一：需求场景我的个人网站留言列表在开发时，因为本着先有功能的原则。留言列表只有一级，平铺的。当涉及多人回复，或者两个人多次对话后， 留言逻辑看着非常混乱。如下图于是，我就打算将平铺的列表&#…

阅读更多...

【数据备份、恢复、迁移与容灾】上海道宁与云祺科技为企业用户提供云数据中心容灾备份解决方案

【数据备份、恢复、迁移与容灾】上海道宁与云祺科技为企业用户提供云数据中心容灾备份解决方案

云祺容灾备份系统支持主流虚拟化环境下的虚拟机备份提供对云基础设施云架构平台以及应用系统的全方位数据保护云祺容灾备份系统规范功能增强决策能力高效恢复数据至可用状态有效降低恢复成本更大限度减少业务中断时间保障业务可访问性开发商介绍成都云祺…

阅读更多...

部署 Windows 域（一）

部署 Windows 域（一）

目录简介 1. 部署 AD 前的准备 2. 部署 Windows 域的过程 2.1 安装域控制器 2.2 将客户机加入域 1.联机加入域 2.脱机加入域简介前面章节介绍了域的相关概念，以及工作组和域的主要区别，想要实现域环境，就必须部署至少一台域控制器。…

阅读更多...

BUCK电路-TL494方案持续更新大概2周更新完成

BUCK电路-TL494方案持续更新大概2周更新完成

目录一、电磁感应现象这个现象是如何产生的磁生电的变换的条件二、电感的伏安特性计算磁场大小可以用上面这个公式磁感应强度B来表示 u0是真空磁导率 N是线圈的匝数 I是通过这个线圈的的电流大小电生磁的过程就是由I来生成这个B 可以加入磁芯提高磁感应强度 …

阅读更多...

Lnton羚通云算力平台【PyTorch】教程：关于Tensors的基础知识

Lnton羚通云算力平台【PyTorch】教程：关于Tensors的基础知识

Tensors Tensors 是一个特殊的数据结构，非常类似于数组和矩阵，在 PyTorch 中，我们使用 tensors 编码模型的输入和输出，以及模型的参数。 Tensors 非常类似于 NumPy 的 ndarrays， tensors 可以运行在 GPU 以及其他硬件…

阅读更多...

IDEA项目实践——Element UI概述

IDEA项目实践——Element UI概述

系列文章目录 IDEA项目实践——JavaWeb简介以及Servlet编程实战 IDEA项目实践——Spring当中的切面AOP IDEA项目实践——Spring框架简介，以及IOC注解 IDEA项目实践——动态SQL、关系映射、注解开发 IDEWA项目实践——mybatis的一些基本原理以及案例文章目录 …

阅读更多...

webrtc学习（七）-媒体协商

webrtc学习（七）-媒体协商

一.概述媒体协商嘴主要的作用就是看通信双方都支持那些编解码器，这些编解码器又包含那些参数，比如音频的参数包括采样率，采样大小，通道数，对于视频的参数包括分辨率帧率等一系列参数，此外传输中用的payloa…

阅读更多...

基于GRU门控循环网络的时间序列预测matlab仿真,对比LSTM网络

基于GRU门控循环网络的时间序列预测matlab仿真,对比LSTM网络

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 LSTM: GRU 2.算法运行软件版本 matlab2022a 3.部分核心程序 %构建GRU网络模型 layers [ ...sequenceInputLayer(N_feature)gruLayer(N_hidden)f…

阅读更多...

SpringBoot项目（支付宝整合）——springboot整合支付宝沙箱支付从极简实现到IOC改进

SpringBoot项目（支付宝整合）——springboot整合支付宝沙箱支付从极简实现到IOC改进

目录引出git代码仓库准备工作支付宝沙箱api内网穿透 [natapp.cn](https://natapp.cn/#download) springboot整合—极简实现版1.导包配置文件2.controller层代码3.进行支付流程4.支付成功回调依赖注入的改进1.整体结构2.pom.xml文件依赖3.配置文件4.配置类，依赖注入…

阅读更多...

SQL注入之联合查询

SQL注入之联合查询

文章目录联合查询是什么？联合查询获取cms账号密码尝试登录联合查询是什么？ 适用数据库中的内容会回显到页面中来的情况。联合查询就是利用union select 语句，该语句会同时执行两条select 语句，实现跨库、跨表查询。必要条件两…

阅读更多...

IDEA项目实践——会话跟踪、Web当中的jsp编程以及jsp开发模型和EL与JSTL以及过滤器介绍

IDEA项目实践——会话跟踪、Web当中的jsp编程以及jsp开发模型和EL与JSTL以及过滤器介绍

系列文章目录 IDEA项目实践——创建Java项目以及创建Maven项目案例、使用数据库连接池创建项目简介 IDEWA项目实践——mybatis的一些基本原理以及案例 IDEA项目实践——动态SQL、关系映射、注解开发 IDEA项目实践——Spring框架简介，以及IOC注解 IDEA项目实践…

阅读更多...

（一）idea连接GitHub的全部流程（注册GitHub、idea集成GitHub、增加合作伙伴、跨团队合作、分支操作）

（一）idea连接GitHub的全部流程（注册GitHub、idea集成GitHub、增加合作伙伴、跨团队合作、分支操作）

（二）Git在公司中团队内合作和跨团队合作和分支操作的全部流程（一篇就够）https://blog.csdn.net/m0_65992672/article/details/132336481 4.1、简介 Git是一个免费的、开源的*分布式**版本控制**系统*，可以快速高效地…

阅读更多...

UE Mesh Draw Pipeline 解析

UE Mesh Draw Pipeline 解析

为什么引入Mesh Draw Pipeline -------------作者：mx 常规渲染管线（老的渲染管线）的弊端 ①无法很好的进行排序以及剔除，以UE为例，使用位图来表示物体可见性，无法快速找到最前面的物体，drawlist无法实现动态物体和静态物体的 draw sorting ②无法很好的进行合批。…

阅读更多...

推荐文章

最新文章