附录3-爬取58二手房信息,爬取4k图片案例,爬取城市名称,爬取站长素材简历模板(xpath使用案例)

news2024/10/6 12:22:47

目录

1  爬取58二手房信息

1.1  分析

1.2  代码

2  爬取4k图片案例

2.1  分析

2.2  代码

3  爬取城市名称案例

3.1  分析

3.2  代码

4  爬取站长素材简历模板

4.1  分析

4.2  代码


1  爬取58二手房信息

地址 请输入验证码 ws:121.36.42.44

1.1  分析

我需要标题和价格

1.2  代码

爬完了写txt里就行了

2  爬取4k图片案例

地址 4K风景壁纸_高清4K风景图片大全_彼岸图网

2.1  分析

2.2  代码

3  爬取城市名称案例

地址 PM2.5历史数据_空气质量指数历史数据_中国空气质量在线监测分析平台历史数据

3.1  分析

3.2  代码

4  爬取站长素材简历模板

4.1  分析

项目地址 整套简历-整套简历模板下载

有两种页面,一种是下面这种

还有一种是这样的

4.2  代码

两种页面需要写两种xpath表达式,然后用 或 连接

import requests
from lxml import etree

url = 'https://sc.chinaz.com/jianli/zhengtao.html'
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'}
response = requests.get(url=url,headers=headers)
response.encoding = response.apparent_encoding
with open('./test.html','w',encoding='utf-8') as f:
    f.write(response.text)
print(response)

tree = etree.HTML(response.text)
detail_htmls = tree.xpath('//div[@class="box col3 ws_block"]/a/@href')

for i in detail_htmls:
    detail_response = requests.get(url=i, headers=headers)
    detail_response.encoding = detail_response.apparent_encoding
    with open('./sub_test.html', 'w', encoding='utf-8') as f:
        f.write(detail_response.text)

    detail_tree = etree.HTML(detail_response.text)

    download_address = detail_tree.xpath('//div[@id="down"]/div[@class="clearfix mt20 downlist"]/ul[@class="clearfix"]/li/a/@href | //div[@id="saleinfo"]/div[@class="pay-haed"]/a/@href')[0]
    # print(download_address)
    print(i + ' 下载中!')

    file_name = download_address.split('/')[-1]
    download_response = requests.get(url=download_address,headers=headers)

    with open('./result/{}'.format(file_name), 'wb') as fp:
        fp.write(response.content)

    print(i + ' 下载成功!')

运行完毕后会得到下面这些压缩包,随便挑了一个解压发现可以解压,并且里面的word可以打开

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/974771.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

朔雪流量复制器的前端

朔雪流量复制器的前端 1. 功能需求简介 本流量复制器使用端口映射模式实现流量复制,可以实现一对一,一对多,和多对一的流量复制模式。 映射网口的多少取决于设备的硬件,最多可以支持36端口。 使用模式包括** 1)从1…

【日积月累】Java开发习惯养成

目录 Java开发习惯养成 1.前言2.equals()的使用3.整形包装类型的使用BigDecimalBigDecimal大小比较BigDecimal 保留几位小数BigDecimal注意事项 基本数据类型与包装数据类型的使用标准数组与List之间的转换的坑数组转List数组转ArrayLIstList转数组 反转数组 总结参考 文章所…

心法利器[99] | 无监督字面相似度cqr/ctr源码

心法利器 本栏目主要和大家一起讨论近期自己学习的心得和体会,与大家一起成长。具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有。 2022年新一版的文章合集已经发布,累计已经60w字了,获取方式看这里&…

非华为机型如何体验HarmonyOS鸿蒙系统 刷写HarmonyOS鸿蒙GSI系统以及一些初步的bug修复

最近很多视频网站有非华为机型使用HarmonyOS鸿蒙系统的演示。其实大都是刷了HarmonyOS鸿蒙系统gsi系统。体验还可以。有些刷入后bug较多。那么这些机型是如何刷写gsi?可以参考我以往帖子 安卓玩机搞机-----没有第三方包 刷写第三方各种GSI系统 体验非官方系统_gsi刷…

CSS 学习指导

CSS(Cascading Style Sheets)是一种用于定义网页样式的标记语言。以下是一些基本的CSS知识,可以作为入门教程: CSS语法包括选择器、属性和值。选择器用于选择要样式化的元素,属性是要修改的属性(例如&…

二元Logistic回归分析

二元Logistic回归分析 logistic回归多重线性回归分析,该分析方法是研究一个因变量(服从正态分布)与多个自变量的数量关系。 在医学研究中,常常需要研究的结局变量不是连续型变量,而是二分类变量或多分类变量&#…

山西电力市场日前价格预测【2023-09-06】

日前价格预测 预测明日(2023-09-06)山西电力市场全天平均日前电价为263.83元/MWh。其中,最高日前电价为335.16元/MWh,预计出现在06:45。最低日前电价为0.00元/MWh,预计出现在12:15-14:30。 价差方向预测 1:…

冠达管理:创业板跟A股有什么区别?

创业板与A股是我国股市中的两种重要股票商场,它们之间存在许多明显的不同之处。本文将从几个角度剖析创业板和A股的区别。 一、商场属性 创业板是我国证券商场中最年青的板块之一,成立于2009年。它是专门为私募企业、创新式企业提供融资途径的股票商场。…

互联网时代,亿发数字化管理平台如何赋能长沙中小企业管理升级?

随着市场需求的不断变化,中小企业需要具备灵活度,能够迅速调整业务战略和生产计划。企业信息化管理平台作为一种集成化的软件系统,专门设计用于满足中小企业的信息技术需求,以增强其管理效率。帮助中小企业更方便地管理其业务流程…

说一说微信小程序开发的好处

在移动互联网日益普及的今天,微信小程序作为一种创新的商业模式,已经在各行各业中得到了广泛应用。对于企业和开发者来说,微信小程序开发具有诸多优势。本文将详细介绍微信小程序开发的好处,并从实战角度来分析如何进行微信小程序…

skywalking springgateway 全链路

环境 spring-cloud-gateway 3.1.0 springGateway整合skywalking skywalking 默认是不整合springGateway的,需要手动拷贝skywalking optional-plugins下的 apm-spring-cloud-gateway-N.x-plugin-8.13.0.jar 和 apm-spring-webflux-5.x-plugin-8.13.0.jar 架包拷贝到plugins目…

centos7环境使用yum源安装docker

目录 1.检查内核相关信息 2.完善yum源 3.开始安装docker 4.docker使用前最后的准备 5.最后运行一下hello-world 1.检查内核相关信息 cat /etc/*release*:查看centos版本,docker支持centos7及以上版本。 uname -a:查看linux的指令集&…

lv3 嵌入式开发-6 linux shell脚本编程(概念、变量、语句)

1 Shell脚本概述 1.1Shell脚本概述 Shell脚本是利用 shell 的功能所写的一个程序。这个程序是使用纯文本文件,将一些 shell 的语法与命令(含外部命令)写在里面,搭配正则表达式、管道命令与数据流重定向等功能 1.2Shell脚本编写流…

大数据平台数据安全具体措施有哪些?有推荐的吗?

大数据平台是企业处理和分析数据的重要工具之一,也是企业数据存储的重要载体,因此保障大数据平台安全至关重要。那你知道大数据平台数据安全具体措施有哪些?有推荐的吗? 大数据平台数据安全具体措施有哪些? 1、数据…

LeetCode 138. Copy List with Random Pointer【链表,DFS,迭代,哈希表】中等

本文属于「征服LeetCode」系列文章之一,这一系列正式开始于2021/08/12。由于LeetCode上部分题目有锁,本系列将至少持续到刷完所有无锁题之日为止;由于LeetCode还在不断地创建新题,本系列的终止日期可能是永远。在这一系列刷题文章…

四维纵横与用友达成战略合作,携手打造企业数据智能新基座

近日,北京四维纵横数据技术有限公司(四维纵横 YMatrix)与用友网络科技股份有限公司(用友),宣布达成产品战略合作协议。双方将共同致力于为企业提供一站式数据智能解决方案,加速企业应用的全方位…

linux sed 删除空行、替换文本

假设文件:sed.txt first second third fourfive①删除four、five之间的空行 ②替换first为hsj is smart cat sed.txt | sed /^$/d | sed s/first/hsj is smart/g

【Unity-Cinemachine相机】相机跟随之Transposer属性

相机跟随和瞄准行为 Transposer:虚拟相机将在某个固定的偏移或距离上跟随目标移动 上面的偏移量就是Follow Offset Binding Mode决定Follow Offset是目标本地坐标系下的身后十米还是世界坐标系下的身后十米 Lock To Target On Assign:锁定自己和目标本地…

论文浅尝 | 训练语言模型遵循人类反馈的指令

笔记整理:吴亦珂,东南大学硕士,研究方向为大语言模型、知识图谱 链接:https://arxiv.org/abs/2203.02155 1. 动机 大型语言模型(large language model, LLM)可以根据提示完成各种自然语言处理任务。然而&am…

【LeetCode-中等题】208. 实现 Trie (前缀树)

文章目录 题目方法一:利用数组构建26叉树方法二:利用哈希表构建26叉树 题目 方法一:利用数组构建26叉树 插入图示: 全搜索和前缀搜索: 注意:全局匹配匹配完直接返回插入时的标志位 而前缀匹配时&#xff…