Python爬虫知识回顾

news2024/10/5 17:26:04

之前一直沉溺于java,jsp,ssh,db等爬虫,现在又要开始走python的老路了。常用的requests库,通过requests对象的get方法,获取一个response对象。jsp的东西。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

其中timeout,proxies,headers,cookies,verify,是我用到过的东西。

response对象的方法和属性
text属性,属于字符流,获取文字。
content属性,二进制,获取图片,文件等

hashlib

摘要算法简介

Python的hashlib提供了常见的摘要算法,如MD5,SHA1等等。

什么是摘要算法呢?摘要算法又称哈希算法、散列算法。它通过一个函数,把任意长度的数据转换为一个长度固定的数据串(通常用16进制的字符串表示)。

举个例子,你写了一篇文章,内容是一个字符串’how to use python hashlib - by Michael’,并附上这篇文章的摘要是’2d73d4f15c0db7f5ecb321b6a65e5d6d’。如果有人篡改了你的文章,并发表为’how to use python hashlib - by Bob’,你可以一下子指出Bob篡改了你的文章,因为根据’how to use python hashlib - by Bob’计算出的摘要不同于原始文章的摘要。

可见,摘要算法就是通过摘要函数f()对任意长度的数据data计算出固定长度的摘要digest,目的是为了发现原始数据是否被人篡改过。

摘要算法之所以能指出数据是否被篡改过,就是因为摘要函数是一个单向函数,计算f(data)很容易,但通过digest反推data却非常困难。而且,对原始数据做一个bit的修改,都会导致计算出的摘要完全不同。

def get_MD5(st="alice"):
    md5=hashlib.md5()
    md5.update(st.encode(encoding="utf-8"))
    print(md5.hexdigest())
    
get_MD5()

爬虫ip和头部处理

def get_html(url):
   headers = {'Accept': '*/*',
               'Accept-Language': 'en-US,en;q=0.8',
               'Cache-Control': 'max-age=0',
               'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36',
               'Connection': 'keep-alive',
               'Referer': 'http://www.baidu.com/'
               }
    proxy = [
        {'https': 'http://jshkip:jshkip@123.249.47.2:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.3:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.4:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.5:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.6:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.7:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.8:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.9:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.10:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.11:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.13:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.14:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.15:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.16:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.17:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.18:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.19:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.20:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.21:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.22:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.23:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.24:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.25:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.26:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.27:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.28:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.29:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.30:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.31:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.32:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.33:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.34:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.35:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.36:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.37:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.38:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.39:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.40:52693511'},
        {'https': 'http://jshkip:jshkip@123.249.47.41:52693511'},
    ]
    pro=random.choice(proxy)
    print(type(pro))
    print(pro)
    res=requests.get(url,headers=head,proxies=pro)
    html=res.text //返回字符串。
    print(html)
    return html

xpath技术

1.0 使用etree的HTML方法获取数据,返回的是一个节点对象

from lxml import etree
html=get_html("https://blog.csdn.net/weixin_44617651/article/details/129746110")
print(html)
page=etree.HTML(html)
print(type(page),page)
xp='//*[@id="mainBox"]/main/div[1]/div/div/div[2]/div[1]/span[2]'
readnum=page.xpath(xp)

for a in readnum:
    print(a.attrib)
    print(a.text)
    print(a.get("class"))

结果如下

<class 'lxml.etree._Element'> <Element html at 0x47a7288>
{'class': 'read-count'}
阅读数:40927
read-count

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/413306.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

webgl-画指定颜色三角形

html <!DOCTYPE html> <head> <style> *{ margin: 0px; padding: 0px; } </style> </head> <body> <canvas id webgl> 您的浏览器不支持HTML5,请更换浏览器 </canvas> <script src"./main.js"></script&g…

JUC之CountDownLatch与CyclicBarrier

1.前言 在java.util.concurrent包中为我们提供了很多的线程同步工具类&#xff0c;例如CountDownLatch与CyclicBarrier&#xff0c;那么它们主要的用途是什么呢&#xff1f;且看后续分析。 2.CountDownLatch 2.1 什么是CountDownLatch CountDownLatch&#xff0c;顾名思义&…

从ReentrantLock角度解析AQS

一、概述 闲来不卷&#xff0c;随便聊一点。 一般情况下&#xff0c;大家系统中至少也是JDK8了&#xff0c;那想必对于JDK5加入的一系列功能并不陌生吧。那时候重点加入了java.util.concurrent并发包&#xff0c;我们简称为JUC。JUC下提供了很多并发编程实用的工具类&#xf…

风光及负荷多场景随机生成与缩减

目录 1 主要内容 计算模型 场景生成与聚类方法应用 2 部分程序 3 程序结果 4 程序链接 1 主要内容 该程序方法复现了《融合多场景分析的交直流混合微电网多时间尺度随机优化调度策略》3.1节基于多场景技术的随机性建模部分&#xff0c;该部分是随机优化调度的重要组成部分…

记录-css实现交融文字效果

这里给大家分享我在网上总结出来的一些知识&#xff0c;希望对大家有所帮助 CSS是有魔法的&#xff0c;我们今天来实现一个CSS的动画效果&#xff0c;只需要几行代码就可以搞定。 第一步、我们要将一行文字从中间展开 <!DOCTYPE html> <html lang"en"> &…

面试官:聊聊js原型

一分钟了解原型对象 js分为函数对象和普通对象 &#xff0c;每个对象都有__proto__属性&#xff0c;但是只有函数对象才有prototype属性&#xff0c;prototype属性就是函数的原型对象。 比如说 构造函数通过new 实化一个实例对象&#xff0c;实例对象的__proto__ 指向原型对象…

NumPy 基础知识 :6~10

原文&#xff1a;Numpy Essentials 协议&#xff1a;CC BY-NC-SA 4.0 译者&#xff1a;飞龙 六、NumPy 中的傅立叶分析 除其他事项外&#xff0c;傅立叶分析通常用于数字信号处理。 这要归功于它在将输入信号&#xff08;时域&#xff09;分离为以离散频率&#xff08;频域&am…

Spring Boot集成Druid实现多数据源的两种方式

目录 项目场景&#xff1a; 一、集成com.baomidou的方式 1、maven依赖&#xff1a; 2、 配置文件&#xff1a; 3、 使用注解切换数据源&#xff1a; 二、基于AOP手动实现多数据源原生的方式 1、maven依赖&#xff1a; 2、 配置文件&#xff1a; 3、 多数据源名称类 4…

数字中国理念引领国企人力资源数字化转型与实践

3月初&#xff0c;《数字中国建设整体布局规划》出台&#xff0c;作为中国数字经济发展的重要指导性文件&#xff0c;规划提出了数字中国建设的总体目标和战略方向&#xff0c;文件详细阐述了数字中国内涵&#xff0c;包含数字经济、数字社会、数字政府以及数字生态等内涵。《规…

制造企业该如何选择MES生产管理系统?盘点四大生产管理系统软件

本文将介绍&#xff1a;1、如何选择MES(生产管理系统&#xff09;&#xff1b;2、盘点四款好用的生产管理系统 生产管理系统即MES(Manufacturing Execution System)&#xff0c;制造执行系统。是面向车间生产的管理系统。在产品从工单发出到成品完工的过程中&#xff0c;MES系…

1206. 设计跳表

1206. 设计跳表 不使用任何库函数&#xff0c;设计一个 跳表 。 跳表 是在 O(log(n)) 时间内完成增加、删除、搜索操作的数据结构。跳表相比于树堆与红黑树&#xff0c;其功能与性能相当&#xff0c;并且跳表的代码长度相较下更短&#xff0c;其设计思想与链表相似。 例如&a…

如何收集EMC VPLEX 日志和VPLEX日志的简单解读

对于VPLEX遇到的问题&#xff0c;和二线沟通最快最有效的办法就是收集完整的日志&#xff0c;而不是拍一个照片。本文就详细介绍如何收集日志&#xff1f;和那些日志文件对我们分析问题是有价值的。 命令行ssh登录Vplex 管理控制台&#xff0c;然后进入Vplexcli命令行&#xf…

Windows安装Nginx并配置负载均衡

Nginx简介 Nginx是一款自由的、开源的、高性能的HTTP服务器和反向代理服务器&#xff1b;同时也是一个IMAP、POP3、SMTP代理服务器&#xff1b;Nginx可以作为一个HTTP服务器进行网站的发布处理&#xff0c;另外Nginx可以作为反向代理进行负载均衡的实现。 Nginx使用基于事件驱动…

HOJ项目部署(前后端及其判题机)

文章目录HOJ项目部署1 项目准备1.1 拉取HOJ项目到本地1.2 项目包结构解读2 后端部署DataBackup2.1 环境准备1&#xff09;项目基本数据导入2&#xff09;Nacos环境配置2.2 修改配置1&#xff09;修改application-prod.yml2&#xff09;修改bootstrap.yml3&#xff09;修改上传文…

【模板特性补充】

目录&#xff1a;前言一、非类型模板参数使用方法使用场景二、模板特化&#xff08;一&#xff09;函数模板特化&#xff08;二&#xff09;类模板特化1.全特化2.偏特化使用场景三、模板分离编译1. 什么是分离编译2.模板的分离编译3.解决方法四、模板总结前言 打怪升级&#x…

你知道多少接口性能优化的方案?

一、背景 针对老项目&#xff0c;去年做了许多降本增效的事情&#xff0c; 二、接口优化方案总结 1.批处理 批量思想&#xff1a;批量操作数据库&#xff0c;这个很好理解&#xff0c;我们在循环插入场景的接口中&#xff0c;可以在批处理执行完成后一次性插入或更新数据库…

Springboot的自动注入

一、开篇 在平时的开发过程中用的最多的莫属springboot了&#xff0c;都知道springboot中有自动注入的功能&#xff0c;在面试过程中也会问到自动注入&#xff0c;你知道自动注入是怎么回事吗&#xff0c;springboot是如何做到自动注入的&#xff0c;自动注入背后的原理是什么&…

基于 RocketMQ Connect 构建数据流转处理平台

作者&#xff1a;周波&#xff0c;阿里云智能高级开发工程师&#xff0c; Apache RocketMQ Committer 01 从问题中来的 RocketMQ Connect 在电商系统、金融系统及物流系统&#xff0c;我们经常可以看到 RocketMQ 的身影。原因不难理解&#xff0c;随着数字化转型范围的扩大及…

Linux学习笔记——多线程

文章目录补充知识Linux线程概念线程的优点线程的缺点线程异常线程用途多进程的应用场景Linux进程VS线程重新理解进程进程和线程线程共享的进程资源和环境为什么线程切换的成本更低进程和线程的关系Linux线程控制POSIX线程库创建线程线程ID及进程地址空间布局线程终止线程等待线…

pycharm常用的插件

pycharm等IDE 无法编辑bat文件 Chinese Language Pack 汉化插件 vim CodeGlance 右侧地图 将类似于Sublime中的代码小地图嵌入到编辑器窗格中。使用自定义颜色进行语法高亮&#xff0c;同时使用明暗主题。 Rainbow Brackets&#xff08;必备推荐&#xff09;收费了 这个插件…