scrapy+selenium框架模拟登录

news2024/11/15 9:17:18

目录

一、cookie和session实现登录原理

二、模拟登录方法-Requests模块Cookie实现登录

三、cookie+session实现登录并获取数据

四、selenium使用基本代码

五、scrapy+selenium实现登录


一、cookie和session实现登录原理

cookie:1.网站持久保存在浏览器中的数据2.可以是长期永久或者限时过期

session:1.保存在服务器中的一种映射关系2.在客户端以Cookie形式储存Session_ID

二、模拟登录方法-Requests模块Cookie实现登录

import requests

url = 'http://my.cheshi.com/user/'

headers = {
    "User-Agent":"Mxxxxxxxxxxxxxxxxxxxxxx"
}
cookies = "pv_uid=16xxxxx;cheshi_UUID=01xxxxxxxxx;cheshi_pro_city=xxxxxxxxxxx"
cookies = {item.split("=")[0]:item.split("=")[1] for item in cookies.split(";")}
cookies = requests.utils.cookiejar_from_dict(cookies)
res = requests.get(url, headers=headers, cookies=cookies)

with open("./CO8L02.html","w") as f:
    f.write(res.text)

三、cookie+session实现登录并获取数据

如下两种方法:

import requests

url = "https://api.cheshi.com/services/common/api.php?api=login.Login"
headers = {
    "User-Agent":"Mxxxxxxxxxxxxx"
}
data = {
    "act":"login",
    "xxxx":"xxxx"
    ........
}
res = requests.post(url, headers=headers, data=data)
print(res.cookies)

admin_url = "http://my.cheshi.com/user/"
admin_res = requests.get(admin_url, headers=headers, cookies=res.cookies)

with open("./C08L03.html","w") as f:
    f.write(admin_res.text)
import requests

url = "https://api.cheshi.com/services/common/api.php?api=login.Login"
headers = {
    "User-Agent":"Mxxxxxxxxxxxxx"
}
data = {
    "act":"login",
    "xxxx":"xxxx"
    ........
}
session = requests.session()
session.post(url, headers=headers, data=data)

admin_url = "http://my.cheshi.com/user/"
admin_res = session.get(admin_url, headers=headers)
with open("./C08L03b.html","w") as f:
    f.write(admin_res.text)

四、selenium使用基本代码

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
# 实现交互的方法
from selenium.webdriver import ActionChains
import time

service = Service(executable_path="../_resources/chromedriver")
driver = webdriver.Chrome(service=service)
driver.get("http://www.cheshi.com/")

# print(drive.page_source)
# print(driver.current_url)
# with open("./C08L05.html", "w") as f:
#     f.write(drive.page_source)

# # 屏幕截图
# driver.save_screenshot("C08L05.png")

"""元素定位方法."""
# 注意:不要在xpath里面写text()会报错
h1 = driver.find_element(By.XPATH, "//h1")
h1_text = h1.text

# 虽然是//p 但是text后只能拿到第一个元素,若拿所有元素需要用find_elements后循环遍历
#items = driver.find_element(By.XPATH, "//p")
# print(items.text)

items = driver.find_elements(By.XPATH, "//p")
print(items.text)
for item in items:
    print(item.text)

p = driver.find_element(By.XPATH, '//p[@id="primary"]')
print(p.text)
print(p.get_attribute("another-attr"))

# 为了防止报错,可以用try,except方法防止中断程序


"""元素交互方法."""
username = driver.find_element(By.XPATH, '//*[@id="username"]')
password = driver.find_element(By.XPATH, '//*[@id="password"]')

ActionChains(driver).click(username).pause(1).send_keys("abcde").pause(0.5).perform()
ActionChains(driver).click(password).pause(1).send_keys("12345").pause(0.5).perform()
time.sleep(1)

div = driver.find_element(By.XPATH, '//*[@id="toHover"]')
ActionChains(driver).pause(0.5).move_to_element("div").pause(2).perform()
time.sleep(1)

div = driver.find_element(By.XPATH, '//*[@id="end"]')
ActionChains(driver).scroll_to_element("div").pause(2).perform()
time.sleep(1)
ActionChains(driver).scroll_by_amount(0,200).perform()
time.sleep(1)

time.sleep(2)
driver.quit()

五、scrapy+selenium实现登录

在scrapy中的爬虫文件(app.py)中修改如下代码(两种方法):

import scrapy

class AppSpider(scrapy.Spider):
    name = "app"
    # allowed_domains = ["my.cheshi.com"]
    # start_urls = ["http://my.cheshi.com/user/"]
    def start_requests(self):
        url = "http://my.cheshi.com/user/"
        cookies = "pv_uid=16xxxxx;cheshi_UUID=01xxxxxxxxx;cheshi_pro_city=xxxxxxxxxxx"
        cookies = {item.split("=")[0]:item.split("=")[1] for item in cookies.split(";")}
        yield scrapy.Request(url=url, callback=self.parse,cookies=cookies)

    def parse(self,response):
        print(response.text)
import scrapy

class AppSpider(scrapy.Spider):
    name = "app"
    # allowed_domains = ["my.cheshi.com"]
    # start_urls = ["http://my.cheshi.com/user/"]
    def start_requests(self):

        url = "https://api.cheshi.com/services/common/api.php?api=login.Login"
        data = {
            "act":"login",
            "xxxx":"xxxx"
            ........
        }
        yield scrapy.FormRequest(url=url, formdata=data,callback=self.parse)

    def parse(self,response):
        url = "http://my.cheshi.com/user/"
        yield scrapy.Request(url=url, callback=self.parse_admin)

    def parse_admin(self, response):
        print(response.text) 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1164195.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

3D视觉引导工业机器人上下料,助力汽车制造业实现智能化生产

在工业制造领域,机器人技术一直是推动生产效率和质量提升的重要力量。近年来,随着3D视觉技术的快速发展,工业机器人在处理复杂任务方面迈出了重要的一步。特别是在汽车制造行业,3D视觉引导工业机器人的应用已经取得了令人瞩目的成…

dockefile

文章目录 应用的部署MySql的部署Tomcat的部署 dockerfileDocker原理镜像的制作容器转镜像Dockerfile 服务编排Docker Compose Docker 私有仓库 应用的部署 搜索app的镜像拉去app的镜像创建容器操作容器中的app MySql的部署 容器内的网络服务和外部机器无法直接通信外部机器和…

软件测试 —— 移动端测试

1. 移动端 指移动设备(如智能手机、平板电脑、智能手表等)上的操作系统和应用程序。移动设备具有便携性和多功能性,可以随时随地连接互联网,提供丰富的应用和服务。 2. 移动端应用分类 (1) 原生应用(Native App&…

访问单通道Mat中的值之at()、ptr()、iscontinuous()【C++的OpenCV 第十四课-OpenCV基础强化(二)】

🎉🎉🎉 欢迎各位来到小白 p i a o 的学习空间! \color{red}{欢迎各位来到小白piao的学习空间!} 欢迎各位来到小白piao的学习空间!🎉🎉🎉 目录 一、访问的方法 \color{blu…

voronoi diagram(泰森多边形) 应用 - Empire Strikes Back

欢迎关注更多精彩 关注我,学习常用算法与数据结构,一题多解,降维打击。 voronoi 图求解点击前往 题目链接:https://vjudge.net/problem/URAL-1520 题目大意 有一个城市,形状是圆形。 城市里有很多化工场。 现在想…

matlab双目标定中基线物理长度获取

在MATLAB进行双目摄像机标定时,通常会获得相机的内参,其中包括像素单位的焦距(focal length)以及物理单位的基线长度(baseline)。对于应用中的深度估计和测量,基线长度的物理单位非常重要,因为它直接影响到深度信息的准确性。有时候,您可能只能获取像素单位的焦距和棋…

华为RS设备状态及接口配置命令

1、查看硬件信息 ①查看序列号 查看整机序列号 display esn display sn ②、查看功率 电源功率 display power 查看光模块功率 display transceiver interface gigabitethernet 1/0/0 verbose ③、查看风扇 display fan ④、查看温度 display temperature all ⑤、查看硬…

微信聚合聊天系统的便捷功能:自动发圈,跟圈

快到双十一咯,很多商家和自媒体、运营人都在发圈做运营,所以现在发圈的频率也会比以往的多一些,但事情一多就会担心今天的朋友圈忘记发、漏发或者错过发圈的时间导致错过私域里的好友、客户会错过活动时间。 其实这些都是可以不用担心&#…

Python 正则表达式(RegEx)指南

正则表达式(RegEx)是一系列字符,形成了一个搜索模式。RegEx 可用于检查字符串是否包含指定的搜索模式。 RegEx 模块 Python 中有一个内置的包叫做 re,它可以用于处理正则表达式。导入 re 模块: import rePython 中的…

怪物猎人世界Mod制作——替换模型、音效

太喜欢《怪物猎人:世界》这款游戏了,在冰原更新后,游戏版本趋于稳定。卡普空做一些bug修复后宣布不再更新此游戏,游戏版本稳定在v15.11.01。从此这个游戏长达三年未更新,我玩了八百小时也未发现什么明显BUG&#xff0c…

Linux多虚拟主机和配置限制访问与日志

目录 一、多虚拟主机 1.配置单网卡多个ip 2.给每个主机站点设置主页 3.测试访问 二、限制访问 1.限制所有 2.放行192.168.0.0/24网段访问 三、日志与状态页 1.定义访客日志 2.状态页配置 一、多虚拟主机 1.配置单网卡多个ip ip address add 192.168.0.231/24 dev e…

阿里云倚天实例已为数千家企业提供算力,性价比提升超30%

在2023云栖大会上,阿里云宣布倚天ECS实例已服务数千家企业,覆盖电商、生命科学、交通物流及游戏等领域,整体算力性价比提升超30%。 2022年,平头哥自研云原生CPU倚天710在阿里云数据中心规模化部署,并向云上企业提供算力…

“AI解析认知+大数据替代推荐”,云汉芯城推出【芯片智选】元器件替代查询工具

面对数以亿计的元器件型号,工程师们往往会遇到经常使用的物料需要替代但难以选型、遍查规格书也无法对应上所有参数,或是新找到的物料资料不全等问题。如何进行高效准确的选型与替代决策是一项极具挑战性的任务。 在此背景下,云汉芯城结合自研…

机器人制作开源方案 | 宠物智能机器人

一、作品简介 作者:陈瑛、卢文博、刘沈军、 浦津、葛望东单位:南京林业大学指导老师:金慧萍、田涛 1. 背景调研及研究意义 1.1背景调研 随着我国社会经济水平的飞速发展和城市化的进程加速推进,居民生活水平有了较 大幅度的提…

如何解决网站被攻击问题:高防服务器与高防CDN的选择

在当今数字时代,网站攻击已经成为严重的威胁,对网站的可用性和数据安全构成潜在风险。为了解决这个问题,企业需要考虑采用高防服务器或高防CDN等防护方案。本文将详细说明这两种方案的优劣势,并分析大、中、小型企业各自适合的防护…

5大自动化测试的Python框架 【实用干货】

自从2018年被评选为编程语言以来,Python在各大排行榜上一直都是名列前茅。 目前,它在Tiobe指数中排名第三个,仅次于Java和C。随着该编程语言的广泛使用,基于Python的自动化测试框架也应运而生,且不断发展与丰富。 因…

VB.NET—Form问题记录

目录 前言: 过程: 总结: 升华: 前言: 分享一个VB.NET遇到的一个问题,开始一直没有解决,这个问题阻碍着我前进成为我路上的拦路虎,千方百计的想要绕过去,但事与愿违怎么也绕不过去,因为运行不了窗体,程序…

【特殊矩阵的压缩存储】

文章目录 特殊矩阵的压缩存储特殊的矩阵 特殊矩阵的压缩存储 矩阵:一个由m x n个元素排成的m行n列的表。 矩阵的常规存储: 将矩阵描述为一个二维数组。 矩阵的常规存储的特点: 可以将元素进行随机存取; 矩阵运算非常简单&#xf…

【Unity实战】最全面的库存系统(二)

文章目录 先来看看最终效果前言箱子库存箱子存储物品玩家背包快捷栏满了,物品自动加入背包修复开着背包拾取物品不会刷新显示的问题将箱子库存和背包分开,可以同时打开完结先来看看最终效果 前言 本期紧跟着上期,继续来完善我们的库存系统,实现箱子库存和人物背包 箱子库…

Docker:本地目录挂载

Docker:本地目录挂载 1. 案例:MySQL容器的数据挂载2. 将MySQL挂载到我们指定的目录 1. 案例:MySQL容器的数据挂载 查看MySQL容器,判断是否有数据卷挂载基于宿主机目录实现MySQL数据目录、配置文件、初始化脚本的挂载 [root172 _…