猿人学刷题系列(第一届比赛)——第四题

news2024/9/25 17:16:48

题目:采集这5页的全部数字,计算加和并提交结果

在这里插入图片描述

地址:https://match.yuanrenxue.cn/match/4

页面分析

首先打开开发者工具然后刷新界面进行抓包。

在这里插入图片描述

通过返回的数据来看,我们需要的数据极有可能是位于info键对应的值中,由于其是html标签,所以我们可以先将info对应的值写到本地html文本之中。

在这里插入图片描述

通过右侧html中的代码不难看出,返回的数据是以图片的形式进行返回的,那么也就是说我们是没有办法直接获取到对应的数字数据的。所以这里可以提供两种方案,一是通过识别算法对图片中对应的数字进行识别,二是手动构建映射关系,此处数字是比较少的,所以选择构建映射关系更加方便。映射关系的构建根据每一个标签对应的数字即可构建,如下图:

在这里插入图片描述

Current source作为键然后6作为值构建映射关系,其他数字同理。映射关系如下:

number_base = {
    '': 0,
    '': 1,
    '': 2,
    '': 3,
    '': 4,
    '': 5,
    '': 6,
    '': 7,
    '': 8,
    '': 9
} # 构建数字映射字典

映射字典构建好之后是不是就可以去进行解析然后映射出对应的数字了呢?当然不行的,我们将html文本往下翻,会发现有的td标签中出现了4个以上的img标签,但是很明显我们的数据最大就是4位数,也就是说最多也就是4个img标签,那多的这些标签是什么情况呢?来通过页面中已经渲染好的html来看。

在这里插入图片描述

通过这里来看的话就会发现部分img标签的style属性中存在display值,如果去掉这些值的话那么剩下的img刚好数量就能够对应了,那么也就是说存在着display值的标签是不显示的

在这里插入图片描述

所以我们只需要将这个display对应的标签删除之后剩下的就是我们需要的数字了。但问题是,响应数据中并没有看到与display相关的任何内容,但是在响应数据中多了一个class属性

在这里插入图片描述

这个很明显能够看得出来是md5加密,但问题就是谁来加密的问题,所以我们可以去跟栈查看一下,回到network中。

在这里插入图片描述

跟进去后直接就能看到如下图的逻辑

在这里插入图片描述

那这就明显了,就是说以j_key为准设置标签的display格式,而j_key的生成逻辑为

j_key = ‘.’ + hex_md5(btoa(data.key + data.value).replace(/=/g, ‘’));

其中第一个加号左边的.是在css的后代选择器符号,所以在实际计算的时候我们是不需要的,因此将这个算法改写为python后为:

from hashlib import md5
from base64 import b64encode

j_key = md5(b64encode((key + value).encode()).decode().replace('=', '').encode()).hexdigest()

在这里插入图片描述

刚好,能够和写入本地中的值相对应,那么也就是说只要这个值相等的话意味着这个img标签是不被显示的,也就是需要我们删除的。那么我们来验证一下是否如我们推导所示呢。这里要判断的话我们可以在生成的j_key前面拼接上img_number ,然后由于其是html页面,所以可以通过xpath来解析出img中的class值。

在这里插入图片描述

可以看到输出了每一页的img标签的数量,从前三页来看是能够对应的。

在这里插入图片描述

第一页共39个数字,也就是由39个img标签来组成。所以思路推导正确。但是还有个问题,那就是位置顺序问题,回到浏览器中。

在这里插入图片描述

如上图所示,数字8应该是位于十位上,那么就应该是第三个img标签但实际上其是位于第二个img标签,所以如果我们直接将返回的图片直接映射数字的话肯定就是错误的,一定是先将其还原到正确的位置才能进行映射。那应该怎么还原呢?可以看到,在img标签中有一个style属性,其值如:"left:0px"这样的格式,所以我们就通过第一页的第一个数字来看。

6在第一位,其left对应的值为0px

在这里插入图片描述

第二个数字0对应为-11.5px

在这里插入图片描述

第三个数字8,对应为11.5px

在这里插入图片描述

最后一个为1,对应为0.0px

在这里插入图片描述

综上来看的话,当left: 0.0px时,数字的位置是不需要移动的;当left: 11.5px时,表示数字的位置向右移动1位,如上图中的8,位于第二个img,所以要移动到第三个img才是正确的位置;当left: -11.5px时,表示数字要向左移动1位,如上图中的0,需要向左移动一位才是正确位置。再来看其他数字,如下图

在这里插入图片描述

如此处的数字3,style中值为left:23.0px刚好是11.5的两倍,那么也就意味着3需要向右移动两位才是准确的位置。以此来看的话,假如我们将这些img标签放在列表中(以第一个数字6081为例),那么从响应的数据来看的话其在列表中对应的位置为[6,8,0,1],对应的索引值(处理前的索引值)为0,1,2,3,要将其进行还原那么可列出公式,设基数为base_px = 11.5,每一个数字对应的img标签中style取出的left值为x,那么最终每一个数字对应的准确的索引值index就等于x/base_px+处理前的索引值,对应的Python代码如下:

index = int(x/base_px)+base_index

那么实现代码的时候我们只需要将原本的img标签依次添加到一个列表中,然后对应去修改一个列表的元素值就可以啦。完整代码如下:

import base64
import hashlib
import requests
import re
from lxml import etree

number_base = {
    '': 0,
    '': 1,
    '': 2,
    '': 3,
    '': 4,
    '': 5,
    '': 6,
    '': 7,
    '': 8,
    '': 9
} # 构建数字映射字典
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36',
    'Cookie': 'sessionid=835l5naphxo5zdty23bfz3v0ofzymdto;'
}
url = 'https://match.yuanrenxue.cn/api/match/4?page=%s'
base_px = 11.5   # 基本单位
result_sum = []     # 保存最终数据


def jiami(key, value):
    """加密处理函数"""
    result = base64.b64encode((key + value).encode()).decode().replace('=', '').encode()
    result = hashlib.md5(result).hexdigest()
    return result


for i in range(1, 6):
    response = requests.get(url % i, headers=headers).json()
    key, value = response['key'], response['value']
    img_number = "img_number " + jiami(key, value)
    info = response.get('info')
    # with open('1.html', 'w', encoding='utf-8') as f:
    #     f.write(info)
    tree = etree.HTML(info)
    td_lst = tree.xpath('//td')
    for td in td_lst:
        # xpath解析出所有img标签并筛选掉不显示的img标签
        number_lst = [i for i in td.xpath('.//img') if i.xpath('./@class')[0] != img_number]
        t = [0 for i in number_lst]
        base_index = 0
        for n in number_lst:
            x = float(re.findall('left:(.*?)px', n.xpath('./@style')[0])[0])
            num = number_base[n.xpath('./@src')[0]]
            index = int(x / base_px) + base_index   # 需要移动的位数为int(px / basic_multiple),那么还原后的索引就应该加上本身的索引
            base_index += 1
            t[index] = str(num)
        result_sum.append(int(''.join(t)))

print(sum(result_sum))	# 最终结果为243701

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/899836.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Nginx介绍(Nginx是什么?能干什么?)

Nginx的产生 没有听过Nginx?那么一定听过它的"同行"Apache吧!Nginx同Apache一样都是一种WEB服务器,基于REST架构风格,以统一资源描述符(Uniform Resources Identifier)URI或者统一资源定位符(Uniform Resources Locator…

删除有序链表中重复的元素-II(链表)

乌!蒙!山!连!着!山!外!山! 题目: 思路: 双指针,slow和fast,并且增加标记flag初始为1。 如果slow指向节点值等于fast指向节点值&…

JAVA结合AE(Adobe After Effects)AE模板文件解析生成视频实现类似于逗拍(视频DIY)的核心功能

最近看抖音上有很多各种视频表白生成的直播而且直播间人很多,于是就思考如何实现的视频内的文字图片内容替换的呢 ,答案需要用到类似与逗拍一样的视频DIY的功能,苦于我是java,百度了半天没有办法和思路,总不能为了一个…

Hadoop小结(上)

最近在学大模型的分布式训练和存储,自己的分布式相关基础比较薄弱,基于深度学习的一切架构皆来源于传统,我总结了之前大数据的分布式解决方案即Hadoop: Why Hadoop Hadoop 的作用非常简单,就是在多计算机集群环境中营…

typescript报错:‘name‘ was also declared here

问题再现 用 Typescript 时, 遇到一个声明常量 name 的报错。代码如下: let name:string"zhangsan"; let num:number1001;执行编译时报错: 原因 在默认状态下,typescript 将 DOM typings 作为全局的运行环境&#…

windows vscode使用opencv

1.windows vscode使用opencv 参考:https://blog.csdn.net/zhaiax672/article/details/88971248 https://zhuanlan.zhihu.com/p/402378383 https://blog.csdn.net/weixin_39488566/article/details/121297536 g -g .\hello_opencv.cpp -stdc14 -I E:\C-software\…

测试工具coverage的高阶使用

在文章Python之单元测试使用的一点心得中,笔者介绍了自己在使用Python测试工具coverge的一点心得,包括: 使用coverage模块计算代码测试覆盖率使用coverage api计算代码测试覆盖率coverage配置文件的使用coverage badge的生成 本文在此基础上…

Jmeter生成可视化的HTML测试报告

Jmeter也是可以生成测试报告的。 性能测试工具Jmeter由于其体积小、使用方便、学习成本低等原因,在现在的性能测试过程中,使用率越来越高,但其本身也有一定的缺点,比如提供的测试结果可视化做的很一般。 不过从3.0版本开始&…

【流程引擎】---springboot+camunda案例之费用审批流程

目录 一、案例说明二、案例说明2.1、主要代码实现2.2、案例测试分析过程2.3、总结一、案例说明 上篇文章介绍了springboot简单集成Camunda,后续以具体案例来介绍Camunda使用。 下面介绍一种简单的“费用审批流程”。该流程会串行的经历三层组织审核,一直到流程结束。 其中,…

xollam后缀勒索病毒|勒索病毒解密恢复|xollam勒索病毒专杀|勒索病毒解密|数据库恢复

目录: xollam勒索病毒介绍感染xollam勒索病毒后的表现xollam勒索病毒的感染形式如何恢复.xollam后缀勒索病毒xollam勒索病毒日常防护建议 简介:案例 山东某有限公司的办公系统,由于工作人员在某破解版软件平台下载软件时,不小心点…

PaddleRS 1.0.0版本安装

PaddleRS 1.0.0版本安装 PaddleRS是百度飞桨、遥感科研院所及相关高校共同开发的基于飞桨的遥感影像智能解译开发套件, 支持图像分割、目标检测、场景分类、变化检测、图像复原等常见遥感任务。 PaddleRS致力于帮助遥感领域科研从业者快速完成算法的研发、验证和调…

基于深度学习的铁路异物侵限检测算法研究_整体认知感觉欠点意思,但是有一个新的变形卷积-Octave 卷积

相比于其他的交通运输方式,铁路运输具有准时性高、连续性强、速度快、运输量大、运输成本低以及安全可靠等优点。同时由于国家高速铁路网络建设的不断推进,铁路运输逐渐成为我国客运与货运的主要运输方式。虽然铁路运输为人们出行和货物运输带来的极大的…

Vulnhub系列靶机 Hackadmeic.RTB1

系列:Hackademic(此系列共2台) 难度:初级 信息收集 主机发现 netdiscover -r 192.168.80.0/24端口扫描 nmap -A -p- 192.168.80.143访问80端口 使用指纹识别插件查看是WordPress 根据首页显示的内容,点击target 点击…

【前端面试】中大文件上传/下载:中等文件代理服务器放行+大文件切片传输+并发请求+localstorage实现断点续传

目录 中等文件代理服务器放行:10MB为单位 proxy nginx 大文件切片:100MB为单位 断点:存储切片hash 前端方案A localstorage 后端方案B 服务端 上传 前端 后端 下载 前端 后端 多个大文件传输:spark-md5 哈希碰撞…

002-Nacos 简单集群模式源码解析

目录 介绍架构分析添加实例-同步信息给其他集群服务添加实例-提交同步任务添加实例-执行同步任务实例健康状态监控 介绍 Nacos 启动默认会使用集群模式,也就是没有带有-m standalone 的时候就是用的简单集群模式 另外我们再分析单机模式注册实例的时候最后一部分是把…

【王道-绪论】

#pic_center R 1 R_1 R1​ R 2 R^2 R2 目录 知识框架No.1 操作系统的概念功能和定义一、操作系统的概念和定义二、操作系统的功能和目标1、资源的管理者2、向用户提供服务2.1图形化用户接口2.2联机命令接口2.3脱机命令接口2.4程序接口 3、对硬件机器的拓展 三、总结 No.2 操作系…

Spring Cloud 系列之OpenFeign:(7)链路追踪zipkin

传送门 Spring Cloud Alibaba系列之nacos:(1)安装 Spring Cloud Alibaba系列之nacos:(2)单机模式支持mysql Spring Cloud Alibaba系列之nacos:(3)服务注册发现 Spring Cloud 系列之OpenFeign:(4)集成OpenFeign Spring Cloud …

第三章内存管理

1.内存的基础知识 内存可存放数据。程序执行前需要先放到内存中才能被CPU处理――缓和CPU与硬盘之间的速度矛盾 指令中的地址参数直接给出了变量x的实际存放地址(物理地址) 1.绝对装入 绝对装入:在编译时,如果知道程序将放到内存中的哪个位置,编译程序将…

springboot+Vue--打基础升级--(二)写个主菜单导航界面

1. 华为OD机考题 答案 2023华为OD统一考试(AB卷)题库清单-带答案(持续更新) 2023年华为OD真题机考题库大全-带答案(持续更新) 2. 面试题 一手真实java面试题:2023年各大公司java面试真题汇总--…

ansible(2)-- ansible常用模块

部署ansible:ansible(1)-- 部署ansible连接被控端_luo_guibin的博客-CSDN博客 目录 一、ansible常用模块 1.1 ping 1.2 command 1.3 raw 1.4 shell 1.5 script 1.6 copy 1.7 template 1.8 yum 11.0.1.13 主控端(ansible)11.0.1.12 被控端(k8s…