题目:采集这5页的全部数字,计算加和并提交结果
地址:https://match.yuanrenxue.cn/match/4
页面分析
首先打开开发者工具然后刷新界面进行抓包。
通过返回的数据来看,我们需要的数据极有可能是位于info
键对应的值中,由于其是html
标签,所以我们可以先将info
对应的值写到本地html
文本之中。
通过右侧html中的代码不难看出,返回的数据是以图片的形式进行返回的,那么也就是说我们是没有办法直接获取到对应的数字数据的。所以这里可以提供两种方案,一是通过识别算法对图片中对应的数字进行识别,二是手动构建映射关系,此处数字是比较少的,所以选择构建映射关系更加方便。映射关系的构建根据每一个标签对应的数字即可构建,如下图:
将Current source
作为键然后6作为值构建映射关系,其他数字同理。映射关系如下:
number_base = {
'': 0,
'': 1,
'': 2,
'': 3,
'': 4,
'': 5,
'': 6,
'': 7,
'': 8,
'': 9
} # 构建数字映射字典
映射字典构建好之后是不是就可以去进行解析然后映射出对应的数字了呢?当然不行的,我们将html
文本往下翻,会发现有的td
标签中出现了4个以上的img
标签,但是很明显我们的数据最大就是4位数,也就是说最多也就是4个img
标签,那多的这些标签是什么情况呢?来通过页面中已经渲染好的html来看。
通过这里来看的话就会发现部分img
标签的style
属性中存在display
值,如果去掉这些值的话那么剩下的img
刚好数量就能够对应了,那么也就是说存在着display
值的标签是不显示的
所以我们只需要将这个display对应的标签删除之后剩下的就是我们需要的数字了。但问题是,响应数据中并没有看到与display相关的任何内容,但是在响应数据中多了一个class属性
这个很明显能够看得出来是md5
加密,但问题就是谁来加密的问题,所以我们可以去跟栈查看一下,回到network中。
跟进去后直接就能看到如下图的逻辑
那这就明显了,就是说以j_key
为准设置标签的display
格式,而j_key
的生成逻辑为
j_key = ‘.’ + hex_md5(btoa(data.key + data.value).replace(/=/g, ‘’));
其中第一个加号左边的.
是在css的后代选择器符号,所以在实际计算的时候我们是不需要的,因此将这个算法改写为python后为:
from hashlib import md5
from base64 import b64encode
j_key = md5(b64encode((key + value).encode()).decode().replace('=', '').encode()).hexdigest()
刚好,能够和写入本地中的值相对应,那么也就是说只要这个值相等的话意味着这个img标签是不被显示的,也就是需要我们删除的。那么我们来验证一下是否如我们推导所示呢。这里要判断的话我们可以在生成的j_key前面拼接上img_number
,然后由于其是html
页面,所以可以通过xpath
来解析出img
中的class
值。
可以看到输出了每一页的img
标签的数量,从前三页来看是能够对应的。
第一页共39个数字,也就是由39个img标签来组成。所以思路推导正确。但是还有个问题,那就是位置顺序问题,回到浏览器中。
如上图所示,数字8应该是位于十位上,那么就应该是第三个img
标签但实际上其是位于第二个img
标签,所以如果我们直接将返回的图片直接映射数字的话肯定就是错误的,一定是先将其还原到正确的位置才能进行映射。那应该怎么还原呢?可以看到,在img
标签中有一个style属性,其值如:"left:0px"
这样的格式,所以我们就通过第一页的第一个数字来看。
6在第一位,其left
对应的值为0px
第二个数字0对应为-11.5px
第三个数字8,对应为11.5px
最后一个为1,对应为0.0px
综上来看的话,当left: 0.0px
时,数字的位置是不需要移动的;当left: 11.5px
时,表示数字的位置向右移动1位,如上图中的8,位于第二个img
,所以要移动到第三个img
才是正确的位置;当left: -11.5px
时,表示数字要向左移动1位,如上图中的0,需要向左移动一位才是正确位置。再来看其他数字,如下图
如此处的数字3,style
中值为left:23.0px
刚好是11.5的两倍,那么也就意味着3需要向右移动两位才是准确的位置。以此来看的话,假如我们将这些img标签放在列表中(以第一个数字6081为例),那么从响应的数据来看的话其在列表中对应的位置为[6,8,0,1]
,对应的索引值(处理前的索引值)为0,1,2,3
,要将其进行还原那么可列出公式,设基数为base_px = 11.5
,每一个数字对应的img
标签中style
取出的left
值为x
,那么最终每一个数字对应的准确的索引值index
就等于x/base_px+处理前的索引值
,对应的Python代码如下:
index = int(x/base_px)+base_index
那么实现代码的时候我们只需要将原本的img标签依次添加到一个列表中,然后对应去修改一个列表的元素值就可以啦。完整代码如下:
import base64
import hashlib
import requests
import re
from lxml import etree
number_base = {
'': 0,
'': 1,
'': 2,
'': 3,
'': 4,
'': 5,
'': 6,
'': 7,
'': 8,
'': 9
} # 构建数字映射字典
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36',
'Cookie': 'sessionid=835l5naphxo5zdty23bfz3v0ofzymdto;'
}
url = 'https://match.yuanrenxue.cn/api/match/4?page=%s'
base_px = 11.5 # 基本单位
result_sum = [] # 保存最终数据
def jiami(key, value):
"""加密处理函数"""
result = base64.b64encode((key + value).encode()).decode().replace('=', '').encode()
result = hashlib.md5(result).hexdigest()
return result
for i in range(1, 6):
response = requests.get(url % i, headers=headers).json()
key, value = response['key'], response['value']
img_number = "img_number " + jiami(key, value)
info = response.get('info')
# with open('1.html', 'w', encoding='utf-8') as f:
# f.write(info)
tree = etree.HTML(info)
td_lst = tree.xpath('//td')
for td in td_lst:
# xpath解析出所有img标签并筛选掉不显示的img标签
number_lst = [i for i in td.xpath('.//img') if i.xpath('./@class')[0] != img_number]
t = [0 for i in number_lst]
base_index = 0
for n in number_lst:
x = float(re.findall('left:(.*?)px', n.xpath('./@style')[0])[0])
num = number_base[n.xpath('./@src')[0]]
index = int(x / base_px) + base_index # 需要移动的位数为int(px / basic_multiple),那么还原后的索引就应该加上本身的索引
base_index += 1
t[index] = str(num)
result_sum.append(int(''.join(t)))
print(sum(result_sum)) # 最终结果为243701