题目地址:http://www.glidedsky.com/level/crawler-font-puzzle-1
写一下之前处理过的几个字体反爬实战,也是很常见的一种反爬类型,这是第一篇
先来看一下题目
源码拿到的数字,和实际显示在网页的数字,明显不一样的
注意到两个现象
- 每一次刷新,源码中的数字就跟着变动,说明每请求一次页面,就使用了新的
ttf字体文件
- 数字看起来无序,其实是有映射关系的,比如
122
变成了277
,226
变成了773
所以这里的解题思路就是,解析ttf文件,得到数字之间的映射关系,然后结合网页源码提取到的数字,就能获取真实的数字了
作者已经提示,ttf文件内嵌在源码的base64中
复制那一大串字符,进行解码,然后保存成 ttf文件:
content = base64.b64decode(b64_str)
with open("page-1.ttf", "wb") as f:
f.write(content)
使用专门的字体查看工具打开文件,这里我使用的是 FontCreator 9.1
通过比对网页数字、源码数字,我们发现映射关系是一致的,比如:8 显示成 1,4 显示成 0
接下来就是要怎么拿到这些映射关系了?根据ttf文件提示,我们只要拿到上面那一栏小标题 four one eight ...
,然后按顺序找到就能对应的真实数字,比如 four 对应 0, one 对应 1
那么怎么拿到解析 ttf文件拿到小标题呢?有两种方式,一种是解析xml,一种是使用专门的字体解析库 fontTools
这里使用 fontTools,后面其他的文章我会介绍xml的
参考:https://fonttools.readthedocs.io/en/latest/ttLib/ttFont.html
from fontTools.ttLib import TTFont
def parse_ttf():
"""
return
{
源码数字:真实数字
}
"""
font = TTFont("page-1.ttf")
# 获取节点名列表
name_lst = font["cmap"].tables[0].ttFont.getGlyphOrder()
en2num = {
"nine": 9,
"eight": 8,
"two": 2,
"six": 6,
"three": 3,
"four": 4,
"seven": 7,
"one": 1,
"five": 5,
"zero": 0,
}
# 生成映射表
map_list = {
str(en2num[word]): str(index) for index, word in enumerate(name_lst[1:])
}
return map_list
拿到映射表后,我们提取源码中的数字就能得到真实的数字了
代码整理
# -*- coding:utf-8 -*-
import base64
import requests
from io import BytesIO
from fontTools.ttLib import TTFont
from parsel import Selector
def glidedsky_login():
"""
网站登录,才能看到题目
注意题目域名也必须是 www.glidedsky.com
"""
EMAIL = ""
PASSWORD = ""
LOGIN_URL = "http://www.glidedsky.com/login"
session = requests.session()
resp = session.get(LOGIN_URL)
dom = Selector(resp.text)
_token = dom.css("meta[name='csrf-token']::attr(content)").get()
form_data = {
"_token": _token,
"email": EMAIL,
"password": PASSWORD,
}
session.post(LOGIN_URL, data=form_data)
return session
def parse_ttf(b64_str):
"""
return
{
源码数字:真实数字
}
"""
content = base64.b64decode(b64_str)
# 使用 BytesIO 构建一个临时文件对象
font = TTFont(BytesIO(content))
# 获取节点名列表
name_lst = font["cmap"].tables[0].ttFont.getGlyphOrder()
en2num = {
"nine": 9,
"eight": 8,
"two": 2,
"six": 6,
"three": 3,
"four": 4,
"seven": 7,
"one": 1,
"five": 5,
"zero": 0,
}
# 生成映射表
map_list = {
str(en2num[word]): str(index) for index, word in enumerate(name_lst[1:])
}
return map_list
def parse_html(html_text):
dom = Selector(text=html_text)
b64_str = dom.css("style::text").re_first(r"base64,(.+?)\)")
mappings = parse_ttf(b64_str)
fake_nums = dom.css(".col-md-1::text").re(r"\d+")
for num in fake_nums:
real_num = "".join(mappings[n] for n in num)
yield real_num
def main():
session = glidedsky_login()
for page in range(1, 11):
url = "http://www.glidedsky.com/level/web/crawler-font-puzzle-1?page=" + str(page)
resp = session.get(url)
print(f"page {page}: ", [num for num in parse_html(resp.text)])
if __name__ == "__main__":
main()
涉及到的知识点:
- VScode 设置 black格式化
- 使用 BytesIO 构建一个临时文件对象
运行结果