前言
本文是该专栏的第77篇,后面会持续分享python爬虫干货知识,记得关注。
字体加密是一种常见的反爬虫技术,通过自定义字体文件和字符映射来保护网页内容,防止爬虫直接获取文本信息。
在文章《Python爬虫-猫眼电影的影院数据》中,笔者有详细介绍过猫眼的相关数据采集。值得一提的是,猫眼平台就有相关的字体反爬限制。而本文,笔者将针对“如何解决平台的字体加密技术,并获取目标数据”,进行详细介绍一种“通用型字体反爬策略”。
废话不多说,具体细节部分以及详细思路逻辑,笔者将在正文结合完整代码进行详细说明。(附带完整代码)
正文