网页中字体混淆的处理——爬虫学习笔记之评论爬取
- 一、网页分析
- 1、打开某点评网址。
- 2、在网页源代码中寻找评论信息
- (1)进入这个“火锅店”的详情页,然后右击“检查”
- (2)点上面“刷新”详情页,逐步寻找。
- (3)进一步寻找包含评论的节点
- (4)复制Request URL里面的https地址到程序中
- (5)接下来,再构造headers文件,用requests获取代码
- (6) 点“Preview”看到是json数据,再用json的loads方法,把json格式转换为字典格式。
- 二、字体文件下载、处理
- 1、找到字体文件并下载
- (1)检查——刷新——Network——Font
- (2)点击左侧woff文件,再点击右侧Headers,找到URL,下载
- (3)复制刚下载的字体文件,粘贴到程序所在目录
- 2、字典返回方法,看代码。
- 3、整合过渡
- 三、发布完整代码
一、网页分析
1、打开某点评网址。
- 点击“火锅”,再点击某一火锅店的链接进入,如下三张图。
- 图一
- 图二
- 图三
2、在网页源代码中寻找评论信息
(1)进入这个“火锅店”的详情页,然后右击“检查”
(2)点上面“刷新”详情页,逐步寻找。
- 接下来点下面的“Network”,再点“Fetch/XHR”,最后点“搜索”,输入一个评论里面的部分文字,找不到的话,反复重试,找到后,看到下面有“allReview……”的字符串,点击之后,右侧就是要找的信息。
(3)进一步寻找包含评论的节点
- 点击“Preview”,然后找到0~9的10个节点,如图。
- 点开其中第一个,看到“reviewDataV0”下的“reviewBody”里面,就是想要的字体混淆的评论。
(4)复制Request URL里面的https地址到程序中
(5)接下来,再构造headers文件,用requests获取代码
- 通过搜索文字,得到的代码,就是文字混淆之后的源代码。
(6) 点“Preview”看到是json数据,再用json的loads方法,把json格式转换为字典格式。
- 下面的代码,最后得到原始的带有加密混淆处理的文字,如图。
二、字体文件下载、处理
1、找到字体文件并下载
(1)检查——刷新——Network——Font
(2)点击左侧woff文件,再点击右侧Headers,找到URL,下载
(3)复制刚下载的字体文件,粘贴到程序所在目录
-
把这个文件的名字改为“dzdp.woff”,要用到FontCreator软件打开。
-
然后做成字典形式。方法很灵活,文字识别,用微信、QQ截图文字识别,PDF软件扫描,OCR软件识别,都可以。uni字符串直接用全选“复制”,放到电子表格里面。对应识别的601个字体,编写一个小程序,进行竖直排列也放入电子表格,不过,中间再插入一列输入“:”号。
# -*- coding:utf-8 -*- """ # @Time:2023/2/18 7:28 # @Author:晚秋拾叶 # @File:字典处理.py # @PyCharm之Python """ stringcn = '1234567890店中美家馆小车大市公酒行国品发电金心业商司超生装园场食有新限天面工服海华水房饰城乐汽香部利子老艺花专东肉菜学福饭人' \ '百餐茶务通味所山区门药银农龙停尚安广鑫一容动南具源兴鲜记时机烤文康信果阳理锅宝达地儿衣特产西批坊州牛佳化五米修爱北养卖建材三会' \ '鸡室红站德王光名丽油院堂烧江社合星货型村自科快便日民营和活童明器烟育宾精屋经居庄石顺林尔县手厅销用好客火雅盛体旅之鞋辣作网粉包' \ '楼校鱼平彩上吧保永万物教吃设医正造丰健点汤庆技斯洗料配汇木缘加麻联卫川泰色世方寓风幼羊烫来高厂兰阿贝皮全女拉成云维贸道术运都口' \ '博河瑞宏京际路祥青镇厨培力惠连马鸿钢训影甲助窗布富牌头四多妆吉苑沙恒隆春干饼氏里二管诚制售嘉长轩杂副清计黄讯太鸭号街交与叉附近' \ '层旁对巷栋环省桥湖段乡厦府铺内侧元购前幢滨处向座下県凤港开关景泉塘放昌线湾政步宁解白田町溪十八古双胜本单同九迎第台玉锦底后七斜' \ '期武岭松角纪朝峰六振珠局岗洲横边济井办汉代临弄团外塔杨铁浦字年岛陵原梅进荣友虹央桂沿事津凯莲丁秀柳集紫旗张谷的是不了很还个也这' \ '我就在以可到错没去过感次要比觉看得说常真们但最喜哈么别位能较境非为欢然他挺着价那意种想出员两推做排实分间甜度起满给热完格荐喝等' \ '其再几只现朋候样直而买于般豆量选奶打每评少算又因情找些份置适什蛋师气你姐棒试总定啊足级整带虾如态且尝主话强当更板知己无酸让入啦' \ '式笑赞片酱差像提队走嫩才刚午接重串回晚微周值费性桌拍跟块调糕 ' char_list = list(stringcn) new_list = [] for item in char_list: item = item + '\n' new_list.append(item) # print(new_list) listover = '' for i in new_list: listover = listover + str(i) print(listover)
-
放入电子表格的格式如下图:
-
再用电子表格进一步处理。其中=“”“”&A1&“”“”,可以给字符串加上括号。
-
复制到记事本,复制到记事本,复制到记事本。再进行替换空格
2、字典返回方法,看代码。
3、整合过渡
三、发布完整代码
# -*- coding:utf-8 -*-
"""
# @Time:2023/2/18 23:32
# @Author:晚秋拾叶
# @File:dianpppping.py
# @PyCharm之Python
"""
import json
import requests
class Dianpppping(object):
def __init__(self):
super().__init__()
self.url = 'https://www.dianpppppingaaaaa.com/ajax/json/shopDynamic/allReview?shopId=l9jwtLf9bIFgZWy5&cityId=1145&shopType=10&tcv=06k4chxrte&_token=eJx1T01vgkAQ%2FS977QZ2YUGXxINRMQJqCi5UjQcERYogyCpi0%2F%2FeJamHHppMMm%2FefLw3X%2BA6i4GBEUIEQ3A%2FXIEBsIQkHUDAa9HRe3pP1ShBPapBEP3hFKKpEOyv%2FhgYW6oTSHB%2F1xGuqLcKIn2Isabs4AtjgRUiopuaiSFw4rysDVlumkaK07Ao0yKRoksu16dLKZ%2FpZ8OdI93PzGQTtJow9e9CWFTpTY5OGMkJxggIiXzVSahYGEOkI7KOEDn8zfxVz8Xb4nidJoVAB%2Bux8mpSV0d3Xq8YWoxNv22p7XlK60TY8ZjqPCd8wbz7sh31h%2B3NX2%2FK4OPNdjdWkeslO5i%2BVo0ebF6NsMXH7ypLM%2F6MHkvHviMvwks3ttbZmWZhPg321jRmphVkdjIZLugkY%2B%2BDAfj%2BAcr%2FeQQ%3D&uuid=bc6cfab4-15f3-124f-a8c2-c0e21b7209a7.1676650826&platform=1&partner=150&optimusCode=10&originUrl=https%3A%2F%2Fwww.dianping.com%2Fshop%2Fl9jwtLf9bIFgZWy5'
# 用的时候,对应的headers更换一下
self.headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36',
'Cookie': 'fspop=test; cy=1145; cye=anqiu; _lxsdk_cuid=186602d4776c8-0e25ef1627a4de-26031951-240000-186602d4776c8; _lxsdk=186602d4776c8-0e25ef1627a4de-26031951-240000-186602d4776c8; _hc.v=bc6cfab4-15f3-124f-a8c2-c0e21b7209a7.1676650826; s_ViewType=10; WEBDFPID=7wwu319615ww5z3zyy05u5548w910z6z8133950928797958y65322yv-1992012644338-1676652642589KIMAGOOfd79fef3d01d5e9aadc18ccd4d0c95073500; Hm_lvt_602b80cf8079ae6591966cc70a3940e7=1676650826,1676717635; ctu=a8d5f3fa8ea2c87174ee1fdd9cfa92b939d585b66c38f56ec7a93bb55aa3dd0a; dper=5bffb7ae4ebfc18ad64fd28e9edd8d0ddd0ccd6a88f4014cfa5c13f5c2aa95850c28cf0fd72440459c646b2d688a87f72019e9a722642033acb865f70092d587; ll=7fd06e815b796be3df069dec7836c3df; qruuid=7111a08e-96cd-45c9-8044-e4628e30ff7c; Hm_lpvt_602b80cf8079ae6591966cc70a3940e7=1676735651; _lxsdk_s=186652642ed-c0b-10e-b2e%7C%7C158',
'Host': 'www.dianpppppingaaaaa.com',
'Referer': 'https://www.dianpppppingaaaaa.com/shop/l9jwtLf9bIFgZWy5',
}
self.num = 1
'''
1、对网页进行分析
(1)点“检查”——“刷新”——”Network“——“Network”——Fetch/XHR”,最后点“搜索”——三两个评论文字
(2)找到之后,点击“allRewiew……”——点击右侧的“Preview”
(3)接着看到json格式的字符串,接着进行下面的编程处理
(4)最后得到加密混淆的评论文字,返回后进一步处理
'''
def get_parse_data(self):
resp = requests.get(self.url, headers=self.headers)
# list_user = []
list_comment = []
# json格式转换为字典格式,再遍历本页的所有评论
dict_data = json.loads(resp.text)['reviewAllDOList']
# 遍历当前页面所有的评论
for item in dict_data:
if item['reviewDataVO']["reviewBodyHidden"]:
reviewBody = item['reviewDataVO']["reviewBodyHidden"]
else:
reviewBody = item['reviewDataVO']["reviewBody"]
reviewBody = reviewBody.replace('<svgmtsi class="review">', '').replace(';</svgmtsi>', '').replace('<br />', '').replace(' ', '')
# list_user.append(user)
list_comment.append(reviewBody)
# print(list_comment)
return list_comment
'''
2、调用字典,然后对应值得到键(字体)
'''
def get_keys(self, value):
# 字体和十六进制对应的字典文件
glyf_dict = {
'1': 'uniede9',
'2': 'unif11d',
'3': 'unie3a7',
'4': 'unie98e',
'5': 'unif009',
'6': 'unie328',
'7': 'unif219',
'8': 'unif830',
'9': 'unie665',
'0': 'unie2d9',
'店': 'unie3a1',
'中': 'uniec18',
'美': 'unie7dc',
'家': 'unieb7c',
'馆': 'unieda6',
'小': 'unif8e8',
'车': 'unif76b',
'大': 'unied2f',
'市': 'uniead2',
'公': 'uniecdf',
'酒': 'unie693',
'行': 'unied6c',
'国': 'uniedf8',
'品': 'unie867',
'发': 'unie321',
'电': 'unie4ea',
'金': 'unieb33',
'心': 'unie5a2',
'业': 'unie643',
'商': 'unie1d6',
'司': 'unif60f',
'超': 'unie3af',
'生': 'unie108',
'装': 'unif3b0',
'园': 'unie255',
'场': 'unif0fe',
'食': 'unie716',
'有': 'uniee4d',
'新': 'unif162',
'限': 'unie2fe',
'天': 'unied95',
'面': 'unie002',
'工': 'unif04d',
'服': 'unie71b',
'海': 'unie25c',
'华': 'uniec56',
'水': 'unie762',
'房': 'unie4c5',
'饰': 'unie854',
'城': 'uniee64',
'乐': 'unif7d7',
'汽': 'uniec22',
'香': 'unie9fc',
'部': 'unif32e',
'利': 'unie4ac',
'子': 'unie606',
'老': 'unie500',
'艺': 'unied45',
'花': 'unie99f',
'专': 'unie96a',
'东': 'unieaa5',
'肉': 'unif8ec',
'菜': 'unif3af',
'学': 'unif159',
'福': 'unieffd',
'饭': 'unie66d',
'人': 'unif54f',
'百': 'unie4c1',
'餐': 'unieadf',
'茶': 'uniecd3',
'务': 'uniee98',
'通': 'unif650',
'味': 'uniee3f',
'所': 'unie7ce',
'山': 'unie114',
'区': 'unie75f',
'门': 'unie3b0',
'药': 'unif6ab',
'银': 'unif7e3',
'农': 'unie3cf',
'龙': 'unie65d',
'停': 'unie659',
'尚': 'uniecc3',
'安': 'uniecc5',
'广': 'unie981',
'鑫': 'unie884',
'一': 'unie84b',
'容': 'unie185',
'动': 'unie32b',
'南': 'uniecda',
'具': 'unie0ed',
'源': 'unif7b5',
'兴': 'uniea80',
'鲜': 'unie9c5',
'记': 'unif2c6',
'时': 'unif643',
'机': 'unie423',
'烤': 'unieaaa',
'文': 'unie113',
'康': 'unie0fb',
'信': 'unie9d6',
'果': 'unie11d',
'阳': 'unie13f',
'理': 'unif0a3',
'锅': 'unie8cc',
'宝': 'uniecfc',
'达': 'unif1b3',
'地': 'unied77',
'儿': 'unie10b',
'衣': 'unie99b',
'特': 'unie9ce',
'产': 'unie196',
'西': 'unif86c',
'批': 'uniea41',
'坊': 'unie295',
'州': 'unieef3',
'牛': 'unie831',
'佳': 'unif72b',
'化': 'unif1e4',
'五': 'unie3f7',
'米': 'unif475',
'修': 'unif7ad',
'爱': 'unif043',
'北': 'unif6c4',
'养': 'unif731',
'卖': 'unief24',
'建': 'uniea5b',
'材': 'unie59b',
'三': 'unie64d',
'会': 'unie063',
'鸡': 'uniee40',
'室': 'uniecd1',
'红': 'unie22f',
'站': 'unif678',
'德': 'unie323',
'王': 'unif278',
'光': 'unif31b',
'名': 'unieccf',
'丽': 'unif2da',
'油': 'unif65b',
'院': 'unie935',
'堂': 'uniee3e',
'烧': 'unif491',
'江': 'uniec0c',
'社': 'unie1cb',
'合': 'unif6e8',
'星': 'unie382',
'货': 'uniee04',
'型': 'unif7dc',
'村': 'unie11e',
'自': 'unie698',
'科': 'unif0c4',
'快': 'unif3c6',
'便': 'unie139',
'日': 'unif052',
'民': 'unif1ab',
'营': 'unie071',
'和': 'unif3d6',
'活': 'unieb12',
'童': 'unie921',
'明': 'uniebc5',
'器': 'unie445',
'烟': 'unieb9a',
'育': 'unif74c',
'宾': 'unie59c',
'精': 'unif720',
'屋': 'unif39e',
'经': 'unif5ec',
'居': 'unieb8a',
'庄': 'unie4f3',
'石': 'unif5b6',
'顺': 'unie994',
'林': 'unie204',
'尔': 'unif460',
'县': 'unie568',
'手': 'uniea9e',
'厅': 'unif256',
'销': 'unie755',
'用': 'unif626',
'好': 'unieb3e',
'客': 'unif073',
'火': 'unif63e',
'雅': 'unie895',
'盛': 'uniea06',
'体': 'unie3f0',
'旅': 'uniecc6',
'之': 'unieb7e',
'鞋': 'unie7d4',
'辣': 'unie2cd',
'作': 'unie717',
'网': 'unied1b',
'粉': 'unie4a3',
'包': 'unif6e3',
'楼': 'unif89c',
'校': 'uniea81',
'鱼': 'unie2fd',
'平': 'unif526',
'彩': 'unif1c0',
'上': 'unif10c',
'吧': 'unif512',
'保': 'unieade',
'永': 'unif825',
'万': 'unie908',
'物': 'unif091',
'教': 'unif175',
'吃': 'unie6a7',
'设': 'unief20',
'医': 'unie053',
'正': 'unie53d',
'造': 'unif30a',
'丰': 'uniea74',
'健': 'unif12f',
'点': 'uniecd7',
'汤': 'unie40a',
'庆': 'unieb3b',
'技': 'unif84a',
'斯': 'unif387',
'洗': 'unif792',
'料': 'unif36a',
'配': 'unie93a',
'汇': 'unie481',
'木': 'unie7c8',
'缘': 'uniea33',
'加': 'unie7ed',
'麻': 'unie17b',
'联': 'unie56e',
'卫': 'unif61f',
'川': 'unif1f5',
'泰': 'unif599',
'色': 'unif75c',
'世': 'unie95d',
'方': 'unie03f',
'寓': 'unif56f',
'风': 'unie590',
'幼': 'unie8c0',
'羊': 'uniec76',
'烫': 'uniea88',
'来': 'unie6e9',
'高': 'unif41f',
'厂': 'unie988',
'兰': 'unie79c',
'阿': 'unif736',
'贝': 'unie34e',
'皮': 'unieed0',
'全': 'unie3ea',
'女': 'unif37b',
'拉': 'uniecbe',
'成': 'unie0a0',
'云': 'unif54c',
'维': 'unie78d',
'贸': 'unied47',
'道': 'unie49b',
'术': 'unie7cf',
'运': 'uniea51',
'都': 'unif8a8',
'口': 'unieaee',
'博': 'unie6b2',
'河': 'unif5e4',
'瑞': 'unie324',
'宏': 'unif1f9',
'京': 'unie357',
'际': 'unif2e4',
'路': 'unif8a0',
'祥': 'unied57',
'青': 'unie874',
'镇': 'unif351',
'厨': 'unie956',
'培': 'unif6d5',
'力': 'unie151',
'惠': 'unie757',
'连': 'unie066',
'马': 'unie795',
'鸿': 'unieabf',
'钢': 'unie666',
'训': 'unie591',
'影': 'unie2b5',
'甲': 'unief2d',
'助': 'uniee26',
'窗': 'unieb94',
'布': 'uniefd9',
'富': 'uniee6b',
'牌': 'unie1fb',
'头': 'unie8b2',
'四': 'unie471',
'多': 'unied64',
'妆': 'unieeb5',
'吉': 'uniea4b',
'苑': 'uniec6f',
'沙': 'unif2d4',
'恒': 'unif36d',
'隆': 'unif5c9',
'春': 'unif4a4',
'干': 'unie3e5',
'饼': 'uniea12',
'氏': 'unied9e',
'里': 'unif408',
'二': 'uniecfd',
'管': 'unif682',
'诚': 'unie111',
'制': 'unief33',
'售': 'unie18b',
'嘉': 'unief96',
'长': 'unie2dd',
'轩': 'uniefbc',
'杂': 'unie244',
'副': 'uniec3f',
'清': 'unie06b',
'计': 'unief7c',
'黄': 'unied72',
'讯': 'unie2ec',
'太': 'unif683',
'鸭': 'unie7b9',
'号': 'unif402',
'街': 'unie0c3',
'交': 'unif381',
'与': 'uniecbd',
'叉': 'unie3e8',
'附': 'unif49a',
'近': 'unif3ab',
'层': 'unie5ff',
'旁': 'unif71d',
'对': 'unif0d6',
'巷': 'unif44a',
'栋': 'unif304',
'环': 'uniefe6',
'省': 'unif2a6',
'桥': 'unif0d2',
'湖': 'unif16f',
'段': 'unie22d',
'乡': 'unie80c',
'厦': 'unief61',
'府': 'uniea49',
'铺': 'uniebf3',
'内': 'unie61f',
'侧': 'unie9a0',
'元': 'unif3d5',
'购': 'unie046',
'前': 'unie5fb',
'幢': 'unif7f9',
'滨': 'unif7b4',
'处': 'uniecb4',
'向': 'unif781',
'座': 'unie7ae',
'下': 'unie3b6',
'県': 'unie688',
'凤': 'uniee77',
'港': 'unie0c7',
'开': 'unie6fe',
'关': 'unie0a9',
'景': 'unie6ab',
'泉': 'uniecff',
'塘': 'uniea6e',
'放': 'unie9b3',
'昌': 'unif551',
'线': 'unie128',
'湾': 'uniec9d',
'政': 'unif559',
'步': 'uniea7d',
'宁': 'unif335',
'解': 'unieb1a',
'白': 'unif480',
'田': 'unie263',
'町': 'unif653',
'溪': 'unif31e',
'十': 'unie526',
'八': 'unif0d8',
'古': 'unie2a7',
'双': 'unif111',
'胜': 'unie6d1',
'本': 'unie5a7',
'单': 'uniecfa',
'同': 'unie3f4',
'九': 'unie589',
'迎': 'unif6a0',
'第': 'unie1c0',
'台': 'unie549',
'玉': 'unie503',
'锦': 'unief72',
'底': 'unif63b',
'后': 'unif0b2',
'七': 'uniedce',
'斜': 'unif740',
'期': 'unie63f',
'武': 'unie9bd',
'岭': 'unie90d',
'松': 'unie808',
'角': 'unif355',
'纪': 'unif404',
'朝': 'unie037',
'峰': 'unied4d',
'六': 'unif1bc',
'振': 'unieee8',
'珠': 'unie176',
'局': 'unif846',
'岗': 'unif416',
'洲': 'unif223',
'横': 'unie1c8',
'边': 'unif8b4',
'济': 'unieb95',
'井': 'uniee2d',
'办': 'uniec30',
'汉': 'unie460',
'代': 'unie952',
'临': 'unie674',
'弄': 'unie61c',
'团': 'unie508',
'外': 'unie1dc',
'塔': 'unie18f',
'杨': 'unif785',
'铁': 'unif798',
'浦': 'unied11',
'字': 'unie7ab',
'年': 'unie68b',
'岛': 'unieaf6',
'陵': 'uniecbf',
'原': 'unie7f8',
'梅': 'unif62d',
'进': 'unieac1',
'荣': 'unie7f2',
'友': 'uniebd3',
'虹': 'uniee51',
'央': 'unie5be',
'桂': 'unif7f5',
'沿': 'unif373',
'事': 'unif293',
'津': 'unif292',
'凯': 'unie12f',
'莲': 'unif421',
'丁': 'unif5cc',
'秀': 'unie6e2',
'柳': 'uniee5e',
'集': 'unif69e',
'紫': 'uniefe2',
'旗': 'unied38',
'张': 'unif337',
'谷': 'unie794',
'的': 'unif3a1',
'是': 'unie9d8',
'不': 'unif3cb',
'了': 'unie8fe',
'很': 'uniec3a',
'还': 'unif732',
'个': 'uniecf7',
'也': 'unie140',
'这': 'unif108',
'我': 'unif439',
'就': 'uniedeb',
'在': 'unie96f',
'以': 'unie55a',
'可': 'unied2b',
'到': 'unie892',
'错': 'unie87b',
'没': 'unie54e',
'去': 'unif33b',
'过': 'unif841',
'感': 'unif5db',
'次': 'unif844',
'要': 'unie907',
'比': 'unie51f',
'觉': 'unie968',
'看': 'unif494',
'得': 'unif027',
'说': 'unie6e6',
'常': 'unif1d0',
'真': 'unif5d6',
'们': 'unif17e',
'但': 'unie9fe',
'最': 'unie094',
'喜': 'uniedc1',
'哈': 'unie443',
'么': 'unif86d',
'别': 'unif609',
'位': 'unif85b',
'能': 'unif250',
'较': 'unif6f8',
'境': 'unied53',
'非': 'unie043',
'为': 'unie156',
'欢': 'unif6ee',
'然': 'unie5f8',
'他': 'unie192',
'挺': 'unie939',
'着': 'unif488',
'价': 'unif3bc',
'那': 'unie8f3',
'意': 'unie146',
'种': 'uniea3d',
'想': 'unif013',
'出': 'unieda4',
'员': 'unie59e',
'两': 'unif3ae',
'推': 'unif4bf',
'做': 'unie0bd',
'排': 'unif8ef',
'实': 'unief00',
'分': 'unif09e',
'间': 'unie29c',
'甜': 'unie25d',
'度': 'unie2c8',
'起': 'unif3fa',
'满': 'unieb93',
'给': 'unif261',
'热': 'unie74b',
'完': 'uniec5f',
'格': 'unief47',
'荐': 'unif48e',
'喝': 'unif382',
'等': 'unie182',
'其': 'unif233',
'再': 'uniee0c',
'几': 'unif08d',
'只': 'unif422',
'现': 'unie078',
'朋': 'uniec5b',
'候': 'unif826',
'样': 'unied3f',
'直': 'uniece0',
'而': 'unie8d9',
'买': 'unif169',
'于': 'unif011',
'般': 'unied21',
'豆': 'unie633',
'量': 'unie28b',
'选': 'unif216',
'奶': 'unif819',
'打': 'unie023',
'每': 'unie557',
'评': 'unie8d6',
'少': 'unie803',
'算': 'unie9e2',
'又': 'uniee69',
'因': 'unie649',
'情': 'unie334',
'找': 'unief68',
'些': 'unie9ae',
'份': 'unie2a3',
'置': 'unie72b',
'适': 'unie45f',
'什': 'unif8c4',
'蛋': 'unie95b',
'师': 'uniec9f',
'气': 'unieec7',
'你': 'unif81a',
'姐': 'uniecc2',
'棒': 'unif5dd',
'试': 'unif73d',
'总': 'uniefa2',
'定': 'unif630',
'啊': 'unif49b',
'足': 'unie43c',
'级': 'unie131',
'整': 'unie2b9',
'带': 'unif7fb',
'虾': 'unif5f8',
'如': 'unie0ba',
'态': 'unied29',
'且': 'unie3b7',
'尝': 'unie11f',
'主': 'unie497',
'话': 'unif799',
'强': 'unieaf0',
'当': 'unie5f3',
'更': 'unif68b',
'板': 'unied48',
'知': 'uniefe1',
'己': 'unif183',
'无': 'unif816',
'酸': 'unif86a',
'让': 'unif0f2',
'入': 'unif509',
'啦': 'unif553',
'式': 'unif6d8',
'笑': 'unif20f',
'赞': 'unief45',
'片': 'unie92e',
'酱': 'unie695',
'差': 'uniec3b',
'像': 'unif04c',
'提': 'unif4b6',
'队': 'uniec69',
'走': 'unif695',
'嫩': 'unie3de',
'才': 'uniea10',
'刚': 'unie6a6',
'午': 'unif8ee',
'接': 'unie3d0',
'重': 'unif07c',
'串': 'unif25a',
'回': 'unie4b8',
'晚': 'uniec36',
'微': 'unif742',
'周': 'unie492',
'值': 'uniea7a',
'费': 'unie838',
'性': 'unif67f',
'桌': 'unif457',
'拍': 'unie623',
'跟': 'unie109',
'块': 'unif835',
'调': 'uniee0e',
'糕': 'uniecec',
}
return [k for k, v in glyf_dict.items() if v == value]
'''
3、整合过渡
'''
def run(self):
list_comment = self.get_parse_data()
for strr in list_comment:
intergrate = strr.split('&')
# print(intergrate)
intergrate_list = []
# 遍历用&分解的一条评论列表
for item in intergrate:
try:
if '#x' in item:
value = 'uni' + item[2:6]
value = self.get_keys(value)
str_value = ''.join(value)
intergrate_item = str_value + item[6::]
intergrate_list.append(intergrate_item)
else:
intergrate_list.append(item)
except:
continue
print('\n', '第{}条评论'.format(self.num))
data = ''.join(intergrate_list)
print(data)
self.num += 1
print('完成')
if __name__ == '__main__':
spider = Dianpppping()
spider.run()
- 运行效果如图。