网页中字体混淆的处理(简易方法)——爬虫学习笔记

news2024/11/15 1:48:46

网页中字体混淆的处理——爬虫学习笔记之评论爬取

  • 一、网页分析
    • 1、打开某点评网址。
    • 2、在网页源代码中寻找评论信息
      • (1)进入这个“火锅店”的详情页,然后右击“检查”
      • (2)点上面“刷新”详情页,逐步寻找。
      • (3)进一步寻找包含评论的节点
      • (4)复制Request URL里面的https地址到程序中
      • (5)接下来,再构造headers文件,用requests获取代码
      • (6) 点“Preview”看到是json数据,再用json的loads方法,把json格式转换为字典格式。
  • 二、字体文件下载、处理
    • 1、找到字体文件并下载
      • (1)检查——刷新——Network——Font
      • (2)点击左侧woff文件,再点击右侧Headers,找到URL,下载
      • (3)复制刚下载的字体文件,粘贴到程序所在目录
    • 2、字典返回方法,看代码。
    • 3、整合过渡
  • 三、发布完整代码

一、网页分析

1、打开某点评网址。

  • 点击“火锅”,再点击某一火锅店的链接进入,如下三张图。
  • 图一
    在这里插入图片描述
  • 图二
    在这里插入图片描述
  • 图三
    在这里插入图片描述

2、在网页源代码中寻找评论信息

(1)进入这个“火锅店”的详情页,然后右击“检查”

在这里插入图片描述

(2)点上面“刷新”详情页,逐步寻找。

  • 接下来点下面的“Network”,再点“Fetch/XHR”,最后点“搜索”,输入一个评论里面的部分文字,找不到的话,反复重试,找到后,看到下面有“allReview……”的字符串,点击之后,右侧就是要找的信息。
    -

(3)进一步寻找包含评论的节点

  • 点击“Preview”,然后找到0~9的10个节点,如图。
    在这里插入图片描述
  • 点开其中第一个,看到“reviewDataV0”下的“reviewBody”里面,就是想要的字体混淆的评论。
    在这里插入图片描述

(4)复制Request URL里面的https地址到程序中

在这里插入图片描述

(5)接下来,再构造headers文件,用requests获取代码

在这里插入图片描述

  • 通过搜索文字,得到的代码,就是文字混淆之后的源代码。
    在这里插入图片描述

(6) 点“Preview”看到是json数据,再用json的loads方法,把json格式转换为字典格式。

  • 下面的代码,最后得到原始的带有加密混淆处理的文字,如图。
    在这里插入图片描述

二、字体文件下载、处理

1、找到字体文件并下载

(1)检查——刷新——Network——Font

(2)点击左侧woff文件,再点击右侧Headers,找到URL,下载

在这里插入图片描述

(3)复制刚下载的字体文件,粘贴到程序所在目录

  • 把这个文件的名字改为“dzdp.woff”,要用到FontCreator软件打开。
    在这里插入图片描述

  • 然后做成字典形式。方法很灵活,文字识别,用微信、QQ截图文字识别,PDF软件扫描,OCR软件识别,都可以。uni字符串直接用全选“复制”,放到电子表格里面。对应识别的601个字体,编写一个小程序,进行竖直排列也放入电子表格,不过,中间再插入一列输入“:”号。

    # -*- coding:utf-8 -*-
    """
        # @Time:2023/2/18 7:28
        # @Author:晚秋拾叶
        # @File:字典处理.py
        # @PyCharm之Python
    """
    
    stringcn = '1234567890店中美家馆小车大市公酒行国品发电金心业商司超生装园场食有新限天面工服海华水房饰城乐汽香部利子老艺花专东肉菜学福饭人' \
               '百餐茶务通味所山区门药银农龙停尚安广鑫一容动南具源兴鲜记时机烤文康信果阳理锅宝达地儿衣特产西批坊州牛佳化五米修爱北养卖建材三会' \
               '鸡室红站德王光名丽油院堂烧江社合星货型村自科快便日民营和活童明器烟育宾精屋经居庄石顺林尔县手厅销用好客火雅盛体旅之鞋辣作网粉包' \
               '楼校鱼平彩上吧保永万物教吃设医正造丰健点汤庆技斯洗料配汇木缘加麻联卫川泰色世方寓风幼羊烫来高厂兰阿贝皮全女拉成云维贸道术运都口' \
               '博河瑞宏京际路祥青镇厨培力惠连马鸿钢训影甲助窗布富牌头四多妆吉苑沙恒隆春干饼氏里二管诚制售嘉长轩杂副清计黄讯太鸭号街交与叉附近' \
               '层旁对巷栋环省桥湖段乡厦府铺内侧元购前幢滨处向座下県凤港开关景泉塘放昌线湾政步宁解白田町溪十八古双胜本单同九迎第台玉锦底后七斜' \
               '期武岭松角纪朝峰六振珠局岗洲横边济井办汉代临弄团外塔杨铁浦字年岛陵原梅进荣友虹央桂沿事津凯莲丁秀柳集紫旗张谷的是不了很还个也这' \
               '我就在以可到错没去过感次要比觉看得说常真们但最喜哈么别位能较境非为欢然他挺着价那意种想出员两推做排实分间甜度起满给热完格荐喝等' \
               '其再几只现朋候样直而买于般豆量选奶打每评少算又因情找些份置适什蛋师气你姐棒试总定啊足级整带虾如态且尝主话强当更板知己无酸让入啦' \
               '式笑赞片酱差像提队走嫩才刚午接重串回晚微周值费性桌拍跟块调糕 '
    char_list = list(stringcn)
    new_list = []
    for item in char_list:
        item = item + '\n'
        new_list.append(item)
    # print(new_list)
    listover = ''
    for i in new_list:
        listover = listover + str(i)
    print(listover)
    
  • 放入电子表格的格式如下图:
    在这里插入图片描述

  • 再用电子表格进一步处理。其中=“”“”&A1&“”“”,可以给字符串加上括号。
    在这里插入图片描述

  • 复制到记事本,复制到记事本,复制到记事本。再进行替换空格
    在这里插入图片描述
    在这里插入图片描述

2、字典返回方法,看代码。

在这里插入图片描述

3、整合过渡

在这里插入图片描述

三、发布完整代码

# -*- coding:utf-8 -*-
"""
    # @Time:2023/2/18 23:32
    # @Author:晚秋拾叶
    # @File:dianpppping.py
    # @PyCharm之Python
"""
import json
import requests

class Dianpppping(object):
    def __init__(self):
        super().__init__()
        self.url = 'https://www.dianpppppingaaaaa.com/ajax/json/shopDynamic/allReview?shopId=l9jwtLf9bIFgZWy5&cityId=1145&shopType=10&tcv=06k4chxrte&_token=eJx1T01vgkAQ%2FS977QZ2YUGXxINRMQJqCi5UjQcERYogyCpi0%2F%2FeJamHHppMMm%2FefLw3X%2BA6i4GBEUIEQ3A%2FXIEBsIQkHUDAa9HRe3pP1ShBPapBEP3hFKKpEOyv%2FhgYW6oTSHB%2F1xGuqLcKIn2Isabs4AtjgRUiopuaiSFw4rysDVlumkaK07Ao0yKRoksu16dLKZ%2FpZ8OdI93PzGQTtJow9e9CWFTpTY5OGMkJxggIiXzVSahYGEOkI7KOEDn8zfxVz8Xb4nidJoVAB%2Bux8mpSV0d3Xq8YWoxNv22p7XlK60TY8ZjqPCd8wbz7sh31h%2B3NX2%2FK4OPNdjdWkeslO5i%2BVo0ebF6NsMXH7ypLM%2F6MHkvHviMvwks3ttbZmWZhPg321jRmphVkdjIZLugkY%2B%2BDAfj%2BAcr%2FeQQ%3D&uuid=bc6cfab4-15f3-124f-a8c2-c0e21b7209a7.1676650826&platform=1&partner=150&optimusCode=10&originUrl=https%3A%2F%2Fwww.dianping.com%2Fshop%2Fl9jwtLf9bIFgZWy5'
        # 用的时候,对应的headers更换一下
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36',
            'Cookie': 'fspop=test; cy=1145; cye=anqiu; _lxsdk_cuid=186602d4776c8-0e25ef1627a4de-26031951-240000-186602d4776c8; _lxsdk=186602d4776c8-0e25ef1627a4de-26031951-240000-186602d4776c8; _hc.v=bc6cfab4-15f3-124f-a8c2-c0e21b7209a7.1676650826; s_ViewType=10; WEBDFPID=7wwu319615ww5z3zyy05u5548w910z6z8133950928797958y65322yv-1992012644338-1676652642589KIMAGOOfd79fef3d01d5e9aadc18ccd4d0c95073500; Hm_lvt_602b80cf8079ae6591966cc70a3940e7=1676650826,1676717635; ctu=a8d5f3fa8ea2c87174ee1fdd9cfa92b939d585b66c38f56ec7a93bb55aa3dd0a; dper=5bffb7ae4ebfc18ad64fd28e9edd8d0ddd0ccd6a88f4014cfa5c13f5c2aa95850c28cf0fd72440459c646b2d688a87f72019e9a722642033acb865f70092d587; ll=7fd06e815b796be3df069dec7836c3df; qruuid=7111a08e-96cd-45c9-8044-e4628e30ff7c; Hm_lpvt_602b80cf8079ae6591966cc70a3940e7=1676735651; _lxsdk_s=186652642ed-c0b-10e-b2e%7C%7C158',
            'Host': 'www.dianpppppingaaaaa.com',
            'Referer': 'https://www.dianpppppingaaaaa.com/shop/l9jwtLf9bIFgZWy5',
        }
        self.num = 1

    '''
        1、对网页进行分析
        (1)点“检查”——“刷新”——”Network“——“Network”——Fetch/XHR”,最后点“搜索”——三两个评论文字
        (2)找到之后,点击“allRewiew……”——点击右侧的“Preview”
        (3)接着看到json格式的字符串,接着进行下面的编程处理  
        (4)最后得到加密混淆的评论文字,返回后进一步处理  
    '''
    def get_parse_data(self):
        resp = requests.get(self.url, headers=self.headers)
        # list_user = []
        list_comment = []
        # json格式转换为字典格式,再遍历本页的所有评论
        dict_data = json.loads(resp.text)['reviewAllDOList']
        # 遍历当前页面所有的评论
        for item in dict_data:
            if item['reviewDataVO']["reviewBodyHidden"]:
                reviewBody = item['reviewDataVO']["reviewBodyHidden"]
            else:
                reviewBody = item['reviewDataVO']["reviewBody"]
            reviewBody = reviewBody.replace('<svgmtsi class="review">', '').replace(';</svgmtsi>', '').replace('<br />', '').replace('&nbsp', '')
            # list_user.append(user)
            list_comment.append(reviewBody)
        # print(list_comment)
        return list_comment

    '''
       2、调用字典,然后对应值得到键(字体)
    '''
    def get_keys(self, value):
        # 字体和十六进制对应的字典文件
        glyf_dict = {
            '1': 'uniede9',
            '2': 'unif11d',
            '3': 'unie3a7',
            '4': 'unie98e',
            '5': 'unif009',
            '6': 'unie328',
            '7': 'unif219',
            '8': 'unif830',
            '9': 'unie665',
            '0': 'unie2d9',
            '店': 'unie3a1',
            '中': 'uniec18',
            '美': 'unie7dc',
            '家': 'unieb7c',
            '馆': 'unieda6',
            '小': 'unif8e8',
            '车': 'unif76b',
            '大': 'unied2f',
            '市': 'uniead2',
            '公': 'uniecdf',
            '酒': 'unie693',
            '行': 'unied6c',
            '国': 'uniedf8',
            '品': 'unie867',
            '发': 'unie321',
            '电': 'unie4ea',
            '金': 'unieb33',
            '心': 'unie5a2',
            '业': 'unie643',
            '商': 'unie1d6',
            '司': 'unif60f',
            '超': 'unie3af',
            '生': 'unie108',
            '装': 'unif3b0',
            '园': 'unie255',
            '场': 'unif0fe',
            '食': 'unie716',
            '有': 'uniee4d',
            '新': 'unif162',
            '限': 'unie2fe',
            '天': 'unied95',
            '面': 'unie002',
            '工': 'unif04d',
            '服': 'unie71b',
            '海': 'unie25c',
            '华': 'uniec56',
            '水': 'unie762',
            '房': 'unie4c5',
            '饰': 'unie854',
            '城': 'uniee64',
            '乐': 'unif7d7',
            '汽': 'uniec22',
            '香': 'unie9fc',
            '部': 'unif32e',
            '利': 'unie4ac',
            '子': 'unie606',
            '老': 'unie500',
            '艺': 'unied45',
            '花': 'unie99f',
            '专': 'unie96a',
            '东': 'unieaa5',
            '肉': 'unif8ec',
            '菜': 'unif3af',
            '学': 'unif159',
            '福': 'unieffd',
            '饭': 'unie66d',
            '人': 'unif54f',
            '百': 'unie4c1',
            '餐': 'unieadf',
            '茶': 'uniecd3',
            '务': 'uniee98',
            '通': 'unif650',
            '味': 'uniee3f',
            '所': 'unie7ce',
            '山': 'unie114',
            '区': 'unie75f',
            '门': 'unie3b0',
            '药': 'unif6ab',
            '银': 'unif7e3',
            '农': 'unie3cf',
            '龙': 'unie65d',
            '停': 'unie659',
            '尚': 'uniecc3',
            '安': 'uniecc5',
            '广': 'unie981',
            '鑫': 'unie884',
            '一': 'unie84b',
            '容': 'unie185',
            '动': 'unie32b',
            '南': 'uniecda',
            '具': 'unie0ed',
            '源': 'unif7b5',
            '兴': 'uniea80',
            '鲜': 'unie9c5',
            '记': 'unif2c6',
            '时': 'unif643',
            '机': 'unie423',
            '烤': 'unieaaa',
            '文': 'unie113',
            '康': 'unie0fb',
            '信': 'unie9d6',
            '果': 'unie11d',
            '阳': 'unie13f',
            '理': 'unif0a3',
            '锅': 'unie8cc',
            '宝': 'uniecfc',
            '达': 'unif1b3',
            '地': 'unied77',
            '儿': 'unie10b',
            '衣': 'unie99b',
            '特': 'unie9ce',
            '产': 'unie196',
            '西': 'unif86c',
            '批': 'uniea41',
            '坊': 'unie295',
            '州': 'unieef3',
            '牛': 'unie831',
            '佳': 'unif72b',
            '化': 'unif1e4',
            '五': 'unie3f7',
            '米': 'unif475',
            '修': 'unif7ad',
            '爱': 'unif043',
            '北': 'unif6c4',
            '养': 'unif731',
            '卖': 'unief24',
            '建': 'uniea5b',
            '材': 'unie59b',
            '三': 'unie64d',
            '会': 'unie063',
            '鸡': 'uniee40',
            '室': 'uniecd1',
            '红': 'unie22f',
            '站': 'unif678',
            '德': 'unie323',
            '王': 'unif278',
            '光': 'unif31b',
            '名': 'unieccf',
            '丽': 'unif2da',
            '油': 'unif65b',
            '院': 'unie935',
            '堂': 'uniee3e',
            '烧': 'unif491',
            '江': 'uniec0c',
            '社': 'unie1cb',
            '合': 'unif6e8',
            '星': 'unie382',
            '货': 'uniee04',
            '型': 'unif7dc',
            '村': 'unie11e',
            '自': 'unie698',
            '科': 'unif0c4',
            '快': 'unif3c6',
            '便': 'unie139',
            '日': 'unif052',
            '民': 'unif1ab',
            '营': 'unie071',
            '和': 'unif3d6',
            '活': 'unieb12',
            '童': 'unie921',
            '明': 'uniebc5',
            '器': 'unie445',
            '烟': 'unieb9a',
            '育': 'unif74c',
            '宾': 'unie59c',
            '精': 'unif720',
            '屋': 'unif39e',
            '经': 'unif5ec',
            '居': 'unieb8a',
            '庄': 'unie4f3',
            '石': 'unif5b6',
            '顺': 'unie994',
            '林': 'unie204',
            '尔': 'unif460',
            '县': 'unie568',
            '手': 'uniea9e',
            '厅': 'unif256',
            '销': 'unie755',
            '用': 'unif626',
            '好': 'unieb3e',
            '客': 'unif073',
            '火': 'unif63e',
            '雅': 'unie895',
            '盛': 'uniea06',
            '体': 'unie3f0',
            '旅': 'uniecc6',
            '之': 'unieb7e',
            '鞋': 'unie7d4',
            '辣': 'unie2cd',
            '作': 'unie717',
            '网': 'unied1b',
            '粉': 'unie4a3',
            '包': 'unif6e3',
            '楼': 'unif89c',
            '校': 'uniea81',
            '鱼': 'unie2fd',
            '平': 'unif526',
            '彩': 'unif1c0',
            '上': 'unif10c',
            '吧': 'unif512',
            '保': 'unieade',
            '永': 'unif825',
            '万': 'unie908',
            '物': 'unif091',
            '教': 'unif175',
            '吃': 'unie6a7',
            '设': 'unief20',
            '医': 'unie053',
            '正': 'unie53d',
            '造': 'unif30a',
            '丰': 'uniea74',
            '健': 'unif12f',
            '点': 'uniecd7',
            '汤': 'unie40a',
            '庆': 'unieb3b',
            '技': 'unif84a',
            '斯': 'unif387',
            '洗': 'unif792',
            '料': 'unif36a',
            '配': 'unie93a',
            '汇': 'unie481',
            '木': 'unie7c8',
            '缘': 'uniea33',
            '加': 'unie7ed',
            '麻': 'unie17b',
            '联': 'unie56e',
            '卫': 'unif61f',
            '川': 'unif1f5',
            '泰': 'unif599',
            '色': 'unif75c',
            '世': 'unie95d',
            '方': 'unie03f',
            '寓': 'unif56f',
            '风': 'unie590',
            '幼': 'unie8c0',
            '羊': 'uniec76',
            '烫': 'uniea88',
            '来': 'unie6e9',
            '高': 'unif41f',
            '厂': 'unie988',
            '兰': 'unie79c',
            '阿': 'unif736',
            '贝': 'unie34e',
            '皮': 'unieed0',
            '全': 'unie3ea',
            '女': 'unif37b',
            '拉': 'uniecbe',
            '成': 'unie0a0',
            '云': 'unif54c',
            '维': 'unie78d',
            '贸': 'unied47',
            '道': 'unie49b',
            '术': 'unie7cf',
            '运': 'uniea51',
            '都': 'unif8a8',
            '口': 'unieaee',
            '博': 'unie6b2',
            '河': 'unif5e4',
            '瑞': 'unie324',
            '宏': 'unif1f9',
            '京': 'unie357',
            '际': 'unif2e4',
            '路': 'unif8a0',
            '祥': 'unied57',
            '青': 'unie874',
            '镇': 'unif351',
            '厨': 'unie956',
            '培': 'unif6d5',
            '力': 'unie151',
            '惠': 'unie757',
            '连': 'unie066',
            '马': 'unie795',
            '鸿': 'unieabf',
            '钢': 'unie666',
            '训': 'unie591',
            '影': 'unie2b5',
            '甲': 'unief2d',
            '助': 'uniee26',
            '窗': 'unieb94',
            '布': 'uniefd9',
            '富': 'uniee6b',
            '牌': 'unie1fb',
            '头': 'unie8b2',
            '四': 'unie471',
            '多': 'unied64',
            '妆': 'unieeb5',
            '吉': 'uniea4b',
            '苑': 'uniec6f',
            '沙': 'unif2d4',
            '恒': 'unif36d',
            '隆': 'unif5c9',
            '春': 'unif4a4',
            '干': 'unie3e5',
            '饼': 'uniea12',
            '氏': 'unied9e',
            '里': 'unif408',
            '二': 'uniecfd',
            '管': 'unif682',
            '诚': 'unie111',
            '制': 'unief33',
            '售': 'unie18b',
            '嘉': 'unief96',
            '长': 'unie2dd',
            '轩': 'uniefbc',
            '杂': 'unie244',
            '副': 'uniec3f',
            '清': 'unie06b',
            '计': 'unief7c',
            '黄': 'unied72',
            '讯': 'unie2ec',
            '太': 'unif683',
            '鸭': 'unie7b9',
            '号': 'unif402',
            '街': 'unie0c3',
            '交': 'unif381',
            '与': 'uniecbd',
            '叉': 'unie3e8',
            '附': 'unif49a',
            '近': 'unif3ab',
            '层': 'unie5ff',
            '旁': 'unif71d',
            '对': 'unif0d6',
            '巷': 'unif44a',
            '栋': 'unif304',
            '环': 'uniefe6',
            '省': 'unif2a6',
            '桥': 'unif0d2',
            '湖': 'unif16f',
            '段': 'unie22d',
            '乡': 'unie80c',
            '厦': 'unief61',
            '府': 'uniea49',
            '铺': 'uniebf3',
            '内': 'unie61f',
            '侧': 'unie9a0',
            '元': 'unif3d5',
            '购': 'unie046',
            '前': 'unie5fb',
            '幢': 'unif7f9',
            '滨': 'unif7b4',
            '处': 'uniecb4',
            '向': 'unif781',
            '座': 'unie7ae',
            '下': 'unie3b6',
            '県': 'unie688',
            '凤': 'uniee77',
            '港': 'unie0c7',
            '开': 'unie6fe',
            '关': 'unie0a9',
            '景': 'unie6ab',
            '泉': 'uniecff',
            '塘': 'uniea6e',
            '放': 'unie9b3',
            '昌': 'unif551',
            '线': 'unie128',
            '湾': 'uniec9d',
            '政': 'unif559',
            '步': 'uniea7d',
            '宁': 'unif335',
            '解': 'unieb1a',
            '白': 'unif480',
            '田': 'unie263',
            '町': 'unif653',
            '溪': 'unif31e',
            '十': 'unie526',
            '八': 'unif0d8',
            '古': 'unie2a7',
            '双': 'unif111',
            '胜': 'unie6d1',
            '本': 'unie5a7',
            '单': 'uniecfa',
            '同': 'unie3f4',
            '九': 'unie589',
            '迎': 'unif6a0',
            '第': 'unie1c0',
            '台': 'unie549',
            '玉': 'unie503',
            '锦': 'unief72',
            '底': 'unif63b',
            '后': 'unif0b2',
            '七': 'uniedce',
            '斜': 'unif740',
            '期': 'unie63f',
            '武': 'unie9bd',
            '岭': 'unie90d',
            '松': 'unie808',
            '角': 'unif355',
            '纪': 'unif404',
            '朝': 'unie037',
            '峰': 'unied4d',
            '六': 'unif1bc',
            '振': 'unieee8',
            '珠': 'unie176',
            '局': 'unif846',
            '岗': 'unif416',
            '洲': 'unif223',
            '横': 'unie1c8',
            '边': 'unif8b4',
            '济': 'unieb95',
            '井': 'uniee2d',
            '办': 'uniec30',
            '汉': 'unie460',
            '代': 'unie952',
            '临': 'unie674',
            '弄': 'unie61c',
            '团': 'unie508',
            '外': 'unie1dc',
            '塔': 'unie18f',
            '杨': 'unif785',
            '铁': 'unif798',
            '浦': 'unied11',
            '字': 'unie7ab',
            '年': 'unie68b',
            '岛': 'unieaf6',
            '陵': 'uniecbf',
            '原': 'unie7f8',
            '梅': 'unif62d',
            '进': 'unieac1',
            '荣': 'unie7f2',
            '友': 'uniebd3',
            '虹': 'uniee51',
            '央': 'unie5be',
            '桂': 'unif7f5',
            '沿': 'unif373',
            '事': 'unif293',
            '津': 'unif292',
            '凯': 'unie12f',
            '莲': 'unif421',
            '丁': 'unif5cc',
            '秀': 'unie6e2',
            '柳': 'uniee5e',
            '集': 'unif69e',
            '紫': 'uniefe2',
            '旗': 'unied38',
            '张': 'unif337',
            '谷': 'unie794',
            '的': 'unif3a1',
            '是': 'unie9d8',
            '不': 'unif3cb',
            '了': 'unie8fe',
            '很': 'uniec3a',
            '还': 'unif732',
            '个': 'uniecf7',
            '也': 'unie140',
            '这': 'unif108',
            '我': 'unif439',
            '就': 'uniedeb',
            '在': 'unie96f',
            '以': 'unie55a',
            '可': 'unied2b',
            '到': 'unie892',
            '错': 'unie87b',
            '没': 'unie54e',
            '去': 'unif33b',
            '过': 'unif841',
            '感': 'unif5db',
            '次': 'unif844',
            '要': 'unie907',
            '比': 'unie51f',
            '觉': 'unie968',
            '看': 'unif494',
            '得': 'unif027',
            '说': 'unie6e6',
            '常': 'unif1d0',
            '真': 'unif5d6',
            '们': 'unif17e',
            '但': 'unie9fe',
            '最': 'unie094',
            '喜': 'uniedc1',
            '哈': 'unie443',
            '么': 'unif86d',
            '别': 'unif609',
            '位': 'unif85b',
            '能': 'unif250',
            '较': 'unif6f8',
            '境': 'unied53',
            '非': 'unie043',
            '为': 'unie156',
            '欢': 'unif6ee',
            '然': 'unie5f8',
            '他': 'unie192',
            '挺': 'unie939',
            '着': 'unif488',
            '价': 'unif3bc',
            '那': 'unie8f3',
            '意': 'unie146',
            '种': 'uniea3d',
            '想': 'unif013',
            '出': 'unieda4',
            '员': 'unie59e',
            '两': 'unif3ae',
            '推': 'unif4bf',
            '做': 'unie0bd',
            '排': 'unif8ef',
            '实': 'unief00',
            '分': 'unif09e',
            '间': 'unie29c',
            '甜': 'unie25d',
            '度': 'unie2c8',
            '起': 'unif3fa',
            '满': 'unieb93',
            '给': 'unif261',
            '热': 'unie74b',
            '完': 'uniec5f',
            '格': 'unief47',
            '荐': 'unif48e',
            '喝': 'unif382',
            '等': 'unie182',
            '其': 'unif233',
            '再': 'uniee0c',
            '几': 'unif08d',
            '只': 'unif422',
            '现': 'unie078',
            '朋': 'uniec5b',
            '候': 'unif826',
            '样': 'unied3f',
            '直': 'uniece0',
            '而': 'unie8d9',
            '买': 'unif169',
            '于': 'unif011',
            '般': 'unied21',
            '豆': 'unie633',
            '量': 'unie28b',
            '选': 'unif216',
            '奶': 'unif819',
            '打': 'unie023',
            '每': 'unie557',
            '评': 'unie8d6',
            '少': 'unie803',
            '算': 'unie9e2',
            '又': 'uniee69',
            '因': 'unie649',
            '情': 'unie334',
            '找': 'unief68',
            '些': 'unie9ae',
            '份': 'unie2a3',
            '置': 'unie72b',
            '适': 'unie45f',
            '什': 'unif8c4',
            '蛋': 'unie95b',
            '师': 'uniec9f',
            '气': 'unieec7',
            '你': 'unif81a',
            '姐': 'uniecc2',
            '棒': 'unif5dd',
            '试': 'unif73d',
            '总': 'uniefa2',
            '定': 'unif630',
            '啊': 'unif49b',
            '足': 'unie43c',
            '级': 'unie131',
            '整': 'unie2b9',
            '带': 'unif7fb',
            '虾': 'unif5f8',
            '如': 'unie0ba',
            '态': 'unied29',
            '且': 'unie3b7',
            '尝': 'unie11f',
            '主': 'unie497',
            '话': 'unif799',
            '强': 'unieaf0',
            '当': 'unie5f3',
            '更': 'unif68b',
            '板': 'unied48',
            '知': 'uniefe1',
            '己': 'unif183',
            '无': 'unif816',
            '酸': 'unif86a',
            '让': 'unif0f2',
            '入': 'unif509',
            '啦': 'unif553',
            '式': 'unif6d8',
            '笑': 'unif20f',
            '赞': 'unief45',
            '片': 'unie92e',
            '酱': 'unie695',
            '差': 'uniec3b',
            '像': 'unif04c',
            '提': 'unif4b6',
            '队': 'uniec69',
            '走': 'unif695',
            '嫩': 'unie3de',
            '才': 'uniea10',
            '刚': 'unie6a6',
            '午': 'unif8ee',
            '接': 'unie3d0',
            '重': 'unif07c',
            '串': 'unif25a',
            '回': 'unie4b8',
            '晚': 'uniec36',
            '微': 'unif742',
            '周': 'unie492',
            '值': 'uniea7a',
            '费': 'unie838',
            '性': 'unif67f',
            '桌': 'unif457',
            '拍': 'unie623',
            '跟': 'unie109',
            '块': 'unif835',
            '调': 'uniee0e',
            '糕': 'uniecec',

        }
        return [k for k, v in glyf_dict.items() if v == value]
    '''
        3、整合过渡
    '''
    def run(self):
        list_comment = self.get_parse_data()
        for strr in list_comment:
            intergrate = strr.split('&')
            # print(intergrate)
            intergrate_list = []
            # 遍历用&分解的一条评论列表
            for item in intergrate:
                try:
                    if '#x' in item:
                        value = 'uni' + item[2:6]
                        value = self.get_keys(value)
                        str_value = ''.join(value)
                        intergrate_item = str_value + item[6::]
                        intergrate_list.append(intergrate_item)
                    else:
                        intergrate_list.append(item)

                except:
                    continue
            print('\n', '第{}条评论'.format(self.num))
            data = ''.join(intergrate_list)
            print(data)
            self.num += 1
        print('完成')

if __name__ == '__main__':
    spider = Dianpppping()
    spider.run()

  • 运行效果如图。
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/357816.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RK3288 GPIO记录

1、引脚对应的GPIO 编号第一种 使用/sys/kernel/debug/gpio查询所有gpio引脚的基数第二种 cat /sys/class/gpio/gpiochip248/label对应的label就是GPIO引脚&#xff0c;例如下图GPIO8对应的基数就是2482、计算编号编号 基数 PIN脚如GPIO8的基数是248&#xff0c; GPIO8_A6的编…

Java开发 - 数风流人物,还看“微服务”

目录 前言 服务器端的发展历程 早期的服务器 动态的页面 用户内容网站 微服务 企业级应用 互联网应用 微服务介绍 什么是微服务&#xff1f; 为什么使用微服务 怎么使用微服务 Spring Cloud 什么是Spring Cloud Nacos注册中心 什么是Nacos 创建微服务项目 创建…

【Servlet篇】一文带你吃透Request对象

文章目录1. 前言2. Request 对象2.1 Request 继承体系2.2 Request 获取请求参数1. 获取请求行数据2. 获取请求头数据3. 获取请求体数据4. 获取请求参数的通用方式3. IDEA中快速创建 Servlet你问我青春还剩几年&#xff1f;我的回答是&#xff0c;趁现在&#xff0c;正当时。身边…

CS144-Lab2

实验架构 除了写入传入流之外&#xff0c;TCPReceiver 还负责通知 sender 两件事&#xff1a; “First unassembled” 字节的索引&#xff0c;称为“acknowledgment”或 “ackno”。这是接收方需要来自发送方的第一个字节。“first unassembled ” 索引和“first unacceptable…

【项目精选】基于SSH的任务调度系统的设计与实现(视频+源码+论文)

点击下载源码 虽然科技进步在改革开发这几十年来速度飞快&#xff0c;计算机行业也发展迅速&#xff0c;但仍然有大量商家或企业&#xff0c;甚至项目组&#xff0c;采用落后的人工管理方式或者低效的任务调度策略&#xff0c;这无疑是对计算机的一种无视。 计算机处理信息的准…

Python每日一练(20230220)

目录 1. 存在重复元素 II 2. 按要求实现程序功能 3. 分割链表 附录 链表 1. 存在重复元素 II 给定一个整数数组和一个整数 k&#xff0c;判断数组中是否存在两个不同的索引 i 和 j&#xff0c;使得 nums [i] nums [j]&#xff0c;并且 i 和 j 的差的 绝对值 至多为 k。 …

高级数据类型

为了解决单一的业务而存在bitmapsBitmaps类型的基础操作 获取指定key对应偏移量上的bit值getbit key offset 设置指定key对应偏移量上的bit值&#xff0c;value只能是1或0setbit key offset valueBitmaps类型的扩展操作状态位的统计业务需求&#xff1a;1. 统计每天某一部电…

云计算ACP云服务器ECS实例题库(三)

&#x1f618;作者简介&#xff1a;一名99年软件运维应届毕业生&#xff0c;正在自学云计算课程。&#x1f44a;宣言&#xff1a;人生就是B&#xff08;birth&#xff09;和D&#xff08;death&#xff09;之间的C&#xff08;choise&#xff09;&#xff0c;做好每一个选择。&…

关于监控服务器指标、CPU、内存、警报的一些解决方案

文章目录关于监控服务器指标、CPU、内存、警报的一些解决方案Prometheus Grafana 配置 IRIS / Cach 监控服务器Prometheus简介特点架构图Grafana简介特点配置流程自定义Prometheus接口定义配置 Exporter 监控服务器系统资源简介配置流程使用 Alertmanager报警简介配置流程基于…

软考高级-信息系统管理师之知识管理(最新版)

知识管理 知识与知识管理知识管理常用的方法和工具显性知识的管理隐形知识的管理知识管理的工具学习型组织知识产权保护计算机软件保护条例商标法专利法补充建议学的考点:知识与知识管理 1、知识的分类 知识可分为两类,分别是显性知识与隐性知识。 凡是能以文字与数字来表达…

【C++】关联式容器——map和set的使用

文章目录一、关联式容器二、键值对三、树形结构的关联式容器1.set2.multiset3.map4.multimap四、题目练习一、关联式容器 序列式容器&#x1f4d5;:已经接触过STL中的部分容器&#xff0c;比如&#xff1a;vector、list、deque、forward_list(C11)等&#xff0c;这些容器统称为…

新能源汽车,有毒

作者| Mr.K 编辑| Emma来源| 技术领导力(ID&#xff1a;jishulingdaoli)新能源汽车到底有多火&#xff0c;生生逼得奥迪某4S店挂出横幅&#xff1a;我们也有纯电新能源&#xff01;老牌名车的辛酸憋屈溢出屏幕。网友神评补刀“这标语给人‘诺基亚也有智能大屏机’的感觉。”一…

【Java基础】变量

Java基础 变量 variable 变量类型 实例变量(非静态字段) Instance Variables (Non-Static Fields) 类的非静态属性 类变量(静态字段) Class Variables (Static Fields) 类的静态属性 局部变量 Local Variables 参数 Parameters 变量命名 大小写敏感 开头&#xff1a;字…

爬虫基本知识的认知(爬虫流程 HTTP构建)| 爬虫理论课,附赠三体案例

爬虫是指通过程序自动化地从互联网上获取数据的过程。 基本的爬虫流程可以概括为以下几个步骤&#xff1a; 发送 HTTP 请求&#xff1a;通过 HTTP 协议向指定的 URL 发送请求&#xff0c;获取对应的 HTML 页面。解析 HTML 页面&#xff1a;使用 HTML 解析器对获取的 HTML 页面…

linux shell 入门学习笔记4 shell运维和编程语言

shell 运维和编程语言 脚本注释 shell脚本中&#xff0c;#后面的内容表示注释内容&#xff0c;一般是给开发者或使用者观看&#xff0c;解释器会忽略此部分内容注释可以单独写一行&#xff0c;也可以跟在文件末尾保持注释的习惯&#xff0c;尽量使用英文 例子&#xff1a; #…

C++类和对象(2)构造、析构函数

类的6个默认成员函数 如果一个类中什么成员都没有&#xff0c;简称为空类。 class Date{}; 空类中真的什么都没有吗&#xff1f;并不是&#xff0c;任何类在什么都不写时&#xff0c;编译器会自动生成以下6个默认成员 函数。 默认成员函数&#xff1a;用户没有显式实现&…

什么是健康建筑?

WIKIPEDIA健康建筑是指支援建筑和建筑环境中人们&#xff0c;身体、心理和社会健康与福祉的新兴兴趣领域。建筑物可以成为健康和福祉的关键促进者&#xff0c;因为大多数人大部分时间都花在室内。根据全美国人类活动模式调查&#xff0c;美国人「平均 87% 的时间花在封闭的建筑…

redis-如何保证数据库和缓存双写一致性?

前言 数据库和缓存&#xff08;比如&#xff1a;redis&#xff09;双写数据一致性问题&#xff0c;是一个跟开发语言无关的公共问题。尤其在高并发的场景下&#xff0c;这个问题变得更加严重。 我很负责的告诉大家&#xff0c;该问题无论在面试&#xff0c;还是工作中遇到的概率…

windows版Rsync服务端和客户端cwRsync_4.1.0安装测试

下载地址&#xff1a;https://download.csdn.net/download/qq_32421489/87463506 服务端安装&#xff1a; cwRsyncServer&#xff08;服务端&#xff09;配置步骤 1.双击运行wRsyncServer_4.1.0_Installer.exe。 2.这里创建的账户是操作系统的&#xff0c;创建的这个账户是专…

【 RA4M2开发板环境搭建之串口下载1】

【 RA4M2开发板环境搭建1】1. 前言1.1 活动来源1.2 开发环境1.3 RA4M2开发板2. MDK环境准备2.1 keil 5下载安装2.2 安装RA4M2的软件支持包2.3 Renesas Flash Programmer安装3. RA Smart Configurator配置3.1 下载RA Smart Configurator3.2 安装RA Smart Configurator4. 新建RA4…