haralyzer 半自动,一次性少量数据采集快捷方法

news2024/11/13 9:06:25

使用场景:半自动,一次性少量数据采集需求在工作中还是不少遇到的,无论使用模拟的方式,或者破解都不太划算。其实这种需求,使用半自动爬虫是最简单的。不需要考虑网站反爬虫的问题,因为你使用的就是真实的浏览器,不会通过代码来发起请求

  1. 从chrome获取har包
    首先打开浏览器的开发者工具,勾选上Perserve log复选框,如下图所示:
    在这里插入图片描述

然后刷新页面。注意一定要先打开开发者工具再刷新页面,顺序不能搞反了。接下来,你就正常往下滚动页面或者点击翻页按钮,滚到你不想滚为止。此时开发者工具里面已经有很多数据包了。如下图所示:

在这里插入图片描述

在任何一个数据包上面右键,选择Save all as HAR with content。就会把当前页面的所有数据包全部合并到一个 har 文件里面,如下图所示:
在这里插入图片描述
备注:如果遇到需要来回跳转的页面,可以使用抓包工具获取har,这个自己搜吧

  1. 示例代码,只需要按提示修改相关变量和函数即可运行
import json
import csv
import jsonpath
from haralyzer import HarParser
#功能: 解决一次性数据量不大的数据采集需求,通过chrome获取所有请求包,打包成har包,然后解析存储

# har包获取方法:
# 1、打开chrome的检查,
# 2:勾选Network中的Preserve log,
# 3:刷新当前网页,点击下一页或者滑动,直到自己需要的数据加载完,
# 4: 点击右上角的下载图标,或者是选择任意一个请求,右击,点击’Save all as HAR with content‘

# 代码使用方法: 按照需要修改har_file_path, url_keyword, csv_title_title三个变量,以及解析函数parser_har, 其他都不需要动


def save_csv(title_list, data_list):
    '''
    保存数据到csv文件中
    '''
    data_list.insert(0, title_list)
    with open('result_csv.csv', 'w', encoding='utf-8-sig', newline='') as csvFile:
        writer = csv.writer(csvFile)
        # 写入多行用writerows
        writer.writerows(data_list)
    print('组合数据运行结束, 结果文件result_csv.csv位于当前目录下')

def read_har_file(har_file_path):
    '''
    读取指定路径的har文件
    '''
    har_parser = HarParser.from_file(har_file_path)
    data = har_parser.har_data
    entries = data['entries']
    for entry in entries:
        yield entry

def crawle_har_to_csv(har_file_path, url_keyword, csv_title_title):
    '''
    主启动函数
    '''
    all_result_list = []
    for entry in read_har_file(har_file_path):
        url = entry['request']['url']
        if url.find(url_keyword) > -1:
            print(url)
            body = entry['response']
            if 'text' in body['content']:
                content = body['content']['text']
                info = json.loads(content)
                if sub_result_list := parser_har(info):
                    all_result_list.extend(sub_result_list)
    save_csv(csv_title_title, all_result_list)

#需要修改
def parser_har(json_content):
    '''
    解析har中的相关数据,这个需要根据具体返回内容进行修改
    '''
    result_list = []
    data_list = jsonpath.jsonpath(json_content, '$.data.content.offerList.*')
    if data_list:
        for offer in data_list:
            result_list.append([offer['subject'], offer['price']])
        return result_list
    else:
        print('parser_har函数没有获取指定的data_list')
        return []

if __name__ == '__main__':
    #har包地址, 需修改
    har_file_path = r'C:\Users\men\Desktop\milishipin.1688.com.har'
    #择选的请求唯一关键词,用来筛选关键词, 需修改
    url_keyword = 'mtop.1688.shop.data.get/1.0'
    #csv文件中的title列表, 需修改
    csv_title_title = ['名称', '价格']

    crawle_har_to_csv(har_file_path, url_keyword, csv_title_title)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2035118.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【MySQL】用户管理——用户、用户信息、创建用户、删除用户、修改用户密码、数据库的权限、给用户权限、回收权限

文章目录 MySQL1. 用户管理1.1 用户1.1.1 用户信息1.1.2 创建用户1.1.3 删除用户1.1.4 修改用户密码 1.2 数据库的权限1.2.1 给用户权限1.2.2 回收权限 MySQL 1. 用户管理 为什么MySQL要引入用户管理? 如果我们只能使用root用户,这样存在安全隐患。因为r…

【JavaEE初阶】文件内容的读写—数据流

目录 📕 引言 🌴 数据流的概念 🚩 数据流分类 🌳 字节流的读写 🚩 InputStream(从文件中读取字节内容) 🚩 OutputStream(向文件中写内容) 🎄 字符流的…

Java、python、php版的邮件发送与过滤系统的设计与实现 (源码、调试、LW、开题、PPT)

💕💕作者:计算机源码社 💕💕个人简介:本人 八年开发经验,擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等,大家有这一块的问题可以一起交流&…

iMES工厂管家:强大的工厂管理系统

iMES工厂管家:强大的工厂管理系统 在现代工厂管理中,iMES工厂管家作为一款功能强大的MES系统,为用户提供了全面的管理解决方案。本文将介绍iMES工厂管家的基本信息、特点、以及如何快速部署和使用。 软件简介 iMES工厂管家是一款基于.NetCor…

Android Studio设置 offline 模式

gradle3.6之前版本 在setting中选中Offline Work选项 gradle3.6之后的版本

Tied and Anchored Stereo Attention Network for Cloud Removal in Optical

论文名称 基于固定锚定立体注意力网络的光学遥感图像去云方法代码运行 论文代码 https://github.com/ningjin00/TASANet?tabreadme-ov-file 论文地址 1环境创建 模型环境给了这几个包,如果你自带环境 那就运行代码 提示缺哪个装哪个 python 3.12rasterio 1.3.10…

330进口高强度螺丝产品优势

330进口高强度螺丝是一种高性能紧固件,广泛应用于汽车、航空航天、重型机械、能源、基础设施建设等多个领域。这些螺丝之所以受到青睐,是因为它们在设计、材料选择、制造工艺等方面都达到了非常高的标准,确保了产品的卓越性能。以下是330进口…

四款录屏大师,一键搞定!新手也能快速上手?

现在随着新媒体的记录设备的不断更新迭代之下,我们记录生活的工具也愈来愈强大,不过如果需要记录电脑中的重要信息时,我们就需要借助录屏工具来实现了,所以今天整理了四款实用靠谱的录屏大师,有需要的朋友可以试试&…

浅谈C语言位段

1、位段的定义 百度百科中是这样解释位段的: 位段,C语言允许在一个结构体中以位为单位来指定其成员所占内存长度,这种以位为单位的成员称为“位段”或称“位域”( bit field) 。利用位段能够用较少的位数存储数据。 以下,我们均在VS2022的…

靶机:DC-4

一、信息收集 1、主机发现 nmap 192.168.236.0/24 2、端口扫描 nmap 192.168.236.175 -p- -A 3、目录扫描 dirb http://192.168.236.175 二、漏洞探测 访问80端口,发现登录页面 尝试爆破密码 hydra -l admin -P /usr/share/wordlists/rockyou.txt 192.168.236…

python媒体下载工具 you-get

you-get 是一个基于 Python 3 的强大的命令行工具,使用方式简单,使用 you-get 可以很轻松的下载到网络上的各种媒体文件(视频、图片及音乐等)。 相关功能和配置选项,可以查阅以下以获取详细信息: GitHub 官…

【对抗性训练】FGM、AWP

FGM(Fast Gradient Method)和 AWP(Adversarial Weight Perturbation)是两种与对抗训练相关的技术,旨在提高深度学习模型的鲁棒性和防御能力。它们主要应用于对抗攻击(adversarial attacks)背景下…

换装的视频怎么拍的?原来可以这样做

换装的视频怎么拍的?在数字时代,换装视频以其独特的创意和视觉冲击力,成为了社交媒体上备受欢迎的内容形式。无论是展现时尚潮流,还是实现跨越时空的幻想,换装视频都能以惊人的效果吸引观众的目光。那么,如…

使用Cisco软件进行模拟万维网配置访问服务器过程

万维网(www)实验 文章目录 万维网(www)实验1.实验目的2.实验流程3.实验步骤 1.实验目的 1)理解www站点 2)理解上层应用和下层通信网络的关系 2.实验流程 开始 → 布置拓扑 → 配置路由及IP地址 → 配置web服务器→ 访问服务器 →结束 3.实验步骤 1&…

JAVA:设计模式的详细指南

请关注微信公众号:拾荒的小海螺 博客地址:http://lsk-ww.cn/ 1、简述 设计模式(Design Patterns)是一套被反复使用、多数人知晓的、经过分类编目的、代码设计经验的总结。它们可以帮助开发者以一种更优雅和高效的方式解决常见的…

【WPS备考AI工具】一款小众且免费的个人题库导入刷题神器,学习提分必备小程序!

这篇文章的诞生,是因为我即将踏上一场超级有趣的挑战——备考全国计算机等级二级WPS Office高级应用与设计的冒险之旅! WPS的分值: 单项选择题20分(含公共基础知识部分10分)。 WPS处理文字文档操作题30分。 WPS处理电子表格操作题30分。 …

爬虫模拟实操-全平台模式化规范

一.总体概述 本套教程适用于还没进入爬虫界的宝宝们 这套流程基本涵盖了全平台( x抖 x快 x头 xB x淘 x知 x红 )个人信息->作品->评论,为不侵权,有兴趣可以拉到最后进行交流 二.爬虫过程 随便拿个平台举例 老规矩f12 返…

深入探索PDF源码解析:从PDF到Excel的数据统计分析找到正文

在数字化时代,数据已成为企业决策和业务运营的关键。PDF文档作为一种广泛使用的文件格式,其中蕴含着大量有价值的信息。然而,PDF文档的结构和格式使得直接对其进行数据提取和分析变得复杂。为了解决这个问题,我们采取了一种创新的…

⌈ 传知代码 ⌋ 基于ROS的气体浓度建图

💛前情提要💛 本文是传知代码平台中的相关前沿知识与技术的分享~ 接下来我们即将进入一个全新的空间,对技术有一个全新的视角~ 本文所涉及所有资源均在传知代码平台可获取 以下的内容一定会让你对AI 赋能时代有一个颠覆性的认识哦&#x…

免杀笔记--->地狱之门(Hell ‘s Gate)保姆级解析

还记得我前面一篇文章讲到的在Ring3 对抗Hook吗?? 我讲到的一种方法就是系统调用!! 那么今天就来讲一下一个很出名的直接系统调用(Syscall)-----> [!] 地狱之门(Hell s Gate)[!] 目录 1.Syscall 2.…