用抓包工具结合局域网代理技术爬取meituan某些商家的数据

news2024/12/23 17:26:06

众所周知,爬虫玩的好,牢饭吃的早(如有侵犯利益,请您告知,我将立删!)。

其实抓包嘛,简单的H5网页直接就能用浏览器的开发者工具进行抓包,但是很多平台剔除了网页版,如果有网页版当然我们用py或者Java都能爬,无非是单次会话先登录获取自己的相关校验参数,带着参数去爬拿到商家数据之后快速持久化或者提前解码(很久之前爬到一堆乱码,有的网页简单的是Base64的编码,但是meituan的就是woff),近期测试一下如何爬取app的数据,所以我就研究了一下怎么爬美团外卖的数据,拿到数据了再怎么用Java 将数据的XML文件或者JSON进行解析持久化,到MYSQL之后进行SQ分析。本章主要是记录我使用抓包工具结合局域网代理技术去爬meituan的一些商家数据(其实也就是大家使用APP时眼里能看到的数据而已,并不能拿到人家接口不返回的数据,要是能击穿那世界上抓包的工具不还翻了天啦)。

1、学习代理技术

代理技术是一种在因特网中实现代理服务的技术。通过代理,用户或设备可以通过代理服务器访问互联网,同时可以提供其他功能,如访问控制、缓存、安全性等。以下是几种常见的局域网代理技术:

1. HTTP代理:HTTP代理是最常见的代理技术之一。它基于HTTP协议,允许客户端通过代理服务器发送HTTP请求并接收响应。HTTP代理可以用于过滤和监控网络流量。

2. SOCKS代理:SOCKS(Socket Secure)代理是一种网络协议,允许客户端与代理服务器建立通信并通过代理服务器与远程主机进行通信。SOCKS代理可以用于支持各种应用程序,如网络浏览器、邮件客户端等。

3. 路由器代理:某些路由器设备具有代理功能,可以在局域网中充当代理服务器。这些路由器可以配置为代理网络流量,并提供访问控制、缓存、内容过滤等功能。

4. 反向代理:反向代理是一种位于服务器端的代理服务器,用于接收客户端请求并将其转发到后端服务器。反向代理可以提供负载均衡、安全性、缓存等功能,还可以隐藏后端服务器的真实地址。

其中最常见的反向代理与路由器代理一个影响着我们的软件世界,一个则影响着我们的Internet世界,其余的则是在网络传输与通信过程中的代理技术,套接字代理也是很常用的。

我们要想抓app的包,就必须要我们的计算机可以获取到手机app的访问情况,那么以上四种代理技术,只有HTTP代理可以快速的帮助我们(你想想,我们的手机访问app的接口,那么我们就是客户端,而HTTP代理正是将客户端的请求与传输先行经过代理服务器上的,也就是说这条链路其实是:rpc server  ----> proxy  ------> my phone,反之亦然)。

那么你想,如果请求的出口是proxy,而恰好proxy是我的电脑,对不对?那我只需要有一个可以作为端口代理的软件并且恰好它能够监控出口的访问情况,是不是就可以抓到app的包了?

2、一款代理软件且支持https且还能监控出口访问情况   fiddler    

这个软件很好用,自己安装去。谢谢(我这里不分享安装配置的操作,网上一堆呢)!

    

 3、将手机的代理服务器配置成你运行fiddler的计算机(端口是fiddler内部连接的配置端口,IP是计算机在局域网内部的IP地址,手机注意也要链接同一局域网)

我认为在这里你已经成功的配置好了fiddler且你也已经解决了HTTPS的配置项问题。

那么接下来就是分享如何处理你抓的数据了:

 我现在抓的是20条某店铺的spu商品列表,关键的数据是最低价118,月售数量1,品名青岛啤酒.....

其实到这里很多兄弟就明白了,解决了数据源的问题,那就写个小应用把JSON解析出来我们想要数据并持久化咯。

后面解析这些字串的小应用就不分享了,无非是解析text文件,扫描json串并截断。封装数据利用ORM持久化数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/801002.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《面试1v1》Kafka与传统消息系统区别

🍅 作者简介:王哥,CSDN2022博客总榜Top100🏆、博客专家💪 🍅 技术交流:定期更新Java硬核干货,不定期送书活动 🍅 王哥多年工作总结:Java学习路线总结&#xf…

C语言:动态版本通讯录(静态版本的改进)

文章目录 一、改进方向1.结构2.初始化3.增加联系人and检查容量4.退出 二、代码实现总结 通讯录静态版本的实现思路与完整代码 一、改进方向 对于管理数据,我们主要进行增删查改操作,我们要改进静态版本的通讯录,主要在于增加数据方向。而删除…

C++数组、向量和列表的练习

运行代码&#xff1a; //C数组、向量和列表的练习 #include"std_lib_facilities.h"int main() try {int ii[10] { 0,1,2,3,4,5,6,7,8,9 };for (int i 0; i < 10; i)//把数组中的每个元素值加2ii[i] 2;vector<int>vv(10);for (int i 0; i < 10; i)vv…

Transformer模型简单介绍

Transformer是一个深度学习模型。主要功能通俗的来说就是翻译。输入&#xff0c;处理&#xff0c;输出。 https://zhuanlan.zhihu.com/p/338817680 大牛写的很完整 目录 总框架Encoder输入部分注意力机制前馈神经网络 Decoder 总框架 Encoders: 编码器Decoders: 解码器 Encoder…

AT指令介绍

一、基础知识 1、用途&#xff1a;用来控制TE&#xff08;TerminalEquipment&#xff09;和MT(Mobile Terminal)之间交互的规则&#xff0c;如下图所示。在GSM网络中&#xff0c;用户可以通过AT命令进行呼叫、短信、电话本、数据业务、传真等方面的控制。&#xff08;AT指令只…

BUG:pm2启动verdaccio报错:Invalid or unexpected toke

输入命令&#xff1a; pm2 state verdaccio 问题描述&#xff1a; pm2 logs verdaccio报错翻译&#xff1a;数据格式错误 导致我呢提原因&#xff0c;没有找到运行文件&#xff0c; 发现问题&#xff1a;因为命令默认查找verdaccio是去系统盘查找。 解决方式 1&#xff1a;…

探索单例模式:设计模式中的瑰宝

文章目录 常用的设计模式有以下几种&#xff1a;一.创建型模式&#xff08;Creational Patterns&#xff09;&#xff1a;二.结构型模式&#xff08;Structural Patterns&#xff09;&#xff1a;三.行为型模式&#xff08;Behavioral Patterns&#xff09;&#xff1a;四.并发…

js逆向中高级案例-文章标题汇总

一、详细文章 点击链接查看如图案例标题

Tensorflow benchmark 实操指南

环境搭建篇见环境搭建-CentOS7下Nvidia Docker容器基于TensorFlow1.15测试GPU_东方狱兔的博客-CSDN博客 1. 下载Benchmarks源码 从 TensorFlow 的 Github 仓库上下载 TensorFlow Benchmarks&#xff0c;可以通过以下命令来下载 https://github.com/tensorflow/benchmarks 我…

LeetCode每日一题-接雨水

给定 n 个非负整数表示每个宽度为 1 的柱子的高度图&#xff0c;计算按此排列的柱子&#xff0c;下雨之后能接多少雨水。 示例 1&#xff1a; 输入&#xff1a;height [0,1,0,2,1,0,1,3,2,1,2,1] 输出&#xff1a;6 解释&#xff1a;上面是由数组 [0,1,0,2,1,0,1,3,2,1,2,1] 表…

宋版“三国演义”(北宋、辽、西夏和南宋、金、蒙古)

1 北宋、辽、西夏三国演义 宋、辽、西 夏鼎立形势图 公元960年&#xff08;后周显德七年&#xff09;&#xff0c;后周大将赵匡胤陈桥兵变黄袍加身&#xff0c;建立了宋朝。 然而&#xff0c;北方有一个资格比它老的国家&#xff0c;是为契丹人建立的辽国。 辽创立于五代初。…

《MySQL》第十一篇 SQL_MODEL模式简述

目录 一. 介绍与使用二. 模式类型三. 常用模式演示ANSI 模式TRADITIONAL 模式STRICT_TRANS_TABLES 模式 一. 介绍与使用 SQL Mode定义了MySQL应支持的SQL语法、数据校验等&#xff0c;这样可以更容易地在不同的环境中使用MySQL 常用来解决下面几类问题&#xff1a; 通过设置S…

ad+硬件每日学习十个知识点(14)23.7.25(以太网IC)

文章目录 1.什么是隔离电路&#xff0c;什么是隔离芯片&#xff1f;2.网线接口RJ45和RJ11的区别&#xff1f;&#xff08;我们用的电脑都是RJ45&#xff09;3.什么是rgmii协议&#xff1f;4.什么是以太网协议&#xff1f;5.以太网IC的连接方式6.以太网协议都包含哪些协议&#…

RocketMQ, Dashboard, 控制台安装

文章说明 本文主要说明RocketMQ的控制台&#xff08;Dashboard&#xff09;的安装过程。工作中一直用的是别人装好的&#xff0c;这次终于自己亲手装了一遍。 由于每次都要启动三个应用&#xff0c;比较烦&#xff0c;于是我写了一键启动脚本&#xff0c;分享给大家。这个脚本…

AC695-按键处理-带UI

AC695-按键修改 消息发出 对应界面处理

0725 区块链1.0 2.0 3.0 智能合约 比特币 以太坊 DAG 有向无环图

文献阅读&#xff1a;[1]华亚洲. 基于改进Block-DAG区块链的时空数据存储及查询方法研究[D].辽宁大学,2022.DOI:10.27209/d.cnki.glniu.2022.001364.[1]华亚洲,丁琳琳,陈泽等.面向时空数据的区块链构建及查询方法[J].计算机应用,2022,42(11):3429-3437. 文献总结&#xff1a; …

基于MQTT阿里云服务器的物联网关灯项目--舵机

一、关灯神器 本文章由作者李建华所编写,用到的服务器是阿里云部署好的mqtt,链接如有失效,请联系作者微信:Likz777777 要求&#xff1a;不破坏原有功能、可以接入苹果、网页小程序均可控制 设备&#xff1a;香橙派、舵机 具体实现方法&#xff1a; 1.局域网控制&#xff1a…

PHP在线相册--【白嫖项目】

强撸项目系列总目录在000集 PHP要怎么学–【思维导图知识范围】 文章目录 本系列校训本项目使用技术 上效果图phpStudy 设置导数据库项目目录如图&#xff1a;代码部分&#xff1a;主页 配套资源作业&#xff1a; 本系列校训 用免费公开视频&#xff0c;卷飞培训班哈人&…

LeetCode算法心得——合并后数组中的最大元素

大家好&#xff0c;我是晴天学长&#xff0c;这是一道动态规划的逆向思维题&#xff0c;此题甚是神奇&#xff01;&#x1f4aa;&#x1f4aa;&#x1f4aa; 1 &#xff09;合并后数组中的最大元素 2) .算法思路 只能选择旁边的&#xff0c;而且还是比自己等大或者比自己小的…

码银送书第四期《Python之光》

作为一种极其流行的编程语言&#xff0c;Python已经成为了当今最为重要的生产力工具之一。无论小学生还是各行各业的从业人员&#xff0c;都开始学习Python编程。这种编程语言在许多领域中都有广泛的应用&#xff0c;因此Python编程已经成为了许多职业的必备能力或者加分项。 …