爬虫?不是,mitmproxy帮你采集微信公众号留言

news2024/9/25 15:27:13

前言

有位朋友需要收集公司微信公众号的文章的留言,但苦于微信公众平台没有提供留言的API,所以朋友需要在每一篇文章下面去手动复制粘贴,朋友觉得很麻烦,于是来找到我!遂有此文。

下一篇,将结合uiautomation,实现全自动化收集微信公众号留言

值得注意的是:借助mitmproxy,我们可以拦截感兴趣的流量,但在这里充其量就是节省了我们手动复制的麻烦,mitmproxy在这里的角色就是拷贝忍者

知识点📖📖

关于mitmproxy,还需要安装配置。参考下面链接:
https://frica.blog.csdn.net/article/details/108932591

本文主要使用的是 mitmproxy,关于它的使用,可以

  • 看官方文档:https://docs.mitmproxy.org/stable/
  • 看我录制的视频:https://www.bilibili.com/video/BV1UC4y1t7EL

实现

本文的重点在于定位到留言的流量(即留言的数据包

打开 charles 抓包工具,看看留言的流量,因为比较简单,一眼就找到了对应流量包。
现在知道了留言的流量包,复制它的URL,接下来使用mitmproxy去拦截它,然后再做保存就可以了。

在这里插入图片描述


现在去 chatGPT 问问强大的它,代码该怎么写。

mitmproxy监听微信公众号留言的代码

在这里插入图片描述

看到上图,强大的chatGPT连代码都给我们写出来了。
我们关心的是响应,所以取上面的response函数,然后替换里面的URL即可,如下所示:

在这里插入图片描述

然后在控制台窗口运行它(记得打开电脑代理:

  • 参数不做解释
mitmdump -s listen_comment.py -q

可以看到以下内容,拦截成功。那接下来的工作就只剩下数据解析了。

在这里插入图片描述


代码的解析很简单,这里就不再做介绍了。

代码

下面的代码还没能保存数据!还需调用一下parse函数噢!!!

在命令行窗口输入:mitmdump -s listen_comment.py -q,即可运行本程序

# listen_comment.py

# 导入必要的库
from mitmproxy import http


# 定义一个函数,用于处理每一个响应
def response(flow: http.HTTPFlow) -> None:
    # 判断响应的URL是否是公众号留言的URL
    if "https://mp.weixin.qq.com/mp/appmsg_comment?action=getcomment&scene=0" in flow.request.url:
        # 获取响应的数据包
        response = flow.response
        # 打印出响应的状态码和内容
        print(f"Status: {response.status_code}")
        print(f"Content: {response.content}")
        print(parse(data=response.text))


def parse(data: str):
    """解析留言流量包"""
    _data = defaultdict(list)
    try:
        for item in json.loads(data)['elected_comment']:
            _data['nick_name'].append(item['nick_name'])
            _data['content'].append(item['content'])
            _data['like_num'].append(item['like_num'])
            _data['province_name'].append(item['ip_wording']['province_name'])
    except (KeyError, json.decoder.JSONDecodeError):
        ...
    finally:
        return _data

addons = [response]

后话

本次分享到这里结束了,
善于利用工具,就可以实现包括但不限于本文之类的操作啦!
see you~🐱‍🏍🐱‍🏍

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/97710.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux——进程管理

动态监控进程 介绍 top与ps命令很相似。它们都用来显示正在执行的进程。Top与ps最大的不同之处,在于top在执行一段时间可以更新正在运行的进程。 基本语法 top [选项] 选项说明 查看的时候(大写锁定要开启)P就按CPU的使用率来排序&#…

c语言指针和存储值的格式,对地址中数据的读取

数值存储方式 以int型为例,当有四个字节时,位权大的内存地址较高 *(char*)(0x61FE1C))的含义分析,首先将地址做为一个字符变量的首地址,实际也就只有一个字节。最外层的*表示取这个地址下的值 一个实例 # include "stdio.…

致同会计事务所2023实习生招募

审计实习生 【工作职责】 1. 在项目经理或项目高级人员的指导下,完成项目的部分审计工作; 2. 完成工作底稿的编制、整理和归档工作,使其达到相关技术规范要求; 3. 在审计过程中发现问题及时与项目经理或项目高级人员沟通&…

【Python机器学习】PCA降维算法讲解及二维、高维数据可视化降维实战(附源码 超详细)

需要全部代码请点赞关注收藏后评论区留言私信~~~ 维数灾难 维数灾难是指在涉及到向量计算的问题中,当维数增加时,空间的体积增长得很快,使得可用的数据在空间中的分布变得稀疏,向量的计算量呈指数倍增长的一种现象。维数灾难涉及…

基于蒙特卡洛的电动车有序充放电(Matlab代码实现)

💥💥💥💞💞💞欢迎来到本博客❤️❤️❤️💥💥💥 📝目前更新:🌟🌟🌟电力系统相关知识,期刊论文&…

JAVA类和对象重点笔记及理解(一)

1.类创建对象的详细过程 创建完成,dog就成了一个实例(对象),具有属性和方法 Dog类的属性:一般叫做成员变量 Dog类的方法:一般叫做成员方法 类是对象的抽象,对象是类的具体实例。 2.JAVA的数据…

git checkout 命令详解

1. 前言 2. 创建分支 3. 切换分支 4. 撤销更改 1. 前言 git checkout 命令用于创建、切换分支或恢复工作树文件。 最常用的两种用法 # 切换分支git checkout <branch># 创建并切换到新分支git checkout -b <branch> 2. 创建分支 当我们需要以当前分支为起点创建一…

spring @annotation 注解

切入点函数&#xff1a;用于执行切入点函数 1.execution 1.最为重要的切入点函数&#xff0c;功能最全 2.可以执行方法切入点表达式&#xff0c;可以执行类切入点表达式&#xff0c;可以执行包切入点表达式 弊端&#xff1a;书写比较麻烦 2.args 1.作用&#xff1a;主要用…

计算机毕设Python+Vue校园疫情防控系统(程序+LW+部署)

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 Ma…

[ 数据结构 -- 手撕排序算法第四篇 ] 选择排序

文章目录前言一、常见的排序算法二、直接选择排序2.1 单趟排序基本思想2.2 优化三、选择排序测试四、选择排序的时间复杂度五、直接选择排序的特性前言 手撕排序算法第四篇&#xff1a;选择排序&#xff01; 从本篇文章开始&#xff0c;我会介绍并分析常见的几种排序&#xff…

Review-MySQL-01

MySQL的端口号为3306&#xff0c;端口号用于定位计算机上的某个服务&#xff0c;端口号具有唯一性。 net stop/start mysql 停止或启动MySQL 退出mysql:exit 数据库中最基本的是table&#xff1b;数据库中是以表格的形式进行存储数据。行&#xff08;row&#xff09;被称为记录…

微服务框架 SpringCloud微服务架构 多级缓存 48 多级缓存 48.6 Tomcat集群的负载均衡

微服务框架 【SpringCloudRabbitMQDockerRedis搜索分布式&#xff0c;系统详解springcloud微服务技术栈课程|黑马程序员Java微服务】 多级缓存 文章目录微服务框架多级缓存48 多级缓存48.6 Tomcat集群的负载均衡48.6.1 Tomcat集群的负载均衡48 多级缓存 48.6 Tomcat集群的负…

uni-app个人总结

uni-app是什么&#xff1f; uni-app 是一个使用 Vue.js 开发所有前端应用的框架&#xff0c;开发者编写一套代码&#xff0c;可发布到iOS、Android、Web&#xff08;响应式&#xff09;、以及各种小程序&#xff08;微信/支付宝/百度/头条/QQ/钉钉/淘宝&#xff09;、快应用等多…

在vue项目中封装axios

在哪里封装&#xff1a; 封装axios&#xff0c;src文件夹下新建一个util的文件夹&#xff0c;这个文件夹就是放一些工具的&#xff0c;可以在这里面封装axios。新建一个js文件&#xff0c;这里是在http.js文件里封装axios 封装axios的第一种方案&#xff1a;函数法 方法&#…

【Numpy】NumpyQuickStart

Numpy快速入门 Ding Jiaxiong【2022-12-17】 Gitee仓库:https://gitee.com/DingJiaxiong/machine-learning-study.git 文章目录Numpy快速入门先决条件导包基础知识举个栗子数组的创建数组的打印基本操作通用功能索引切片和迭代形状操作更改数组的形状将不同的数组堆叠在一起将一…

【进阶C语言】什么?你居然还不知道结构体可以实现位段?一文带你速通位段结构的使用

目录 &#x1f929;前言&#x1f929;&#xff1a; &#x1f92f;正文&#xff1a;位段&#x1f92f;&#xff1a; 1.位段概述&#xff1a; 2.位段的内存分配&#xff1a; 3.位段的跨平台问题&#xff1a; 4.位段的应用&#xff1a; &#x1f973;总结&#x1f973;&#x…

[附源码]Node.js计算机毕业设计好又多百货商业广场有限公司自助收银操作系统Express

项目运行 环境配置&#xff1a; Node.js最新版 Vscode Mysql5.7 HBuilderXNavicat11Vue。 项目技术&#xff1a; Express框架 Node.js Vue 等等组成&#xff0c;B/S模式 Vscode管理前后端分离等等。 环境需要 1.运行环境&#xff1a;最好是Nodejs最新版&#xff0c;我…

三面美团测开岗,HR 现场直接发 offer,他是横着走出来的

前情提要 这是一个发生在我朋友身上的真实事情&#xff1a; 这里就叫他程序员 Y 吧。 程序员 Y 工作不到两年&#xff0c;周末在朋友圈发了个喜报&#xff0c;准备入职美团。 之后&#xff0c;我就带着祝福跟 Y 聊了许久&#xff0c;聊天的内容就是具体了解一下他面试的过程…

事业编招聘:气象局2023年度公开招聘公告

宁夏回族自治区气象局2023年度公开招聘应届高校毕业生公告&#xff08;气象类&#xff09; 根据《事业单位人事管理条例》《事业单位公开招聘人员暂行规定》和《气象部门事业单位公开招聘应届高校毕业生管理办法&#xff08;试行&#xff09;》等有关规定和工作需要&#xff0…

C++ 面向对象

C 面向对象&#xff0c;内存管理&#xff08;未完。。。&#xff09; 对象内存模型 类型转换 dynamic_cast type_info 多态 虚函数 override final虚表结构 运行时类型信息&#xff08;RTII&#xff09;基类析构函数必须为虚函数&#xff0c;否则会有内存泄漏的危险继承有两…