【GUI软件】小红书蒲公英数据批量采集!高效筛选优质博主,助力品牌商

news2024/11/20 13:41:55

文章目录

  • 一、背景介绍
    • 1.0 爬取目标
    • 1.1 演示视频
    • 1.2 软件说明
  • 二、代码讲解
    • 2.0 关于接口
    • 2.1 爬虫采集模块
    • 2.2 cookie获取
    • 2.3 软件界面模块
    • 2.4 日志模块
  • 三、获取采集软件

一、背景介绍

1.0 爬取目标

爬取目标

众所周知,蒲公英是小红书推出的优质创作者商业合作服务平台,致力于为品牌和博主提供内容合作服务,可以高效的为品牌匹配出最符合的优质博主。

蒲公英平台,需要有一定权限的企业资质账号才能申请开通。开通之后,进入【寻找博主】页面,即可根据一定的筛选条件过滤出满足的博主列表,如下:
寻找博主页面

上面是筛选条件,下面是筛选结果。

爬虫功能分为2大类模块:第一是根据筛选条件爬取博主列表,第二是根据爬取到的博主id进入详情页面爬取详细数据,详情页如下:
某个博主的详情页

通过分析网页接口,开发出了爬虫GUI软件,界面如下:
软件运行界面

共爬取到34个字段,字段如下:

1	关键词
2	页码
3	小红书昵称
4	小红书号
5	地址
6	机构
7	数据更新至
8	小红书链接
9	粉丝数
10	账号类型
11	图文报价
12	视频报价
13	合作笔记数
14	预估阅读单价_图文
15	图文3秒阅读
16	日常_阅读中位数
17	日常_互动中位数
18	日常_阅读来源发现页占比
19	日常_阅读来源搜索页占比
20	合作_阅读中位数
21	合作_互动中位数
22	合作_阅读来源发现页占比
23	合作_阅读来源搜索页占比
24	女性粉丝占比
25	年龄占比最多的
26	账号评估
27	合作笔记1阅读数
28	合作笔记2阅读数
29	合作笔记3阅读数
30	合作笔记4阅读数
31	合作笔记5阅读数
32	合作笔记6阅读数
33	合作笔记7阅读数
34	合作笔记8阅读数

详细演示数据:(看《蒲公英》这个sheet页)

https://docs.qq.com/sheet/DVEFhZlFKR1NXVEdN?tab=suenot

1.1 演示视频

软件操作演示视频:

【演示视频】采集蒲公英软件

1.2 软件说明

重要说明,请详读:说明

以上。

二、代码讲解

2.0 关于接口

由于采集字段较多,开发者模式中分析接口不止一个,采集程序整合多个接口开发而成,归纳如下:

  1. 博主列表接口
  2. 日常笔记接口
  3. 合作笔记接口
  4. 粉丝数接口
  5. 阅读单价接口
  6. 合作笔记阅读数接口
  7. 所属机构接口

以上。

2.1 爬虫采集模块

此软件开发成本较高,代码量大、实现逻辑复杂,为保护个人知识版权,防止恶意盗版软件,不展示爬虫核心代码。

2.2 cookie获取

运行软件之前,需要填写cookie值到txt配置文件中,获取方法如下:
开发者模式中获取cookie

2.3 软件界面模块

主窗口部分:

# 创建主窗口
root = tk.Tk()
root.title('蒲公英爬虫-公开版p1.4 | 马哥python说 | 定制')
# 设置窗口大小
root.minsize(width=850, height=650)

部分界面控件:

# 笔记关键词
tk.Label(root, justify='left', text='笔记关键词:').place(x=30, y=65)
entry_kw = tk.Text(root, bg='#ffffff', width=22, height=2, )
entry_kw.place(x=105, y=65, anchor='nw')  # 摆放位置

日志输出控件:

# 运行日志
tk.Label(root, justify='left', text='运行日志:').place(x=30, y=250)
show_list_Frame = tk.Frame(width=780, height=300)  # 创建<消息列表分区>
show_list_Frame.pack_propagate(0)
show_list_Frame.place(x=30, y=270, anchor='nw')  # 摆放位置

2.4 日志模块

好的日志功能,方便软件运行出问题后快速定位原因,修复bug。

核心代码:

def get_logger(self):
	self.logger = logging.getLogger(__name__)
	# 日志格式
	formatter = '[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s'
	# 日志级别
	self.logger.setLevel(logging.DEBUG)
	# 控制台日志
	sh = logging.StreamHandler()
	log_formatter = logging.Formatter(formatter, datefmt='%Y-%m-%d %H:%M:%S')
	# info日志文件名
	info_file_name = time.strftime("%Y-%m-%d") + '.log'
	# 将其保存到特定目录
	case_dir = r'./logs/'
	info_handler = TimedRotatingFileHandler(filename=case_dir + info_file_name,
						when='MIDNIGHT',
						interval=1,
						backupCount=7,
						encoding='utf-8')

软件运行过程中生成的日志文件:
log文件

三、获取采集软件

完整exe采集软件,微信公众号"老男孩的平凡之路"后台回复"蒲公英"即可获取。点击直达


我是@马哥python说,一名10年程序猿,持续分享Python干货中!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1838084.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Leangoo一站式敏捷研发协同平台,助力敏捷企业高效协同

在当今快速变化的市场环境中&#xff0c;企业对于研发效率和质量的要求日益提高。为了应对这一挑战&#xff0c;敏捷研发方法应运而生&#xff0c;并迅速成为众多企业的首选&#xff0c;然而&#xff0c;如何有效地实施敏捷研发&#xff0c;确保团队之间的高效协作和项目的顺利…

ThreeJS-截屏下载pdf或者图片时白屏

JS-页面截图下载为pdf 关于如何下载为 pdf 在上面的这篇文章中有写&#xff0c;大家可以看下&#xff0c;下载图片代码在最下面 这时我们发现 three 部分是空白的如下&#xff1a; 这就多少有点尴尬了&#xff0c;这时我们习惯性的看下后台报错 是不是发现了惊喜&#xff0c;…

配电室数据中心巡检3d可视化搭建的详细步骤

要搭建配电室巡检的3D可视化系统&#xff0c;可以按照以下步骤进行&#xff1a; 收集配电室数据&#xff1a; 首先&#xff0c;需要收集配电室的相关数据&#xff0c;包括配电室的布局、设备信息、传感器数据等。可以通过实地调查、测量和设备手册等方式获取数据。 创建3D模型…

专访毫末智行COO 侯军:自动驾驶,水深鱼才大

站在当下&#xff0c;回看自动驾驶赛道的各个玩家们&#xff0c;活下去的要不就是“家里有矿”&#xff0c;要不就是场景、技术降维&#xff0c;渐进式发展。但活的好的有一个共性&#xff0c;就是顺应需求&#xff0c;让技术落于产业实处。 作者|斗斗 出品|产业家 “我们认…

无线传感器网络技术原理及应用

第一章 简述无线传感器网络的概念及与传统无线网络的区别。 无线传感器网络的概念&#xff1a;无线传感器网络是由部署在监测区域内大量的廉价微型传感器节点组成&#xff0c;通过无线通信方式形成的一个多跳的自组织网络系统&#xff0c;其目的是协作地感知、采集和处理网络…

基于STM32和人工智能的智能楼宇安防系统

目录 引言环境准备智能楼宇安防系统基础代码实现&#xff1a;实现智能楼宇安防系统 4.1 数据采集模块4.2 数据处理与分析4.3 控制系统4.4 用户界面与数据可视化应用场景&#xff1a;智能楼宇安防管理与优化问题解决方案与优化收尾与总结 1. 引言 随着物联网和人工智能技术的…

FragPunk联机延迟高、联机闪退、无法组队的解决方法

FragPunk是一款最新的5V5射击游戏。游戏中&#xff0c;有超过70张的技能卡&#xff0c;每一张都拥有独特的功能&#xff0c;比如说生成草丛、让伤害可以传导到敌方队伍每个人身上、让手枪也能喷火、召唤死神等等&#xff0c;功能很丰富&#xff0c;这些卡让每轮战斗都充满了变化…

Python Django Vue3 在线商城网站 在线商城后台管理 案例源码

源码地址获取 演示视频 Python DjangoVue3 在线商城网站&#xff0c;商城管理后台系统案例源码 附带运行教程&#xff0c;开发工具&#xff0c;系统运行演示 技术栈:Django Vue3 开发工具:Pycharm 后端构建工具:Pip 前端构建工具:WebPack 运行环境:Windows Python版本:3.11 Nod…

2024年全球架构师峰会(ArchSummit深圳站)

前言 ArchSummit全球架构师峰会是极客邦科技旗下InfoQ中国团队推出的重点面向高端技术管理者、架构师的技术会议&#xff0c;54%参会者拥有8年以上工作经验。 ArchSummit聚焦业界强大的技术成果&#xff0c;秉承“实践第一、案例为主”的原则&#xff0c;展示先进技术在行业中的…

Prometheus常见exporter安装部署

Prometheus常见exporter安装部署 在稳定性环境的监控当中需要收集各种各样的数据&#xff0c;这样的数据收集是通过各种exporter进行的&#xff0c;在这里我们进行最常用稳定性数据的收集exporter安装部署介绍。 node_exporter安装部署 node_exporter主要监控服务器本身的一…

lib9-02 配置扩展 ACL

实验&#xff1a;配置扩展 ACL 1、实验目的 通过本实验可以掌握编号扩展 ACL 定义和应用的方法命名扩展 ACL 定义和应用的方法 2、实验拓扑 实验拓扑如下图所示。使用扩展 ACL 实现如下访问控制 拒绝 PC1 所在网段访问 Server1 的 Web 服务拒绝 PC2 所在网段访问 Server1 …

AI在创造还是毁掉音乐?

简介 最近一个月&#xff0c;轮番上线的音乐大模型&#xff0c;一举将素人生产音乐的门槛降到了最低&#xff0c;并掀起了音乐圈会不会被AI彻底颠覆的讨论。短暂的兴奋后&#xff0c;AI产品的版权归属于谁&#xff0c;创意产业要如何在AI的阴影下生长&#xff0c;都在被更多理…

学会python——制作一款天气查询工具(python实例七)

目录 1、认识Python 2、环境与工具 2.1 python环境 2.2 Visual Studio Code编译 3、天气查询工具 3.1 代码构思 3.2 代码示例 3.3 运行结果 4、总结 1、认识Python Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。 Python 的设计具有很强的…

新手小白系列——关于 Docker 安装的方法

Docker 是一个应用打包、分发、部署的工具基础概念&#xff1a; 镜像&#xff1a;软件安装包&#xff0c;可以方便的进行传播和安装。 容器&#xff1a;软件安装之后的状态&#xff0c;每个软件运行环境都是独立的、隔离的&#xff0c;称之为容器 仓库&#xff1a;专门用来传播…

【Cloudscapes V2】Blender商城10周年免费领取礼物超逼真的Vdb云和爆炸合集烟雾体积云字体符号轨迹火焰粒子

6月19号的限时免费领取插件挺牛的&#xff0c;可以在blender里渲染体积云、爆炸特效、火焰、烟雾等效果&#xff0c;非常逼真。 Blender商城10周年免费领取礼物&#xff1a;https://blendermarket.com/birthday Cloudscapes V2 - 超逼真的 Vdb 云和爆炸合集 CloudScapes 是 …

vue3中实现3D地图——three.js

需求点 地图区域大小随着父盒子大小变动&#xff0c;窗口缩放自动适配每个区域显示不同颜色和高度&#xff0c;描边每个区域显示名字label和icon点击区域改变其透明度&#xff0c;并且弹窗显示信息窗口点击点也可以可以自由放大缩小&#xff0c;360度旋转 包 npm install d3^…

六西格玛培训新选择,老字号品质有保障!

在追求企业卓越与完美的道路上&#xff0c;六西格玛管理无疑是一个被广泛认可与采纳的方法论。六西格玛不仅仅是一种管理策略&#xff0c;更是一种文化和哲学&#xff0c;它强调通过数据驱动和持续改进来减少流程中的缺陷&#xff0c;提升客户满意度&#xff0c;并最终实现企业…

两轮车换电也卷得不行?铁塔换电、这锂换电浴血奋战

配图来自Canva可画 当两轮电动车智能化和高端化竞争&#xff0c;无法再有更多突破&#xff0c;卷无可卷时&#xff0c;换电这个具有巨大潜力的新兴领域&#xff0c;引起了市场的关注。 早在多年前&#xff0c;哈啰、美团、雅迪等两轮电动车品牌就推出自己的换电品牌。据不完全…

【Java毕业设计】基于JavaWeb的物流信息网系统

文章目录 摘 要Abstract目录1 绪论1.1 课题背景和意义1.2 国内外研究现状1.2.1 国外研究现状1.2.2 国内研究现状1.3 课题主要内容 2 开发相关技术介绍2.1 系统开发环境2.2 系统开发技术2.2.1 Spring Boot框架2.2.2 MySQL数据库 3 系统规划3.1 初步调查分析3.2 可行性分析3.2.1 …

一文彻底搞懂 Transformer(图解+手撕)

Transformers 亮相以来彻底改变了深度学习模型。 今天&#xff0c;我们来揭示 Transformers 背后的核心概念&#xff1a;注意力机制、编码器-解码器架构、多头注意力等等。通过 Python 代码片段&#xff0c;让你深入了解其原理。 一、理解注意力机制 注意力机制是神经网络中…