xhs小红薯【帖子】采集工具python爬虫抓取

news2024/12/22 22:11:27

一、xhs【帖子/笔记/视频】采集工具链接

(请复制链接至浏览器,进行数据采集)

http://106.53.68.168:9920/xhs-keyword-spider

能爬取到的属性字段如图1 (点击右侧下拉按钮,可任选字段)

图1·属性字段

二、爬取规则

1、通过搜索关键词抓取,标题内容描述中包含该关键词的帖子均可被爬取至本地。(见图2)

图2·关键词搜索框

2、搜索模式有4种(见图3),分别对应xhsAPP平台的数据搜索模式(搜索模式中的【默认】模式,等于同时选中以上[综合]、[最新]、[最热]3种搜索模式,数据量是3者之和)。

图3·搜索模式

3、组合词爬取规则:举个栗子,搜索的关键词为"北京圆明园",能爬取到组合词连续的帖子,文本格式为“...北京圆明园...”;还能爬取到组合词不连续出现的帖子,文本格式为“...北京...圆明园...”。

4、关键词越简短,抓取到的数据越精准哦。每次采集只能输入一个关键词,不建议搜索太长或者不太常见的关键词哦。

5、采集数据时,页面右上角显示【RUNNING】动态图标(见图4),代表程序正在采集数据中。

 图4·数据采集时的动态图标

6、采集过程根据数据量的不同,需要几分钟至十几分钟,请耐心等待。采集结束后,右上角的动态图标自动消失,页面下方出现【下载结果】按钮(见图5)。

图5·下载结果按钮

三、爱发电

由于工具内部对接了第三方的付费API,所以,本工具需要付费使用(小额费用哈,不要紧张哈,作者需要你们的支持)。

前往 https://afdian.net/item/13509d64f23b11edb98852540025c377 支付,拍完后在下方输入订单号即可开始抓取。

1、单个关键词/次的抓取费用2元起(会员1.6元哦);

2、根据所选属性字段的爬取难度、是否下载高清图等需求,抓取费用会有所不同(会员8折哦)。

3、会员价开通方式,在付款页面下方的提示中哦。

四、工具使用方法

打开网页链接后,按照网页各步骤的提示进行操作即可,没任何难度。

xhs【笔记/帖子】数据采集工具 链接如下:

http://106.53.68.168:9920/xhs-keyword-spider

附:xhs评/论数据采集工具 链接如下:

http://106.53.68.168:9920/xhs-comment-spider

五、人工采集

如需采集数据量较大、关键词较多,建议联系技术员进行采集。

价格有优惠哦!

六、补充说明

1、费用充值后不接受任何形式的退款(因为钱款打给了AFD平台,并没有直接打款给作者嗷)。

2、如遇任何技术问题,请及时联系技术人员。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/570762.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机毕业论文选题推荐|软件工程|系列九

文章目录 导文题目导文 计算机毕业论文选题推荐|软件工程 (***语言)==使用其他任何编程语言 例如:基于(***语言)门窗账务管理系统的设计与实现 得到:基于JAVA门窗账务管理系统的设计与实现 基于vue门窗账务管理系统的设计与实现 等等 题目 基于(***语言)学生在校信息管…

哪些pdf编辑软件值得下载?办公常备软件

PDF(Portable Document Format)是一种广泛用于电子文件传输的文档格式。为了更好的编辑和管理PDF文档,许多PDF编辑软件逐渐发展出来。本文将介绍PDF编辑软件的功能和使用方法。 使用PDF编辑软件可以提高我们的工作效率和文档管理能力。下面介…

【AI提示】ChatGPT提示工程课程(吴恩达OpenAI)迭代提示词笔记(中文chatgpt版)...

Iterative Prompt Develelopment 迭代提示词开发 在本课中,您将反复分析和优化您的提示,以从产品说明书生成营销文案。 设置 import openai import osfrom dotenv import load_dotenv, find_dotenv _ load_dotenv(find_dotenv()) # read local .env fil…

漫画管理工具Kapowarr

之前老苏写过不少漫画相关的软件,Mango、Kavita、Komga等等,但和今天要介绍的 Kapowarr 不太一样,如果你之前用过 Radarr、Sonarr 等 *arr 系列软件,应该是很容易上手的 什么是 Kapowarr ? Kapowarr(以前的…

基于Android studio二手车交易系统app

客户端: 用户注册:通过输入用户名,密码,所在地,联系地址以及电话和电子邮件等信息进行用户信息的注册。 二手车查看:用户注册登录系统后,可以查看二手车的基本信息,通过二手车的品牌…

【使用教程】NIMC2000控制器EtherCAT通讯下SDO位置清零

NIMC2000控制器是一种高性能的运动控制器,可通过EtherCAT通讯进行控制。在使用过程中,有时需要将位置清零,这可以通过SDO命令实现。 首先,需要确保NIMC2000控制器已经通过EtherCAT连接到了主机。然后,使用SDO命令将位…

AI技术:智慧交通时代的道路识别(文末送书四本)

前言: Hello大家好,我是Dream。 自动驾驶是当前最热门的技术之一,而道路识别则是自动驾驶系统中的重要一环。它需要自动驾驶车辆能够识别和解读道路标志、路面标线、交通信号灯等道路条件,及时准确地做出驾驶决策。接下来Dream将带…

医药行业除钾钠,物料液体钾钠分离,特殊溶剂钾的提取

Tulsimer T-42是特级强酸型离子交换树脂,氢 H/钠 Na阳离子交换树脂, 是一款有较的交换容量 ,并同时拥有物理及化学稳定品质。可应用于汽电共生发电厂冷凝水处理及超纯水系统中的混床, 去除水中的阳离子。 Tulsimer T-42其无裂纹特性和均匀的粒度&#x…

【源码分析】【netty】FastThreadLocal 为什么快?

写在前面 接下来几篇文章,我们来聊一聊 netty 相关的。这里作者想先从 FastThreadLocal 开始说,而不是可能大家更熟悉的 reactor 啊,责任链设计啊,ByteBuf 啊,池化啊等等。不过虽然说 FastThreadLocal 熟知程度不如其…

剑指offer 2--数组中重复的元素

数组中重复的数字_牛客题霸_牛客网 (nowcoder.com) 【排序法】思路和代码: 对数组进行排序。遍历排序后的数组,如果当前元素与下一个元素相等,则找到了重复数字,返回该数字。如果遍历完数组都没有找到重复数字,则返回-…

ChatGPT应用组队学习来了!

Datawhale学习 联合主办:Datawhale、百度文心 Datawhale联合百度文心,五月为大家带来AIGC应用专题:大模型从入门到应用,学习大纲如下(文末整理了这次学习的所有资料): 参与学习 ▶ 活动时间&am…

量子力学专题:线性谐振子

任何体系在平衡位置附近的小振动,例如 分子振动、晶格振动、原子核表面振动以及辐射场的振动等往往都可以分解成 若干彼此独立的一维简谐振动简谐振动往往还作为复杂运动的初步近似 见理论力学专题(小振动) 双原子分子,两原子间的…

kubernetes02

pod pod生命周期 pod的状态 1.挂起pending:API server创建了pod资源对象已存入etcd中,但它尚未被调度完成,或者仍处于从仓库下载镜像的过程中 2.运行中running:pod已经被调度到某节点,并且所有容器都已经被kubelet创建完成 3.成功complet:…

物业设备管理系统

物业服务质量难以保证,工单处理慢,巡检记录不规范;物业设备设施管理混乱,维修保养成本高,风险隐患多;物业数据分散,难以统计分析,无法提供决策支持;每天需要检查和保养的…

Hadoop学习---8、Hadoop数据压缩

1、Hadoop数据压缩 1.1 概述 1、压缩的好处和坏处 (1)优点:减少磁盘IO、减少磁盘储存空间 (2)缺点:增加CPU开销 2、压缩原则 (1)运算密集型的Job,少用压缩 &#xff08…

亚马逊云科技赋能中国出海企业创新及开拓海外业务

向全球价值链上游奋进 中国企业增强国际竞争力的关键,是努力朝全球价值链上游奋进,发力技术出海。中国的出海新机遇,背后曾是疫情在全球按下数字互联和数字化升级的快进键,跨境电商、在线社交、移动支付、数字服务等数字经济迎来…

【技巧】如何保护Word文档不被改动?

工作上,很多小伙伴需要将Word文档发给对方看,但又不想在传看时,被对方改动上面的内容。这种情况,我们可以通过以下两种方法,让Word文档不能改动。 首先,我们可以把Word文档设置限制编辑,被限制后…

FPGA采集CameraLink相机Full模式解码输出,附带工程源码和技术支持

目录 1、前言2、CameraLink协议基础3、目前我已有的CameraLink收发工程4、设计方案输入CameraLink相机视频缓存视频输出软件配置 5、vivado工程详解6、上板调试验证7、福利:工程代码的获取 1、前言 FPGA实现CameraLink视频编解码目前有两种方案: 一是使…

美团面试:接口被恶意狂刷,怎么办?

如果Java接口被恶意狂刷,我们一般可以采取以下措施: 用TimeStamp (兵不厌诈) 比如给客户端提供一个timestamp参数,值是13位的毫秒级时间戳,可以在第12位或者13位做一个校验位,通过一定的算法给…

Docker实战2-发布后端Java项目

有了上篇Docker实战1-发布前端Vue项目的经验,发布后端就轻车熟路了。 1 准备文件 java打包 运行maven的package,生成jar文件,target/dsm-service-1.0-SNAPSHOT.jar DockerFile # Docker image for springboot file run FROM openjdk:11.0.11-jdk-sli…