头条百度批量采集软件说明文档

news2025/2/12 6:36:54

  旧版说明文档《头条号文章批量采集软件4.0版本说明文档!头条/微头条文章批量采集》 头条的采集软件已经更新了好多个版本了,一直没有做详细的介绍文档,最近更新了一些功能进去,一块来写一下说明文档。

1、主界面

2、头条作者采集

 网址文件选择txt ,使用选择按钮选择,不要手动复制路径进去

保存目录选择一个文件夹

保存的格式有:

url:网址放在一个txt中去)、txt:一篇文章一个txt,图片自动下载到images目录下面、docx:保存成word、保存成html、数据存储成csv只存网址

最小阅读量:小于这个阅读量的文章不采集

翻页数量:作者列表的下拉次数

字数限制:文章内容低于这个数值不采集

时间限制:一定要按照给的示例进行填写,年-月-日 时:分:秒 个位数的数字补零,比如2025-01-02 03:04:12  这里面的01 02 03 04都补零了

下载图片的宽高限制,可以是200,意思宽高小于200不保存,也可以填200,300 宽小于200高小于300不下载

延迟时间:采集一篇之后的暂停时间

屏蔽图片:0不屏蔽图片下载,1屏蔽图片下载(意思就是不下载图片了)

裁剪像素:下载图片的时候,从底部往上裁剪图片像素,设置30-50即可

图文同目录:只对txt采集模式有效,设置1,txt保存的时候会保存到文章图片目录下面,0就是常规模式

屏蔽词:一行一个,文章中包含里面的关键词不采集,不要有空行 

头条cookie:我提供的cookie有效尽量不要换,换了可能采集不到

强制监控采集:无限循环作者列表进行采集,慎用,可能会被反爬

采集头条文章/微头条文章,这里不做说明了。

2、头条链接采集

这里是我们整理好头条网址或者微头条网址,放到txt中,软件调用进行采集,比如:有些客户可以从易撰这种网站下载爆文网址,那么可以用这个功能,把文章和图片下载到本地。

这里要说明一点,如果是我们下载的微头条网址中,不带/w/我们需要把下载的网址改动一下,比如我们从易撰下载下来的微头条网址是https://www.toutiao.com/item/123/,我们需要改成https://www.toutiao.com/w/123/这种个样式的,把item改成w,这样软件才能识别。

网址文件:调用txt文件,使用选择按钮进行选择

保存目录:使用选择按钮,选择一个保存目录

保存txt:把数据保存成txt

保存docx:把数据保存成docx

裁剪像素:和上面的原理一样,裁剪图片。

txt图文同目录:只针对txt数据,把txt保存到文章图片目录下面去

采集模式:爬虫模式是直接爬取源码,网页模式是驱动谷歌浏览器进行采集,使用网页模式爬取的时候,一定要使用自己头条账号的cookie,很多链接只有登录才会看的到,否则会出现一个头条的登录页面。

3、头条热点采集

采集最新热点资讯关键词,注意使用频次,不要太快。

 保存关键词:保存热点关键词

保存txt:根据热点关键词采集相关文章保存txt

保存docx:根据热点关键词采集相关文章保存成docx

文章下载数量:一个关键词采集相关文章的数量

时间间隔:采集一篇之后的暂停时间

4、按照百家作者采集

UK文件存放是百家作者的UK id,打开百家作者主页,右键查看源代码,ctrl+f 搜索 uk ,匹配上的第一个字段值,就是百家作者的uk id,一行一个,放到txt中,使用选择按钮调用该文件。

百家的一些设置项目和头条作者的基本是一致的,其中有一个不同是:生成竖图,这个地方是为了发布百家的时候方便调用竖图缩略图设置的,这个功能是从作者百家号发布软件迁移过来的,可以选择生成,也可以选择不生成,自定义即可。

标题禁止包含关键词:一行一个,标题中包含这些关键词,就不采集该文章。

百度cookie:使用自己百度账号的cookie 即可。 

5、百家链接采集

把整理好的百家号文章链接,百度动态文章链接,整理好,放到txt中让软件调用,软件就可以自动以采集了,设置选项和头条按照链接采集的基本一致。

采集模式也是两种 ,爬虫模式、网页模式

6、软件下载链接:

百度网盘下载链接: https://pan.baidu.com/s/1C9nt4NHr49jzSY-J6pF0ZQ?pwd=e2cb 提取码: e2cb
蓝奏云下载地址:https://wwyl.lanzouv.com/b0r9o03qf密码:4zdg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2296706.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【面试】面试常见的智力题

引言 在技术面试中,除了考察编程能力和算法知识外,智力题也是常见的考察方式。智力题不仅能够测试候选人的逻辑思维能力,还能反映其解决问题的创造力和应变能力。本文将整理一些常见的面试智力题,并详细分析解题思路,…

【动态规划】风扫枯杨,满地堆黄叶 - 9. 完全背包问题

本篇博客给大家带来的是完全背包问题之动态规划解法技巧. 🐎文章专栏: 动态规划 🚀若有问题 评论区见 ❤ 欢迎大家点赞 评论 收藏 分享 如果你不知道分享给谁,那就分享给薯条. 你们的支持是我不断创作的动力 . 王子,公主请阅🚀 要开心要快乐顺…

BGP基础协议详解

BGP基础协议详解 一、BGP在企业中的应用二、BGP概述2.1 BGP的特点2.2 基本配置演示2.3 抓包观察2.4 BGP的特征三、BGP对等体关系四、bgp报文4.1 BGP五种报文类型(重点)4.2 BGP报文格式-报文头格式4.3 Open报文格式4.4 Update报文格式4.5 Notification报文格式4.6 Route-refre…

LeetCode刷题---数组---840

矩阵中的幻方 https://leetcode.cn/problems/magic-squares-in-grid/submissions/598584907/ 题目: 3 x 3 的幻方是一个填充有 从 1 到 9 的不同数字的 3 x 3 矩阵,其中每行,每列以及两条对角线上的各数之和都相等。 给定一个由整数组成…

Visual Studio踩过的坑

统计Unity项目代码行数 编辑-查找和替换-在文件中查找 查找内容输入 b*[^:b#/].*$ 勾选“使用正则表达式” 文件类型留空 也有网友做了指定,供参考 !*\bin\*;!*\obj\*;!*\.*\*!*.meta;!*.prefab;!*.unity 打开Unity的项目 注意:只是看&#xff0…

【深度学习入门实战】基于Keras的手写数字识别实战(附完整可视化分析)

​ 本人主页:机器学习司猫白 ok,话不多说,我们进入正题吧 项目概述 本案例使用经典的MNIST手写数字数据集,通过Keras构建全连接神经网络,实现0-9数字的分类识别。文章将包含: 关键概念图解完整实现代码训练过程可视化模型效果深度分析环境准备 import numpy as np impo…

SkyWalking 10.1.0 实战:从零构建全链路监控,解锁微服务性能优化新境界

文章目录 前言一、集成SkyWalking二、SkyWalking使用三、SkyWalking性能剖析四、SkyWalking 告警推送4.1 配置告警规则4.2 配置告警通知地址4.3 下发告警信息4.4 测试告警4.5 慢SQL查询 总结 前言 在传统监控系统中,我们通过进程监控和日志分析来发现系统问题&…

【通俗易懂说模型】反向传播(附多元分类与Softmax函数)

🌈 个人主页:十二月的猫-CSDN博客 🔥 系列专栏: 🏀深度学习_十二月的猫的博客-CSDN博客 💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 目录 1. 前言 2. …

128,【1】buuctf [极客大挑战 2019]PHP

进入靶场 提示了备份文件 抓包&#xff0c;扫描 扫描出了两个有反应的 访问index.php没反应&#xff0c;但www.zip成功下载了文件 index.php里得到如下有用信息 <?phpinclude class.php;$select $_GET[select];$resunserialize($select);?> 所以我们要通过GET 方…

系统思考—双环学习

前几天&#xff0c;一个企业高管向我提到&#xff1a;“我们调整了N次方案&#xff0c;市场策略、团队激励、管理制度&#xff0c;能改的全改了&#xff0c;怎么还是不见起色&#xff1f;” 这让我想到典型的单环学习&#xff0c;简单来说就是&#xff1a;发现问题 → 采取行动…

QTreeView和QTableView单元格添加超链接

QTreeView和QTableView单元格添加超链接的方法类似,本文仅以QTreeView为例。 在QTableView仿Excel表头排序和筛选中已经实现了超链接的添加,但是需要借助delegate,这里介绍一种更简单的方式,无需借助delegate。 一.效果 二.实现 QHTreeView.h #ifndef QHTREEVIEW_H #def…

【MySQL篇】行格式详解

MySQL行格式详解 文章目录 MySQL行格式详解&#x1f389; 什么是行格式&#x1f431;‍&#x1f464; 如何查看行格式&#x1f431;‍&#x1f680; InnoDB 行格式有哪些&#xff1f;&#x1f431;‍&#x1f3cd; Compact 行格式&#x1f6a9; 额外信息&#x1f680; 变长字段…

嵌入式知识点总结 操作系统 专题提升(五)-内存

针对于嵌入式软件杂乱的知识点总结起来&#xff0c;提供给读者学习复习对下述内容的强化。 目录 1.在1G内存的计算机能否malloc&#xff08;1.2G&#xff09;&#xff1f;为什么&#xff1f; 2.malloc能申请多大的空间&#xff1f; 3.内存管理有哪几种方式&#xff1f; 4.什…

动手学深度学习---深层神经网络

目录 一、神经网络1.1、模型训练1.2、损失函数1.2.1、分类&#xff1a;hinge loss/合页损失/支持向量机损失1.2.2、分类&#xff1a;交叉熵损失(softmax分类器)1.2.2.1 二分类交叉熵损失1.2.2.2 多分类交叉熵损失 1.2.3、回归&#xff1a;误差平方和&#xff08;SSE&#xff09…

java基础6(黑马)

一、static 1.static修饰成员变量 static&#xff1a;叫静态&#xff0c;可以修饰成员变量、成员方法。 成员变量按照有无static&#xff0c;分两种。 类变量&#xff1a;有static修饰&#xff0c;属于类&#xff0c;在计算机中只有一份&#xff0c;会被类的全部对象共享。…

Transformer 详解:了解 GPT、BERT 和 T5 背后的模型

目录 什么是 Transformer? Transformer如何工作? Transformer 为何有用? 常见问题解答:机器学习中的 Transformer 在技​​术领域,突破通常来自于修复损坏的东西。制造第一架飞机的人研究过鸟类。莱特兄弟观察了秃鹫如何在气流中保持平衡,意识到稳定性比动力更重要。…

【Prometheus】MySQL主从搭建,以及如何通过prometheus监控MySQL运行状态

✨✨ 欢迎大家来到景天科技苑✨✨ &#x1f388;&#x1f388; 养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; &#x1f3c6; 作者简介&#xff1a;景天科技苑 &#x1f3c6;《头衔》&#xff1a;大厂架构师&#xff0c;华为云开发者社区专家博主&#xff0c;…

百问网imx6ullpro调试记录(linux+qt)

调试记录 文章目录 调试记录进展1.开发板相关1.1百问网乌班图密码 1.2 换设备开发环境搭建串口调试网络互通nfs文件系统挂载 1.3网络问题1.4系统启动1.5进程操作 2.QT2.1tslib1.获取源码2.安装依赖文件3.编译 2.2qt移植1.获取qt源码2.配置编译器3.编译 2.3拷贝到开发板1.拷贝2.…

人脸识别与人脸检测技术

人脸识别技术,作为一种基于人的脸部特征信息进行身份识别的生物识别技术,近年来在人工智能和计算机视觉技术的推动下取得了显著进展。它利用摄像机或摄像头采集含有人脸的图像或视频流,自动在图像中检测和跟踪人脸,进而对检测到的人脸进行一系列计算和分别判断。这一技术不…

ansible使用学习

一、查询手册 1、官网 ansible官网地址&#xff1a;https://docs.ansible.com 模块查看路径&#xff1a;https://docs.ansible.com/ansible/latest/collections/ansible/builtin/index.html#plugins-in-ansible-builtin 2、命令 ansible-doc -s command二、相关脚本 1、服务…