爬虫碎碎念

news2026/3/5 12:20:24

20230304 -

（非专业人士，简单记录自己的需求和思考）

0. 引言

平时看到一些网站的照片什么的，有那种批量下载的需求，当然有些也是视频网站的图片介绍什么的，也即是说，我需要把这些网站的照片批量下载下来。

以前的时候，写过简单的爬虫，因为需求比较简单，都是直接写正则，然后硬匹，然后下载。也没有尝试使用过框架。

但是后来慢慢发现，其实我的工作是可以公式化的，比如最简单的方式，因为我所爬的内容都有一定的规律性，虽然不同网站的内容不同，但本质上落实到策略其实都相似。所以在想，是不是有一定的组织方式可以将代码结构组织起来，或者有现成的框架呢？！

因为不是专业的爬虫人员，所以平时也都是简单写写代码来满足自己的需求，一些大的框架虽然知道都没有使用过。

1. 需求

那么我的需求是什么？是不是已经有代码框架能够满足？我记得之前的时候看到过一个框架，好像大致是能够满足我的需求的，从本质上来说，我需要做的，就是把我所需要的网站的策略自己进行编写，那些下载什么的，其实都不需要我来进行具体写。

总结起来，我感觉这个框架应该支持的功能有这些：

1）有HTTP管理界面，具体管理的方案不用管，但是能够支持在线显示我的下载结果，支持多种形式的数据，图片，文字描述等
2）能够支持代码，这个需求感觉应该不是什么难事。。估计现在大量的爬虫都是代理执行的，毕竟你没有代理，估计也就被封了
3）Docker化，部署环境还是不要太费劲了，直接有docker版本是最好的，不然还得装环境
4）无痛编程，无论是多线程也好，还是异步执行也好，这些都能够支持，然后我只需要对我所针对的网站进行编程爬取的策略定义
5）python语言，现在已经只会python了，没办法

感觉我这些需求都是非常普遍的需求。。也不是什么奇葩的要求。估计应该已经有框架能够支持了。

后续的话，有时间的时候就自己找找框架试试。但还是要明确，自己只是有一些爬取数据的需求，并非要大面积的实现。（当然后续的时候说不定真的要弄成大面积的，那个时候再说吧）

2. 框架

很多文章都总结大量的爬虫框架，例如文章[1]，但这篇文章太老了17年的，一些新的框架没有包含，例如Boris-code/feapder[2]。

在这里插入图片描述

（未完待续）

参考

[1]史上最全的网页爬虫技术框架合集
[2]feapder

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/387049.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

剑指 Offer II 013. 二维子矩阵的和

剑指 Offer II 013. 二维子矩阵的和

题目链接剑指 Offer II 013. 二维子矩阵的和 mid 题目描述给定一个二维矩阵 matrix，以下类型的多个请求： 计算其子矩形范围内元素的总和，该子矩阵的左上角为 (row1, col1)，右下角为 (row2, col2)。实现 NumMatrix类&#xf…

阅读更多...

测开：前端基础-css

测开：前端基础-css

一、CSS介绍和引用 1.1 css概述层叠样式表，是一种样式表语言，用来描述HTML和XML文档的呈现。 CSS 用于简化HTML标签，把关于样式部分的内容提取出来，进行单独的控制，使结构与样式分离开发。 CSS 是以HTML为基础&…

阅读更多...

docker环境下安装jenkins

docker环境下安装jenkins

前言废话不多说，上来就是干，jenkins是干嘛用的，小白的话，自己去查，首先我的环境时centos7，自己在vmware建立的一套centos虚拟机环境。docker版本如图所示: 第一步其实可以先查看一下又那些镜像jenkin…

阅读更多...

DC-5 靶场学习

DC-5 靶场学习

文章目录环境配置：信息搜集：漏洞测试：漏洞利用：提权：得到flag：下载地址：环境配置： 直接将其与攻击机放在同一网段。信息搜集： arp-scan -l nmap -sP 192.168.28.0/24漏…

阅读更多...

基于SSH的网上图书俱乐部的设计与实现

基于SSH的网上图书俱乐部的设计与实现

技术：Java、JSP等摘要：网上图书俱乐部是一个虚拟的书友会，该平台是为了给那些爱好读书的人提供一个网上交流的场所。以服务广大读者朋友为主，强调互动性、知识性、趣味性，是读书、会友的好去处，读者可以在线…

阅读更多...

【Spring学习】Spring自定义标签详细步骤

【Spring学习】Spring自定义标签详细步骤

目录标题前言一、自定义标签步骤1、定义属性POJO2、定义XSD文件描述组件内容3、定义标签解析器4、注册标签解析器5、定义spring.handlers和spring.schemas文件6、user.xml文件配置7、测试类二、仓库位置总结前言 Spring中除了http://www.springframework.org/schema/beans命名…

阅读更多...

pytorch-在竞赛中去摸索用法,用房价预测比赛了解数据处理流程

pytorch-在竞赛中去摸索用法,用房价预测比赛了解数据处理流程

实战Kaggle比赛：房价预测让我们动手实战一个Kaggle比赛：房价预测House Prices - Advanced Regression Techniques | Kaggle。本文将提供未经调优的数据的预处理、模型的设计和超参数的选择。通过动手操作、仔细观察实验现象、认真分析实验结果并不断调…

阅读更多...

5分钟被美团面试官请出去，3年测试经验被这几个题问到心虚

5分钟被美团面试官请出去，3年测试经验被这几个题问到心虚

5分钟前：“哥们我去美团面试了！祝我好运~”5分钟后：“刚从美团走出来，被自动化测试的一些面试题难到了…”“越想越觉得可惜回想面试经过，在几个关键的问题没有给到面试官想要的答案。”“我不是不会，我都干…

阅读更多...

工业互联网标识解析二节节点平台_能源管理工业互联网大数据平台

工业互联网标识解析二节节点平台_能源管理工业互联网大数据平台

能源管理工业互联网大数据平台项目，是由吉佳通达负责建设的，通过建设形成能源管理的数字化产业基地，推动能源数字化转型升级，形成大数据运营平台。以能源管理与各个企业节点进行数据对接后，利用工业互联网唯一标识身份…

阅读更多...

几个C语言容易忽略的问题

几个C语言容易忽略的问题

1 取模符号自增问题我们不妨尝试写这样的程序 #include<stdio.h> int main(){int n,t5;printf("%d\n",7%(-3));//1printf("%d\n",(-7)%3);//-1while(--t)printf("%d\n",t);t5;while(t--)printf("%d\n",t);return 0; } 运行…

阅读更多...

十、Spring IoC注解式开发

十、Spring IoC注解式开发

1 声明Bean的注解负责声明Bean的注解，常见的包括四个： ComponentControllerServiceRepository Controller、Service、Repository这三个注解都是Component注解的别名。也就是说：这四个注解的功能都一样。用哪个都可以。只是为了增强程序…

阅读更多...

CSS奇思妙想之-利用CSS裁剪（clip-path）完成各种图形

CSS奇思妙想之-利用CSS裁剪（clip-path）完成各种图形

在日常开发当中，如果想要开发多边形，一般都需要多个盒子或者伪元素的帮助，有没有一直办法能只使用一个盒子实现呢？ 有的：css裁剪 clip-path介绍 css裁剪（clip-path）这个属性平时率非常低。但是…

阅读更多...

Submodule命令：android如何将自己项目中的某个Module作为gitlab中第三方公共库

Submodule命令：android如何将自己项目中的某个Module作为gitlab中第三方公共库

一、创建远程公共库 1、Android Studio创建本地仓库创建一个新的module 在新建module中添加代码(此处示例代码) 右击新建的module，打开新建module的命令行界面， 因为我们只上传这个module的代码，而不是整个项目的代码命令行中输入以下命令…

阅读更多...

2023年03月IDE流行度最新排名

2023年03月IDE流行度最新排名

点击查看最新IDE流行度最新排名（每月更新） 2023年03月IDE流行度最新排名顶级IDE排名是通过分析在谷歌上搜索IDE下载页面的频率而创建的一个IDE被搜索的次数越多，这个IDE就被认为越受欢迎。原始数据来自谷歌Trends 如果您相信集体智慧&am…

阅读更多...

【vue】环境安装与实例创建

【vue】环境安装与实例创建

vue是一套用于构建前端界面的框架。文章目录1. vue环境安装2. 创建项目vue init创建项目Vite创建项目vue create创建项目vue ui创建项目3. 打包项目1. vue环境安装首先安装nodejs并配置npm国内镜像：https://zhuanlan.zhihu.com/p/442215189 升级或安装cnpm并查看…

阅读更多...

Java 字符编码

Java 字符编码

编码：数据存储进计算机中需要转换为二进制存储，这个过程就是编码。解码：计算机读取数据并展示在页面上，需要将二进制转换为人类语言的过程，叫做解码。乱码：如果编码和解码时使用的码表不一样，…

阅读更多...

ChatGPT火爆，元宇宙“熄火”？别操之过急，也别敷衍了事

ChatGPT火爆，元宇宙“熄火”？别操之过急，也别敷衍了事

近期，在ChatGPT火爆的同时，元宇宙“遇冷”的消息引起关注。据科技圈流传，大量元宇宙聊天群一夜之间改名为ChatGPT聊天群。ChatGPT火爆出圈导致元宇宙“熄火”，真的是这样吗？ChatGPT与元宇宙二者有怎样的底层逻辑关联&a…

阅读更多...

Linux进程信号（产生、保存、处理）/可重入函数概念/volatile理解/SIGCHLD信号

Linux进程信号（产生、保存、处理）/可重入函数概念/volatile理解/SIGCHLD信号

首先区分一下Linux信号跟进程间通信中的信号量，它们的关系就犹如老婆跟老婆饼一样，没有一毛钱的关系。信号的概念信号的概念：信号是进程之间事件异步通知的一种方式，属于软中断。比如：红绿灯是一种信号&#xff0c…

阅读更多...

机器学习：基于神经网络对用户评论情感分析预测

机器学习：基于神经网络对用户评论情感分析预测

机器学习：基于神经网络对用户评论情感分析预测作者：AOAIYI 作者简介：Python领域新星作者、多项比赛获奖者：AOAIYI首页 😊😊😊如果觉得文章不错或能帮助到你学习，可以点赞&#x1f4…

阅读更多...

深入理解RDBMS-学习笔记

深入理解RDBMS-学习笔记

1 经典案例 1.1 红包雨 1.2 事务ACID 1.3 红包雨与ACID 1.3.1 原子性 1.3.2 一致性 1.3.3 隔离性 1.3.4 持久化 1.4 红包雨与高并发 1.5 红包雨与高可靠 2 发展历史 2.1 前DBMS时代 2.1.1 人工管理 2.1.2 文件系统 1950s，现代计算机的雏形基本出现。1956年IB…

阅读更多...

推荐文章

最新文章