爬虫碎碎念

news2025/1/18 13:57:08

20230304 -

(非专业人士,简单记录自己的需求和思考)

0. 引言

平时看到一些网站的照片什么的,有那种批量下载的需求,当然有些也是视频网站的图片介绍什么的,也即是说,我需要把这些网站的照片批量下载下来。

以前的时候,写过简单的爬虫,因为需求比较简单,都是直接写正则,然后硬匹,然后下载。也没有尝试使用过框架。

但是后来慢慢发现,其实我的工作是可以公式化的,比如最简单的方式,因为我所爬的内容都有一定的规律性,虽然不同网站的内容不同,但本质上落实到策略其实都相似。所以在想,是不是有一定的组织方式可以将代码结构组织起来,或者有现成的框架呢?!

因为不是专业的爬虫人员,所以平时也都是简单写写代码来满足自己的需求,一些大的框架虽然知道都没有使用过。

1. 需求

那么我的需求是什么?是不是已经有代码框架能够满足?我记得之前的时候看到过一个框架,好像大致是能够满足我的需求的,从本质上来说,我需要做的,就是把我所需要的网站的策略自己进行编写,那些下载什么的,其实都不需要我来进行具体写。

总结起来,我感觉这个框架应该支持的功能有这些:

1)有HTTP管理界面,具体管理的方案不用管,但是能够支持在线显示我的下载结果,支持多种形式的数据,图片,文字描述等
2)能够支持代码,这个需求感觉应该不是什么难事。。估计现在大量的爬虫都是代理执行的,毕竟你没有代理,估计也就被封了
3)Docker化,部署环境还是不要太费劲了,直接有docker版本是最好的,不然还得装环境
4)无痛编程,无论是多线程也好,还是异步执行也好,这些都能够支持,然后我只需要对我所针对的网站进行编程爬取的策略定义
5)python语言,现在已经只会python了,没办法

感觉我这些需求都是非常普遍的需求。。也不是什么奇葩的要求。估计应该已经有框架能够支持了。

后续的话,有时间的时候就自己找找框架试试。但还是要明确,自己只是有一些爬取数据的需求,并非要大面积的实现。(当然后续的时候说不定真的要弄成大面积的,那个时候再说吧)

2. 框架

很多文章都总结大量的爬虫框架,例如文章[1],但这篇文章太老了17年的,一些新的框架没有包含,例如Boris-code/feapder[2]。

在这里插入图片描述

(未完待续)

参考

[1]史上最全的网页爬虫技术框架合集
[2]feapder

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/387049.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

剑指 Offer II 013. 二维子矩阵的和

题目链接 剑指 Offer II 013. 二维子矩阵的和 mid 题目描述 给定一个二维矩阵 matrix,以下类型的多个请求: 计算其子矩形范围内元素的总和,该子矩阵的左上角为 (row1, col1),右下角为 (row2, col2)。 实现 NumMatrix类&#xf…

测开:前端基础-css

一、CSS介绍和引用 1.1 css概述 层叠样式表,是一种样式表语言,用来描述HTML和XML文档的呈现。 CSS 用于简化HTML标签,把关于样式部分的内容提取出来,进行单独的控制,使结构与样式分离开发。 CSS 是以HTML为基础&…

docker环境下安装jenkins

前言 废话不多说,上来就是干,jenkins是干嘛用的,小白的话,自己去查,首先我的环境时centos7,自己在vmware建立的一套centos虚拟机环境。docker版本如图所示: 第一步 其实可以先查看一下又那些镜像jenkin…

DC-5 靶场学习

文章目录环境配置:信息搜集:漏洞测试:漏洞利用:提权:得到flag:下载地址:环境配置: 直接将其与攻击机放在同一网段。 信息搜集: arp-scan -l nmap -sP 192.168.28.0/24漏…

基于SSH的网上图书俱乐部的设计与实现

技术:Java、JSP等摘要:网上图书俱乐部是一个虚拟的书友会,该平台是为了给那些爱好读书的人提供一个网上交流的场所。以服务广大读者朋友为主,强调互动性、知识性、趣味性,是读书、会友的好去处,读者可以在线…

【Spring学习】Spring自定义标签详细步骤

目录标题前言一、自定义标签步骤1、定义属性POJO2、定义XSD文件描述组件内容3、定义标签解析器4、注册标签解析器5、定义spring.handlers和spring.schemas文件6、user.xml文件配置7、测试类二、仓库位置总结前言 Spring中除了http://www.springframework.org/schema/beans命名…

pytorch-在竞赛中去摸索用法,用房价预测比赛了解数据处理流程

实战Kaggle比赛:房价预测 让我们动手实战一个Kaggle比赛:房价预测House Prices - Advanced Regression Techniques | Kaggle。本文将提供未经调优的数据的预处理、模型的设计和超参数的选择。通过动手操作、仔细观察实验现象、认真分析实验结果并不断调…

5分钟被美团面试官请出去,3年测试经验被这几个题问到心虚

5分钟前:“哥们我去美团面试了!祝我好运~”5分钟后:“刚从美团走出来,被自动化测试的一些面试题难到了…”“越想越觉得可惜回想面试经过,在几个关键的问题没有给到面试官想要的答案。”“我不是不会,我都干…

工业互联网标识解析二节节点平台_能源管理工业互联网大数据平台

能源管理工业互联网大数据平台项目,是由吉佳通达负责建设的,通过建设形成能源管理的数字化产业基地,推动能源数字化转型升级,形成大数据运营平台。以能源管理与各个企业节点进行数据对接后,利用工业互联网唯一标识身份…

几个C语言容易忽略的问题

1 取模符号自增问题 我们不妨尝试写这样的程序 #include<stdio.h> int main(){int n,t5;printf("%d\n",7%(-3));//1printf("%d\n",(-7)%3);//-1while(--t)printf("%d\n",t);t5;while(t--)printf("%d\n",t);return 0; } 运行…

十、Spring IoC注解式开发

1 声明Bean的注解 负责声明Bean的注解&#xff0c;常见的包括四个&#xff1a; ComponentControllerServiceRepository Controller、Service、Repository这三个注解都是Component注解的别名。 也就是说&#xff1a;这四个注解的功能都一样。用哪个都可以。 只是为了增强程序…

CSS奇思妙想之-利用CSS裁剪(clip-path)完成各种图形

在日常开发当中&#xff0c;如果想要开发多边形&#xff0c;一般都需要多个盒子或者伪元素的帮助&#xff0c;有没有一直办法能只使用一个盒子实现呢&#xff1f; 有的&#xff1a;css裁剪 clip-path介绍 css裁剪&#xff08;clip-path&#xff09;这个属性平时率非常低。但是…

Submodule命令:android如何将自己项目中的某个Module作为gitlab中第三方公共库

一、创建远程公共库 1、Android Studio创建本地仓库 创建一个新的module 在新建module中添加代码(此处示例代码) 右击新建的module&#xff0c;打开新建module的命令行界面&#xff0c; 因为我们只上传这个module的代码&#xff0c;而不是整个项目的代码 命令行中输入以下命令…

2023年03月IDE流行度最新排名

点击查看最新IDE流行度最新排名&#xff08;每月更新&#xff09; 2023年03月IDE流行度最新排名 顶级IDE排名是通过分析在谷歌上搜索IDE下载页面的频率而创建的 一个IDE被搜索的次数越多&#xff0c;这个IDE就被认为越受欢迎。原始数据来自谷歌Trends 如果您相信集体智慧&am…

【vue】环境安装与实例创建

vue是一套用于构建前端界面的框架。 文章目录1. vue环境安装2. 创建项目vue init创建项目Vite创建项目vue create创建项目vue ui创建项目3. 打包项目1. vue环境安装 首先安装nodejs并配置npm国内镜像&#xff1a;https://zhuanlan.zhihu.com/p/442215189 升级或安装cnpm并查看…

Java 字符编码

编码&#xff1a;数据存储进计算机中需要转换为二进制存储&#xff0c;这个过程就是编码。 解码&#xff1a;计算机读取数据并展示在页面上&#xff0c;需要将二进制转换为人类语言的过程&#xff0c;叫做解码。 乱码&#xff1a;如果编码和解码时使用的码表不一样&#xff0c;…

ChatGPT火爆,元宇宙“熄火”?别操之过急,也别敷衍了事

近期&#xff0c;在ChatGPT火爆的同时&#xff0c;元宇宙“遇冷”的消息引起关注。据科技圈流传&#xff0c;大量元宇宙聊天群一夜之间改名为ChatGPT聊天群。ChatGPT火爆出圈导致元宇宙“熄火”&#xff0c;真的是这样吗&#xff1f;ChatGPT与元宇宙二者有怎样的底层逻辑关联&a…

Linux进程信号(产生、保存、处理)/可重入函数概念/volatile理解/SIGCHLD信号

首先区分一下Linux信号跟进程间通信中的信号量&#xff0c;它们的关系就犹如老婆跟老婆饼一样&#xff0c;没有一毛钱的关系。 信号的概念 信号的概念&#xff1a;信号是进程之间事件异步通知的一种方式&#xff0c;属于软中断。比如&#xff1a;红绿灯是一种信号&#xff0c…

机器学习:基于神经网络对用户评论情感分析预测

机器学习&#xff1a;基于神经网络对用户评论情感分析预测 作者&#xff1a;AOAIYI 作者简介&#xff1a;Python领域新星作者、多项比赛获奖者&#xff1a;AOAIYI首页 &#x1f60a;&#x1f60a;&#x1f60a;如果觉得文章不错或能帮助到你学习&#xff0c;可以点赞&#x1f4…

深入理解RDBMS-学习笔记

1 经典案例 1.1 红包雨 1.2 事务ACID 1.3 红包雨与ACID 1.3.1 原子性 1.3.2 一致性 1.3.3 隔离性 1.3.4 持久化 1.4 红包雨与高并发 1.5 红包雨与高可靠 2 发展历史 2.1 前DBMS时代 2.1.1 人工管理 2.1.2 文件系统 1950s&#xff0c;现代计算机的雏形基本出现。1956年IB…