【千字总结】爬虫学习指南-2024最新版

news2024/9/24 13:18:47

介绍

image.png

如何自学爬虫?今天有一个兄弟这样问我,可以看到打了很多字,诚意肯定是很足的,也是对我的内容给予了肯定,让我非常的开心。既然难得有人问我,那我一定要好好做一个回答。

我下面将要说的内容没有任何话是从网上复制粘贴的,全都是个人见解,所以也意味着可能有的小伙伴不赞同,没关系,我们可以在评论区交流一下。

下面我会从下面四个方面介绍爬虫,涉及到的学科,如何学编程,网上自学优缺点,我的学习方法和建议。

涉及学科

爬虫是一个复合型的学科。涉及到前端基础,python。学到后面逆向还可能设计到nodejs。由于我在大一的时候浅浅学了下html,当时还是用的dreamwaver拖拖拽拽学的。最后从室友那里得知了html原来可以用代码写,学习了html,css,js,最后还学了jquery,学习之后如获至宝。其实前端基础的布局样式学了其实就可以自己拼拼凑凑很多网页了。我当时就是所有布局都用flex布局写。可以复现一切网页,当然,时间没必要浪费在这些没意义的事情上。最后延申学了下nodejs,当时还做了一个网站叫做星梦启航,大家感兴趣的可以去看看。不过大家没必要学习那么深入,可能只安装学习下语法就够了。由于我之前跟着学校的授课体系或者是延申自学过这些相关技术,所以我感觉学习爬虫的过程一马平川。

为什么说涉及到的学科呢?其实涉及的学科这么多,意味着我们我们要想都精通会花费很多时间,不过好消息是我们爬虫用到的不是去用前端知识去复现网页,也不是用nodejs去写业务逻辑。我们用到的仅仅是定位网页内容,也就是你知道前端基础有关的知识即可,知道什么是html,什么是css,什么是js,常用的标签,样式,方法即可。同样的,nodejs学习只需要知道如何执行代码即可。

如何学习编程

其实我们的问题如何学习爬虫的本质也是如何学习编程。有一句话大家肯定听过,叫算法不分语言,编程不分语言。其实我们学习的很多编程语言都是偏上层应用的,都是别人封装好的语言接口供我们调用。我们学习不同的语言就是学习不同语言的特性和语法。然后就是拼装这些接口达到我们想要的效果。

尤其是学习python的时候,大量的三方库,我们只需要知道每个库是干什么的,一组装,得到我们想要的内容就可以了。比如说requests库进行网络请求获取网页源代码,lxml库进行网页解析获取我们想要的数据。然后一输出不就完了。一个基础的爬虫流程就是这样。简单的网站都可以这样解决。

但是学习编程不学习算法就没有灵魂,但这里的算法不是指机器学习里的算法,是指一些小题目,比如说判断回文数,水仙花数这种。写这些题目在我们开发的时候是99%都用不到的,但是对于我们的思维的锻炼是非常好的,如果大家时间充足完全可以自己刷刷题目,也是很有趣的。

还有就是编程技术更新迭代是非常快的,正如这个小伙伴所说有的视频很老了,自然教的技术栈可能也会老了,不少三方库经过这几年都会有些新的方法。比如selenium库我最近的时候发现好像不用手动安装配置webdriver了,之前最开始学的时候是还要手动查看版本,安装对应版本驱动的。这个问题的话我们就是看官方文档与利用搜索引擎。

自己会用搜索引擎搜索问题是一个非常重要的技能!

自学优缺点

对于我来说,学到的知识最开始全是在B站自学的,后续入门之后就是看官方文档,逛github,看博客,一些大佬搭建的个人博客,一些好的公众号,抖音上也有一些关注,当然还有一些别的渠道获取的学习资源。

说实话,在现在这个时代,学习的途径太多了,所以只要感兴趣,到处逛逛看看也会有很多收获。

自学无非就是自己找资源筛选资源,报班就是跟着别人的进度。我是倾向于自学的,因为你真正的会找资源的话这项技能是非常珍贵的,也能少走很多弯路。但是报班可能就别人直接把路给你引导好,你就很难有别的思考或者是自己经验的学习。

学习方法和建议和总结

首先是学习最主要的就是积累。日复一日,对于我来说就是关注很多B站python相关的up主,公众号,抖音也关注了很多。这样不论打开那个软件都可以学一些新的知识,开阔下见识。

第二点是工欲善其事必先利其器,不是说要弄个好电脑,我的几千块的办公本用了快四年没有弄机器学习相关的几乎没咋遇到过瓶颈。而是说用上好的工具可以少走很多弯路。比如浏览器直接用谷歌浏览器,搜索引擎直接用必应,编辑器直接pycharm或者vscode,还有一堆黑科技比如视频播放器,电脑插件等都需要自己慢慢积累。

学习方向找自己感兴趣的方向,web,人工智能。多尝试,兴趣是最好的老师,选择大于努力,我这个视频没有说劝大家入坑,只是分享自己学习的经验。

第三点是我的建议就是自学,找一个班要到他们的教学课表,怼着上面的内容就开始自己学。或者是先找一个b站基础教学视频跟着学。遇见不会的就可以google搜素或者是问gpt,学习速度绝对嘎嘎快。

第四点是:学习编程是非常注重实操的。可能你看完这个视频之后会觉得好像也没啥收获,没有那种绝对的观念绝对的引导在视频中。其实学习就是这样,你还没有学习这个技术,你永远都是在山内看山,是不会有大局的观念的,只有你新建一个html文件,敲出一个页面在浏览器打开的时候,你才会惊叹,原来如此啊。爬虫也同样如此,你没有学习的时候你肯定会对这个概念模糊不清,但当你用requests去成功请求一个网页之后,在克服一个又一个技术点后,你才会去惊叹:原来是这样啊!当然,最初期的学习你只是惊叹,原理你肯定不理解,但是无需害怕,雷总也说过,知识是网状分布的,等你学到后面的知识的时候可能前面的你突然就懂了。也有可能一些知识和现象会成为你潜移默化意识中的定理。纸上得来终觉浅,一定要实操。好,大家有好的想法也可以评论区交流探讨。


我呢,其实正在做一个刷题网站,帮助正在学习的小伙伴理清思路,检验成果。这个网站还处于写代码阶段,后续再介绍吧。

爬虫刷题网站:爬虫百战成神

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1491331.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Unity 刚体组件的碰撞与触发器

添加刚体组件 给球体添加刚体组件,将脚本挂载到上面。 以下效果为:当球体落到平面上会消失。 using System.Collections; using System.Collections.Generic; using UnityEngine;public class c1 : MonoBehaviour {void Start(){}void Update(){}// 开…

基于遗传优化的协同过滤推荐算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 最后得到推荐的商品ID号: 推荐商品的ID号:ans 9838175822191114902149021235224732230712349911790154716550165501655011…

游泳耳机品牌排行榜前十名:10大口碑产品力荐!

在现代快节奏的生活中,游泳已经成为许多人放松身心、保持健康的重要方式。而伴随着游泳,一款优秀的游泳耳机则成为了许多游泳爱好者不可或缺的装备之一。它不仅能让你在游泳时享受音乐、广播或是专注训练,还能让整个游泳过程更加愉悦、充满动…

宠物的异味,用空气净化器可以解决吗?宠物空气净化器品牌推荐

养猫的人都了解,一个养猫家庭的环境卫生和气味问题与主人的关系密切相关。主人的勤劳程度和对卫生的重视程度直接影响着家中的气味。尽管主人通常会经常更换猫砂,但有时候仍然会存在一些难闻的气味。事实上,忙碌的猫主人可能会因为没有足够的…

总结zy_不定长数据帧的收发

1、接收部分 身份证模块串口接收解析: #define CRC_16_CCITT 0x1021 unsigned short CRC16_CCITT(unsigned char* pchMsg, unsigned short wDataLen) // 1. MSB { unsigned char i, chChar; unsigned short wCRC 0; while (wDataLen–) { chChar *pchMsg; wCRC ^…

符号函数Sign(博途PLC SCL代码)

符号函数在ADRC自抗扰算法里会有涉及,同时在滑膜控制里也会用到,这篇博客我们介绍符号函数在博途PLC里的实现。 1、ADRC自抗扰算法: https://rxxw-control.blog.csdn.net/article/details/126547180https://rxxw-control.blog.csdn.net/article/details/1265471802、模拟量…

虚拟机内存不够用了?全流程操作Look一下?

虚拟机信息:操作系统:CentOS Linux 7 (Core),用的是VMware Workstation 16 Pro 版本16.2.3 build-19376536;我的主机 Windows 10 Education, 64-bit (Build 22000.1817) 10.0.22000 前言:虚拟机用久了就会出现内存不足…

Java知识点总结(二)

ID生成策略 主键自增id 主键自动增长,不用手工设值、数字型,占用空间小、检索非常有利、有顺序,不会重复,但在迁移旧数据是会出现id冲突 UUID 基于时间,计数器和地址生成32位的id redis生成id 原子性自增,并…

Python 关于函数的使用

一、学习目标 1.掌握函数定义和调用。 2.掌握函数形参与实参的使用。 3.熟练掌握lambda表达式使用。 二、相关练习 1.建立自定义函数实现计算圆的面积和球的体积。 def Count(radius):area 3.14*radius**2volume (4/3)*3.14*radius*…

C 判断

判断结构要求程序员指定一个或多个要评估或测试的条件,以及条件为真时要执行的语句(必需的)和条件为假时要执行的语句(可选的)。 C 语言把任何非零和非空的值假定为 true,把零或 null 假定为 false。 下面…

C语言快速入门之指针详解

一.指针基础 1.指针定义的理解 就像我们住房子划分房间一样,在系统中,内存会被划分为多个内存单元,一个内存单元大小是一个字节,我们在搜索房间时有门牌号,与之类似,每个内存单元都会有一个编号 地址 指…

UCSF DOCK 分子对接详细案例(05)- 遗传算法用于分子生成 DOCK_GA

欢迎浏览我的CSND博客! Blockbuater_drug …点击进入 文章目录 前言一、软件及操作环境二、遗传算法三、结构文件准备四、 DOCK_GA4.1 Fragment Library Generation4.2 运行 GA没有RDKit编译的情况RDKit编译的情况在服务器上运行 总结参考资料 前言 本文是UCSF DOC…

能源大数据采集,为您提供专业数据采集服务

随着经济的不断发展,能源产业也逐渐成为国民经济的支柱产业之一。而对于能源行业来说,数据采集是一项至关重要的工作。以往,能源企业采集数据主要依靠人工收集、整理,但是这种方式不仅效率低下,而且容易出现数据不准确…

Spring——Bean的作用域

bean的作用域 Bean Scope Scope说明singleton(默认情况下)为每个Spring IoC容器将单个Bean定义的Scope扩大到单个对象实例。prototype将单个Bean定义的Scope扩大到任何数量的对象实例。session将单个Bean定义的Scope扩大到一个HTTP Session 的生命周期…

Python 面向对象编程——类的使用

一、学习目标 1.掌握类的定义和实例化对象。 2.熟练掌握类的构造函数__init__使用。 3.掌握类的继承机制和使用。 二、相关练习 1、定义一个玩具类Toy(),创建名字为“小汽车”、“手枪”和“积木”的玩具实例,计…

qt cmake添加resource文件

文章目录 方式一:方式二:qrc的使用 两种方式 方式一: 创建一个qrc文件,在qt_add_executable 中直接添加 qt_add_executable(helloworldmain.cppimageresources.qrc )方式二: 使用 qt_add_resources qt_add_resources(helloworld "app_images"PREFIX &…

tomcat nginx 动静分离

实验目的:当访问静态资源的时候,nginx自己处理 当访问动态资源的时候,转给tomcat处理 第一步 关闭防火墙 关闭防护 代理服务器操作: 用yum安装nginx tomcat (centos 3)下载 跟tomcat(centos 4&#xff0…

循环队列:一道使数据结构萌新知道什么是“愁滋味“的题目

这破题目肝了我一天半才搞明白,也正是因为这道题目,我才豁然明白了李煜所说的"剪不断,理还乱...别是一般滋味在心头"到底是什么"滋味".在完全搞明白之前,真的是放有放不下,理也理不清... 但是理解之后你会发现,嘛い---,也就那么个回事嘛O(∩_∩)O 目录 1…

瑞_Redis_短信登录(一)

文章目录 项目介绍1 项目准备1.1 导入SQL1.2 导入后端项目1.2 导入前端项目 🙊 前言:本文章为瑞_系列专栏之《Redis》的实战篇的短信登录章节的项目准备小节。由于博主是从B站黑马程序员的《Redis》学习其相关知识,所以本系列专栏主要是针对该…

Tonka Finance,BTCFi 浪潮的发动机

在 2023 年年初,Ordinals 技术方案为比特币 Layer1 带来了一种全新的资产发行方式,此后一场以比特币生态为主战场的新一轮资金、注意力价值争夺战打响,并且越来越多的加密原教旨主义者、密码极客们加入这场战争中。我们看到,铭文市…