【爬虫基础】第一部分 网络通讯 P1/3

news2025/2/22 3:46:59

前言 

1.知识点碎片化:每个网站实现的技术相似但是有区别,要求我们根据不同的网站使用不同的应对手段。主要是常用的一些网站爬取技术。

2.学习难度:入门比web简单,但后期难度要比web难,在于爬虫工程师与网站开发及运维人员的对抗。比如你写了爬虫但是被网站运维人员发现后添加反爬,那么就要解决反爬。即平台更新换代,爬虫策略需要实时更新

3.学习特点:以摸个网站爬虫为讲解对象,即一个技术点的案例。

4.后续发展:要求掌握的东西多,工作中根据工作需要涉及到更多没有接触的知识。

5.法律层面:爬虫相关工作属于灰色地带,目前国内现行法律对于爬虫相关评判还没有明确制度。

6.建议:好记性不如烂笔头,建议多找网站进行爬取联系,同时做好笔记。


1 网络通信要素

1.1 什么是网络?

       网络‌是指将多个计算机或设备通过通信线路、传输协议和网络设备连接起来,形成一个相互通信和共享资源的系统。网络的基础定义包括多个节点通过某种方式相互连接而形成的系统,这些节点可以是计算机、服务器或其他电子设备。网络在计算机科学中特指将地理位置分散的多台计算机及其外部设备通过通信线路连接起来,实现资源共享和信息传递的系统。‌

1.2 学习网络的目的?

       更加深入的了解网络编程,掌握了网络才能在后面的爬虫发送请求阶段、及找出对应的反爬手段有自己的理解、自己的方法。  

2.IP地址

2.1.什么是IP地址?

IP地址是分配给网络设备上网使用的数字标签,它能解析网络中唯一的一台设备。

cmd 打开终端命令: ipconfig

2.2.IP地址的表现形式

‌IP地址主要有两种表现形式:IPv4 和 IPv6

IPv4 是目前使用的ip地址,IPv6 是未来使用的ip 地址。

IPv4是目前广泛使用的IP地址版本,采用点分十进制表示形式。一个IPv4地址由四个字节组成,每个字节的范围是0到255,字节之间用点(.)分隔。例如,常见的本地回环地址127.0.0.1。IPv4地址分为A、B、C、D、E五类,其中A、B、C类地址是最常用的:

  • A类地址‌:网络号占8位,主机号占24位,范围从1.0.0.0到126.255.255.255。
  • B类地址‌:网络号占16位,主机号占16位,范围从128.0.0.0到191.255.255.255。
  • C类地址‌:网络号占24位,主机号占8位,范围从192.0.0.0到223.255.255.255。

IPv6是为了解决IPv4地址枯竭而设计的下一代IP地址版本,采用冒号十六进制表示形式。一个IPv6地址由8组4字节的十六进制数组成,每组之间用冒号(:)分隔。例如,2001:0db8:85a3:0000:0000:8a2e:0370:7334。IPv6提供了更大的地址空间,理论上可以为地球上每一粒沙子分配一个唯一的IP地址。

2.3.IP地址的作用

通过IP地址找到网络中唯一的一台设备,然后就可以和该设备进行通信。

2.4.windows常用的几个cmd命令

        ipconfig:查看网卡信息
        ping ip/url地址: 检查是否能够上网
        dir 查看当前路径中有那些文件信息
        cls 清空终端信息
        cd 路径
            # .. 回到上一级目录
            # ./ 代表当前

1)ping baidu.com   检查是否能够上网 

2)ping 127.0.0.1  检查本地网卡是否正常

3)dir 查看当前路径中有那些文件信息

4)  cls 清空终端信息

3.端口

知识点:
    1.什么是端口?
    2.什么是端口号?
    3.知名端口号?
    4.动态端口号

3.1端口和端口号的介绍

       每运行一个程序都会有一个端口,想要给对应的程序发送数据,找到对应端口即可。相当于酒店的房间号。

       端口号:操作系统为了统一管理端口,就对端口进行了编号。端口号就是数字,好比房间号。端口号有65536个。

      最终通信流程,通过ip地址找到对应的设备,通过端口号 找到对应的端口,然后通过端口把数据给应用程序。 ip + port   如:127.0.0.1:8080

       

      端口是传输数据的通道,是数据传输的必经之路。

      端口号是用来管理区分不同端口的号码。

3.2 端口号的分类

    1)知名端口号:众所周知的端口号 0-1023,固定分配给一些服务,如21、22、80端口

    2)动态端口号:一般程序员开发应用程序使用的端口号,1024-65535,如果没指定则随机生成一个给开发的应用程序使用。

    当运行一个程序默认会有一个端口号,当该应用程序退出时,所占用的端口号会释放。

....下节开始进入编程。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2301572.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

车载音频配置(二)

目录 OEM 自定义的车载音频上下文 动态音频区配置 向前兼容性 Android 14 车载音频配置 在 Android 14 中,AAOS 引入了 OEM 插件服务,使你可以更主动地管理由车载音频服务监督的音频行为。 随着新的插件服务的引入,车载音频配置文件中添加了以下更改: • OEM 自定义的车…

级联选择器多选动态加载

一.级联展示 注:因为级联选择器这里是动态加载,因此如果上来选中一级就需要加载出后面三级的全部数据,依然会很卡,因此,和产品协商把一二级多选框去掉了,这样也避免了你选择一级不能实现子级被全部选中的问…

华为动态路由-OSPF-骨干区

华为动态路由-OSPF-骨干区 一、OSPF简介 1、OSPF概述 OSPF是一种开放式的、基于链路状态的内部网关协议(IGP),用于在自治系统内部进行路由选择和通信。 OSPF是互联网工程任务组(IETF)定义的标准之一,被广…

网络安全治理模型

0x02 知识点 安全的目标是提供 可用性 Avialability机密性 confidentiality完整性 Integrity真实性 Authenticity不可否认性 Nonrepudiation 安全治理是一个提供监督、问责和合规性的框架 信息安全系统 Information Security Management System ISMS 策略,工作程…

企业软件合规性管理:构建高效、安全的软件资产生态

引言 在数字化转型的浪潮下,企业的软件使用方式日益多元化,涉及云端、订阅制、永久授权及浮动许可等多种模式。然而,随着软件资产的增多,企业面临着合规性管理的严峻挑战:非法软件使用、许可证管理不当、软件资产闲置…

PyTorch 源码学习:阅读经验 代码结构

分享自己在学习 PyTorch 源码时阅读过的资料。本文重点关注阅读 PyTorch 源码的经验和 PyTorch 的代码结构。因为 PyTorch 不同版本的源码实现有所不同,所以笔者在整理资料时尽可能按版本号升序,版本号见标题前[]。最新版本的源码实现还请查看 PyTorch 仓…

vscode复制到下一行

linux中默认快捷键是ctrl shift alt down/up 但是在vscode中无法使用,应该是被其他的东西绑定了,经测试,可以使用windows下的快捷键shift alt down/up { “key”: “shiftaltdown”, “command”: “editor.action.copyLinesDownAction”…

Fastgpt学习(5)- FastGPT 私有化部署问题解决

1.☺ 问题描述: Windows系统,本地私有化部署,postgresql数据库镜像日志持续报错" data directory “/var/lib/postgresql/data” has invalid permissions ",“ DETAIL: Permissions should be urwx (0700) or urwx,gr…

【Linux AnolisOS】配置Linux固定ip地址。然后在Windows上连接使用linux中docker容器里的redis和nacos。

1.关于将虚拟机ip地址更改为静态地址 ,跟着下面这个视频搞的,不想看文章的可以看视频。 第四章-07-配置Linux固定IP地址哔哩哔哩bilibili 当用的centos9 视频里让我们打开网络配置文件 vim /etc/sysconfig/network-scripts/ifcfg-ens33 但是我打开时…

Linux应用之构建命令行解释器(bash进程)

目录 1.分析 2.打印输入提示符 3.读取并且处理输入字符串 4.创建子进程并切换 5.bash内部指令 6.完整代码 1.分析 当我们登录服务器的时候,命令行解释器就会自动加载出来。接下来我们就。在命令行中输入指令来达到我们想要的目的。 我们在命令行上输入的…

挪车小程序挪车二维码php+uniapp

一款基于FastAdminThinkPHP开发的匿名通知车主挪车微信小程序,采用匿名通话的方式,用户只能在有效期内拨打车主电话,过期失效,从而保护车主和用户隐私。提供微信小程序端和服务端源码,支持私有化部署。 更新日志 V1.0…

DockerDesktop更改默认的磁盘镜像地存储位置

DockerDesktop更改默认的磁盘镜像地存储位置 文章目录 DockerDesktop更改默认的磁盘镜像地存储位置1. 默认存储位置2. 新建一个目录3. 将磁盘镜像存储位置改为新建的目录下 1. 默认存储位置 2. 新建一个目录 如:D:\DiskImagelocationData 3. 将磁盘镜像存储位置改为…

GO语言的安装以及第一个Go语言程序

1. Go语言的安装与设置 官网:golang.org 国内下载:https://studygolang.com/dl 国内镜像:https://goproxy.cn/ 2. GOland的安装 Go 1.13 及以上(推荐) 打开你的终端并执行 $ go env -w GO111MODULEon $ go env -w GOPROXYhttps://goproxy.cn,direc…

SpringBoot速成(12)文章分类P15-P19

1.新增文章分类 1.Postman登录不上,可以从头registe->login一个新的成员:注意,跳转多个url时,post/get/patch记得修改成controller类中对应方法上写的 2.postman运行成功: 但表中不更新:细节有问题: c是…

(leetcode42 前缀后缀最值)接雨水

记忆化:打比方说前缀和 dp数组每个值代表了某一段计算过程 直接取值无需再计算就是记忆化 问题的核心思路 为了计算每个位置能接住多少水,我们需要知道在每个位置上方的水的容量。假设位置 i 是某个柱子的底部,要计算它能接多少水&#xff…

SpringBoot+uniApp日历备忘录小程序系统 附带详细运行指导视频

文章目录 一、项目演示二、项目介绍三、运行截图四、主要代码1.日历渲染代码:2.保存备忘录代码:3.删除备忘录代码: 一、项目演示 项目演示地址: 视频地址 二、项目介绍 项目描述:这是一个基于SpringBootuniApp框架开…

分类预测 | MFO-LSSVM飞蛾扑火算法优化最小二乘支持向量机多特征分类预测Matlab实现

分类预测 | MFO-LSSVM飞蛾扑火算法优化最小二乘支持向量机多特征分类预测Matlab实现 目录 分类预测 | MFO-LSSVM飞蛾扑火算法优化最小二乘支持向量机多特征分类预测Matlab实现分类效果基本介绍程序设计参考资料 分类效果 基本介绍 1.Matlab实现MFO-LSSVM飞蛾扑火算法优化最小二…

Redis未授权访问漏洞原理

redis未授权访问漏洞 目录 redis未授权访问漏洞一、Redis介绍二、redis环境安装三、漏洞原理四、漏洞复现4.1 webshell提权4.2redis写入计划任务反弹shell4.3 ssh key免密登录4.4 Redis基于主从复制的RCE方式 五、Redis加固建议 一、Redis介绍 Redis,全称为Remote …

喜报!博睿数据案例获经观传媒“2024年度数字转型创新案例”!

本文已在“经观”APP中发表,点击下方文章链接查看原文: 2024科技创变纪:创新破局 变量启新 近日,经济观察报“2024年度卓越创新实践案例”榜单评选结果正式公布。博睿数据选送的案例“从零到一:可观测体系建设的探索…

【从0做项目】Java搜索引擎(4)——性能优化~烧脑~~~

本篇文章将对项目搜索引擎(1)~(3)进行性能优化,包括测试,优化思路,优化前后对比 目录 一:文件读取 二:实现多线程制作索引 1:代码分析 2:代码…