http的文件上传和下载原理

news2025/1/12 3:03:21

目录

一:上传

1:http请求格式

2:文件上传类型分析

1:md5秒传

2:分片上传

1. 什么是分片上传

2. 分片上传的场景

3:断点续传

1. 什么是断点续传

2. 应用场景

3. 实现断点续传的核心逻辑

4. 实现流程步骤

二:下载原理

1:获取文件大小

2:文件下载


一:上传

1:http请求格式

        文件上传的是根据 http 协议的规范和定义,完成请求消息体的封装和消息体的解析,然后将二进制内容保存到文件。在上传一个文件时,需要把 form 标签的enctype设置为multipart/form-data,同时method必须为post 方法。

        请求头(注意这里的请求头并不是指http header): Content-Type: multipart/form-data; boundary=----WebKitFormBoundaryDCntfiXcSkPhS4PN 表示本 次请求要上传文件,其中 boundary 表示分隔符,如果要上传多个表单项,就要使用 boundary 分割, 每个表单项由———XXX 开始,以———XXX 结尾。

        消息体- Form Data 部分 每一个表单项又由Content-Type和Content-Disposition组成。 Content-Disposition: form-data 为固定值,表示一个表单元素,name 表示表单元素的 名称,回车换 行后面就是name的值,如果是上传文件就是文件的二进制内容。 Content-Type:表示当前的内容的 MIME 类型,是图片还是文本还是二进制数据。

        客户端发送请求到服务器后,服务器会收到请求的消息体,然后对消息体进行解析,解析出哪是普通表单哪些是附件。

2:文件上传类型分析

1:md5秒传

        通俗的说,你把要上传的东西上传,服务器会先做MD5校验,如果服务器上有一样的东西,它就直接给你个新地址,其实你下载的都是服务器上的同一个文件,想要不秒传,其实只要让MD5改变,就是对文件本身做一下修改(改名字不行),例如一个文本文件,你多加几个字,MD5就变了,就不会秒传了.

        秒传核心逻辑 :a、利用redis的set方法存放文件上传状态,其中key为文件上传的md5,value为是否上传完成的标志 位, b、当标志位true为上传已经完成,此时如果有相同文件上传,则进入秒传逻辑。如果标志位为false, 则说明还没上传完成,此时需要在调用set的方法,保存块号文件记录的路径,其中key为上传文件md5 加一个固定前缀,value为块号文件记录路径

2:分片上传

1. 什么是分片上传

分片上传,就是将所要上传的文件,按照一定的大小,将整个文件分隔成多个数据块(我们称之为 Part)来进行分别上传,上传完之后再由服务端对所有上传的文件进行汇总整合成原始的文件。

2. 分片上传的场景

1. 大文件上传

2. 网络环境环境不好,存在需要重传风险的场景

3.大文件上传

        大文件上传一般采用分片上传的方式,这样可以提高文件上传的速度,前端拿到文件流后进行分片,然 后与后端进行通讯传输,一般还会结合断点继传,这时后端一般提供三个接口: 第一个接口获取已经上传的分片信息 第二个接口将前端分片文件进行传输 第三个接口是将所有分片上传完成后告诉后端进行文件合并。

3:断点续传

1. 什么是断点续传

        断点续传是在下载或上传时,将下载或上传任务(一个文件或一个压缩包)人为的划分为几个部分,每 一个部分采用一个线程进行上传或下载,如果碰到网络故障,可以从已经上传或下载的部分开始继续上 传或者下载未完成的部分,而没有必要从头开始上传或者下载。

2. 应用场景

        断点续传可以看成是分片上传的一个衍生,因此可以使用分片上传的场景,都可以使用断点续传。

3. 实现断点续传的核心逻辑

        在分片上传的过程中,如果因为系统崩溃或者网络中断等异常因素导致上传中断,这时候客户端需要记录上传的进度。在之后支持再次上传时,可以继续从上次上传中断的地方进行继续上传。 为了避免客户端在上传之后的进度数据被删除而导致重新开始从头上传的问题,服务端也可以提供相应 的接口便于客户端对已经上传的分片数据进行查询,从而使客户端知道已经上传的分片数据,从而从下 一个分片数据开始继续上传。

4. 实现流程步骤

a、方案一,常规步骤

将需要上传的文件按照一定的分割规则,分割成相同大小的数据块;

初始化一个分片上传任务,返回本次分片上传唯一标识;

按照一定的策略(串行或并行)发送各个分片数据块;

发送完成后,服务端根据判断数据上传是否完整,如果完整,则进行数据块合成得到原始文件。

b、方案二、实现的步骤

        前端(客户端)需要根据固定大小对文件进行分片,请求后端(服务端)时要带上分片序号和大小;

        服务端创建conf文件用来记录分块位置,conf文件长度为总分片数,每上传一个分块即向conf文件 中写入一个127,那么没上传的位置就是默认的0,已上传的就是Byte.MAX_VALUE 127(这步是实 现断点续传和秒传的核心步骤);

        服务器按照请求数据中给的分片序号和每片分块大小(分片大小是固定且一样的)算出开始位置, 与读取到的文件片段数据,写入文件。

二:下载原理

1:获取文件大小

在具体的HTTP交互中,客户端是如何获取消息长度的呢?

主要基于以下几个规则:

响应为1xx,204,304相应或者head请求,则直接忽视掉消息实体内容。

如果有Transfer-Encoding,则优先采用Transfer-Encoding里面的方法来找到对应的长度。比如说 Chunked模式。

“如果head中有Content-Length,那么这个Content-Length既表示实体长度,又表示传输长度。如果实体长度和传输长度不相等(比如说设置了Transfer-Encoding),那么则不能设置Content Length。如果设置了Transfer-Encoding,那么Content-Length将被忽视”。其实关键就一点:有了Transfer-Encoding,则不能有Content-Length。

通过服务器关闭连接能确定消息的传输长度。(请求端不能通过关闭连接来指明请求消息体的结束, 因为这样可以让服务器没有机会继续给予响应)。这种情况主要对应为短连接,即非keep-alive模 式。

HTTP1.1必须支持chunk模式。因为当不确定消息长度的时候,可以通过chunk机制来处理这种情况。

在包含消息内容的header中,如果有content-length字段,那么该字段对应的值必须完全和消息主 题里面的长度匹配。

其实后面几条几乎可以忽视,简单总结后如下:

1、Content-Length如果存在并且有效的话,则必须和消息内容的传输长度完全一致。(经过测试,如果 过短则会截断,过长则会导致超时。)

2、如果存在Transfer-Encoding(重点是chunked),则在header中不能有Content-Length,有也会被忽视。

3、如果采用短连接,则直接可以通过服务器关闭连接来确定消息的传输长度。(这个很容易懂) 结合HTTP协议其他的特点,比如说Http1.1之前的不支持keep alive。

那么可以得出以下结论:

1、在Http 1.0及之前版本中,content-length字段可有可无。

2、在http1.1及之后版本。如果是keep alive,则content-length和chunk必然是二选一。若是非keep alive,则和http1.0一样。content-length可有可无。

2:文件下载

对于HTTP协议,向服务器请求某个文件时,只要发送类似如下的请求即可:

 GET /Path/FileName HTTP/1.0
 Host: www.baidu.com:80
 Accept: */*
 User-Agent: GeneralDownloadApplication
 Connection: close

第一行中的GET是HTTP协议支持的方法之一,方法名是大小写敏感的。每行用一个“回车换行”分隔,末尾再追加一个“回车换行”作为整个请求的结束。

除第一行以外,其余行都是HTTP头的字段部分。Host字段表示主机名和端口号,如果端口号是默认的 80则可以不写。Accept字段中的/表示接收任何类型的数据。User-Agent表示用户代理,这个字段可有可无,但强烈建议加上,因为它是服务器统计、追踪以及识别客户端的依据。Connection字段中的 close表示使用非持久连接。

如果服务器成功收到该请求,并且没有出现任何错误,则会返回类似下面的数据:

 HTTP/1.0 200 OK
 Content-Length: 13057672
 Content-Type: application/octet-stream
 Last-Modified: Wed, 10 Oct 2005 00:56:34 GMT
 Accept-Ranges: bytes
 ETag: "2f38a6cac7cec51:160c"
 Server: Microsoft-IIS/6.0
 X-Powered-By: ASP.NET
 Date: Wed, 16 Nov 2005 01:57:54 GMT
 Connection: close

        第一行是协议名称及版本号,空格后面会有一个三位数的数字,是HTTP协议的响应状态码,200表示成 功,OK是对状态码的简短文字描述。状态码共有5类: 1xx属于通知类; 2xx属于成功类; 3xx属于重定向类; 4xx属于客户端错误类; 5xx属于服务端错误类。

        对于状态码,相信大家对404应该很熟悉,如果向一个服务器请求一个不存在的文件,就会得到该错误,通常浏览器也会显示类似“HTTP 404 - 未找到文件”这样的错误。

        第二行Content-Length字段是一个比较重要的字段,它标明了服务器返回数据的长度,这个长度是不包 含HTTP头长度的。换句话说,我们的请求中并没有Range字段(后面会说到),表示我们请求的是整个文件,所以Content-Length就是整个文件的大小。

        其余各字段是一些关于文件和服务器的属性信息。 这段返回数据同样是以最后一行的结束标志(回车换行)和一个额外的回车换行作为结束,即 “\r\n\r\n”。而“\r\n\r\n”后面紧接的就是文件的内容了,这样我们就可以找到“\r\n\r\n”,并从它后面的 第一个字节开始,源源不断的读取,再写到文件中了。

        以上就是通过HTTP协议实现文件下载的全过程。但还不能实现断点续传,而实际上断点续传的实现非常简单,只要在请求中加一个Range字段就可以了。

        假如一个文件有1000个字节,那么其范围就是0-999,则: Range: bytes=500- 表示读取该文件的500-999字节,共500字节。 Range: bytes=500-599 表示读取该文件的500-599字节,共100字节。 如果HTTP请求中包含Range字段,那么服务器会返回206(Partial Content),同时HTTP头中也会有一 个相应的Content-Range字段,类似下面的格式: Content-Range: bytes 500-999/1000 Content-Range字段说明服务器返回了文件的某个范围及文件的总长度。这时Content-Length字段就不是整个文件的大小了,而是对应文件这个范围的字节数,这一点一定要注意。

0voice · GitHub

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2249987.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【计算机视觉】图像基本操作

1. 数字图像表示 一幅尺寸为MN的图像可以用矩阵表示,每个矩阵元素代表一个像素,元素的值代表这个位置图像的亮度;其中,彩色图像使用3维矩阵MN3表示;对于图像显示来说,一般使用无符号8位整数来表示图像亮度&…

VSCode 下载 安装

VSCode【下载】【安装】【汉化】【配置C环境(超快)】(Windows环境)-CSDN博客 Download Visual Studio Code - Mac, Linux, Windowshttps://code.visualstudio.com/Downloadhttps://code.visualstudio.com/Download 注意&#xff0…

【Python入门】Python数据类型

文章一览 前言一、变量1.1.如何使用变量1.2.如何定义变量的名字(标识符) 二、数据类型2.1 整型数据2.2 浮点型数据2.3 布尔型(bool)数据2.4 复数型数据2.5 字符串类型1 > 字符串相加(合并)(&…

算法基础 - 高斯牛顿法(曲线拟合)

文章目录 1. 高斯牛顿法发展历程2、问题的引出3、高斯牛顿法的前世3.1、一阶,二阶梯度法共有原理3.2、最速下降法(一阶梯度法)3.3、牛顿法(二阶梯度法) 4、高斯牛顿法4.1 高斯牛顿法的思想4.2 最小二乘问题4.3 高斯牛顿…

Vue+Element Plus实现自定义表单弹窗

目录 一、基本框架 1.父组件index.vue 2.子组件FormPop.vue 二、细节补充 1)input、textarea、select、input number 2)daterange、date、monthrange 3)数据定义 4)没改样式的效果 5)最终效果 三、最终代码 …

VMware Workstation Pro下载安装及简单设置

VMware Workstation Pro下载 方法一:官网下载 https://support.broadcom.com/group/ecx/productdownloads?subfamilyVMwareWorkstationPro账号请自行注册,选择最新版本17.6.1 下载后用md5sum_x64.exe验证下载的文件完整性 方法二 百度网盘 通过网…

ospf协议(动态路由协议)

ospf基本概念 定义 OSPF 是典型的链路状态路由协议,是目前业内使用非常广泛的 IGP 协议之一。 目前针对 IPv4 协议使用的是 OSPF Version 2 ( RFC2328 );针对 IPv6 协议使用 OSPF Version 3 ( RFC2740 )。…

数据结构之循环链表和栈

一、循环链表 1、概念 循环链表:就是首尾相连的链表,通过任意一个节点,都能将整个链表遍历一遍 分类:单向循环链表、双向循环链表 2、单向循环链表的类格式 单向循环链表也就是单向链表的最后一个节点的next域不再为None,而是…

linux安装部署mysql资料

安装虚拟机 等待检查完成 选择中文 软件选择 网络和主机名 开始安装 设置root密码 ADH-password 创建用户 等待安装完成 重启 接受许可证 Centos 7 64安装完成 安装mysql开始 Putty连接指定服务器 在 opt目录下新建download目录 将mysql文件传到该目录下 查看linux服务器的…

HTML 霓虹灯开关效果

HTML 霓虹灯开关效果 1.简介&#xff1a;该代码为纯html&#xff0c;CSS写在了内部&#xff0c;不需要额外引入&#xff0c;霓虹灯开关效果很漂亮&#xff0c;应用在个人物联网项目中是一个比较不错的选择。 2.运行效果&#xff1a; 3.源码&#xff1a; <!DOCTYPE html&g…

uniapp开发支付宝小程序自定义tabbar样式异常

解决方案&#xff1a; 这个问题应该是支付宝基础库的问题&#xff0c;除了依赖于官方更新之外&#xff0c;开发者可以利用《自定义 tabBar》曲线救国 也就是创建一个空内容的自定义tabBar&#xff0c;这样即使 tabBar 被渲染出来&#xff0c;但从视觉上也不会有问题 1.官方文…

24/11/26 视觉笔记 通过特征提取和透视变换查找对象

在本节中我们将检测和跟踪任意大小的对象&#xff0c;这些对象可能是在不同角度或者在部分遮挡的情况下观察到的。 为此我们将运用特征描述子&#xff08;Feature Descriptor&#xff09;&#xff0c;这是捕获感兴趣对象的重要属性的一种方式。我们这样是为了即使将对象嵌入繁…

【单片机毕业设计12-基于stm32c8t6的智能称重系统设计】

【单片机毕业设计12-基于stm32c8t6的智能称重系统设计】 前言一、功能介绍二、硬件部分三、软件部分总结 前言 &#x1f525;这里是小殷学长&#xff0c;单片机毕业设计篇12-基于stm32c8t6的智能称重系统设计 &#x1f9ff;创作不易&#xff0c;拒绝白嫖可私 一、功能介绍 ----…

ubuntu中使用ffmpeg和nginx推http hls视频流

视频流除了rtmp、rtsp&#xff0c;还有一种是http的hls流&#xff0c;使用http协议传输hls格式的视频数据。 nginx支持推送hls视频流&#xff0c;使用的是rtmp模块&#xff0c;即rtmp流推送成功了&#xff0c;hls流也没问题。怎么推送rtmp流&#xff0c;请参考我的文章&#x…

5.2.机器学习--岭回归+局部线性回归

目录 1.岭回归 1.1代码示例 2.局部线性回归 2.1代码示例 1.最小二乘法&#xff1a; 平面几何表达直线(两个系数): 重新命名变量: 强行加一个x01&#xff1a; 向量表达&#xff1a; 2.损失函数&#xff1a; 矩阵表达&#xff1a; 矩阵展开&#xff1a; 推导&#xff1a; …

nvidia-container-toolkit安装问题(OpenPGP)

1.正常情况下 apt-get install -y nvidia-container-toolkit2.使用nvidia源 nvidia-container-toolkit官网有安装教程 2.1 配置生产存储库 curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-containe…

电脑上的ip地址可以改吗?如何改变ip地址

在现代网络环境中&#xff0c;IP地址作为设备在网络中的唯一标识&#xff0c;扮演着至关重要的角色。无论是日常上网冲浪&#xff0c;还是进行专业的网络操作&#xff0c;IP地址都与我们息息相关。那么&#xff0c;电脑上的IP地址可以改吗&#xff1f;答案是肯定的。接下来&…

org.apache.log4j的日志记录级别和基础使用Demo

org.apache.log4j的日志记录级别和基础使用Demo&#xff0c;本次案例展示&#xff0c;使用是的maven项目&#xff0c;搭建的一个简单的爬虫案例。里面采用了大家熟悉的日志记录插件&#xff0c;log4j。来自apache公司的开源插件。 package com.qian.test;import org.apache.log…

PHP 生成分享海报

因为用户端有多个平台&#xff0c;如果做分享海报生成&#xff0c;需要三端都来做&#xff0c;工作量比较大。 所以这个艰巨的任务就光荣的交给后端了。经过一定时间的研究和调试&#xff0c;最终圆满完成了任务&#xff0c;生成分享海报图片实现笔记如下。 目录 准备字体文件…

ASP.NET Core 入门

使用 .NET CLI 创建并运行 ASP.NET Core Web 应用。 文章目录 一、先决条件二、创建Web应用项目三、运行应用四、编辑Razor页面 一、先决条件 .NET 8.0 SDK 二、创建Web应用项目 打开命令行界面&#xff0c;然后输入以下命令&#xff1a; dotnet new webapp --output aspne…