文件类型识别的实现思路

news2025/4/5 15:29:04

一些网络设备,比如防火墙或者审计系统,一般都有文件过滤的功能,可以对用户上网传输的文件进行过滤,比如可以限制用户通过ftp下载word文档,也就是文件类型为doc或者docx的文件。

那么文件过滤的功能是怎么实现呢?这里说一下大概的实现思路。

1、文件识别理论基础

首先,用户上网传输文件一般大都是经过传输层的tcp协议,了解tcp协议的同学应该知道,tcp报文一般不分片,而是使用分段,那么一个文件一般都很大,所以一个tcp分段报文是传输不完的,那么一个文件必然就会存在很多tcp分段报文中,所以在进行文件识别和过滤之前,需要先将文件的内容正确的还原出来,所以第一步涉及到tcp分段的重组,当然今天重点只是讲文件识别和过滤,tcp分段重组下次再单独讲。完成tcp分段重组,重组文件内容之后,我们需要先识别文件的类型,那么如何识别文件的类型呢?

这里我们还要注意一点,文件扩展名并不等同于文件类型,比如一个文件名为aaa.txt的文件,它的文件扩展名为txt,文件类型也为txt,但是如果我把文件名改完aaa.exe,那它的文件扩展名就变成了exe,但实际文件类型还是为txt,所以两者并不等同。我们在做文件过滤时,不是以文件扩展名来限制的,而是以文件类型。因为用户可以通过修改文件扩展名来逃避文件过滤检查。

那么我们到底怎么来识别一个文件的类型呢?其实就是通过文件的魔数,也叫file magic,也就是每个文件都带有自己的特征,这个特征我们直接用对应软件打开看不到,但是windows通过Notepad++(安装HEX-Editor插件)或者linux通过hexdump工具查看文件的二进制数就可以看到。比如我们通过Nodepad++查看一个PNG文件:

PNG的文件魔数就是文件头是以89 50 4E 47开头,以AE 42 60 82结尾,下面这张图列出了一些常见文件的魔数:

更多文件魔数见链接https://www.garykessler.net/library/file_sigs.html

知道了文件魔数,我们就可以根据文件魔数来进行文件识别了,然后将识别的文件类型与文件过滤策略的文件类型进行比较,就可以实现文件的过滤了。

当然如果文件过滤策略里面还涉及到了协议比如HTTP、FTP、SMB、SMTP等等,方向比如上传下载,那么还得识别用户具体是通过什么协议以及具体操作文件的动作,这有涉及到协议分析的内容了。

2、文件过滤编码实现方案

好了,有了上面的理论基础,现在我们来考虑一下具体编码的实现思路。

第一种方案,我们已经有了文件魔数表,可以自己根据tcp分段重组之后的文件内容来进行文件魔数匹配确定文件类型,然后再进行文件过滤策略匹配实现文件过滤功能。

第二种方案,我们还可以借助第三方开源库libmagic来实现,libmagic维护了一个文件魔数的数据库magic.mgc,并且提供了相应的API,我们只需要把要识别的文件内容或者文件名通过调用libmagic的API,它就可以告诉我们文件对应的文件类型描述,根据文件类型的描述与文件过滤策略进行匹配就可以实现文件过滤功能。这里只是说思路,ligmagic的具体使用后面咱们再细说。其实linux的file命令就用到了libmagic,我们用file命令查看一下PNG文件的文件类型描述:

另外,在suricata中实现filemagic规则的时候也用到了libmagic,不过感觉使用libmagic有一个麻烦的地方是,它的API返回的是文件类型描述信息,并且没有看到它有一个总的文件类型描述信息的列表,而且这个描述信息可能不同版本的libmagic库还不一样,导致与文件过滤策略匹配可能会存在不对应的情况,在suricata中也存在同样的问题(https://redmine.openinfosecfoundation.org/issues/437),另外个人感觉如果指定suricata中filemagic规则也不太好指定,例如

filemagic:"executable for MS Windows";

就是我如何知道我想过滤的文件类型的关键字是"executable for MS Windows",这个从哪里来? 这个问题还有待研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/667631.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023年计算机专业还值得无脑梭哈吗——计算机类专业在读一年学生个人分享

长忆观潮,满郭人争江上望。来疑沧海尽成空,万面鼓声中。 弄潮儿向涛头立,手把红旗旗不湿。别来几向梦中看,梦觉尚心寒。 IT 界每隔几年就有一波浪潮或者泡沫,新的一波大潮已经打过来了,躲?能跑多…

【计算机视觉】CVPR 23 新论文 | 异常检测最新改进方法:DeSTSeg

文章目录 一、导读二、背景2.1 主要贡献2.2 网络介绍:DeSTSeg 三、方法3.1 Synthetic Anomaly Generation 合成异常生成3.2 Denoising Student-Teacher Network 去噪教师学生网络3.3 Segmentation Network 分割网络 四、实验结果 一、导读 DeSTSeg: Segmentation G…

数字图像处理【10】直方图反向投影与模板匹配

本篇简单描述直方图在图像处理中典型的应用场景,属于是比较老旧的应用技术,但不妨拿出来再学习,温故而知新,为新知识做一个铺垫。 直方图反向投影(Back Projection) 还记得之前学习过的图像直方图的计算/…

Knowledge Distillation of Large Language Models

这是大模型系列模型的文章,针对《Knowledge Distillation of Large Language Models》的翻译。 大模型的知识蒸馏 摘要1 引言2 方法2.1 MiniLLM:利用逆向KLD进行知识蒸馏2.2 策略梯度优化2.3 训练算法 3 实验3.1 实验设置3.2 结果3.3 分析3.4 消融实验 …

源码编译安装LAMP——LAMP+DISCUZ论坛搭建

文章目录 一.Apache1.什么是apache2.apache的主要特点3.apache的软件版本4.编译安装优点5.安装服务的一般步骤 二.LAMP简介与概述1.LAMP平台概述2.构建LAMP平台顺序3.各组件的主要作用 三.LAMPDISCUZ论坛搭建1.部署Apache1.1 下载apache相关安装包放入服务器中1.2 解压apache的…

数学公式识别(Mathpix + pix2tex)

文章目录 数学公式识别(Mathpix pix2tex)1. 下载安装2. 如何使用3. 限制4. 替代品4.1 pix2tex - LaTeX OCR4.2 pix2tex(网页版)4.3 Simple Tex OCR 数学公式识别(Mathpix pix2tex) 当我们看论文时&#…

2023软件工程中各种图在现代企业级开发中的使用频率

概览 系统流程图 ✔ 数据流图 不常用 ER图 ✔ 状态转换图 ✔ Warnier图 不常用 IPO图 不常用 Petri网 不常用 层次方框图 不常用 层次图 a.k.a. H图 ✔ 1,层次图描绘软件的层次结构.层层次方框图描绘的是数据结构。 2,层次图的方框表示模块或子模块。层次方框图的方框表示数据结…

C++基础(12)——STL(vector和deque)

前言 本文主要介绍C中STL中的vector和deque容器 7.3:vector容器 7.3.1:vector容器基本概念、特点和构造函数 vector和数组的区别:数组是静态空间,一旦指定大小,之后就不能发生改变。vector可以动态扩展&#xff0c…

(秋招准备)三角化复习

用SVD分解继续宁特征点三角化 三角化又叫三角测量,本质是用相机的运动估计特征点的空间位置,发生在估计得到帧间运动之后(单目情况)。三角测量是指,通过在两处观察同一个点的夹角,确定该点的距离。由于双目本身就能得到视角不同的…

Java集合与数组概述

Java 集合可分为Collection 和Map 两种体系 实线是继承 虚线是实现类 1.Collection接口:单列数据,用来存储一个一个的对象。定义了存取一组对象的方法的集合 ​ List:元素有序、可重复的集合 -->(动态数组) ​ ----…

B2B2C多用户商城系统是怎么报价的?

买东西的时候,喜欢先问商品的价格,更不用说多用户商城系统的高成本了,现在有很多多用户商城系统,但是价格不一样。所以很多商家朋友都在问,开发一个多用户商城系统的价格是多少,下面jsudo小编一起来看看吧。…

【机器学习】树模型的三种序列化方式的区别(模型存储大小、序列化所用内存、序列化速度)

文章目录 一、导读二、模型运行例子三、运行内存计算四、保存和加载4.1 jsonpickle4.2 pickle4.3 模型自带 五、实验5.1 模型存储大小对比实验5.2 运行的memory对比实验 六、序列化时间对比七、源代码八、总结 一、导读 本文总结常用树模型: rf,xgboost…

【操作系统】进程概述

目录 1.进程的概念和定义 2.进程的特征 3.进程的状态 4.进程状态转换 5.进程的构成 5.1进程控制块(PCB) 5.1.1PCB的组织方式 5.2程序段 5.3数据段 6.如何控制进程 6.1进程的创建 6.2进程的终止 6.3进程的阻塞和唤醒 7.进程之间的通信手段 …

OceanBase—02(入门篇——使用obd安装OceanBase的几种方式)

OceanBase—02(入门篇——使用obd安装OceanBase的几种方式) 1. 一键部署1.1 下载并安装 all-in-one 安装包1.2 单机部署 OceanBase 数据库1.2.1 部署命令 1.3 使用 OBClient 客户端连接 OceanBase 数据库1.3.1 两种连接方式1.3.2 遇到的问题1.3.2.1 通过…

Allegro如何设置默认器件的高度信息操作指导

Allegro如何设置默认器件的高度信息操作指导 在给PCB设置限高的时候,一般会添加一个package keepout的铜皮,如下图 如果器件有高度信息,且没有超过限高要求,是不会有DRC报错的,如果器件没有高度信息,软件会默认给匹配一个高度信息,从而导致误报,如下图 可以看到默认的高…

Windows 查看端口占用情况 80端口被占用处理方法

一 . 用netstat指令查看是端口占用情况 查看所有端口的占用情况 C:\Users\Administrator>netstat -ano 活动连接协议 本地地址 外部地址 状态 PIDTCP 0.0.0.0:21 0.0.0.0:0 LISTENING 2228TCP 0.0.0.0:8…

【Leetcode60天带刷】day20二叉树—— 654.最大二叉树 , 617.合并二叉树 , 700.二叉搜索树中的搜索 , 98.验证二叉搜索树

题目: 530. 二叉搜索树的最小绝对差 给你一个二叉搜索树的根节点 root ,返回 树中任意两不同节点值之间的最小差值 。 差值是一个正数,其数值等于两值之差的绝对值。 示例 1: 输入:root [4,2,6,1,3] 输出&#xff1…

【工具使用】Gitee

怎么创建Gitee仓库 1. 进入Gitee官网 https://gitee.com/ 2. 没有账号先注册 https://gitee.com/signup?redirect_to_url%2F 3.创建仓库 参考操作页面 你的电脑上要安装git 4. 电脑安装Git 1. 进入git官网(官网下载方法-需要魔法工具) https://…

视觉SLAM十四讲——ch13代码祥读(设计SLAM系统)

视觉SLAM十四讲——ch13学习过程及代码祥读 0. 可以下载文件的网址1. 重读《视觉SLAM十四讲》ch13实践设计SLAM系统2. 主函数的阅读3. config配置文件4. visual_odometry.cpp视觉里程计文件5. frontend.cpp前端文件(重要文件1)6. backend.cpp后端文件&am…

【人工智能概论】 Python标准库——typing(类型标注)、 assert断言、 @property装饰器、setter装饰器

【人工智能概论】 Python标准库——typing(类型标注)、 assert断言、 property装饰器、setter装饰器 文章目录 【人工智能概论】 Python标准库——typing(类型标注)、 assert断言、 property装饰器、setter装饰器一. typing&#…