新质生产力人工智能+系列5-智能业务识别研究(含任务、数据、算力资源)

news2025/1/13 10:07:17

 在新质生产力高质量发展的要求下,中国移动在“人工智能+”和 “数据要素X”方面不断发力,持续发布高质量电信数据集。围绕网元智能、运维智能、服务智能三大方向建设,涵盖无线信道、基站、云网、核心网、哑资源等多领域,支持感知、诊断、预测、决策、大模型等多类网络AI能力研发的标志性数据集。相关数据集均由智慧网络开放创新平台承载。

中国移动 - 智慧网络新一代人工智能开放创新平台https://jiutian.10086.cn/open/

智能业务识别_HTTP

https://jiutian.10086.cn/open/#/dataset/710023icon-default.png?t=N7T8https://jiutian.10086.cn/open/#/dataset/710023

拨测 40+ 种指定业务,捕获并保存 HTTP 流量为 Pcap 文件,使用 Wireshark 解析出原始码流并构建数据集。

背景介绍

随着互联网技术的发展及企业数字化转型的加速推进,网络应用和服务正变得越来越多样化,这对网络安全防护提出了更高的要求。为了确保企业的核心资产和用户数据安全,业务识别已成为现代网络安全体系中的重要组成部分。传统的网络监控手段往往依赖于固定的规则和模式匹配,难以有效应对不断变化的威胁形势以及日益复杂的业务场景,对于未加密的 HTTP 流量而言,这些挑战尤为显著。
HTTP(超文本传输协议)是互联网上应用最为广泛的一种网络协议,用于从 WWW 服务器传输超文本到本地浏览器。HTTP 通信是明文传输,这让研究者能够更有效地识别各种业务类型和服务,从而更好地助力网络资源管理和用户隐私保护。

数据来源

本数据已获得 DOI 认证,科学数据 DOI 编号:10.12448/3si6-z716

使用测试终端对指定业务列表中的几十种业务进行拨测。测试过程中,逐一运行每项指定业务,在此期间关闭所有其他业务的网络使用权限,以确保捕获到的数据包仅包含被测业务的信息。在完成每项业务的测试后,保存所产生的 Pcap 包,并利用 Wireshark 工具从中解析出原始码流信息。

数据文件说明

点击“开始训练”进入毕昇平台创建实例,数据在 jupyter 中的存储路径为:/root/开放创新平台数据任务:智能业务识别-HTTP。数据集文件名称为 智能业务识别_HTTP数据集.csv。

关联子集:作为系列数据集的一部分,智能业务识别_HTTP 与另外一个数据集互为补充。请继续关注:
  子集二:智能业务识别_HTTPS

样例数据说明

1. 业务数据

数据提供 8 个字段,含义和格式如下表:

字段名格式含义
protocolstr协议
hex_src_ipstr16 进制源 IP
hex_dst_ipstr16 进制目的 IP
src_portint源端口号
dst_portint目的端口号
hoststr域名系统中的主机
payloadstr数据包中携带的有效数据
labelstr业务类别标注

具体样例如下:
protocolhex_src_iphex_dst_ipsrc_portdst_porthostpayloadlabel
ipv40a010a01b7e8198741920443ali-stats.jpush.cn1603010200010001fc0303f64……com.shuqi.controller
ipv40a010a016f13856946128443d.ifengimg.com1603010200010001fc0303db8……com.ifeng.news2
ipv40a010a01dacb75f940004443bossaudioandcomic-1252317822.file.myqcloud.com1603010200010001fc0303800……com.qidian.QDReader
ipv40a010a016f2cfdda4778680img.elongstatic.com474554202f656c6f6e6761707……com.dp.android.elong
ipv40a010a016f2931c149830443s10.mogucdn.com1603010200010001fc0303bb7……com.mogujie
…………………………………………

数据分析

数据集共包含 45 种不同业务,其中数量排名 Top10 的业务及其数量如下所示:

业务类型数量业务类型数量
com.qiyi.video1447com.achievo.vipshop575
com.tyyd.video1433cn.wps.moffice_eng573
com.kugou.android974com.mogujie435
com.cmcc.cmvideo698com.quark.browser433
com.huaxiaozhu.rider643com.shuqi.controller431

计算 hex_src_ip、hex_dst_ip、src_port、dst_port 和 host 特征与 label 间的皮尔逊相关系数,并将这些相关性系数表示为热图:

代码示例

对于 HTTP 业务中的 payload 数据,可以使用 Python 中的 binascii 库将 16 进制字符串转换为明文,然后使用自然语言处理(NLP)技术对其进行分析。16 进制字符串转换为明文的示例代码如下:

def hex_to_text(hex_string):
    # 将 16 进制字符串转换为字节序列
    byte_sequence = binascii.unhexlify(hex_string)
    # 尝试将字节序列解码为 UTF-8 文本
    try:
        text = byte_sequence.decode('utf-8')
    except UnicodeDecodeError:
        # 如果解码失败,可能是因为文本不是 UTF-8 编码,可选择其他编码尝试解码
        text = byte_sequence
    return text

hex_string = "474554202f61642f696d70726573733f696d707265737349643d66636465613836642d666132652d343965302d6166……"  # 省略……之后的字符串
text = hex_to_text(hex_string)
print(text)

打印结果如下:

GET /ad/impress?impressId=fcdea86d-fa2e-49e0-af54-5146116c28d8-1640918926145&zHash=H4sIAAAAAAAAAGVRwW7DIAz9F5%2BzCAJpk9wm7TJph0nbbr0QcFe0BCJGsnZV%2F32GVJ2mCQn5PZvnZ3OG0RscoIMn0R6gADVN1hD8PvVrWID2LqKLj4ne8kYK0TaSeDxGYs47wBB82EEXw4yXpDHHw01kjYk0b85mkbZteAH97MyAVKT9WOpRa7oWa9BT7fFuCj567Ye7BQPV8JIlIyoEm7HcMCaIMavZXvatrDmKPcda1hvKfFnnMDygGu5HP7v4epqoGSvAk4SLKlrvVvxJAsqZ4LPNdzLQnS%2BJX1Kjkg7RdkRLUNS8aoVkomlZI5vkIBv4zx%2Bg45WkOe1E%2BaoSJWckJcs6mYNuW1FvWjB0glFk5nC1BLxm7M8AefHrPzjUqSrmYaoCZrWmDC5W4y892%2BubUX2kHb94d7ppPg8q%2FwNnjDVkcJ9FLj%2Bt5T6DCwIAAA%3D%3D&traceId=838572d0-a703-418b-ba60-e4a95090871b&type=4&time=&direct=1&activityId=16501&mediaBuyId=119319&targetType=0&creativeId=105633&acFrequencyKey=dirAdacf_351293403890848_16501__19039&sdl=1 HTTP/1.1
Host: ggicaqz.miguvideo.com
Connection: keep-alive
User-Agent: Mozilla/5.0 (Linux; Android 10; NX659J Build/QKQ1.200405.002; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/80.0.3987.99 Mobile Safari/537.36
Accept: image/webp,image/apng,image/*,*/*;q=0.8
X-Requested-With: com.cmcc.cmvideo
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7
Cookie: userInfo=%7B%22userId%22%3A%22750854220%22%2C%22userToken%22%3A%22nlps60C4238B1F0D358AEFF0%22%2C%22clientId%22%3A%2227fb3129-5a54-45bc-8af1-7dc8f1155501%22%2C%22sname%22%3A%22151****5723%22%2C%22mobile%22%3A%2215101085723%22%2C%22picture%22%3A%22http%3A%2F%2Fimg.cmvideo.cn%3A8080%2Fpublish%2Fvoms2%2Fuic_service%2Fpicture%2FuserImage%2F54

数据引用指南

如果您在研究中使用了本数据集,请按照如下方式引用:

@misc{ChinaMobile_IntelligentBusinessIdentification_2024,
  title = {智能业务识别},
  year = {2024},
  submitted by = {中国移动},
  publisher = {中国移动},
  doi = {10.12448/3si6-z716},
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2104928.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

护工系统|护工陪护系统|护工小程序

在医疗服务行业日新月异的今天,陪护机构正乘着数字化转型的东风,扬帆远航,其中,护工系统的引入无疑为其插上了一对强劲的翅膀,引领着行业向更加高效、精细化的方向迈进。这一系统不仅是对传统陪护模式的深刻重塑&#…

oracle物理存储结构文件详解

文章目录 oracle物理文件结构图① 控制文件:② 数据文件:③ 联机Redo日志文件:④ 参数文件:⑤ 归档文件:⑥ 密码文件: oracle物理文件结构图 Oracle数据库的物理结构由控制文件(Control f…

硬件工程师笔试面试知识器件篇——电容

目录 电容 2.1、基础 电容原理图 电容实物图 2.1.1、定义 2.1.2、原理 2.1.3、电容的类型 分类1: 分类2: 2.1.4、电容的应用 2.2、相关问题 2.2.1、电容器的电容值如何测量 2.2.2、不同类型的电容器在实际应用中有那些具体差异 2.2.3、如何选择合适的电容器来满…

OrangePi AIpro 香橙派 昇腾 Ascend C 算子开发 与 调用 - Tiling实现 2

OrangePi AIpro 香橙派 昇腾 Ascend C 算子开发 与 调用 - Tiling实现 2 flyfish 前置知识 1 前置知识 2 Host侧CPU和Device侧NPU的主要区别 不同的硬件资源 CPU是为了执行通用计算任务而设计的,但在处理大量的并行计算(如矩阵乘、批数据处理&#…

智能优化算法-北方苍鹰优化算法(NGO)(附源码)

目录 1.内容介绍 2.部分代码 3.实验结果 4.内容获取 1.内容介绍 北方苍鹰优化算法 (Northern Goshawk Optimizer, NGO) 是一种基于群体智能的元启发式优化算法,它模拟了北方苍鹰(Northern Goshawk)的捕食行为、领地行为以及社交互动&#x…

input系统之InputDispatcher

往期文章: Input系统之IMS的启动流程 input系统之InputReader 1.概述 InputReader和InputDispatcher是Input系统的重要组成部分,InputReader主要负责从设备节点获取原始输入事件,并将封装好的事件交给InputDispatcher;InputDis…

数据库 | 子查询 | sql执行顺序 | mysql是否运行

1.系统(客户端)访问 MySQL 服务器前,做 的第一件事就是建立 TCP 连接。 Caches & Buffers: 查询缓存组件SQL Interface: SQL接口 接收用户的SQL命 令,并且返回用户需要查询的结果。比如 SELECT … FROM就是调用SQ…

防止goroutine崩溃导致主进程崩溃

在Go语言中,当一个goroutine发生异常时,它会直接退出,并不会影响其他goroutine或者主进程。Go语言的设计哲学是“不要通过共享内存来通信,而应该通过通信来共享内存”。这就意味着,goroutine之间的协作通常是通过chann…

Azure AI Search 中的二进制量化:优化存储和加快搜索速度

随着组织继续利用生成式 AI 的强大功能来构建检索增强生成 (RAG) 应用程序和代理,对高效、高性能和可扩展解决方案的需求从未如此强烈。 今天,我们很高兴推出二进制量化,这项新功能可将向量大小减少高达 96%,同时将搜索延迟减少高…

2024.9.4 作业

自己实现栈和队列的全类型 代码&#xff1a; /*******************************************/ 文件名&#xff1a;sq.h /*******************************************/ #ifndef SQ_H #define SQ_H #include <iostream> #include <stdexcept> using namespace…

文档一键生成组织架构图,这款在线AI工具让你事半功倍!

在呈现公司组织架构或部门层级时&#xff0c;经常会用到组织架构图&#xff0c;组织架构图是一种直观的可视化工具&#xff0c;用于展示一个组织内部的层级结构和各部门之间的关系。 在制作组织架构图时&#xff0c;如果拿到的是清晰的人员关系&#xff0c;绘制起来还比较简单…

LeetCode 热题100-64 搜索二维矩阵

搜索二维矩阵 给你一个满足下述两条属性的 m x n 整数矩阵&#xff1a; 每行中的整数从左到右按非严格递增顺序排列。每行的第一个整数大于前一行的最后一个整数。 给你一个整数 target &#xff0c;如果 target 在矩阵中&#xff0c;返回 true &#xff1b;否则&#xff0c…

访问Swagger:java.lang.NumberFormatException: For input string: ““

你们好&#xff0c;我是金金金。 场景 启动项目&#xff0c;接着访问Swagger 依赖版本如下&#xff1a;1.5.20 查看控制台输出&#xff1a;报错如下 排查 首先看报错&#xff1a;For input string: “”&#xff1a;这个错误表明程序尝试将一个空字符串&#xff08;“”&#x…

JavaWeb JavaScript 9.正则表达式

生命的价值在于你能够镇静而又激动的欣赏这过程的美丽与悲壮 —— 24.8.31 一、正则表达式简介 正则表达式是描述字符模式的对象。正则表达式用简单的API对字符串模式匹配及检索替换&#xff0c;是对字符串执行模式匹配的强大工具。 1.语法 var pattnew RegExp(pattern,modi…

【qt踩坑】路径含中文导致的报错,以及 OpenGL的链接报错

​ 背景 本来是准备采用VSQt插件的方式来开发Qt的&#xff0c;但是学习过程中发现&#xff0c;这种模式还是没有直接用Qt Creator 开发来的方便&#xff0c;插件这种模式坑多&#xff0c;功能不完善。 不过在直接使用Qt Creator的时候也踩坑了&#xff1a; (最后发现&#x…

【达梦】“6103无效的时间类型值”解决办法

场景 使用DM数据迁移工具将excel文件里的数据导入到达梦数据库里。提示“无效的时间类型值”。 尝试 一看就是createTime等跟时间相关的字段出问题了。createTime在库里的数据类型为timeStamp。 尝试1&#xff1a;修改excel里此字段的类型&#xff0c;依旧报错。此方案失败。…

单向链表与双向链表

当使用单向链表查看链表中某个节点的数据&#xff0c;可以使用快慢指针法 快慢指针&#xff1a; 快慢指针是一种在链表和数组中常用的算法技巧&#xff0c;主要用于解决链表或数组中的问题&#xff0c;如检测环 存在、找到环的入口、计算链表的中点等。快慢指针的核心思想是…

【数学建模备赛】Ep07:灰色预测模型

文章目录 一、前言&#x1f680;&#x1f680;&#x1f680;二、&#xff1a;灰色预测模型☀️☀️☀️1. 灰色系统引入2. 方法3. 步骤① 累加法产生新序列② 利用部分和序列相邻两项的加权平均产生序列z③ 建立关于原始数据与序列z的灰微分方程④ 利用最小二乘法确定灰微分方程…

Orcad封装怎么添加

1 点击文件&#xff0c;添加库 2 添加封装 3 画二极管封装 1.先设置网格。 2..Library-->>olb文件 右键New Part 3.文件名建议规范命名。 4.place ployline 同时按shift画任意形状的封装 5 图形填充

18.求三数之和

题目 链接&#xff1a;leetcode链接 思路分析&#xff08;双指针&#xff09; 这道题目与上一道题&#xff0c;求有效三角形的个数&#xff0c;十分类似&#xff0c;都是使用双指针算法来解决问题。 先进行排序&#xff0c;然后利用单调性进行调整&#xff0c;逐步逼近正确…