在新质生产力高质量发展的要求下,中国移动在“人工智能+”和 “数据要素X”方面不断发力,持续发布高质量电信数据集。围绕网元智能、运维智能、服务智能三大方向建设,涵盖无线信道、基站、云网、核心网、哑资源等多领域,支持感知、诊断、预测、决策、大模型等多类网络AI能力研发的标志性数据集。相关数据集均由智慧网络开放创新平台承载。
中国移动 - 智慧网络新一代人工智能开放创新平台https://jiutian.10086.cn/open/
智能业务识别_HTTP
https://jiutian.10086.cn/open/#/dataset/710023https://jiutian.10086.cn/open/#/dataset/710023
拨测 40+ 种指定业务,捕获并保存 HTTP 流量为 Pcap 文件,使用 Wireshark 解析出原始码流并构建数据集。
背景介绍
随着互联网技术的发展及企业数字化转型的加速推进,网络应用和服务正变得越来越多样化,这对网络安全防护提出了更高的要求。为了确保企业的核心资产和用户数据安全,业务识别已成为现代网络安全体系中的重要组成部分。传统的网络监控手段往往依赖于固定的规则和模式匹配,难以有效应对不断变化的威胁形势以及日益复杂的业务场景,对于未加密的 HTTP 流量而言,这些挑战尤为显著。
HTTP(超文本传输协议)是互联网上应用最为广泛的一种网络协议,用于从 WWW 服务器传输超文本到本地浏览器。HTTP 通信是明文传输,这让研究者能够更有效地识别各种业务类型和服务,从而更好地助力网络资源管理和用户隐私保护。
数据来源
本数据已获得 DOI 认证,科学数据 DOI 编号:10.12448/3si6-z716
使用测试终端对指定业务列表中的几十种业务进行拨测。测试过程中,逐一运行每项指定业务,在此期间关闭所有其他业务的网络使用权限,以确保捕获到的数据包仅包含被测业务的信息。在完成每项业务的测试后,保存所产生的 Pcap 包,并利用 Wireshark 工具从中解析出原始码流信息。
数据文件说明
点击“开始训练”进入毕昇平台创建实例,数据在 jupyter 中的存储路径为:/root/开放创新平台数据任务:智能业务识别-HTTP。数据集文件名称为 智能业务识别_HTTP数据集.csv。
关联子集:作为系列数据集的一部分,智能业务识别_HTTP 与另外一个数据集互为补充。请继续关注:
子集二:智能业务识别_HTTPS
样例数据说明
1. 业务数据
数据提供 8 个字段,含义和格式如下表:
字段名 | 格式 | 含义 |
---|---|---|
protocol | str | 协议 |
hex_src_ip | str | 16 进制源 IP |
hex_dst_ip | str | 16 进制目的 IP |
src_port | int | 源端口号 |
dst_port | int | 目的端口号 |
host | str | 域名系统中的主机 |
payload | str | 数据包中携带的有效数据 |
label | str | 业务类别标注 |
具体样例如下:
protocol | hex_src_ip | hex_dst_ip | src_port | dst_port | host | payload | label |
---|---|---|---|---|---|---|---|
ipv4 | 0a010a01 | b7e81987 | 41920 | 443 | ali-stats.jpush.cn | 1603010200010001fc0303f64…… | com.shuqi.controller |
ipv4 | 0a010a01 | 6f138569 | 46128 | 443 | d.ifengimg.com | 1603010200010001fc0303db8…… | com.ifeng.news2 |
ipv4 | 0a010a01 | dacb75f9 | 40004 | 443 | bossaudioandcomic-1252317822.file.myqcloud.com | 1603010200010001fc0303800…… | com.qidian.QDReader |
ipv4 | 0a010a01 | 6f2cfdda | 47786 | 80 | img.elongstatic.com | 474554202f656c6f6e6761707…… | com.dp.android.elong |
ipv4 | 0a010a01 | 6f2931c1 | 49830 | 443 | s10.mogucdn.com | 1603010200010001fc0303bb7…… | com.mogujie |
…… | …… | …… | …… | …… | …… | …… | …… |
数据分析
数据集共包含 45 种不同业务,其中数量排名 Top10 的业务及其数量如下所示:
业务类型 | 数量 | 业务类型 | 数量 |
---|---|---|---|
com.qiyi.video | 1447 | com.achievo.vipshop | 575 |
com.tyyd.video | 1433 | cn.wps.moffice_eng | 573 |
com.kugou.android | 974 | com.mogujie | 435 |
com.cmcc.cmvideo | 698 | com.quark.browser | 433 |
com.huaxiaozhu.rider | 643 | com.shuqi.controller | 431 |
计算 hex_src_ip、hex_dst_ip、src_port、dst_port 和 host 特征与 label 间的皮尔逊相关系数,并将这些相关性系数表示为热图:
代码示例
对于 HTTP 业务中的 payload 数据,可以使用 Python 中的 binascii 库将 16 进制字符串转换为明文,然后使用自然语言处理(NLP)技术对其进行分析。16 进制字符串转换为明文的示例代码如下:
def hex_to_text(hex_string):
# 将 16 进制字符串转换为字节序列
byte_sequence = binascii.unhexlify(hex_string)
# 尝试将字节序列解码为 UTF-8 文本
try:
text = byte_sequence.decode('utf-8')
except UnicodeDecodeError:
# 如果解码失败,可能是因为文本不是 UTF-8 编码,可选择其他编码尝试解码
text = byte_sequence
return text
hex_string = "474554202f61642f696d70726573733f696d707265737349643d66636465613836642d666132652d343965302d6166……" # 省略……之后的字符串
text = hex_to_text(hex_string)
print(text)
打印结果如下:
GET /ad/impress?impressId=fcdea86d-fa2e-49e0-af54-5146116c28d8-1640918926145&zHash=H4sIAAAAAAAAAGVRwW7DIAz9F5%2BzCAJpk9wm7TJph0nbbr0QcFe0BCJGsnZV%2F32GVJ2mCQn5PZvnZ3OG0RscoIMn0R6gADVN1hD8PvVrWID2LqKLj4ne8kYK0TaSeDxGYs47wBB82EEXw4yXpDHHw01kjYk0b85mkbZteAH97MyAVKT9WOpRa7oWa9BT7fFuCj567Ye7BQPV8JIlIyoEm7HcMCaIMavZXvatrDmKPcda1hvKfFnnMDygGu5HP7v4epqoGSvAk4SLKlrvVvxJAsqZ4LPNdzLQnS%2BJX1Kjkg7RdkRLUNS8aoVkomlZI5vkIBv4zx%2Bg45WkOe1E%2BaoSJWckJcs6mYNuW1FvWjB0glFk5nC1BLxm7M8AefHrPzjUqSrmYaoCZrWmDC5W4y892%2BubUX2kHb94d7ppPg8q%2FwNnjDVkcJ9FLj%2Bt5T6DCwIAAA%3D%3D&traceId=838572d0-a703-418b-ba60-e4a95090871b&type=4&time=&direct=1&activityId=16501&mediaBuyId=119319&targetType=0&creativeId=105633&acFrequencyKey=dirAdacf_351293403890848_16501__19039&sdl=1 HTTP/1.1
Host: ggicaqz.miguvideo.com
Connection: keep-alive
User-Agent: Mozilla/5.0 (Linux; Android 10; NX659J Build/QKQ1.200405.002; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/80.0.3987.99 Mobile Safari/537.36
Accept: image/webp,image/apng,image/*,*/*;q=0.8
X-Requested-With: com.cmcc.cmvideo
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7
Cookie: userInfo=%7B%22userId%22%3A%22750854220%22%2C%22userToken%22%3A%22nlps60C4238B1F0D358AEFF0%22%2C%22clientId%22%3A%2227fb3129-5a54-45bc-8af1-7dc8f1155501%22%2C%22sname%22%3A%22151****5723%22%2C%22mobile%22%3A%2215101085723%22%2C%22picture%22%3A%22http%3A%2F%2Fimg.cmvideo.cn%3A8080%2Fpublish%2Fvoms2%2Fuic_service%2Fpicture%2FuserImage%2F54
数据引用指南
如果您在研究中使用了本数据集,请按照如下方式引用:
@misc{ChinaMobile_IntelligentBusinessIdentification_2024,
title = {智能业务识别},
year = {2024},
submitted by = {中国移动},
publisher = {中国移动},
doi = {10.12448/3si6-z716},
}