首先感谢爱学习的大白菜爱学习的大白菜的博客_CSDN博客-刷题,ACM之路,机器学习领域博主对CTU-13数据集的描述的翻译,这使得后面对这份数据集的理解更加容易。
参考CTU-13数据集_爱学习的大白菜的博客-CSDN博客
由于要做僵尸网络检测的工作,但是没有相关数据,需要搜集相关数据集进行算法的验证,通过调研,发现CTU-13数据集开源,且进行了处理分析,减少了数据处理的一些工作,比如对流数据进行了聚合,生成双向流数据文件,也就是后面要用到的文件。
通过查看CTU-13数据集网站和上述博客的分享,了解了数据集的大致情况,但是需要下载数据集时,犯难了,每个数据集下包含多种数据类型多个文件,哪个是我可以用于僵尸网络检测的有标签的数据集,这里先给出答案:
detailed-bidirectional-flow-labels/ |
文件夹下的以.binetflow为后缀的文件,如下
但是发现直接点击这个文件,不能下载,只能查看里面的数据内容
如何获取这些数据到文件,可以用下面的方法:
scenario_1 = pd.read_csv('https://mcfp.felk.cvut.cz/publicDatasets/CTU-Malware-Capture-Botnet-42/detailed-bidirectional-flow-labels/capture20110810.binetflow')
这个语句直接到相应的网址去下载数据,并且是dataframe格式化的,很好,这就是我想要的。
接下来如果会重复用到该数据,可以使用
scenario_1.to_csv('scenario_1.csv', header = True, index = False)
将数据保存在本地
在这份数据中的label标注了流的类型,如下
scenario_1是第一个僵尸网络场景的数据,数据量和数据集描述中一致
具体的也可以看下不同类型数据的占比。
对于每个场景,数据集中会告知被感染的僵尸主机IP。