文章目录
- 一、何为钓鱼网站?
- 二、数据集介绍
- 引用数据集
- 数据展示
- 字段解释
- 三、数据分析
- 数据读取
- 使用ucimlrepo读取数据
- 四、下载地址
一、何为钓鱼网站?
在数字化时代,网络安全问题日益严重,其中钓鱼网站是一种常见的网络威胁。钓鱼网站通常会伪装成合法的网站,诱骗用户输入敏感信息,如用户名、密码、银行账户等,从而盗取用户的个人信息和资产。为了保护自己的网络安全,我们需要学会识别钓鱼网站。
钓鱼网站通常具有以下特点:
- 域名与正规网站相似,但可能包含拼写错误或特殊字符。
- 页面布局和正规网站相似,但可能存在细微差异。
- 网站可能要求您提供敏感信息,如用户名、密码、银行账户等。
今天分享来自 UCI机器学习存储库
的 PhiUSIIL Phishing URL Dataset
数据集。
UCI机器学习存储库是由机器学习社区用于机器学习算法实证分析的数据库、领域理论和数据生成器的集合。该存档于1987年由UCI博士生David Aha创建为ftp存档。从那时起,它被世界各地的学生、教育工作者和研究人员广泛使用,作为机器学习数据集的主要来源。许多人值得感谢,因为他们使存储库取得了成功。其中最重要的是数据库和数据生成器的捐助者和创建者。特别感谢还应该感谢存储库的过去图书馆员:David Aha、Patrick Murphy、克里多斯夫Merz、Eamonn Keogh、Cathy Blake、Seth Hettich、David Newman、亚瑟·亚松森、Moher Lichman、Dheeru Dua、Casey Graff。目前的图书馆员是科尔比·诺丁汉、雷切尔·朗·约翰、马克尔·凯利。该网站的当前版本于2023年发布。感谢美国国家科学基金会的资助。
二、数据集介绍
PhiUSIIL Phishing URL Dataset
是一份大小为100M左右的csv文件,我们可以用pandas来读取数据。
PhiUSI IL网络钓鱼URL数据集是一个由134,850个合法和100,945个网络钓鱼URL组成的实质性数据集,我们在构建数据集时分析的大部分URL都是最新的URL,特征是从网页和URL的源代码中提取的,Char连续率、URL标题匹配分数、URL Char Prob和TLD合法Prob等特征是从现有特征中派生出来的。
更多数据信息可以访问: http://archive.ics.uci.edu/dataset/967/phiusiil+phishing+url+dataset
引用数据集
- 如果需要在论文中使用数据集,请这样引用:
Prasad,Arvind and Chandra,Shalini. (2024). PhiUSIIL Phishing URL. UCI Machine Learning Repository. https://doi.org/10.1016/j.cose.2023.103545.
- BibTeX 这样引用:
@misc{misc_phiusiil_phishing_url_967,
author = {Prasad,Arvind and Chandra,Shalini},
title = {{PhiUSIIL Phishing URL}},
year = {2024},
howpublished = {UCI Machine Learning Repository},
note = {{DOI}: https://doi.org/10.1016/j.cose.2023.103545}
}
数据展示
- 数据集有235795行,56列。
随机展示5条数据如下:
字段解释
- label=0 对应合法URL,label=1 对应网络钓鱼URL
- 可以忽略列“FILENAME”。
详细字段介绍如下:
三、数据分析
数据读取
建议使用jupyter notebook,如何使用jupyter notebook 可以看这篇文章
import pandas as pd
df = pd.read_csv("./PhiUSIIL_Phishing_URL_Dataset.csv")
# 随机查看5条数据
df.sample(5)
# 查看数据维度
df.shape
# 查看数据信息
df.info()
使用ucimlrepo读取数据
- 速度比较慢,建议从官网下载数据集
安装 ucimlrepo 库
pip install ucimlrepo
读取数据
from ucimlrepo import fetch_ucirepo
# fetch dataset
phiusiil_phishing_url = fetch_ucirepo(id=967)
# data (as pandas dataframes)
X = phiusiil_phishing_url.data.features
y = phiusiil_phishing_url.data.targets
# metadata
print(phiusiil_phishing_url.metadata)
# variable information
print(phiusiil_phishing_url.variables)
四、下载地址
http://archive.ics.uci.edu/static/public/967/phiusiil+phishing+url+dataset.zip