23万条数据集,可以用来区分钓鱼网站!

news2024/11/15 11:10:53

文章目录

    • 一、何为钓鱼网站?
    • 二、数据集介绍
      • 引用数据集
      • 数据展示
      • 字段解释
    • 三、数据分析
      • 数据读取
      • 使用ucimlrepo读取数据
    • 四、下载地址

一、何为钓鱼网站?

在数字化时代,网络安全问题日益严重,其中钓鱼网站是一种常见的网络威胁。钓鱼网站通常会伪装成合法的网站,诱骗用户输入敏感信息,如用户名、密码、银行账户等,从而盗取用户的个人信息和资产。为了保护自己的网络安全,我们需要学会识别钓鱼网站。

钓鱼网站通常具有以下特点:

  1. 域名与正规网站相似,但可能包含拼写错误或特殊字符。
  2. 页面布局和正规网站相似,但可能存在细微差异。
  3. 网站可能要求您提供敏感信息,如用户名、密码、银行账户等。

今天分享来自 UCI机器学习存储库PhiUSIIL Phishing URL Dataset 数据集。

UCI机器学习存储库是由机器学习社区用于机器学习算法实证分析的数据库、领域理论和数据生成器的集合。该存档于1987年由UCI博士生David Aha创建为ftp存档。从那时起,它被世界各地的学生、教育工作者和研究人员广泛使用,作为机器学习数据集的主要来源。许多人值得感谢,因为他们使存储库取得了成功。其中最重要的是数据库和数据生成器的捐助者和创建者。特别感谢还应该感谢存储库的过去图书馆员:David Aha、Patrick Murphy、克里多斯夫Merz、Eamonn Keogh、Cathy Blake、Seth Hettich、David Newman、亚瑟·亚松森、Moher Lichman、Dheeru Dua、Casey Graff。目前的图书馆员是科尔比·诺丁汉、雷切尔·朗·约翰、马克尔·凯利。该网站的当前版本于2023年发布。感谢美国国家科学基金会的资助。

二、数据集介绍

  • PhiUSIIL Phishing URL Dataset 是一份大小为100M左右的csv文件,我们可以用pandas来读取数据。

PhiUSI IL网络钓鱼URL数据集是一个由134,850个合法和100,945个网络钓鱼URL组成的实质性数据集,我们在构建数据集时分析的大部分URL都是最新的URL,特征是从网页和URL的源代码中提取的,Char连续率、URL标题匹配分数、URL Char Prob和TLD合法Prob等特征是从现有特征中派生出来的。
更多数据信息可以访问: http://archive.ics.uci.edu/dataset/967/phiusiil+phishing+url+dataset

引用数据集

  • 如果需要在论文中使用数据集,请这样引用:
Prasad,Arvind and Chandra,Shalini. (2024). PhiUSIIL Phishing URL. UCI Machine Learning Repository. https://doi.org/10.1016/j.cose.2023.103545.
  • BibTeX 这样引用:
@misc{misc_phiusiil_phishing_url_967,
  author       = {Prasad,Arvind and Chandra,Shalini},
  title        = {{PhiUSIIL Phishing URL}},
  year         = {2024},
  howpublished = {UCI Machine Learning Repository},
  note         = {{DOI}: https://doi.org/10.1016/j.cose.2023.103545}
}

数据展示

  • 数据集有235795行,56列。

随机展示5条数据如下:

在这里插入图片描述

字段解释

  • label=0 对应合法URL,label=1 对应网络钓鱼URL
  • 可以忽略列“FILENAME”。

详细字段介绍如下:

在这里插入图片描述

三、数据分析

数据读取

建议使用jupyter notebook,如何使用jupyter notebook 可以看这篇文章

import pandas as pd
df = pd.read_csv("./PhiUSIIL_Phishing_URL_Dataset.csv")
# 随机查看5条数据
df.sample(5)
# 查看数据维度
df.shape
# 查看数据信息
df.info()

使用ucimlrepo读取数据

  • 速度比较慢,建议从官网下载数据集

安装 ucimlrepo 库

pip install ucimlrepo

读取数据

from ucimlrepo import fetch_ucirepo 
  
# fetch dataset 
phiusiil_phishing_url = fetch_ucirepo(id=967) 
  
# data (as pandas dataframes) 
X = phiusiil_phishing_url.data.features 
y = phiusiil_phishing_url.data.targets 
  
# metadata 
print(phiusiil_phishing_url.metadata) 
  
# variable information 
print(phiusiil_phishing_url.variables) 

四、下载地址

http://archive.ics.uci.edu/static/public/967/phiusiil+phishing+url+dataset.zip

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1515833.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于Java (spring-boot)的进销存管理系统

一、项目介绍 首页,基础信息管理,备忘录,进销管理,仓库管理,系统管理 二、作品包含 三、项目技术 后端语言:Java 项目架构:B/S架构 数据库:MySQL 前端技术:Vue 后端技术&…

【C语言】比较两个字符串大小,strcmp函数

目录 一,strcmp函数 1,strcmp函数 2,函数头文件: 3,函数原型: 4,返回取值: 二,代码实现 三,小结 一,strcmp函数 1,strcmp函数 …

信道模拟器广泛应用于通信产业 我国企业竞争力不断提高

信道模拟器广泛应用于通信产业 我国企业竞争力不断提高 信道模拟器,模拟通信信道受环境因素影响产生各种特征的仪器,主要由接收电路、发射电路、模拟器、主控CPU等组成,可用于外场环境或者实验室环境中。 根据新思界产业研究中心发布的《202…

线性代数 --- 特征值与特征向量(下)

特征值与特征向量 Eigen Values & Eigen Vectors Part III:如何求解特征向量与特征值 The Key Equation 对于一般矩阵A,如何找到他的特征值与特征向量? Step I: Find λ first! 首先,我们有方程: 但这里有两个未知数&…

短视频解析接口分发系统

宝塔面板:Nginx系统 php7.2 Mysql 5.6-5.7 伪静态Thinkphp 上传文件直接访问域名安装即可 可以自备 听说后边要出saas去水印小程序 下载地址:https://pan.xunlei.com/s/VNskSEelfRVIzoSm5P5Rcw34A1?pwdqzhh# 接口演示: 前端演示…

前端入职配置新电脑!!!

前端岗位入职第一天到底应该做些什么呢?又该怎样高效的认识、融入团队?并快速进入工作状态呢?这篇文章就来分享一下,希望对即将走向或初入前端职场的你,能够有所帮助。内含大量链接,欢迎点赞收藏&#xff0…

GPU性能测试中的张量和矩阵运算

正文共:888 字 7 图,预估阅读时间:1 分钟 前面我们使用PyTorch将Tesla M4跑起来之后(成了!Tesla M4Windows 10AnacondaCUDA 11.8cuDNNPython 3.11),一直有个问题,那就是显存容量的问…

Springboot的配置文件及其优先级

配置文件 内置配置文件 配置文件的作用:修改SpringBoot自动配置的默认值;SpringBoot在底层都给我们自动配置好;SpringBoot使用一个全局的配置文件,配置文件名是固定的: application.propertiesapplication.yml 以上…

javaweb篇请求与相应的参数问题

目录 前言 简单传参设置 get请求无法识别 post请求 简单传参问题无法识别的解决问题 注意事项 改法 实体参数 代码展示 今日分享 前言 友友们,大家好,今天来开荒了,今天介绍的是在进行数据请求以及相应的时候,我们不仅仅只是进入一…

Java SE 抽象类与接口(二):接口(下)

2.5 实现多个接口 在Java语言中,类和类之间是单继承关系,一个类只可以有一个父类,即Java中不支持多继承关系,但是一个类可以实现多个接口,下面通过Animal类来具体说明 class Animal {protected String name;public A…

phpcms上传漏洞

原始漏洞 漏洞原理:我们上传一个zip的压缩包,它会解压然后删除其中不是.jpg .gig .png的文件 function check_dir($dir):这是一个PHP函数的定义,它接受一个参数 $dir,代表要检查的目录路径。 $handle opendir($dir)…

MySQL学习Day32——数据库备份与恢复

在任何数据库环境中,总会有不确定的意外情况发生,比如例外的停电、计算机系统中的各种软硬件故障、人为破坏、管理员误操作等是不可避免的,这些情况可能会导致数据的丢失、 服务器瘫痪等严重的后果。存在多个服务器时,会出现主从服…

C语言程序环境和预处理Pt.1 - 预处理指令|预处理操作符

电脑所能识别的语言为二进制指令,而我们所写的C语言代码是文本信息。为了能使计算机识别并执行C语言代码,就需要翻译环境,使C语言代码翻译为二进制的指令。 1.按下编译按钮的幕后 - 程序的翻译环境 从C语言源代码到计算机可识别的二进制文件…

【前端】 响应式布局

目录 1.媒体查询 2.BootStrap 2.1BootStrap引入 2.2BootStrap栅格系统 2.3BootStrap手册查询 1.媒体查询 响应式布局:显示区域改变,布局随之改变,即同一套代码适配不同大小的显示器 媒体查询:检测视口宽度,设置差…

案例分析篇12:可靠性设计考点(2024年软考高级系统架构设计师冲刺知识点总结系列文章)

专栏系列文章推荐: 2024高级系统架构设计师备考资料(高频考点&真题&经验)https://blog.csdn.net/seeker1994/category_12593400.html 【历年案例分析真题考点汇总】与【专栏文章案例分析高频考点目录】(2024年软考高级系统架构设计师冲刺知识点总结-案例分析篇-…

信号与系统学习笔记——信号的分类

目录 一、确定与随机 二、连续与离散 三、周期与非周期 判断是否为周期函数 离散信号的周期 结论 四、能量与功率 定义 结论 五、因果与反因果 六、阶跃函数 定义 性质 七、冲激函数 定义 重要关系 作用 一、确定与随机 确定信号:可以确定时间函数…

【AIGC】重磅消息,GPT-4.5 Turbo将在6月发布?

2024 年 AI 辅助研发趋势 文章目录 强烈推荐GPT-4.5 Turbo竞争对手Anthropic的Claude 3谷歌的Gemini 1.5 Pro 总结强烈推荐专栏集锦写在最后 强烈推荐 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击…

酷开系统走在前列,品牌重启增长,酷开科技成为品牌商合作目标

区别于火热的移动端,手机屏作为私密屏,往往面向的是用户个体,而电视作为家庭连接的重要枢纽,不仅仅定位于公共屏,同时也面向客厅场景发挥着其大屏传播的作用,这里不仅牵扯到大屏营销,也关联着大…

低代码开发平台,快速搭建开源MES系统

MS低代码云MES作为一家专注于提供生产制造数字化方案的服务商,“以客户为中心”、以“数据驱动、智能化、互联化”为企业的核心标签,以低代码平台为切入点,帮助企业构建以人为本的未来供应链生态系统,实现制造企业的智能化转型。 …

基于uniapp的旅游景点入园预约系统 微信小程序0220o

技术要求: a) 操作系统:Windows、Linux等; b) 开发工具:Android Studio、pycharm等; c) 数据库:Oracle、MySQL等; d) 开发语言:python; e) 技术框架:采用MVC模…