[大语言模型-论文精读] 大语言模型是单样本URL分类器和解释器

[大语言模型-论文精读] 大语言模型是单样本URL分类器和解释器
- 目录
- - 1. 论文信息
  - 2. 摘要
  - 3. 引言
  - 4. 相关工作
  - - A. 网络钓鱼URL检测
    - - B. 使用LLMs进行单样本分类
    - C. LLMs作为分类器的可解释性
  - 5. 论文所提框架
  - 6. 实验设置
  - 7. 实验结果
  - - A. 一次性LLM URL分类器的预测性能
    - B. LLM输出的质量
  - 8. 未来工作方向
  - 9. 主要参考文献：

1. 论文信息

在这里插入图片描述
Title: LLMs are One-Shot URL Classifiers and Explainers
Authors: Fariza Rashid, Nishavi Ranaweera, Ben Doyle, Suranga Seneviratne
https://arxiv.org/abs/2409.14306

《LLMs are One-Shot URL Classifiers and Explainers》作者是Fariza Rashid、Nishavi Ranaweera、Ben Doyle和Suranga Seneviratne，来自悉尼大学、新南威尔士大学和Thales Australia。这篇论文提出了一个基于大型语言模型（LLMs）的单样本学习（one-shot learning）框架，用于恶意URL分类和解释。

2. 摘要

恶意URL分类是网络安全的关键部分。尽管现有的工作包括了许多基于机器学习和深度学习的URL分类模型，但大多数模型由于缺乏代表性的训练数据集而存在泛化和领域适应问题。此外，这些模型未能以自然人类语言提供给定URL分类的解释。在这项工作中，我们研究并展示了使用大型语言模型（LLMs）来解决这个问题。具体来说，我们提出了一个基于LLM的一次性学习框架，使用链式思考（CoT）推理来预测给定URL是否是良性或网络钓鱼。我们使用三个URL数据集和五个最先进的LLMs评估我们的框架，并表明一次性LLM提示确实提供了接近监督模型的性能，GPT 4-Turbo是最佳模型，其次是Claude 3 Opus。我们对LLM解释进行了定量分析，并表明LLMs提供的大多数解释与监督分类器的后 hoc 解释一致，并且解释具有很高的可读性、流畅性和信息丰富性。

3. 引言

通过电子邮件和其他类似渠道（如SMS）的网络钓鱼攻击仍然是网络安全的重大关切。通常，安全漏洞可以追溯到由网络钓鱼攻击引起的初始入口。最近的一份报告强调了这个问题，指出从2022年到2023年，网络钓鱼攻击增加了40%，Kaspersky阻止了超过7.09亿次用户尝试访问网络钓鱼链接的尝试。随着攻击者在短时间内触及广泛受众的能力以及使用短期活动，防御网络钓鱼仍然是一个极具挑战性的任务，需要多方面的解决方案。

典型的黑名单和白名单方法在大规模和动态环境中用于网络钓鱼检测是无效的。通常，在识别网络钓鱼活动和将相关URL列入黑名单之间存在延迟，到那时活动可能已经成功了。因此，提出了基于机器学习的解决方案用于网络钓鱼URL检测。这些方法从电子邮件和URL中提取特征，如词数、词长和字符分布，以及外部数据，如WHOIS和IP信息。然后使用提取的特征来训练机器学习和深度学习模型，以预测给定的电子邮件或URL是良性还是网络钓鱼。

在这些解决方案中，一些研究侧重于仅基于其URL模式预测网络钓鱼链接。这种方法有几个优点：它不需要访问网页来收集必要的特征，它对规避技术（如掩盖）具有弹性，并且更适合于检测零日网络钓鱼活动，这些活动事先无法获得信息。这些方法背后的直觉是，网络钓鱼URL通常显示出独特的模式，如随机字符串序列和模仿已知URL的文本模式，以及来自域名生成算法的独特工件。相比之下，良性URL往往保持一致和可识别的特征。

尽管如此，现有的URL分类模型在不同数据集上的跨数据集性能不佳，且通常缺乏解释性，这是用户意识和培训至关重要的。也就是说，给定一个模型对特定URL是否良性或网络钓鱼的预测，为用户提供简短的解释和警告，以帮助他们做出明智的决策是有用的。一些例子包括Outlook和Google，当用户意外尝试访问可疑链接时，它们会向用户提供警告。Althobaiti等人进一步指出，在网络钓鱼攻击检测中，有必要赋予最终用户更多关于特定情况下URL潜在不安全性的知识。

大多数现有工具要么针对网络安全领域的专家，要么只为用户提供关于URL的二元决策。这种二元建议未能获得用户的信任，当决策有很高的假正例率时。因此，为用户提供简单易懂的解释对于某个URL分类是重要的。最近在大型语言模型（LLMs）方面的进步为网络钓鱼URL分类的泛化和可解释性问题提供了潜在的解决方案。在大量数据上训练的LLMs在自然语言文本生成和推理方面表现出色，并且对各种任务都很有用。像这样的作品已经展示了LLMs的预测性能，通过他们最近发现的上下文学习能力，如少次学习。

鉴于LLMs在互联网数据上接受了大量训练，它们可能对更广泛背景下的良性URL有所了解。这些知识可以与上下文学习结合起来构建URL分类器，这是本文的重点。因此，在本文中，我们提出了一个基于LLM的网络钓鱼URL检测框架，它整合了理想防御机制的技术与人为组成部分。我们的框架利用LLMs的一次性学习能力进行网络钓鱼URL分类，并为每个分类提供解释。通过利用链式思考（CoT）推理的成功，我们提示LLM考虑给定URL的良性和网络钓鱼特征，然后进行预测，包括自我推理。我们的结果显示，这种方法实现了与监督深度学习方法相当的检测精度。此外，LLM的推理提供了自然语言解释，增强了用户对良性和网络钓鱼URL特征的认识，解决了现有分类器仅提供预测的限制。
在这里插入图片描述

更加具体而言，我们做出了以下贡献：

我们提出了一个基于LLM的框架，利用链式思考推理和上下文一次性学习进行网络钓鱼URL分类，并证明LLMs是可解释的一次性网络钓鱼URL分类器。
我们在五个最先进的LLMs和三个不同的网络钓鱼URL数据集上评估了我们的框架，并将我们框架的性能与现有的监督URL分类器进行了比较。
我们证明了我们的一次性方法在预测性能方面达到了与监督设置使用标准URL分类器相比0.05到0.12 F1得分的差距。在评估的五个LLMs中，GPT-4 Turbo表现最佳，一次性设置中的平均F1得分为0.92。这比完全监督设置低0.07个百分点，完全监督设置实现了0.99的F1得分。
我们展示了我们分类框架在正确性和整体语言质量方面的可解释性。也就是说，我们通过将我们框架识别的良性和恶意指标与通过监督设置获得的事后解释进行比较，评估了LLM自我解释的正确性。我们使用G-Eval框架评估自我解释在可读性、连贯性和信息丰富性方面。

4. 相关工作

A. 网络钓鱼URL检测

自动化网络钓鱼URL分类对于保护用户免受访问网络钓鱼站点是必要的。许多现有的解决方案使用机器学习和深度学习方法，这些方法使用从URL、着陆页或外部来源提取的特征进行训练。这些特征大致分为黑名单特征、词汇特征、基于主机的特征和基于内容的特征，已用于训练各种类型的机器学习和深度学习分类模型。WHOIS信息，如域名年龄和来自Alexa顶级域名列表的页面排名，也作为各种工作中使用的特征。使用上述特征检测网络钓鱼URL的一个重大缺点是难以实时获得它们。黑名单特征对于短期或零日网络钓鱼URL可能是多余的，因为这些利用了黑名单更新的延迟。在训练阶段获取托管信息通常对短期URL是不可能的，而且使用网页内容特征有风险意外下载恶意软件，并且容易受到规避技术的影响。因此，一些URL分类器仅使用基于URL的特征，这消除了对第三方来源的依赖，减少了恶意软件风险，并降低了对规避的脆弱性。我们的工作集中在这些基于URL的网络钓鱼检测器上，它们使用手工制作的URL特征或URL的嵌入表示作为主要输入特征。

B. 使用LLMs进行单样本分类

大型语言模型（LLMs）在各种自然语言处理任务中表现出色，包括文本生成、问答和文本分类。最近，它们在上下文学习范式中的泛化能力得到了进一步的提高，LLM在训练期间未见过的提示特定任务的指令和一些或没有（即，少次或零次）标记示例的情况下执行任务。各种工作应用了上下文学习能力来解决各种问题，超出了典型的自然语言处理任务。例如，Hegselman等人和Jaitly等人将基于LLM的少次分类应用于表格数据。作者评估了各种序列化方法，并证明了少次LLM在与表格数据集上的深度学习基础分类相比具有优越的性能。其他工作如Li等人评估了LLMs在生物学推断中的应用。他们提示LLMs通过在提示中包含一些标记示例来预测稀有组织中药物对的协同作用。相比之下，Yang等人将单样本LLM应用于跨模态框架中的几个音频任务，如语音情感分类、音频分类和文本到语音分类，而Van等人研究了视觉语言模型在仇恨模因检测上的少次能力。

C. LLMs作为分类器的可解释性

LLMs在各个领域的最新成功也激发了研究人员评估LLMs作为模型解释者的能力。传统上，可解释性算法解释了黑盒模型预测，以阐明模型内部机制。因此，评估这些算法的指标因此评估了忠实度（即解释有多好地反映了模型的真实内部机制）和合理性（即解释与人类推理的相关性如何），旨在提高可解释性和信任度，否则自动化决策过程是黑盒。评估LLMs可解释性的研究包括实施LLMs作为其他模型生成的预测的事后解释者。同时，LLM链式思考推理被认为是其预测/分类的自我解释，与传统解释方法相比，LLM自然语言解释以其高合理性而被注意到。这些解释与人类逻辑和推理一致。然而，由于大型语言模型架构的复杂性和其输出的变化性，特定于应用的LLM文本生成的正确性在很大程度上尚未探索。因此，在本文中，我们提出了一种方法来弥合URL分类自我解释的差距。由于我们的一次性分类框架输出了解释和预测，我们通过将我们框架中识别的URL良性和网络钓鱼指标与通过监督训练设置获得的事后解释进行比较，来评估URL良性和网络钓鱼指标的正确性。我们使用G-Eval框架来评估自我解释在可读性、连贯性和信息丰富性方面的质量。

5. 论文所提框架

在这里插入图片描述
如引言中所述，我们的目标是通过单样本LLM-based分类框架解决网络钓鱼URL检测中的泛化和可解释性问题。我们实现了一种轻量级方法，利用LLMs的丰富嵌入知识来提高分类准确性，同时降低误报率。这种方法还为每个预测提供了解释，以提高可用性并赋予最终用户更多关于给定URL预测的知识。

我们的框架包括用指令和一个示例提示LLM，如图1所示。提示之后，我们提供了需要LLM输出的URL。这个提示的目标不仅是获得一个单词预测，而且还获得导致预测的推理或解释。特别是，我们通过特别指示LLM考虑URL的良性和网络钓鱼特征来提示目标推理。这种有针对性的推理利用了LLM对网络上合法实体和网站的广泛知识。它还鼓励LLM考虑URL的结构，以及它是否反映出网络钓鱼特征。在最终确定我们的框架时，我们面临了以下技术挑战：

为分类提示：为了查询LLM给定URL是否良性或网络钓鱼，我们尝试了两种提示变体。第一种类型给LLM提供了以下四个选项，用于在决定分类时选择 - 良性/网络钓鱼/潜在网络钓鱼/不确定。这是出于这样的想法，允许更细粒度的标签选项将促使LLM做出更精确的决策。我们通过将所有良性标签的URL视为良性，其余的视为网络钓鱼来处理LLM对此提示的输出。也就是说，如果有任何不确定性或潜在的伤害，将URL视为网络钓鱼更安全。第二种我们尝试的提示类型是我们在提出的框架中使用的。我们的初始分析表明，第二种提示风格比第一种提示略微提高了准确性。原因是“潜在网络钓鱼”和“不确定”标签选项的可用性鼓励LLM在分类期间采取谨慎的方法。因此，许多具有不太知名域名的良性URL被标记为“不确定”或“潜在网络钓鱼”，从而增加了误报率。相比之下，第二种提示类型（我们提出的框架）鼓励LLM对良性URL域更加果断，这提高了整体分类准确性。
链式思考推理：我们的一些初步实验验证了在做出预测之前使用链式思考（CoT）推理可以提高检测准确性。为了在我们的提示中实现这一点，我们尝试了两个版本的CoT提示。第一个版本提示LLM分别考虑URL的域、子域和路径，并在做出预测之前识别良性和网络钓鱼特征。第二个版本只是提示LLM考虑URL的一般良性和网络钓鱼特征（这是我们最终提出的方法中使用的版本）。通过第一个CoT提示版本，我们发现明确识别URL各个组成部分的良性和网络钓鱼特征导致LLM不必要地重视这些特征，导致整体预测准确性降低。相反，通过简单地提示LLM考虑URL的一般良性和网络钓鱼特征（第二个CoT提示版本），使其在推理中拥有更大的灵活性，从而提高了整体检测准确性。
提示中包含的例子数量：我们尝试了不同数量的少次示例来评估增加示例数量是否提高了预测准确性。除了一次性方法外，我们还尝试了两个示例（一个网络钓鱼URL和一个良性URL）和五个示例（三个良性URL和两个网络钓鱼URL）。我们的分析表明，增加示例数量并没有显著提高预测准确性，因此我们决定采用一次性方法。

图2说明了我们框架的整体流程。特别是，我们展示了如何将输出的第一部分视为对随后预测的自我解释。在下一节中，我们将评估五个大型语言模型在这种一次性设置中返回URL准确预测的性能。我们还将评估伴随预测的自我解释的质量。

6. 实验设置

在本节中，我们首先介绍我们用来评估我们框架预测准确性的数据集。接下来，我们描述了我们如何评估LLMs作为一次性URL分类器与监督URL分类器相比的预测性能，以及我们用于评估LLM自我解释质量的实验设置。

A. 数据集
我们使用了两个公开可用的URL数据集和另一个作为我们之前工作一部分收集的URL数据集。
1. ISCX-2016数据集：由Mamun等人收集，包含35,300个良性URL，通过抓取Alexa顶级域名收集，以及各种恶意URL类型，其中9,964个是来自OpenPhish的网络钓鱼URL。尽管数据集总共包含超过100,000个URL，我们随机选择了10,000个良性URL并将它们与网络钓鱼URL结合起来，以获得更平衡的数据集。
1. EBBU-2017数据集：这个数据集在中引入，包括36,400个良性URL和37,175个网络钓鱼URL。良性URL是通过在Yandex搜索引擎上查询作者构建的特定词列表收集的，并选择了从中返回的最高排名的URL。网络钓鱼URL是从PhishTank收集的。
1. HISPAR-Phishstats (HP) 数据集：这个数据集在我们之前的工作中引入，我们从HISPAR列表收集了46,250个良性URL，使得该集合包括来自Alexa顶级域名列表的1,850个唯一域，每个域有25个不同的URL。数据集还包括46,250个独特的网络钓鱼URL，我们从Phishstats在2022年6月19日至8月26日之间收集。为了训练监督训练基线，我们随机将这些数据集分割成训练、验证和测试集，如表I所总结。为了评估我们的LLM基础框架，我们使用表I中描述的每个数据集的测试分割中的1,000个随机抽样URL。我们将分析限制在1,000个样本，由于在访问一些LLM API时的成本考虑。

B. 与监督URL分类器的准确性比较
我们通过将我们框架下的LLMs的准确性与完全监督设置中训练的最先进的URL分类器的准确性进行比较，来评估我们框架下的LLMs的预测性能。为此，我们参考了我们之前的工作，我们训练了四个最先进的URL分类器：URLNet、URLTran、CatchPhish和PhishRF。我们使用表I中描述的训练和测试数据集来训练和测试这些分类器的性能。我们在表II中展示了当这些分类器应用于每个测试集时的性能。这里，注意模型在测试集上表现良好，测试集来自与训练集相同的数据集。例如，当在ISCX数据集上训练时，URLtran模型在ISCX测试集上实现了0.99的F1得分。然而，当在EBBU和HP测试集上测试时，其性能显著下降，分别为0.69和0.68的F1得分。我们在表I中描述的测试数据集的1,000个随机选择样本上使用我们的框架获得了一次性预测准确性。也就是说，在每次查询中，我们提示LLM对测试集中的一个给定URL进行推理和预测。由于我们的框架特别指示预测要作为输出的最后一个词陈述为“良性”或“网络钓鱼”，我们考虑每个输出预测为良性或网络钓鱼，如果输出的最后20个字符包含“良性”和“网络钓鱼”这两个词。如果最后20个字符既不包含这些词中的任何一个，我们则将预测视为“不确定”。然而，在准确性计算中，我们将“不确定”的预测计为网络钓鱼，考虑到在实际设置中这将是一个更安全的决策。我们对每个LLM和每个测试数据集重复了五次实验，并计算了平均F1得分。我们选择F1得分作为性能指标，因为它考虑了真正例率和假正例率。我们在表II中将每个LLM和每个测试集下我们框架的F1得分与监督URL分类器获得的F1得分进行了比较。由于LLMs可能会对同一查询在不同时间生成不同的输出，对于1,000个URL中的每一个，我们查询了LLM五次，并报告了平均性能结果以及标准差。我们在第V节中展示了这些结果。

在这里插入图片描述

C. LLM自我解释的质量评估
我们从两个方面评估LLM自我解释的质量。首先，我们将LLMs给出的良性和网络钓鱼指标与事后解释方法（即，LIME）应用于相应监督URL分类器返回的指标进行了比较。这是为了进一步证明我们的框架做出的一次性预测是合理的，并且通常与已经训练了大量训练数据的相应监督学习分类器的推理相同。其次，我们使用G-Eval框架评估LLM生成的解释的一般质量，包括可读性、连贯性和信息丰富性。

LLM和LIME指标之间的一致性：给定URL分类为良性或网络钓鱼是分类器观察给定URL的各种指标做出的总体决定。这个领域的数据集（参见表I）只包含URL及其相应的标签。因此，没有LLM对良性和网络钓鱼指标的解释的黄金标准。因此，我们通过将LLM的自我解释与事后解释方法应用于监督URL分类器返回的指标进行比较，建立了代理指标。具体来说，我们选择URLTran，因为它在三个数据集（参见表II）中的监督设置中返回了最高的平均F1得分。我们将LIME算法应用于三个单独的URLTran模型，这些模型分别在每个训练集上进行了训练，并获得了模型对其各自测试集的预测的LIME指标。LIME算法通过近似基于该测试样本的输入在该测试样本的邻域内采样的模型预测的稀疏线性模型来确定给定测试样本的特征归因。然后通过该线性模型的特征系数确定特征重要性。由于每个URLTran模型对其各自的测试集返回了0.99的F1得分，我们假设LIME学到的稀疏线性模型，因此它返回的指标是标记URL数据集中良性和网络钓鱼特征的真实反映。通过将LLM自我解释与LIME指标进行比较，我们可以验证LLMs识别的良性和网络钓鱼特征与监督模型从URL标记数据集中学习到的标签特定特征的一致性。我们使用Jaccard相似性来数值比较这两组指标（即，LLM和LIME）。LLM自我解释示例：
G-Eval框架：为了评估LLM输出的一般质量，我们使用G-Eval框架，该框架实现了LLM评估文本质量。具体来说，该框架使用链式思考方法使用LLM评估特定任务的文本针对给定标准。为了对URL分类系统的最终用户有用，我们根据以下指标评估自我解释：可读性、连贯性和信息丰富性。我们为网络安全问答任务提供了“可读性”的定义，并根据需要调整了“连贯性”和“信息丰富性”的定义，如下所述。

可读性（1-5）：评估普通读者理解文本的难易程度，考虑词汇、句法、语义和风格复杂性等因素。
连贯性（1-5）：评估所有句子的集体质量。这个指标衡量陈述的结构和组织，解释为什么URL被预测为良性或网络钓鱼。
信息丰富性（1-5）：衡量输出回答原始提示的程度。也就是说，这个指标评估陈述如何清晰地考虑URL的良性和网络钓鱼特征，并最终提供预测。在G-Eval框架中，LLM根据给定的标准评估给定文本，并通过链式思考推理生成评估文本的步骤。也就是说，给定一个标准及其定义，LLM被提示产生一系列评估特定任务的文本的步骤。由于我们正在研究五个LLMs在预测准确性和解释质量方面的一次性框架，我们使用不同的LLM（GPT-4o）在我们的G-Eval实现中评估其他五个LLMs的自我解释。图4改编自原始论文，说明了我们对可读性指标使用G-Eval的情况。我们向GPT4o提供任务介绍和评估标准，以生成评估步骤。然后我们输入每个测试URL（作为上下文）和相应的自我解释（要评估的文本），G-Eval框架计算所有可能分数的概率加权总和。我们对连贯性和信息丰富性指标采取了类似的方法。我们为来自三个测试集的所有URL生成了五个LLMs的自我解释的可读性、连贯性和信息丰富性得分。我们在第V节中报告了这些结果。

7. 实验结果

A. 一次性LLM URL分类器的预测性能

在表III中，我们展示了我们在第IV-B节中测试的五个LLMs（参见第IV-B节）的F1得分：GPT 4-Turbo、Claude 3 Opus、Gemini、LLaMA 3和LLaMA 2。如第IV-B节所述，这些结果是通过五次重复实验计算出的平均F1得分。为了便于比较，我们还展示了在各自训练集上训练并应用于每个测试集后，URLTran（即，监督设置下表现最好的模型）获得的F1得分。我们观察到，在所有三个数据集中，GPT 4-Turbo产生了最高的平均F1得分，整体平均为0.92。这比完全监督学习分类器的性能仅低0.07。Claude展示了下一个最好的性能，整体平均为0.88，而Gemini和LLaMA 3的性能相似，整体平均分别为0.83和0.84。同时，LLaMA 2返回了最低的整体平均F1得分，为0.68。所有LLMs的五次独立运行的标准差非常低，表明整体准确性的一致性。对LLM输出的更详细分析揭示了LLaMA 2表现不佳的原因之一可能是其无法生成良好的自我解释。对于许多URL，LLaMA 2返回了预测，而没有考虑我们提示中所要求的URL的良性和网络钓鱼特征。此外，即使当LLMs确实考虑了URL的良性和网络钓鱼特征时，与其它LLMs相比，GPT 4-Turbo返回了更准确的预测。考虑以下良性URL https://reconciliation.americanexpress.com/ 的LLM输出：
在这里插入图片描述

B. LLM输出的质量

LLM自我解释与LIME指标之间的一致性 - Jaccard相似性：如前所述，此评估的目的是进一步证明我们的框架做出的一次性预测是合理的，并且通常与已经训练了大量训练数据的相应监督学习分类器的推理相同。从我们对预测性能的重复实验中，我们为每个URL从每个LLM获得了五个输出。因此，为了评估我们的框架产生的自我解释，对于每个URL，我们将Jaccard相似性评估应用于每个URL的五次重复中的每一次。在图5中，我们为每个数据集和每个LLM呈现了Jaccard相似性得分的累积分布函数（CDF）。每个图中的曲线代表单个运行获得的Jaccard相似性值的CDF。为了简洁，我们仅展示了HP数据集的结果

8. 未来工作方向

对未来工作的一些预测：

多模态数据集成：未来的工作可能会探索将文本数据与网页内容、图像或其他多模态数据结合起来，以提高网络钓鱼检测的准确性和鲁棒性。
实时检测系统：研究者可能会开发实时的网络钓鱼检测系统，这些系统可以集成到网络浏览器或其他网络安全工具中，以即时警告用户潜在的恶意URL。
个性化解释生成：未来的工作可能会集中在为不同的用户群体生成定制化的解释，以提高用户对网络安全警告的信任和理解。
跨语言和文化适应性：考虑到网络钓鱼攻击可能来自世界各地，未来的研究可能会探索如何使模型适应不同语言和文化，以提高全球范围内的检测效果。
模型的可解释性和透明度：随着对AI模型可解释性的需求不断增长，未来的工作可能会进一步研究如何提高LLMs在URL分类任务中的可解释性。
对抗性攻击和防御：研究者可能会探索对抗性攻击对URL分类器的影响，并开发新的防御机制来提高模型的安全性。
大规模数据集的创建和使用：为了提高模型的泛化能力，未来的工作可能会集中于创建和使用更大规模、更多样化的数据集进行训练。
模型压缩和优化：为了使模型更适合在资源受限的设备上运行，未来的研究可能会探索模型压缩和优化技术。
用户反馈循环：未来的工作可能会考虑用户的反馈，以改进模型的预测和解释。这可能涉及到用户界面设计和用户体验研究。
政策和法规遵从性：随着网络安全法规的不断发展，未来的工作可能会研究如何确保URL分类器符合不同地区的政策和法规要求。
长期监测和适应性：未来的工作可能会关注如何长期监测模型的性能，并适应不断变化的网络钓鱼策略和模式。
开源和社区合作：为了促进技术的快速发展和广泛应用，未来的工作可能会包括创建开源工具和平台，以及与学术界和工业界的合作。

9. 主要参考文献：

[31] Le, H., Pham, Q., Sahoo, D., Hoi, S.C., 2018. URLNet: Learning a URL representation with deep learning for malicious URL detection. preprint arXiv:1802.03162 .
[39] Maneriker, P., Stokes, J.W., Lazo, E.G., Carutasu, D., Tajaddodianfar, F., Gururajan, A., 2021. URLTran: improving phishing URL detection using transformers, in: MILCOM 2021-2021 IEEE Military Communications Conference (MILCOM), IEEE. pp. 197–204.
[50] Rashid, F., Doyle, B., Han, S.C., Seneviratne, S., 2024. Phishing url detection generalisation using unsupervised domain adaptation. Computer Networks 245, 110398.
[62] Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., Le, Q.V., Zhou, D., et al., 2022. Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems 35, 24824–24837.

如果您对我的博客内容感兴趣，欢迎三连击(点赞，关注和评论)，我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型，深度学习，计算机视觉相关方向)最新学术论文及工程实践方面的内容分享，助力您更快更准更及时地了解前沿技术的发展现状。