CCL 2023 电信网络诈骗案件分类评测-第一名方案

news2024/9/24 1:27:04

1 任务内容

1.1 任务背景

2022年12月1日起,新出台的《反电信网络诈骗犯罪法》正式施行,表明了我国治理当前电信网络诈骗乱象的决心。诈骗案件分类问题是打击电信网路诈骗犯罪过程中的关键一环,根据不同的诈骗方式、手法等将其分类,一方面能够便于统计现状,有助于公安部门掌握当前电信网络诈骗案件的分布特点,进而能够对不同类别的诈骗案件作出针对性的预防、监管、制止、侦查等措施,另一方面也有助于在向群众进行反诈宣传时抓住重点、突出典型等。

1.2 任务简介

文本分类是自然语言处理领域的基础任务,面向电信网络诈骗领域的案件分类对智能化案件分析具有重要意义。本任务目的是对给定案件描述文本进行分类。案件文本包含对案件的整体描述(经过脱敏处理)。具体细节参考第2部分。

2 评测数据

2.1 数据简介

数据采集: 案件文本内容为案情简述,即为受害人的笔录,由公安部门反诈大数据平台导出。

数据清洗: 从反诈大数据平台共计导出 13 个类别的数据,去除了“其他类型诈骗”类别,因此最终采用 12 个类别。

脱敏处理: 去除了案件文本中的姓名、出生日期、地址、涉案网址、各类社交账号以及银行卡号码等个人隐私或敏感信息。

分类依据: 类别体系来源于反诈大数据平台的分类标准,主要依据受害人的法益及犯罪分子的手法进行分类,例如冒充淘宝客服谎称快递丢失的,分为冒充电商物流客服类;冒充公安、检察院、法院人员行骗的,分为冒充公检法及政府机关类;谎称可以帮助消除不良贷款记录的,分为虚假政信类等等。

类别数量: 12 个类别。

2.2 数据样例

数据以json格式存储,每一条数据具有三个属性,分别为案件编号、案情描述、案件类别。样例如下:

{
    "案件编号": 28043,
    "案情描述": "事主(女,20岁,汉族,大专文化程度,未婚,现住址:)报称2022年8月27日13时43分许在口被嫌疑人冒充快递客服以申请理赔为由诈骗3634元人民币。对方通过电话()与事主联系,对方自称是中通快递客服称事主的快递物件丢失现需要进行理赔,事主同意后对方便让事主将资金转入对方所谓的“安全账号”内实施诈骗,事主通过网银的方式转账。事主使用的中国农业银行账号,嫌疑人信息:1、成都农村商业银行账号,收款人:;2、中国建设银行账号,收款人:。事主快递信息:中通快递,.现场勘查号:。",
    "案件类别": "冒充电商物流客服类"
},
{
    "案件编号": 49750,
    "案情描述": "2022 年 11 月 13 日 14 时 10 分 23 秒我滨河派出所接到 110 报警称在接到自称疾控中心诈骗电话,被骗元,接到报警民警赶到现场,经查,报警人,在辽宁省 17 号楼 162 家中,接到自称沈阳市疾控报警中心电话,对方称报警人去过,报警人否认后对方称把电话转接到哈尔滨市刑侦大队,自称刑侦大队的人说报警人涉及一桩洗钱的案件让报警人配合调查取证,调查取证期间让报警人把钱存到自己的银行卡中,并向报警人发送一个网址链接,在链接上进行操作,操作完后,对方在后台将报警人存在自己银行卡的钱全部转出,共转出五笔,共计元。",
    "案件类别": "冒充公检法及政府机关类"
},
{
    "案件编号": 78494,
    "案情描述": "2022 年 1 月 10 日 11 时至 18 时许,受害人在的家中,接到陌生电话:(对方号码:)对方自称是银保监会的工作人员,说受害人京东 APP 里有个金条借款要关闭,否则会影响征信。后对方就让受害人下载了“银视讯”的会议聊天软件,指导受害人如何操作,让受害人通过手机银行(受害人账户:1、交通银行;2、紫金农商银行;3、中国邮政储蓄银行:;4、中国民生银行:;)转账到对方指定账户:嫌疑人账户:1、中国农业银行;2、中国银行;3、中国银行;4、中国建设银行;5、中国银行;共计损失:元。案件编号:",
    "案件类别": "虚假征信类"
}

2.3 数据分布

提供数据共有12个类别,类别具体分布如下表所示。

类别名称样本数量
刷单返利类35459
冒充电商物流客服类13772
虚假网络投资理财类11836
贷款、代办信用卡类11105
虚假征信类8464
虚假购物、服务类7058
冒充公检法及政府机关类4563
冒充领导、熟人类4407
网络游戏产品虚假交易类2155
网络婚恋、交友类(非虚假网络投资理财类)1654
冒充军警购物类1092
网黑案件1197
总计102762

注:在数据集(训练集和测试集)中 “冒充军警购物类” 的标注为 “冒充军警购物类诈骗” 。

训练集及测试集划分如下所示。

数据划分样本数量
训练集82210
测试集A10276
测试集B10276
总计102762

本次评测任务计划仅采用训练集及测试集A以作评测。

2.4 文本长度分布

下图展示了案情描述文本长度的分布情况,因此在预训练阶段,我们选择了预训练了一个1024长度的Nezha模型。
在这里插入图片描述

3 评价标准

评测性能时,本任务主要采用宏平均F1值作为评价标准,即对每一类计算F1值,最后取算术平均值,其计算方式如下:
M a c r o F 1 = 1 n ∑ i = 1 n F 1 i Macro_{F1} = \frac{1}{n} \sum_{i=1}^{n} F1_{i} MacroF1=n1i=1nF1i
其中 F 1 i F1_i F1i 为第i类的 F 1 F1 F1 值,n为类别数,在本任务中n取12。

4 模型架构

本文模型结构如下图所示,基线模型采用BERT(包括其变种)+Linear的文本分类模型架构。并采用预训练、对抗训练和模型融合等三种主要优化策略提升基线模型的性能。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7RgsDA26-1690680329128)(./img/model.jpg)]

4.1 预训练

有效的预训练可以提升模型在下游任务微调的性能。本文提取数据集中的案情描述文本,在预训练阶段添加MLM预训练任务,通过无监督学习使得预训练语言模型获得案件领域的知识,从而使模型具备对案件文本更好的语义理解和特征提取能力。MLM预训练使用了与【1】一致的方式,将输入的案情描述文本随机遮蔽,即为存在15%的概率决定对该token进行修改,其中有80%的概率改为"[MASK]",有10%的概率被替换为一个随机的token,有10%的概率保持不变。MLM预训练任务使用交叉熵损失进行训练,其损失表示为公式:
L m l m = − ∑ i = 0 V − 1 y i m a s k l o g ( p i m a s k ) L_{mlm}=-\sum_{i=0}^{V-1}y_i^{mask}log(p_i^{mask}) Lmlm=i=0V1yimasklog(pimask)
其中,V为模型词表大小, y i m a s k y_i^{mask} yimask是遮蔽字符的标签, p i m a s k p_i^{mask} pimask表示模型预测的概率。

本文在预训练阶段,分别预训练了三种中文模型,分别为nezha、Roberta和Deberta。在使用Nezha-base-wwm预训练语言模型时,输入序列的最大长度为1024,在使用chinese-roberta-wwm-ext-large与Deberta(注:这里使用了两个权重进行实验,320M的进行了预训练,710M的没有进行预训练,相关权重链接:1、Erlangshen-DeBERTa-v2-320M-Chinese:https://huggingface.co/IDEA-CCNL/Erlangshen-DeBERTa-v2-320M-Chinese;2、Erlangshen-DeBERTa-v2-710M-Chinese:https://huggingface.co/IDEA-CCNL/Erlangshen-DeBERTa-v2-710M-Chinese}预训练语言模型时,输入序列的最大长度为512)。

4.2 对抗训练

为了增强模型对干扰和噪声的抵抗能力,本文实验了PGD【3】、FGM【4】、FreeLB【2】等对抗训练技巧提升模型的鲁棒性,通过实验性能对比,最终主要采用了FreeLB对抗训练。FreeLB的核心思想是通过增加对抗样本的生成空间,引入自由生成的方法来提高模型的鲁棒性。传统的对抗训练方法通常使用固定的扰动方法来生成对抗样本,这可能会限制模型的泛化能力和鲁棒性。相比之下,FreeLB提出了自由生成的概念,它允许生成过程中的扰动更加多样和自由,从而提供更丰富的训练信号。都是在word embedding空间上加入扰动,然后对扰动后的embedding进行look up,得到的词向量再喂给模型。其原理伪代码如表1所示。

在这里插入图片描述

4.3 模型融合

模型融合是一种常用的技术,在文本分类比赛中被广泛应用,旨在提高分类模型的性能和泛化能力。模型融合通过结合多个不同的分类模型的预测结果,从而得到更准确、更稳定的最终预测结果。本文的模型融合的方法是对于每个分类模型的输出概率进行简单的相加,得到最终的融合概率分布,进一步求取最大概率的下标获取对应的类别标签。

5 评测结果

最终相应模型在线上提交评测的结果如下表:

在这里插入图片描述

6 结果分析与讨论

模型对比:本文使用了多个不同的预训练模型进行评测,包括chinese-roberta-wwm-ext-large、nezha-base-wwm和Erlangshen-DeBERTa-v2系列模型。从线上得分来看,预训练后的模型普遍表现比预训练前的模型更好。

数据划分:大部分模型使用了9:1的数据划分比例,即将数据集划分为训练集和验证集。只有两个模型(②和③)使用了全量数据进行训练。使用全量数据进行训练通常会有更好的效果,因为模型可以更充分地学习数据中的模式和规律。

输入长度:所有模型的输入长度都为512或1024。较长的输入长度可以提供更多的上下文信息,有助于模型理解文本的语义和逻辑关系。然而,较长的输入长度也会增加模型的计算负担和训练时间。

模型融合:根据给出的实验结果,可以看出模型组合⑤+⑧+⑨获得了最高的线上得分(0.8660677395)。这是因为这个组合中的模型相互补充,模型的融合能够有效的提升模型的泛化能力。

此外,由于比赛提交次数有限,未提交验证FreeLB对抗训练对于结果的影响,根据本人在其他比赛的经验,该策略能有效提升模型的鲁棒性。

7 结论

本研究针对电信网络诈骗案件的分类问题,通过采用一系列优化策略和技巧,包括BERT的继续预训练、FreeLB的对抗训练和模型融合,取得了显著的成果。实验结果在“CCL23-Eval-任务6-电信网络诈骗案件分类评测”技术评测比赛中最终成绩排名第一,证明了所提出的优化策略在提高电信网络诈骗案件分类性能方面的有效性和优越性。

通过BERT的继续预训练,研究者使模型具备更好的语义理解和特征提取能力,有助于准确地分类和检测电信网络诈骗案件。同时,通过FreeLB的对抗训练,模型的鲁棒性得到增强,使其能够更好地处理噪声和干扰,提高了分类的准确性。此外,采用模型融合的方法将多个模型的预测结果进行融合,进一步提升了分类的效果。

参考文献

【1】Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, and Ziqing Yang. 2021. Pre-training with whole word masking for chinese bert. IEEE/ACM Transactions on Audio, Speech, and Language Processing,29:3504–3514.

【2】Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

【3】Aleksander Madry, Aleksandar Makelov, Ludwig Schmidt, Dimitris Tsipras, and Adrian Vladu. 2017.Towards deep learning models resistant to adversarial attacks. arXiv preprint arXiv:1706.06083.

【4】Takeru Miyato, Andrew M Dai, and Ian Goodfellow. 2016. Adversarial training methods for semivised text classifification. arXiv preprint arXiv:1605.07725.

【5】Chen Zhu, Yu Cheng, Zhe Gan, Siqi Sun, Tom Goldstein, and Jingjing Liu. 2019. Freelb: Enhanced adversarial training for natural language understanding. arXiv preprint arXiv:1909.11764.

【6】https://github.com/GJSeason/CCL2023-FCC

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/810842.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

13个ChatGPT类实用AI工具汇总

在ChatGPT爆火后,各种工具如同雨后春笋一般层出不穷。以下汇总了13种ChatGPT类实用工具,可以帮助学习、教学和科研。 01 / ChatGPT for google/ 一个浏览器插件,可搭配现有的搜索引擎来使用 最大化搜索效率,对搜索体验的提升相…

【机器学习】Linear Regression

Model Representation 1、问题描述2、表示说明3、数据绘图4、模型函数5、预测总结附录 1、问题描述 一套 1000 平方英尺 (sqft) 的房屋售价为300,000美元,一套 2000 平方英尺的房屋售价为500,000美元。这两点将构成我们的数据或训练集。面积单位为 1000 平方英尺&a…

C++ 类和对象篇(零) 面向过程 和 面向对象

目录 一、面向过程 二、面向对象 三、两种编程思想的比较 四、C和C 一、面向过程 1.是什么? 是一种以解决问题的过程为中心的编程思想。即先分析出解决问题所需要的步骤,然后用函数把这些步骤一步一步实现。 2.为什么? 面向过程就纯粹是分析…

基于x-scan扫描线的3D模型渲染算法

基于x-scan算法实现的z-buffer染色。c#语言&#xff0c;.net core framework 3.1运行。 模型是读取3D Max的obj模型。 x-scan算法实现&#xff1a; public List<Vertex3> xscan() {List<Vertex3> results new List<Vertex3>();SurfaceFormula formula g…

SAP 自定义BADI增强点

应用场景 标准化代码中预留客制化部分&#xff0c;保证代码主体完整性&#xff0c;可以在预留增强位置预留两种类型的增强处理&#xff0c;其一为标准增强类型的&#xff0c;增强部分代码属于增加的逻辑&#xff0c;其二对于部分多样化的逻辑&#xff0c;使用优先执行默认逻辑&…

Java常用API:Object、Objects、包装类

Object类API toString 返回字符串类型 equals 默认比较的是地址 此时返回的是 false 可以在类中重写equals 方法 比较内容 如果内容一样就返回true clone 不能在测试类中用&#xff0c;必须在创建的类中重写克隆方法 还必须要有接口&#xff0c;说明这个对象有这个能力克隆 …

增量预训练baichuan-13b-chat遇到的那些坑

文章目录 前言资源deepspeed一、训练的坑二、推理的坑三、继续训练的坑总结前言 资源 单机两4090,如图 单卡24G,baichuan-13b-chat单卡推理需要至少26G,因此仅用一张卡,我们是无法加载百川13B的模型,所以,无论是推理还是训练,我们都必须并行! deepspeed 核心思想…

主干网络篇 | YOLOv8 更换主干网络之 VanillaNet |《华为方舟实验室最新成果》

论文地址:https://arxiv.org/pdf/2305.12972.pdf 代码地址:https://github.com/huawei-noah/VanillaNet 在基础模型的核心是“多样性即不同”,这一哲学在计算机视觉和自然语言处理方面取得了惊人的成功。然而,优化和Transformer模型固有的复杂性带来了挑战,需要转向简洁性…

Python-Python基础综合案例--数据可视化 - 地图可视化

版本说明 当前版本号[20230729]。 版本修改说明20230729初版 目录 文章目录 版本说明目录知识总览图Python基础综合案例--数据可视化 - 地图可视化基础地图使用案例效果视觉映射器 疫情地图-国内疫情地图案例效果实操设置全局配置选项 疫情地图-省级疫情地图案例效果实操 知…

spring拦截器 与统一格式

目录 前言模拟拦截器拦截器的实现原理什么是动态代理? 什么是静态代理静态代理与动态代理的区别两种常用的动态代理方式基于接口的动态代理基于类的动态代理 JDK Proxy 与 CGlib的区别 其他 统⼀访问前缀添加统⼀异常处理统⼀数据返回格式 前言 之前博客讲述了 , 关于SpringA…

Kotlin~Memento备忘录模式

概念 备忘录模式是一种行为型设计模式&#xff0c;用于捕获和存储对象的内部状态&#xff0c;并在需要时将对象恢复到之前的状态。 备忘录模式允许在不暴露对象内部实现细节的情况下&#xff0c;对对象进行状态的保存和恢复。 角色介绍 Originator&#xff1a;原发器&#x…

7.事件类型

7.1鼠标事件 案例-轮播图点击切换 需求&#xff1a;当点击左右的按钮&#xff0c;可以切换轮播图 分析: ①右侧按钮点击&#xff0c;变量&#xff0c;如果大于等于8&#xff0c;则复原0 ②左侧按钮点击&#xff0c;变量–&#xff0c;如果小于0&#xff0c;则复原最后一张 ③鼠…

Zotero ubuntu2023安装 关联 ubuntu文献翻译

一、准备下载的软件&#xff1a; Zotero | Downloads 1. Zotero-6.0.26_linux-x86_64.tar.bz2 下面是插件 zotfile-5.1.2-fx.xpi zotero-pdf-translate.xpi jasminum-v0.2.6.xpi 2.2.5 Tampermonkey 4.11.crx 所准备的文件&#xff0c;都已经在这个链接的压缩包下面 …

【机器学习】Multiple Variable Linear Regression

Multiple Variable Linear Regression 1、问题描述1.1 包含样例的X矩阵1.2 参数向量 w, b 2、多变量的模型预测2.1 逐元素进行预测2.2 向量点积进行预测 3、多变量线性回归模型计算损失4、多变量线性回归模型梯度下降4.1 计算梯度4.2梯度下降 首先&#xff0c;导入所需的库 im…

【Maven】让maven更高效,优化maven构建项目速度

打开idea的setting&#xff0c;找到maven&#xff0c;设置它多线程数&#xff0c;重启后即可&#xff01; 我这里是8&#xff0c;你们可以随便设置。 如下图&#xff1a;

Android 之 使用 Camera 拍照

本节引言 本节给大家带来的是Android中Camera的使用&#xff0c;简单点说就是拍照咯&#xff0c;无非两种&#xff1a; 1.调用系统自带相机拍照&#xff0c;然后获取拍照后的图片 2.要么自己写个拍照页面 本节我们来写两个简单的例子体验下上面的这两种情况~ 1.调用系统自带…

《向量数据库指南》:向量数据库Pinecone如何集成LangChain(二)

目录 创建嵌入 向量数据库 索引 创建向量存储并查询 生成式问答 创建嵌入 使用LangChain的OpenAI嵌入功能构建嵌入非常简单。我们首先需要运行下一个单元格,以添加我们的OpenAI API密钥: Python from getpass import getpassOPENAI_API_KEY = getpass("OpenAI…

CleanMyMac X4.14.1中文版如何清理 Mac系统?CleanMyMac 真的能断网激活吗?

CleanMyMac X4.14.1中文版如何清理 Mac系统&#xff1f;Mac系统在使用过程中都会产生大量系统垃圾&#xff0c;如不需要的系统语言安装包&#xff0c;视频网站缓存文件&#xff0c;mac软件卸载残留的注册表等。 随着时间推移&#xff0c;mac系统垃圾就会越来越多&#xff0c;电…

Spring事务创建与使用

目录 前言Spring中事务的实现声明式事务Transactional 作⽤范围Transactional 参数说明对于事务不回滚的解决方案 前言 在数据库中我们提到了 事务, 事务的定义为, 将一系列操作封装成一个整体去调用 , 要么一起成功, 要么一起失败 Spring中事务的实现 在Spring中事务的操作…

LLaMA:开放和高效的基础语言模型

Part1前言 我们介绍了LLaMA&#xff0c;这是一个参数范围从7B到65B的基础语言模型集合。我们在数以万亿计的标记上训练我们的模型&#xff0c;并表明有可能完全使用公开可用的数据集来训练最先进的模型&#xff0c;而不必求助于专有的和不可获取的数据集。特别是&#xff0c;L…