【文献阅读】Transfer Learning For Text Classification Via Model Risk Analysis

news2024/10/8 10:24:07

前言:本文是以文本分类的迁移学习任务为例,对风险分析模型的整体框架流程做梳理。

目录

  • 1. LearnRisk
    • 1.1 motivatio
    • 1.2 overall
  • 2. LearnRisk-TC
    • 2.1 构造风险特征
      • 2.1.1 risk metric
      • 2.1.2 risk feature
    • 2.2 构建风险模型
    • 2.3 训练风险模型
    • 2.4 微调base model

1. LearnRisk

1.1 motivatio

  • 传统的DNN结果有一定错误的风险
  • 迁移学习目标域的标签数据难以获得,通常只有少量有标签样本

1.2 overall

在这里插入图片描述

风险分析整体分为三步:

  • 构造风险特征
  • 构建风险模型
  • 训练风险模型

2. LearnRisk-TC

在这里插入图片描述

  • 核心思路:在源域上训练好一个base model后,用目标域的少量有标签样本(如valid dataset)去训练风险模型,最后用无标签的test dataset重新微调base model。
  • 主要流程
    (1)源数据集训练base model;
    (2)有标签的目标域的验证数据集构建一批风险特征(决策树规则);
    (3)构建每个类别的正态分布:对每个风险特征构建一个正态分布(u是先验, σ {\sigma} σ后验),风险特征加权和作为每个类别的正态分布;
    (4)训练风险模型:损失函数的目标是实现正确的风险排序(风险由高到低);
    (5)利用无标签的目标域的测试数据集进行base model的微调。

2.1 构造风险特征

2.1.1 risk metric

文章中将risk metric主要分为两类,statistics-based risk metricsDNN-based risk metrics。对于每一个risk metric,都会生成一个长度为N的一维向量,N为总的类别数。假设目标域的测试数据集大小为Q,每一个文本都会有X个risk metric,最终共生成了Q*X个risk metric。

  • statistics-based risk metrics
    文章中构建了一种新的统计特征,计算公式如下:在这里插入图片描述
    其中,p为超参
    (1) C H I n e w = C H I ∗ α {CHI_{new} = CHI * {\alpha}} CHInew=CHIα, 各项解释如下:
    在这里插入图片描述

    (2) T F − I D F n e w = T F n e w ∗ I D F n e w ∗ β ∗ λ {TF-IDF_{new} = TF_{new} * IDF_{new} * {\beta} * {\lambda}} TFIDFnew=TFnewIDFnewβλ,各项解释如下:
    在这里插入图片描述
    在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/58671c4563754de7a1ddcefc4b8d15e2.png)
  • DNN-based risk metrics
    文章采用了两种模型,bert和textcnn用于提取文档特征,然后使用knn和ccd两种方法计算。

2.1.2 risk feature

文章使用单边决策树来生成risk features,决策树生成的每条规则对应了一个risk feature,如下:
在这里插入图片描述
在这里插入图片描述
最终会生成一批决策树,得到一批规则,即一批risk feature。

2.2 构建风险模型

在这里插入图片描述
对于多分类问题,假设共N个类别,对于每个类别分别构建一个风险模型。
类别i的风险模型构建的主要流程
(1)对每个风险特征分别建立一个正态分布 N ( u , σ 2 ) {N(u, \sigma^2)} N(u,σ2)
u是先验知识: u = n / m {u=n/m} u=n/m,n是风险分析的训练数据集(即目标域的验证数据集)中成功匹配该风险特征的文档数,m是训练数据集中属于该类别的总文档数。
σ {\sigma} σ是后验知识,待模型训练得到。
注意:不同类别对应的各个风险特征的正态分布并不一样。

(2)求所有风险特征的加权和作为类别i的正态分布。
所有的风险特征都是一条条规则,指向的是匹配某个类别,假设共5个风险特征,第2,3,5条风险特征指向的是匹配类别i,则类别i的特征向量 x i {x_i} xi为(0,1,1,0,1)。类别i的权重向量为 w i w_i wi则i的正态分布计算如下:
u i = x i ( w i ∗ u f ) {u_i = x_i (w_i * u_f)} ui=xi(wiuf)
σ i 2 = x i ( w i ∗ σ f 2 ) {\sigma_i^2 = x_i (w_i * \sigma_f^2)} σi2=xi(wiσf2)
其中 u f u_f uf代表的是一个长度为m的一维向量,即每个风险特征的u, σ f 2 \sigma_f^2 σf2同理。

2.3 训练风险模型

风险模型的训练目标是排序,即能够让高风险的文档正确的排在低风险文档的前面,或者说能让分类错误的文档排在分类正确的文档前面。
损失构建如下:
在这里插入图片描述
在这里插入图片描述

2.4 微调base model

核心思想:用base model对目标域的测试数据集做预测,求每个文本的预测类别,然后用训练好的风险模型去计算该类别的风险值,对base model设计一个新的损失函数进行微调。
损失函数如下:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2196114.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

线性代数入门

线性代数入门 线性代数(Linear Algebra)是数学的重要分支之一,广泛应用于工程、计算机科学、物理学、经济学等领域。它主要研究向量、矩阵及其在空间中的变换。对于程序员来说,掌握线性代数的基础知识能够帮助更好地理解数据处理…

边缘人工智能(Edge Intelligence)

边缘人工智能(Edge AI)是指在边缘设备上直接运行人工智能(AI)和机器学习(ML)算法的技术。机器学习是一个广泛的领域,近年来取得了巨大的进步。它所基于的原则是,计算机可以通过从数据…

Qt-QGridLayout布局类控件(43)

目录 描述 属性 使用 常规使用 垂直布局 水平布局 布局是按照相对大小进行的 拉伸系数 使用 设置水平拉伸系数 设置垂直拉伸系数 描述 Qt 中还提供了 QGridLayout ⽤来实现⽹格布局的效果.可以达到 M * N的这种⽹格的效果 属性 layoutLeftMargin左侧边距layoutRig…

Windows 安装 Maven 并配置环境变量

一、简介 Maven 是一款基于 Java 平台的项目管理和整合工具,用来构建项目的。也就是清理、编译、测试、运行、打包、安装整个过程都交给 Maven 管理,整个过程就是构建。 二、安装 Java JDK Maven 依赖 Java JDK,如果本机没有安装过 Java 的…

NASA:第三版大气痕量分子光谱(ATMOS)2 级产品,包含垂直高度(千米)网格上的痕量气体

目录 简介 摘要 代码 引用 网址推荐 0代码在线构建地图应用 机器学习 ATMOS L2 Trace Gases on Altitude Grid, Fixed Field Format V3 (ATMOSL2AF) at GES DISC 简介 高度网格上的 ATMOS L2 跟踪气体,固定字段格式 V3 (ATMOSL2AF) 这是第三版大气痕量分子…

CMake学习笔记:项目的导出和安装-install命令

一、基本语法与概念 1.文件的安装 install(FILES) 用Poco库 usr/local/poco/CMakeLists.txt中内容 举例如下: 2.目标安装 install(TARGETS) 3.导出目标与导出配置文件 将目标mylib导出名为MyModules的目标。MyModules导出目标包含了关于mylib的所有信息&#xf…

【初阶数据结构】冒泡排序和选择排序(用C语言实现,主要讲思维)

文章目录 前言1. 冒泡排序1.1 算法思想1.2 冒泡排序的代码实现1.3 冒泡排序算法的改进 2. 选择排序2.1 算法思想2.2 选择排序的代码实现 3. 写排序算法的小技巧 前言 讲到排序相信大家一定对一种排序很熟悉,它的名字就叫做冒泡排序。这个排序大家在学习各种语言时&…

【优选算法】(第二十六篇)

目录 两数相加(medium) 题目解析 讲解算法原理 编写代码 两两交换链表中的节点(medium) 题目解析 讲解算法原理 编写代码 两数相加(medium) 题目解析 1.题目链接:. - 力扣(…

随着硬件水平的提升,LabVIEW有哪些过去的编程方法被淘汰掉了

随着硬件水平的不断提升,尤其是处理器性能、存储能力、通信速度等方面的飞跃,LabVIEW的一些早期编程方法逐渐被更高效、现代的编程技术所取代。以下是一些随着硬件升级而逐步淘汰的LabVIEW编程方法和技术: 1. 低效的数据流传输方式 过去由于…

SQL执行顺序是如何工作的,为什么它如此重要?

🎯SQL执行顺序是如何工作的,为什么它如此重要? SQL查询按照以下顺序执行其语句: 1️⃣FROM / JOIN 2️⃣WHERE 3️⃣GROUP BY 4️⃣HAVING 5️⃣SELECT 6️⃣DISTINCT 7️⃣ORDER BY 8️⃣LIMIT / OFFSET 你在每个步骤中实现的技…

特定类型的图与应用 - 离散数学系列(六)

目录 1. 树和生成树 树的定义 生成树与最小生成树 2. 二分图 二分图的定义 示例:最大匹配问题 3. 欧拉图与哈密顿图 欧拉图 哈密顿图 4. 实际应用场景 1. 文件系统中的树结构 2. 网络优化中的最小生成树 3. 社交网络分析 5. 例题与练习 例题1&#xf…

sv标准研读第十三章-task和function

书接上回: sv标准研读第一章-综述 sv标准研读第二章-标准引用 sv标准研读第三章-设计和验证的building block sv标准研读第四章-时间调度机制 sv标准研读第五章-词法 sv标准研读第六章-数据类型 sv标准研读第七章-聚合数据类型 sv标准研读第八章-class sv标…

【直接原地起飞】3DMAX2025热门插件合集来啦!

强烈推荐8款3DMAX2025热门插件! 在3DMAX的广阔世界里,插件如同魔法工具,为设计师们打开了无限创意的大门。今天,我们精心挑选了8款热门插件,它们不仅功能强大,而且易于上手,定能让你的3D设计之旅…

Python从0到100(六十二):机器学习实战-预测波士顿房价

前言: 零基础学Python:Python从0到100最新最全教程。 想做这件事情很久了,这次我更新了自己所写过的所有博客,汇集成了Python从0到100,共一百节课,帮助大家一个月时间里从零基础到学习Python基础语法、Pyth…

增强分析:新时代的数据洞察工具

随着数据科学和人工智能的迅猛发展,分析数据的方式也发生了显著的变化。增强分析(Augmented Analytics)是近年来涌现出的新概念,它将人工智能(AI)、机器学习(ML)和自然语言处理&…

操作系统 | 学习笔记 | 王道 | 4.2 目录

4.2 目录 4.2.1 目录的基本概念 文件目录指FCB的有序集合,一个FCB就是一个文件的目录项。与文件管理系统和文件集合相关联的是文件目录,它包含有关文件的属性、位置和所有权等。 目录管理的基本要求: 从用户的角度看,目录在用户…

win11下AMD CPU支持WSL2

除开常规的配置: 1.打开虚拟机 2.打开hyper-v 3.bios启用虚拟机 还需要做如下操作: 管理员方式进入Powershell: bcdedit /set hypervisorlaunchtype auto 成功案例: win11: cpu: amd

00_概览_kafka

kafka 概述kafka版本流程启动zk配置zk启动命令 启动kafka修改server.properties启动命令 kafka脚本-命令行操作命令行创建主题脚本查看主题主题详情修改主题删除主题大量日志解决方案 控制台生产者消费者代码 生产者 消费者kafka-toolkafka数据文件 扩展横向扩展纵向扩展分区消…

【小沐学GIS】QGIS导出OpenStreetMap数据(QuickOSM、OSM)

文章目录 1、简介1.1 OSM1.2 QuickOSM1.3 Overpass Turbo 2、插件安装3、插件使用3.1 快速查询(boundary边界)3.2 快速查询(railway铁路)3.3 快速查询(boundaryadmin_level行政边界)3.4 快速查询&#xff0…

OpenFeign-查询参数-日期格式化:LocalDate、Date、@DateTimeFormat(低版本无效)

创建时间:2024-10-08 本文适用的依赖版本: spring-boot-starter-parent:3.3.3 spring-cloud-starter-openfeign:4.1.3 一、场景 在 REST API 的查询接口中,日期查询参数 的格式一般是标准(ISO 8601&#x…