dropout 机制存在，对于同一句子的两次输出是不同的

news2025/7/4 14:44:18

SimCSE 提供了无监督（上图 a）和有监督（上图 b）两种架构，由于业务需要我们只用了无监督方式，其基本思路是：

1. 同一个 batch 内的数据两次输入模型。

2. 由于有 dropout 机制存在，对于同一句子的两次输出是不同的，两次输出互为正例，其他为负例。

3. 最小化目标函数，进行参数更新。

论文中，在一个 batch 中，样本 i 的损失函数为对比学习的 InfoNCE Loss[8]：

最终模型的效果在各个数据集上基本处于碾压的存在。

03 应用

由于业务需求是当有新增提问时，获取历史相似提问簇，因此整个过程分为三个阶段：

step1：训练 ernie-SimCSE，获取句子 encoder，本阶段主要获取编码器用来获取句子的语义向量；

step2：构建语义索引库，本阶段主要是得到语义索引，用于检索相似向量；

step3：反作弊策略，将相似向量用于反作弊策略，用于识别群发推广。

3.1 ernie-SimCSE

目前对于预训练模型的应用从『预训练』+『子任务 finetune』的模式过渡为『预训练』+『领域预训练』+『子任务 finetune』，我们选取的 encoder 模型为当前中文领域最好的 ernie 模型，在 ernie 模型基础上增加 SimCSE，训练过程为：

在预训练基础上添加搜索 Q-T 匹配任务的训练，得到 Ernie-Search，通过大规模点击日志构建 Q-T 图，我们在这张图上通过随机游走采样出 q-t-q-t 序列 S = [q0 , t1 , …, qN-1 , tN] ，然后在这个序列上执行针对序列 S 的遮盖词预测完成预训练任务；
在 Ernie-Search 的基础上利用，单独利用知道提问数据进行进一步 post-train，得到 Ernie-Search-ZD；
在 Ernie-Search-ZD，添加 SimCSE 对比学习，获取最终的模型 Ernie-SearchCSE。

3.2 问题及优化

论文中的损失没有计算增强后的样本之间的损失，原因可能是由于计算成本的考虑，我们对损失进行了改进，对于增强后的数据也纳入负例的损失计算：

3.3 模型效果

为了观测模型的最终效果，我们选取了之前的 17 个目标 case，以及随机选取 10 个其它句子：

由下方热力图可以看出，符合当初模型预期，前 10 个的相似性远大于后 10 个的相似性。对于提问『北京肋软骨隆鼻刘彦军做的怎么样？』检索索引库中语义最相似 TOP 10 获取疑似变形推广。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/29837.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

摩托车商城系统（基于javaweb开发的项目）

摩托车商城系统（基于javaweb开发的项目）

目录前言一、项目目录二、效果图 2.1 首页面效果图 2.2 商品分类页面 2.3 热销栏页面 2.4 新品栏页面 2.5 购物狂欢栏页面 2.6 我的订单页面 2.7 个人中心页面 2.8 注册页面 2.9 用户登录页面 2.10 Admin后台管理主页面 2.11 Admin订单管理页面 2.12 A…

阅读更多...

[附源码]SSM计算机毕业设计基于社区生鲜配送系统JAVA

[附源码]SSM计算机毕业设计基于社区生鲜配送系统JAVA

项目运行环境配置： Jdk1.8 Tomcat7.0 Mysql HBuilderX（Webstorm也行） Eclispe（IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持）。项目技术： SSM mybatis Maven Vue 等等组成，B/S模式 M…

阅读更多...

万字总结线程池

万字总结线程池

本文将从背景、原理、架构、实现、参数状态等方面详细介绍percona-线程池。此外，还将简单介绍腾讯云企业级MySQL(CDB)内核技术--TXSQL，关于线程池的动态启停、负载均衡以及快速断连等优化。「第一部分背景」社区版的MySQL的连接处理方法默认是为每个…

阅读更多...

“信任机制”才是数字化时代发展中的精髓所在

“信任机制”才是数字化时代发展中的精髓所在

2008年，美国次贷危机全面爆发并不断蔓延，最终席卷全球，酿成了世界性的金融危机。当年11月1日，一位署名为中本聪的人发表一篇《比特币：一种点对点的电子现金系统》论文提出了一种完全通过点对点技术实现的电子现金系统。…

阅读更多...

Flutter 实现背景 Parallax 动画

Flutter 实现背景 Parallax 动画

Flutter 实现背景 Parallax 动画原文 https://arkapp.medium.com/background-parallax-animation-in-flutter-4aa9e23d6cfb 前言我们将创建我们的 Flutter 项目惊人的 Parallax 动画。在本文中，我们将实现一个简单的实用工具 widget ，它将在任何 widg…

阅读更多...

Transformer/Bert

Transformer/Bert

诸神缄默不语-个人CSDN博文目录文章目录1. Transformer1.1 Transformer整体工作流程1.2 Transformer的输入1.2.1 单词 Embedding1.2.2 位置 Embedding1.3 Block1.3.1 Add & Norm层1.3.2 Self-Attention1.3.3 Multi-Head Attention1.3.4 Feed Forward1.3.5 Masked Multi-He…

阅读更多...

[附源码]计算机毕业设计JAVA篮球装备商城系统

[附源码]计算机毕业设计JAVA篮球装备商城系统

[附源码]计算机毕业设计JAVA篮球装备商城系统项目运行环境配置： Jdk1.8 Tomcat7.0 Mysql HBuilderX（Webstorm也行） Eclispe（IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持）。项目技术： SSM mybati…

阅读更多...

HTTP/2是什么？和HTTP/1.1有什么不同？和SPDY有什么不同？

HTTP/2是什么？和HTTP/1.1有什么不同？和SPDY有什么不同？

HTTP/2简介 HTTP/2 是超文本传输协议第2版，最初命名为 HTTP 2.0 ，其简称为 h2（基于TLS/1.2或以上版本的加密连接）或 h2c（非加密连接），是HTTP协议的的第二个主要版本，使用于万维网。 …

阅读更多...

备考2023年软考需要了解什么？

备考2023年软考需要了解什么？

2022年软考已经结束啦！下半年还是有不少地区取消了，没能报上名或是没能正常参考的朋友们，只能把目光转向2023年了。这篇文章就来给大家讲讲备考2023年软考需要了解什么？ 软考小白必看哦！ 一、软考是啥？…

阅读更多...

带你走进神奇的元宇宙的世界

带你走进神奇的元宇宙的世界

🏠个人主页：黑洞晓威 🧑个人简介：大家好，我是晓威，一名普普通通的大二在校生，希望在CSDN中与大家一起成长。🎁如果你也在正在学习Java，欢迎各位大佬来到我的博客查漏补缺…

阅读更多...

阿里架构师推荐，微服务分布式构架开发实战PDF，快快收藏吧

阿里架构师推荐，微服务分布式构架开发实战PDF，快快收藏吧

什么是微服务架构微服务是一种软件架构风格，目标是将一个复杂的应用拆分成多个服务模块，每个模块专注单一业务功能对外提供服务，并可以独立编译及部署，同时各模块间互相通信彼此协作，组合为整体对外提供完整服务。微…

阅读更多...

嵌入式开发学习之--创建工程

嵌入式开发学习之--创建工程

提示：本篇文章依旧是了解为主，实际做项目时直接找开源的类似项目做模板更效率。文章目录一、前言二、新建工程三、使用模板工程四、总结一、前言前面的学习，都是文件内的代码联系，这一篇，是学习文件与目录的联系。当…

阅读更多...

数字信号处理-8-自相关

数字信号处理-8-自相关

1 皮尔森相关系数假设 x 和 y 均为 N 个样本的数组，皮尔森公式如下： 皮尔森相关系数总是在 -1 到 1 之间（包含这两个字）。ρ 的绝对值意味着相关性的强度。ρ 接近 1 表示强正相关；ρ 接近 -1 表示强负相关&#xf…

阅读更多...

上传文件很费时费力？那是你没用对方式

上传文件很费时费力？那是你没用对方式

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、前端直传的优点二、实现步骤2.1、后端方面2.1.1 添加依赖2.1.2 增加接口2.1.3 测试接口2.2、前端方面2.2.1 安装 cos-js-sdk-v5 依赖2.2.2 新建组件2.2.3 使…

阅读更多...

你的哪些SQL慢？看看MySQL慢查询日志吧

你的哪些SQL慢？看看MySQL慢查询日志吧

前言在项目里面，多多少少都隐藏着一些执行比较慢的SQL, 不同的开发测试人员在平时使用的过程中多多少少都能够遇到，但是无法立马有时间去排查解决。那么如果有一个文件能够将这些使用过程中比较慢的SQL记录下来，定期去分析排查，…

阅读更多...

meta视口标签

meta视口标签

属性解释说明width宽度设置的是viewport宽度，可以设置device-width特殊值initial-scale初始缩放比，大于0的数字maximum-scale最大缩放比，大于0的数字minimum-scale最小缩放比，大于0的数字user-scalable用户是否可以缩放&#xff0…

阅读更多...

关于我们编写好的java程序是如何运行部署的

关于我们编写好的java程序是如何运行部署的

了解如何去查看项目如何运行怎么部署java项目部署到服务器的程序和在本地运行的程序有什么不同java中的Class文件是如何形成的Class文件如何执行的怎么部署java项目首先宏观的说一下，程序的运行都是要有一个启动入口的，也就是我们经常说的main函数是程…

阅读更多...

【Shell 脚本速成】03、Shell 脚本实战案例（一）数据磁盘初始化

【Shell 脚本速成】03、Shell 脚本实战案例（一）数据磁盘初始化

目录一、案例应用场景二、案例需求脚本所需相关知识点三、案例算法四、代码实现五、实现验证一、案例应用场景生产环境中的服务器一般会分为系统盘和数据盘两种磁盘，以dell R730举例，该服务器是一个2U的机架式服务器，满载可以挂…

阅读更多...

HTML+CSS简单的网页制作期末作业——浙江旅游景点介绍网页制作

HTML+CSS简单的网页制作期末作业——浙江旅游景点介绍网页制作

家乡旅游景点网页作业制作网页代码运用了DIV盒子的使用方法，如盒子的嵌套、浮动、margin、border、background等属性的使用，外部大盒子设定居中，内部左中右布局，下方横向浮动排列，大学学习的前端知识点和布局方式都有…

阅读更多...

Redisson分布锁原理分析及源码解读

Redisson分布锁原理分析及源码解读

本文源码解读基于Redisson 3.18.0 版本 Redisson分布锁实现原理 Redisson锁实现基本原理大致如下图所示： 客户端执行Lua脚本去获取锁，如果获取失败，则订阅解锁消息，并挂起线程。客户端解锁时执行一段Lua脚本，删除锁的…

阅读更多...

推荐文章

最新文章