Text Classification via Large Language Models

news2024/9/30 19:42:35

Abstract

表达大模型在文本分类上做的不好。
原因:
1、处理复杂语境时缺少推理能力。(e.g… 类比、讽刺)
2、限制学习的上下文的token数。
提出了自己的策略:
** Clue And Reasoning Prompting (CARP).线索与推理提示**
1、能用prompt找到clue(语境线索)
2、能使用K-最近邻算法在上下文的学习中,使得能利用LLM的泛化性和具体任务的全标签功能。
ICL(in-context learning)。

introduction

带有ICL的LLM的效果不如微调后的文本分类模型原因:
1、LLM的推理能力不行
2、上下文学习受限,the longest context allowed for GPT-3 is 4,096 subtokens.
所以比监督学习(文本分类模型)的效果要差一些。

related work

大模型可以泛泛的被分为三类:
1、encoder-only:Bert
2、decoder-only:GPT
3、encoder-decoder:T5

prompt Construction (优化结构)

通过input对于语句的判断(sentiment is positive or negative)做引导,证明这种可行性只需要在few-shot证明即可。
在这里插入图片描述
prompt样例👆

选取输入样例

Random:没效果
kNN Sampling:把 x t e s t x_{test} xtest使用一个encoder模型,选出和 x t e s t x_{test} xtest相近的k个数据。
SimCSE:基于语义模型做的检索语义相似的example,但是不一定是具有相同标签的示例。
Finetuned Model:CARP使用在训练数据集上微调的模型作为kNN编码器模型。
个人理解是在训练前加入了一个encoder模型,然后有针对性的(取相似Q&A)作为大模型的prompt。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1129373.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Mysql进阶-存储引擎篇

MySQL体系结构 其他数据库相比,MySQL有点与众不同,它的架构可以在多种不同场景中应用并发挥良好作用。主要体现在存储引擎上,插件式的存储引擎架构,将查询处理和其他的系统任务以及数据的存储提取分离。 这种架构可以根据业务的需…

RK3568平台开发系列讲解(应用篇)串口应用编程之串口的使用步骤

🚀返回专栏总目录 文章目录 一、配置参数1.1、获取当前串口的配置参数1.2、修改和写入串口的配置参数二、模式2.1、输入模式2.2、输出模式2.3、控制模式2.4、本地模式2.5、特殊控制字符沉淀、分享、成长,让自己和他人都能有所收获!😄 📢 串口设备是嵌入式开发中最常用的…

Facebook批量注册如何做?一文教会你

我们都知道单个代理地址注册多个社媒账号,基本第二天都会进入到一个风控状态,要申诉或者封号,批量注册需要用不同的地址进行注册,推荐使用动态代理代理,下面是需要准备到的环境和材料以及注册的全流程。 一、环境需求 1、接码平…

STM32定时器介绍

STM32F103系列单片机定时器主要有:系统定时器SysTick,2个高级定时器TIM1和TIM8,4个通用定时器TIM2/3/4/5,2个基本定时器TIM6和TIM7。下面先简单介绍一下: 基本定时器:基本定时器只能计时,不能产…

MIT-BIH-AF 数据集开发库

目录 1 介绍数据集2 本博客函数库代码地址以及介绍读取dat,qrc,atr文件,获得 ECG_rpeaks,ann_aux_note,ann_sample,ECG0寻找时间点函数----signal_time_sample寻找R_R峰信号以及其位置----find_R_R_peak寻找 nR 峰信号以及位置---…

springboot实现邮箱发送(激活码)功能

第一步&#xff1a;现在邮箱里面开启smtp服务 这里用163邮箱举例&#xff0c;配置一下授权密码&#xff0c;这个要提前记住 第二步&#xff1a;引入依赖 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/P…

大语言模型(LLM)综述(三):大语言模型预训练的进展

A Survey of Large Language Models 前言4. PRE-TRAINING4.1数据收集4.1.1 数据源4.1.2 数据预处理4.1.3 预训练数据对LLM的影响 4.2 模型架构4.2.1 典型架构4.2.2 详细配置 前言 随着人工智能和机器学习领域的迅速发展&#xff0c;语言模型已经从简单的词袋模型&#xff08;B…

Banana Pi 开源社区发布BPI-M6开源硬件开发板,支持6.75TOPs算力

香蕉派BPI-M6 采用深蕾半导体Vs680芯片设计&#xff0c;板载4G LPDDR4和16G eMMC存储 香蕉派BPI-M6是香蕉派社区在2022年推出的新一代单板计算机&#xff0c;它采用深蕾半导体(Synaptics) VS680四核Cortex-A73 (2.1GHz)和一个Cortex-M3处理器&#xff0c;Imagination GE9920 G…

【C++面向对象】6. 指向类的指针

文章目录 【 1. 基本原理 】【 2. 实例 】 【 1. 基本原理 】 一个指向 C 类的指针与指向结构体的指针类似&#xff0c;访问指向类的指针的成员&#xff0c;需要使用 成员访问运算符 ->&#xff0c;就像访问指向结构的指针一样。 【 2. 实例 】 // 使用指向类的指针&…

2.8.C++项目:网络版五子棋对战之对战玩家匹配管理模块的设计

文章目录 一、意义二、功能三、设计四、阻塞队列&#xff08;一&#xff09;功能&#xff08;二&#xff09;框架&#xff08;三&#xff09;代码 五、匹配管理&#xff08;一&#xff09;功能&#xff08;二&#xff09;设计&#xff08;三&#xff09;框架&#xff08;四&…

GoLand设置Go Modules的Environment信息

在golang中&#xff0c;如果没有设置环境信息&#xff0c;就不会自动下载go.mod中设置的包&#xff0c;这时候&#xff0c;我们就需要设置一下环境信息 GOPROXYhttps://goproxy.cn,direct 图片如下&#xff1a;

【机器学习】集成学习Boosting

文章目录 集成学习BoostingAdaBoost梯度提升树GBDTXGBoostxgboost库sklearn APIxgboost库xgboost应用 集成学习 集成学习&#xff08;ensemble learning&#xff09;的算法主要包括三大类&#xff1a;装袋法&#xff08;Bagging&#xff09;&#xff0c;提升法&#xff08;Boo…

Python基础入门例程10-NP10 牛牛最好的朋友们

目录 描述 输入描述&#xff1a; 输出描述&#xff1a; 示例1 解答&#xff1a; 说明&#xff1a; 描述 牛牛有两个最好的朋友&#xff0c;他们的名字分别用input读入记录在两个字符串中&#xff0c;请使用字符串连接&#xff08;&#xff09;帮助牛牛将两个朋友的名字依…

大灰狼远程管理[SVIP3会员版]易语言源码

大灰狼远程管理[SVIP3会员版]易语言源码 下载地址&#xff1a;https://user.qzone.qq.com/512526231/main https://user.qzone.qq.com/3503787372/main

实验六:DHCP、DNS、Apache、FTP服务器的安装和配置

1. (其它) 掌握Linux下DHCP、DNS、Apache、FTP服务器的安装和配置&#xff0c;在Linux服务器上部署JavaWeb应用 完成单元八的实训内容。 1、安装 JDK 2、安装 MySQL 3、部署JavaWeb应用 安装jdk 教程连接&#xff1a;linux安装jdk8详细步骤-CSDN博客 Jdk来源&#xff1a;linu…

自动驾驶之—2D到3D升维

前言&#xff1a; 最近在学习自动驾驶方向的东西&#xff0c;简单整理一些学习笔记&#xff0c;学习过程中发现宝藏up 手写AI 3D卷积 3D卷积的作用&#xff1a;对于2DCNN&#xff0c;我们知道可以很好的处理单张图片中的信息&#xff0c;但是其对于视频这种由多帧图像组成的图…

分类预测 | MATLAB实现SSA-CNN-GRU-Attention数据分类预测(SE注意力机制)

分类预测 | MATLAB实现SSA-CNN-GRU-Attention数据分类预测&#xff08;SE注意力机制&#xff09; 目录 分类预测 | MATLAB实现SSA-CNN-GRU-Attention数据分类预测&#xff08;SE注意力机制&#xff09;分类效果基本描述模型描述程序设计参考资料 分类效果 基本描述 1.MATLAB实现…

【软考系统架构设计师】2021年系统架构师综合知识真题及解析

本文主要分享2021年下半年系统架构师综合知识历年真题以及本人在做题时的所思所想。题目序号有点混乱&#xff0c;可忽略 【01】.某计算机系统页面大小为4K&#xff0c;进程P1的页面变换表如下图所示&#xff0c;看P1要访问数据的逻辑地址为十六进制1B1AH,那么该逻辑地址经过变…

2023CPSE安博会倒计时1天!英码科技参展5大亮点抢先看~

第十九届中国国际社会公共安全博览会 暨全球数字城市产业博览会 距离开幕仅剩1天 英码科技将精彩亮相1号馆 展位号为&#xff1a;1A06 展会期间重点展示 创新性的国产AI智能硬件 AI技术服务以及热门的行业解决方案 2023CPSE安博会基本信息 展会时间&#xff1a;10月25-27日&am…

深度学习第四课

第九章 卷积神经网络解读 9.1 计算机视觉 目标分类 目标识别 64x64x312288 1000x1000x33000000 使用传统神经网络处理机器视觉面临的一个挑战是&#xff1a;数据的输入会非常大 一般的神经网络很难处理海量图像数据。解决这一问题的方法就是卷积神经网络 9.2 卷积运算 …