论文目录3:大模型时代(2023+)

news2024/11/17 13:38:44

1 instruction tuning & in context learning

论文名称来源主要内容
Finetuned Language Models Are Zero-Shot Learners2021

机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客

早期做instruction tuning的work

MetaICL: Learning to Learn In Context2021

机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客

in-context learning都是没有finetune过程,这里相当于finetune了一下 

Rethinking the Role of Demonstrations: What  Makes In-Context Learning Work?

2023

机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客

在in-context learning的时候,故意给一些错误的例子、其他领域的返利,看看大模型的效果

——>这篇论文的结论是,in-context learning只起到“唤醒”的作用,LLM本身就具备了所需要的功能。这里给LLM范例的作用只是提示LLM要做这个任务了

Larger language models do in-context learning differently2023

机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客

在更大的LLM中,in context learning 确实也起到了让模型学习的作用

2 Chain of Thought

论文名称来源主要内容
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 2022
  • 如果是数学这种需要推理的问题,直接给 in-context learning 往往效果若不好
  • 而如果我们给范例的时候,同时给推导过程+答案。期望模型输出答案的时候,也先输出推导,再输出答案
  • 这就叫Chain of Thought Prompting

机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客

Large Language Models are Zero-Shot Reasoners2022

在进行CoT的时候,范例输完了,需要模型回答的问题说完了,加一行’Let's think step by step',可以获得更好的效果

机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客

3 others

Is ChatGPT A Good Translator? A Preliminary Study2023

专项翻译任务上,ChatGPT不如一些专门做翻译的模型

How Good Are GPT Models at  Machine Translation? A  Comprehensive Evaluation2023

专项翻译任务上,ChatGPT不如一些专门做翻译的模型

4 大模型+时间序列

论文名称来源主要内容
论文笔记: One Fits All:Power General Time Series Analysis by Pretrained LM_UQI-LIUWJ的博客-CSDN博客2023
  • GPT2的Transformer
    • 冻结自注意力层+FFN层
    • 微调位置嵌入和Layer Norm
  • 使用Patching的方式将时间序列分块,以进行tokenize
  • 证明了预训练模型中的Transformer有类似于PCA的非特定数据集相关能力
论文笔记:TEST: Text Prototype Aligned Embedding to ActivateLLM’s Ability for Time Series_UQI-LIUWJ的博客-CSDN博客2023

对比学习学习时间序列token的embedding,然后将时间序列token的embedding和文本token的embedding进行对齐,并利用soft prompting进行后续大模型训练

论文笔记:TimeGPT-1-CSDN博客

时间序列的第一个基础大模型

5 mobility+大模型

论文笔记:Large Language Models as Urban Residents:An LLM Agent Framework for Personal Mobility Generati-CSDN博客

LLM+轨迹生成

li'yong 大模型(不train直接使用),得到用户在某一天的pattern(通用mobility)和motivation(短期的mobility),生成相应的轨迹

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1492655.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CSS文本样式值,web前端开发资料

正文 什么是行内元素? display属性为inline的元素为行内元素,英文:inline element,其中文叫法有多种,如:内联元素、内嵌元素、行内元素、直进式元素等。 特点: 和其他元素都在一行上&#x…

补点基础——几何尺寸和公差

几何尺寸与公差(Geometric dimensioning and tolerancing)代号:GD&T,主要是以下两个组织制定: 1.美国机械工程师学会(ASME) ASME Y14.5 是 GD & T 的完整定义,其中包含所有…

mac报错:zsh:command not found: brew

1、基本概述? 在使用brew安装程序的时候MAC提示: zsh:command not found: brew 本质就是brew没有安装,这个命令与linux系统中的yum命令类似。 使用的环境说明: 虚拟机版本:VMware Workstation 17 Pro mac os Ventu…

基于ERNIR3.0文本分类的开发实践

参考:基于ERNIR3.0文本分类:(KUAKE-QIC)意图识别多分类(单标签) - 飞桨AI Studio星河社区 (baidu.com) https://zhuanlan.zhihu.com/p/574666812?utm_id0 遇到的问题:如下 采用paddleNLP下文本分类实例进行分类训练后发现 生成的模型分类不…

组基轨迹建模 GBTM的介绍与实现(Stata 或 R)

基本介绍 组基轨迹建模(Group-Based Trajectory Modeling,GBTM)(旧名称:Semiparametric mixture model) 历史:由DANIELS.NAGIN提出,发表文献《Analyzing Developmental Trajectori…

【软件架构的常用分类及建模方法】

曾梦想执剑走天涯,我是程序猿【AK】 目录 简述概要知识图谱 简述概要 了解软件架构的常用分类及建模方法 知识图谱 1.1.2 软件架构的常用分类及建模方法 软件架构的常用分类 多年来,“架构”概念经过不断演化,目前已形成了满足不同用途的…

Meta AI最近推出的新模型,Searchformer

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

echarts柱状图可鼠标左击出现自定义弹框,右击隐藏弹框并阻止默认右击事件

每项x轴数据对应有两条柱图和一条阴影效果是学习其它博客得到的效果,这个是学习的原文链接:echarts两个合并柱体(普通柱状图象形柱图)共享一个柱体阴影 因为这次情况比较特殊,不仅需要自定义弹框内容,而且…

Python——与Matlab对应的Python版本

参考资料: Python——与Matlab对应的Python版本

Android高级工程师面试实战,三幅图给你弄懂EventBus核心原理

阿里技术一面-35min 自我介绍 Android 有没有遇到OOM问题(有遇到内存泄漏问题)Handler机制ThreadLocalActivity启动到加载View过程View绘制过程LinearLayout (wrap_content) & TextView (match_parent) 最终结果???OKHttp(1. 为什么选择它? 2. 性能了解不…

(C++练习)选择题+编程题

个人主页&#xff1a;Lei宝啊 愿所有美好如期而遇 选择题 以下程序输出结果是什么&#xff08;&#xff09; class A{public:virtual void func(int val 1){ std::cout<<"A->"<< val <<std::endl;}virtual void test(){ func();}};class B…

CSS标准文档流与脱离文档流,爆推

面试题&#xff1a; Html 1&#xff0c;html语义化 2&#xff0c;meta viewport相关 3&#xff0c;canvas 相关 CSS 1&#xff0c;盒模型 1.1&#xff0c;ie盒模型算上border、padding及自身&#xff08;不算margin&#xff09;&#xff0c;标准的只算上自身窗体的大小 c…

【SQL】指定日期的产品价格(IFNULL函数)

题目描述 leetcode题目&#xff1a;指定日期的产品价格 思路 找出所有的产品的指定的日期的价格&#xff1b;若找不到某个产品的更改日期&#xff0c;则将该产品价格设置为10。 关键点&#xff1a; if没有16号的&#xff0c;怎么找到前一个日期的&#xff1f;> 日期小…

flutter弹窗输入,Android学习的三个终极问题及学习路线规划

题库非常全面包括&#xff1a; Android基础知识: 基本涵盖Android所有知识体系&#xff0c;四大组件&#xff0c;Fragment,WebView,事件分发&#xff0c;View绘制…Java基础知识&高阶知识点: 基础部分不谈了&#xff0c;高阶部分&#xff1a;泛型&#xff0c;反射&#xff…

白皮书发布|超融合运行 K8s 的场景、功能与优势

目前&#xff0c;不少企业都使用虚拟化/超融合运行 Kubernetes 和容器化应用。一些用户可能会有疑惑&#xff1a;既然 Kubernetes 可以部署在裸金属上&#xff0c;使用虚拟化不是“多此一举”吗&#xff1f; 在电子书《IT 基础架构团队的 Kubernetes 管理&#xff1a;从入门到…

java 面试题总结

1锁粗化和锁消除&#xff0c;锁膨胀和锁升级的区别。 https://www.cnblogs.com/xuxinstyle/p/13387778.html .无锁 < 偏向锁 < 轻量级锁 < 重量级锁 &#xff0c;说的时候不要忘记说无锁状态 2.Map 的实现&#xff0c;线程安全的实现 1、ConcurrentHashMap在JDK 1.7…

【HarmonyOS】Dev Eco Studio4.0开发工具下载SDK10

目录 点击创建项目 选择空项目&#xff08;OpenHarmony&#xff09;&#xff0c;点击Next 此时SDK为10 点击 configure OpenHarmony SDK 创建一个新目录文件存放SDK&#xff0c;不要跟之前的SDK文件目录重合&#xff0c;点击Next 点击Next 勾选Accept&#xff0c;点…

【2024.03.05】定时执行专家 V7.1 发布 - TimingExecutor V7.1 Release

目录 ▉ 软件介绍 ▉ 新版本 V7.1 下载地址 ▉ V7.1 新功能 ▼2024-03-03 V7.1 - 更新日志 ▉ V7.0 新UI设计 ▉ 软件介绍 《定时执行专家》是一款制作精良、功能强大、毫秒精度、专业级的定时任务执行软件。软件具有 25 种【任务类型】、12 种【触发器】触发方式&#x…

docker安装ES和kibana

文章目录 一、安装Elasticsearch1. 安装Elasticsearch2. 安装IK分词器3. elasticsearch-head 监控的插件4. 配置跨域 二、安装kibana 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 一、安装Elasticsearch 1. 安装Elasticsearch 安装Elasticsearch参…

16-网关-自研微服务框

网关 在微服务的场景下&#xff0c;服务因为分布在不同的服务器上&#xff0c;但是用户在访问的时候&#xff0c;不可能去维护这成百上千的入口&#xff0c;希望有统一的入口来进行访问&#xff0c;这就是网关的作用。 网关最重要的一个功能就是路由功能&#xff0c;能将请求转…