实验进行时

news2025/1/11 8:46:49

torch与cuda版本配对:Previous PyTorch Versions | PyTorch

删除虚拟环境:conda remove -n mygcn --all

时序KG

删掉1.7.1torch装1.8.0,解决报错RuntimeError: CUDA error: no kernel image is available for execution on the

已经成功运行,问题是没有看懂代码,baseline怎么运行

gcn:

报错:Script file 'D:\anaconda3\Scripts\pip-script.py' is not present.

解决:输入easy_install -i https://mirrors.aliyun.com/pypi/simple pip,之后再安装

少样本进行gragh2text任务:

1.报错:

RuntimeError: CUDA out of memory. Tried to allocate 432.00 MiB (GPU 0; 23.70 GiB total capacity; 8.70 GiB already allocated; 73.69 MiB free; 9.24 GiB reserved in total by PyTorch)

可以在报错的地方加上:

4.关键字生成——向量-文本

就是将向量的表示通过全连接层投影到更大的向量logits中,然后通过softmax层将logits对应的分数转化为概率,得到每一个唯一单词的得分 

eg:词汇表包含100个词,要生成8个单词,那么logits维度为:8*100*嵌入维度;softmax为8*100可以得到每一个单词对应于词汇表中单词的概率,选择概率最大的对应的词作为得到的单词

with torch.no_grad():

或者将训练集数据、batchsize进行调小

2.学习率

原始的学习率太小了,所以训练的超级慢

科普学习率 (learning rate),作为监督学习以及深度学习中重要的超参,它控制网络模型的学习进度,决定这网络能否成功或者需要多久成功找到全局最小值,从而得到全局最优解,也就是最优参数。

学习率过大会忽略某些阶段直接学习到下一个阶段,造成学习不全面;还有就是会造成网络不收敛,在最优值上下徘徊,忽略了最优值的位置

学习率过小会使得学习的速度特别慢,甚至在局部极值那里就开始收敛(因为在那块一直跨不过去局部极值这个坑,使得极值在这里便收敛了)

学习率设置:一般是通过学习轮数的改变动态学习学习率的刚开始训练时:学习率以 0.01 ~ 0.001 为宜。
一定轮数过后:逐渐减缓。
接近训练结束:学习速率的衰减应该在100倍以上。
如果是 迁移学习 ,由于模型已在原始数据上收敛,此时应设置较小学习率 (≤0.0001) 在新数据上进行微调 

学习率衰减机制:

每n轮学习率减半

训练过程中的之输衰减:decay_steps

使用批归一化:一般是在网络每一层输入的时候插入一个BN层(归一化为均值为0,方差为1),然后在进入下一层。有了它现在我们可以采用初始很大的学习率,然后学习率的衰减速度也很大,因为BN算法收敛很快。

实验

1.BART是生成式预训练模型,可以看作是Bert和gpt的结合体。

在2019年提出,是一个预训练模型。《BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension》

比bert的参数要多一些,在Discriminative Tasks上,达到了RoBERTa类似的表现;在text generation tasks.取得了new state-of-the-art结果。

Transformmer复现

​​​​​​PyTorch教程与源码讲解20——Transformer模型六大细节难点的逐行实现(二)_哔哩哔哩_bilibili

​​​​​​PyTorch教程与源码讲解21——Transformer模型总结及其loss代码实现_哔哩哔哩_bilibili

PyTorch教程与源码讲解21——Transformer模型总结及其loss代码实现_哔哩哔哩_bilibili

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/379980.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数组模拟常见数据结构

我们来学习一下用数组模拟常见的数据结构:单链表,双链表,栈,队列。用数组模拟这些常见的数据结构,需要我们对这些数据结构有一定的了解哈。单链表请参考:http://t.csdn.cn/SUv8F 用数组模拟实现比STL要快&a…

PCB板漏孔、漏槽怎么办?看工程师避坑“SOP”

本文为大家介绍PCB画板时常见的钻孔问题,避免后续踩同样的坑。钻孔分为三类,通孔、盲孔、埋孔。不管是哪种孔,孔缺失的问题带来的后果是直接导致整批产品不能使用。因此钻孔设计的正确性尤为重要。 案例讲解 问题1:Altium设计的文…

Linux 进程:进程状态

目录一、进程状态1.简单分类2.详细分类(1)运行态(2)休眠态[1]可中断休眠态[2]不可中断休眠态(3)停止状态(4)死亡状态(5)僵死状态二、特殊进程1.僵尸进程2.孤儿…

Java-枚举类的使用(详解)

枚举类的使用前言一、何为枚举类?二、自定义枚举类(JDK1.5之前)1、实现1.1 属性1.2 构造器2、代码演示三、用关键字enum定义枚举类(JDK 1.5)1、实现1.1 属性1.2 构造器2、代码演示四、Enum类的方法五、实现接口的枚举类…

GeoServer 存在 sql 注入漏洞

漏洞描述 GeoServer 是一个允许用户共享和编辑地理空间数据的开源软件服务器,支持 OGC Filter expression 和 OGC Common Query Language 语言,使用 PostGIS Datastore 作为数据库。PostGIS是PostgreSQL数据库的扩展程序,增加了数据库对地理…

HTMLCollection 和 NodeList 区别

Node 和 Element DOM 是一棵树&#xff0c;所有节点都是 NodeNode 是 Element 的基类Element 是其他 HTML 元素的基类&#xff0c;如 HTMLDivElement HTMLCollection 和 NodeList HTMLCollection 是 Element 的集合NodeList 是 Node 的集合 <body><p id"p1&qu…

什么是IP地址?

IP协议中还有一个非常重要的内容&#xff0c;那就是给因特网上的每台计算机和其它设备都规定了一种地址&#xff0c;叫做“IP 地址”。由于有这种地址&#xff0c;才保证了用户在连网的计算机上操作时&#xff0c;能够高效而且方便地从千千万万台计算机中选出自己所需的对象来。…

堆叠和集群(详细的理论和实验)

随着企业的发展&#xff0c;企业网络的规模越来越大&#xff0c;这对企业网络提出了更高的要求&#xff1a;更高的可靠性、更低的故障恢复时间、设备更加易于管理等。传统的园区网高可靠性技术出现故障时切换时间很难做到毫秒级别、实现可靠性的方案通常为一主一备&#xff0c;…

前端一面react面试题指南

React 事件机制 <div onClick{this.handleClick.bind(this)}>点我</div>React并不是将click事件绑定到了div的真实DOM上&#xff0c;而是在document处监听了所有的事件&#xff0c;当事件发生并且冒泡到document处的时候&#xff0c;React将事件内容封装并交由真正…

2023年3月实时获取地图边界数据方法,省市区县街道多级联动【附实时geoJson数据下载】

首先&#xff0c;来看下效果图 在线体验地址&#xff1a;https://geojson.hxkj.vip&#xff0c;并提供实时geoJson数据文件下载 可下载的数据包含省级geojson行政边界数据、市级geojson行政边界数据、区/县级geojson行政边界数据、省市区县街道行政编码四级联动数据&#xff0…

【C语言进阶】指针进阶

今日所做之事勿候明天&#xff0c;自我所做之事勿候他人。 --歌德 目录 指针进阶(更深层次的理解): 一.字符指针 二.指针数组 ​三.数组指针 1.数组指针的定义: 2.&数组名和数组名: 3.数组指针的使用: 四.数组参数&#xff0c;指针参数 1.一维数组传参:…

好代码的五个特质

CUPID出自Daniel的一篇名为《CUPID—for joyful coding》的博文&#xff0c;即《CUPID-为了快乐编程》。CUPID是Composable/Unix philosophy/Predictable/Idiomatic/Domain based几个单词的缩写&#xff0c;有经验的同学一看就知道这是好代码的一些属性。知道Cupid这个单词的同…

软件测试3

一 路径 路径&#xff1a;写想要找到的资源位置。 1.相对路径&#xff1a;相对于当前html文件去找其他资源的方式 &#xff08;1&#xff09;同级查找&#xff1a;当前html和目标在同一级别目录中&#xff0c;语法&#xff1a;直接写资源的名字即可 &#xff08;2&#xff09…

林心如常驻《向往的生活》,周杰却陷地域黑,做人的差别太大了吧

十年前如果有人提起周杰&#xff0c;就算是不能如雷贯耳&#xff0c;最起码也是妇孺皆知&#xff0c;毕竟那时候他太有名气了。因为拍摄《还珠格格》&#xff0c;让他和林心如等人一起爆红&#xff0c;不过此后的林心如&#xff0c;却很少再有优秀作品问世。 而周杰却不一样&am…

CCNP350-401学习笔记(易错题合集)

CCNP350-401学习笔记&#xff08;1-50题&#xff09;_殊彦_sy的博客-CSDN博客CCNP350-401学习笔记&#xff08;2023.2.17&#xff09;https://blog.csdn.net/shuyan1115/article/details/129088574?spm1001.2014.3001.5502CCNP350-401学习笔记&#xff08;51-100题&#xff09…

Win10系统开始菜单无法点击解决方法分享

Win10系统开始菜单无法点击解决方法分享。有用户电脑一开机之后&#xff0c;就出现了开始菜单无法正常点击的情况。我们很多设置项都是通过开始菜单来进行开启的。那么这个功能无法点击了怎么办呢&#xff1f;接下来我们一起来看看以下的解决方法分享吧。 方法一&#xff1a; 1…

面试官:给你一段有问题的SQL,如何优化?

大家好&#xff0c;我是飘渺&#xff01;我在面试的时候很喜欢问候选人这样一个问题&#xff1a;“你在项目中遇到过慢查询问题吗&#xff1f;你是怎么做SQL优化的&#xff1f;”很多时候&#xff0c;候选人会直接跟我说他们在编写SQL时会遵循的一些常用技巧&#xff0c;比如&a…

【力扣(LeetCode)】【MySQL】【185.部门工资前三高的所有员工】

学习时间&#xff1a; 2023年3月1日 题目描述&#xff1a; 题解分享&#xff1a; # 作 者 : 繁 华 倾 夏# 力扣(LeetCode):185. 部门工资前三高的所有员工# MySQL 数据库selectd.Name as Department, e1.Name as Employee, e1.Salary fromEmployee e1joinDepartment d on …

数据结构初阶 -- 顺序表

数据结构初阶 链表的讲解 目录 一. 线性表 1.1 定义 1.2 特点 二. 顺序表 2.1 定义 2.2 代码 2.3 功能需求 2.4 静态顺序表的特点以及缺点 2.5 动态的顺序表 2.6 动态顺序表接口的实现 三. 代码 头文件 主文件 一. 线性表 1.1 定义 线性表&#xff08;linear li…

【算法】Tire字符串

作者&#xff1a;指针不指南吗 专栏&#xff1a;算法篇 &#x1f43e;或许会很慢&#xff0c;但是不可以停下&#x1f43e; 文章目录1.Trie的基本思想1.1什么是Trie1.2字符串条件1.3如何存储字符串1.4如何查找字符串2.Trie的代码实现2.1怎么用数组建树2.2完整代码1.Trie的基本思…