高斯误差线性单元激活ReLU以外的神经网络

news2024/10/4 8:14:56

高斯误差线性单位(GELU)激活函数由加州大学伯克利分校的Dan Hendrycks和芝加哥丰田技术研究所的Kevin Gimpel于2018年引入。激活函数是触发神经元输出的“开关”,随着网络的深入,其重要性也随之增加。最近几周,机器学习社区中的一些讨论使GELU重新成为人们关注的焦点。

早期的人工神经元使用二进制阈值单位。这些艰难的二元决策通过sigmoid激活得到平滑,使神经元能够具有“放电率”解释并通过反向传播进行训练。这使得ReLU(整流线性单元)成为最受欢迎的激活函数,因为它具有基于输入符号的门控决策功能。

Hendrycks和Gimpel提出了非线性激活函数GELU,这是一个与随机正则子相关的公式,因为它是对自适应dropout的修正期望,为神经元输出提供了更高的概率视图。

在计算机视觉、自然语言处理和自动语音识别任务中,使用 GELU 激活函数的模型的性能与使用 ReLU 或高级版本 ELU(指数线性单位)激活函数的模型的性能相当或超过。GELU兼容BERT,ROBERTa,ALBERT和其他顶级NLP模型。

CDF 为 N (μ, σ^2 ) 表示 GELU、ReLU 和 ELU。
研究人员比较了GELU,ReLU和ELU激活函数在MNIST分类任务(具有10个类,60k训练示例和10k测试示例的灰度图像)上的表现。他们使用了一个完全连接的神经网络,其中包含GELU(μ = 0,σ = 1)ReLUELU(α = 1)。每个 8 层、128 个神经元宽的神经网络训练 50 个 epoch,批大小为 128。在测试中,GELU获得的中位数错误率为7.89%,ReLU获得8.16%,ELU获得8.41%。
MNIST 分类结果。
MNIST 稳健性结果。
研究人员还使用TIMIT数据集进行了一项基于电话的语音识别任务,该数据集包含680名说话者在安静环境中的录音。该系统是一个五层,2048神经元宽分类器,具有39个输出电话标签,丢失率为0.5。在最低验证误差下选择的中位数测试误差为GELU的29.3%,ReLU的29.5%和ELU的29.6%。
基于电话的 TIMIT 语音识别分类。
在CIFAR-10/100分类测试中使用具有10/100类,50k训练和10k测试示例的彩色图像中,研究人员使用5000个验证样本来微调初始学习率{10 ^ −3,10 ^ −4,10 ^ −5},然后根据交叉验证的学习率在整个训练集上再次训练。他们优化了 Adam 200 个 epoch,学习率在第 100 个 epoch 衰减到零。在这里,GELU的中位数错误率为7.89%,ReLU得分为8.16%,ELU为8.41%。
CIFAR-10的结果。
各种实验结果表明,与ReLU和ELU相比,GELU始终具有最佳性能,可以被认为是以前非线性方法的可行替代方案。

论文高斯误差线性单位(GELUS)在arXiv上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/769602.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何在Microsoft Excel中使用SORT函数

虽然 Microsoft Excel 提供了一个内置的数据排序工具,但你可能更喜欢函数和公式的灵活性。 使用 SORT 函数的好处是,你可以在不同的位置对数据进行排序。如果你想在不干扰原始数据集的情况下操作项目,你会喜欢 Excel 中的 SORT 函数。但是,如果你喜欢对项目进行原位排序,…

Path Finder for Mac:提升你的文件管理效率

作为一名 Mac 用户,你可能已经意识到原生的 Finder 文件管理器在某些方面存在一些限制。如果你正在寻找一个更强大、更灵活的文件管理工具,那么 Path Finder for Mac 是一个值得考虑的选择。 Path Finder for Mac是一款专为 Mac 设计的高级文件管理工具…

p2p大豆计数模型

前面学习了一下论文:Improved Field-Based Soybean Seed Counting and Localization with Feature Level Considered 论文链接:https://spj.science.org/doi/10.34133/plantphenomics.0026 解读链接:论文阅读--考虑特征水平的改进的基于田间…

SQL语句GROUP BY、HAVING、EXISTS、SQL函数(Null判断、日期相关、计算数值和字符串操作 )

目录 GROUP BY HAVING EXISTS SQL函数 Null判断函数 日期数据类型及函数 计算数值和字符串操作函数 AVG(平均值) COUNT(数据条数) FIRST/LAST(第一条数据) MAX/MIN(最大值) SUM(列总和) UCASE/ LCASE (转换大小写) MID(截取字符串) LEN(字符值的长度) ROUND(数…

Java版知识付费-轻松拥有知识付费平台

Java版知识付费-轻松拥有知识付费平台 多种直播形式,全面满足直播场景需求 公开课、小班课、独立直播间等类型,满足讲师个性化直播场景需求;低延迟、双向视频,亲密互动,无论是互动、答疑,还是打赏、带货、…

开放式耳机别人能听到吗?开放式蓝牙耳机的优缺点?

​开放式耳机在近几年越来越受欢迎,而市面上的不入耳开放式耳机就分为气传导和骨传导两大类。开放式耳机不入耳设计,佩戴上耳更加稳固舒适,长时间没有压力,而传统入耳式耳机则在封闭情况下听音会容易闷耳,长时间佩戴还…

Linux中文件系统详解——关于loop

都是nvme0n1p3——第三分区的内存分出去的,第二分区为微软的保留分区。 -------------------------------------------------------------------------------------------------------------------------------- 1,4,5,6分区已经…

Windows下 创建 FTP 服务器及相关设置

Windows 创建 FTP 服务器 1. 示例功能说明 FTP 服务器根路径下的目录: C:\USERS\SQQIAN\DESKTOP\FTP └─localuser├─FTP1 # 只有用户名为FTP1可以访问,读写均可│ FTP11.txt│├─FTP2 # 只有用户名为FTP2…

排序算法第四辑——归并排序与计数排序

目录 一,归并排序算法 二,归并排序的非递归版本 三,计数排序 一,归并排序算法 归并排序算法是一个特别经典的算法了。这个算法采用的思想就是一个分治的思想,也就是将大问题化为子问题的思想。这个思想其实我们经常…

如何用双指针法解决力扣“反转单词前缀”问题

本篇博客会讲解力扣“2000. 反转单词前缀”的解题思路,这是题目链接。 本题的思路是:先调用strchr函数,在字符串word中查找字符ch,若找到了,则会返回一个非空指针p,指向ch在word中的位置。为了反转从word到…

下一个更大元素 I 力扣 HashMap + Deque栈 JAVA

nums1 中数字 x 的 下一个更大元素 是指 x 在 nums2 中对应位置 右侧 的 第一个 比 x 大的元素。 给你两个 没有重复元素 的数组 nums1 和 nums2 &#xff0c;下标从 0 开始计数&#xff0c;其中nums1 是 nums2 的子集。 对于每个 0 < i < nums1.length &#xff0c;找出…

2023年北京/上海/深圳CSPM-3中级国标项目管理认证报名

CSPM-3中级项目管理专业人员评价&#xff0c;是中国标准化协会&#xff08;全国项目管理标准化技术委员会秘书处&#xff09;&#xff0c;面向社会开展项目管理专业人员能力的等级证书。旨在构建多层次从业人员培养培训体系&#xff0c;建立健全人才职业能力评价和激励机制的要…

基于ESP32-S3-BOX-Lite的语音合成与播报系统(esp-idf+WiFi+HTTPS+TTS)

目录 项目介绍硬件介绍项目设计开发环境及工程目录硬件初始化WiFiHTTPS请求TTS语音合成与播报cJSON解析TTS初始化语音合成与播报 附加功能按键回调LVGL数据可视化显示 功能展示项目总结 &#x1f449; 【Funpack2-3】基于ESP32-S3-BOX-LITE的B站粉丝数语音播报系统 &#x1f44…

ThinkPHP 远程一对多关联

用远程一对多关联的前提 如果模型 A 想远程一对多关联模型 C&#xff0c;前提是中间模型 B 对应的数据库表必须有模型 A 对应的数据表的外键&#xff0c;模型 C 对应的数据库表必须有模型 B 对应数据库表的外键。&#xff08;套娃&#xff09; 举例&#xff0c;商品获取商品评…

《世纪桥》期刊简介及投稿邮箱

《世纪桥》期刊简介及投稿邮箱 一、《世纪桥》期刊简介&#xff1a; 《世纪桥》以服务党史研究、总结执政经验、关注改革实践、透析时代热点、展现党员风采、传播先进文化、繁荣学术事业为宗旨&#xff0c;以发展和培养学术新人为已任&#xff0c;倡导学术的当代性、应用性和…

C# WPF编辑时显示图片,运行时不显示图片的解决方案

1、WPF语法 <Image Source"/ObjectName;component/Images/graph.png"/>2、设置图片属性 复制到输出目录设为&#xff1a;始终复制 生成操作设置为&#xff1a;资源

Spring-AOP(面向切面)

Spring-AOP(面向切面) 场景模拟(计算器) 功能接口 public interface Calculator {int add(int i, int j);int minus(int i, int j);int multiply(int i, int j);int div(int i, int j); }实现类 public class CalculateLogImpl implements Calculator {Overridepublic int …

PerfView 洞察那些 C# 代码中的短命线程

一&#xff1a;背景 1. 讲故事 这篇文章源自于分析一些疑难dump的思考而产生的灵感&#xff0c;在dump分析中经常要寻找的一个答案就是如何找到死亡线程的生前都做了一些什么&#xff1f;参考如下输出&#xff1a; 0:001> !t ThreadCount: 22 UnstartedThread: 0 Ba…

浏览器打开新的页面时自动打开控制台

需求 打开浏览器新tab时自动打开控制台&#xff0c;捕捉初次的网络请求 解决 在浏览器图标属性中加入以下代码&#xff0c;再次打开浏览器 --auto-open-devtools-for-tabs

Django实现接口自动化平台(十四)测试用例模块Testcases序列化器及视图【持续更新中】

相关文章&#xff1a; Django实现接口自动化平台&#xff08;十三&#xff09;接口模块Interfaces序列化器及视图【持续更新中】_做测试的喵酱的博客-CSDN博客 本章是项目的一个分解&#xff0c;查看本章内容时&#xff0c;要结合整体项目代码来看&#xff1a; python django…