神经网络八股(3)

news2025/2/25 23:59:00

1.什么是梯度消失和梯度爆炸

梯度消失是指梯度在反向传播的过程中逐渐变小,最终趋近于零,这会导致靠前层的神经网络层权重参数更新缓慢,甚至不更新,学习不到有用的特征。

梯度爆炸是指梯度在方向传播过程中逐渐变大,权重参数更新变化较大,导致损失函数的上下跳动,导致训练不稳定

可以使用一些合理的损失函数如relu, leakRelu,归一化处理,batchnorm,确保神经元的输出值在合理的范围内

2.为什么需要特征归一化

因为特征之间的单位与尺度不同,为了消除此间差异,对每个维度等同看待,防止尺度大的特征起决定性作用,所以需要进行特征归一化使不同特征在数值范围和尺度上保持一致。

优点:加快模型训练速度、提高模型性能、避免数值不稳定,增强模型的泛化能力

平均值归一化:

最大最小值归一化:

标准化:

3.什么是组合特征,如何组合高阶特征

组合特征是指多个特征组合起来,作为新的特征,组合的方法有:基本运算、聚合、聚合后进行基本运算等。

组合高阶特征可以对类别特征进行embedding嵌入、然后对特征实施FM因子分解机特征组合。

Embedding是一种将类别特征转换为低维稠密向量的技术。具体来说,它将每个类别映射到一个固定维度的向量空间中

因子分解机(FM)是一种专门用于处理稀疏数据和特征组合的机器学习模型。它特别擅长处理类别特征的交互(interaction)和组合。FM的核心思想是:

  • 将每个特征(包括类别特征的embedding)表示为一个向量。

  • 通过计算特征向量之间的内积(点积),捕捉特征之间的交互关系。

4.欧式距离与曼哈顿距离的区别

欧式距离是定义在欧几里得空间中,两点之间的距离,他具有明显的缺点是将样本不同属性之间的差别等同看待;曼哈顿距离也叫城市区块距离,是欧几里得空间上两点所形成的线段对轴产生的投影的距离总和

4.为什么一些场景使用余弦相似度而不是欧式相似度

余弦相似度指的是两个向量之间的角度关系,并不关心他们的绝对值大小,而欧式距离体现的是数值上的绝对差异

余弦相似度:衡量的是两个向量之间的夹角,只关注方向,而不考虑向量的长度,对向量的方向差异敏感,但对长度不敏感

欧即里得距离:衡量的是两个点在空间中的绝对距离,关注的是向量的长度和位置

5.one-hot独热编码得作用是什么

将每个类别特征的取值转换为一个唯一的二进制向量,其中只有一个位置的值为1,其余位置的值为0。能够避免类别数据的序数关系,提供稀疏的特征表示,支持多类别特征的组合,并且与大多数算法兼容。然而,在处理类别数量较多的特征时,需要考虑其维度爆炸和稀疏性问题

6.参数模型和非参数模型

在统计学中,参数模型通常假设总体(随机变量)服从某一个分布,该分布由一些参数确定(比如正态分布由均值和方差确定),在此基础上构建的模型称为参数模型,参数模型的形式和复杂度在训练之前已经确定,模型的输出依赖于一组固定数量的参数.模型形式固定,参数量有限,训练速度块,线性回归、逻辑回归、感知机:所需样本量少、拟合快、复杂度低。

非参数模型对于总体的分布不做任何假设,只是知道总体是一个随机变量,其分布是存在的(分布中也可能存在参数),但是无法知道其分布的形式,更不知道分布的相关参数,只有在给定一些样本的条件下,能够依据非参数统计的方法进行推断。非参数模型的形式和复杂度在训练过程中根据数据动态确定,模型的输出不依赖于固定数量的参数。形式灵活,参数不固定,训练慢。K近邻算法,SVM向量机,高斯过程。所需样本量多、拟合慢、容易过拟合

7.L1和L2正则先验分别服从什么分布

L1:lasso回归拉普拉斯分布

L1正则化通过惩罚参数的绝对值,使得模型参数倾向于稀疏化,即很多参数会趋近于零。这种稀疏性可以帮助进行特征选择,减少模型复杂度

L2:岭回归,高斯分布,L2正则化通过惩罚参数的平方,使得模型参数的值保持较小,但不会将参数完全置为零。这种正则化方法有助于平滑模型,避免过拟合。

8.回归问题常用得模型评估方法

均方误差:MSE预测值与实际值之差的平方的平均值。MSE的值越小,表示模型的预测结果越接近实际值,模型的性能越好。

均方根误差RMESE:均方误差(MSE)的平方根,它衡量的是模型预测值与实际值之间的标准差。RMSE的值越小,表示模型的预测结果越接近实际值,模型的性能越好

和方误差:SSE=i=1∑n​(yi​−y^​i​)2

平均绝对误差MAE:计算的是模型预测值与实际值之差的绝对值的平均值。

平均绝对百分比误差MAPE

决定系数:表示模型解释的因变量的方差比例。R2的值介于0和1之间,值越接近1,表示模型对数据的拟合越好,即模型解释的方差比例越高

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2306075.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SmartMediakit之音视频直播技术的极致体验与广泛应用

引言 在数字化时代,音视频直播技术已经深入到各个行业和领域,成为信息传递和交流的重要手段。视沃科技自2015年成立以来,一直致力于为传统行业提供极致体验的音视频直播技术解决方案,其旗下的大牛直播SDK凭借强大的功能和卓越的性…

【R包】tidyplots----取代ggplot2的科研绘图利器

文章目录 介绍安装Usage文档参考 介绍 tidyplots----取代ggplot2的科研绘图利器。tidyplots的目标是简化为科学论文准备出版的情节的创建。它允许使用一致和直观的语法逐渐添加,删除和调整情节组件。 安装 You can install the released version of tidyplots fro…

DeepSeek 15天指导手册——从入门到精通 PDF(附下载)

DeepSeek使用教程系列--DeepSeek 15天指导手册——从入门到精通pdf下载: https://pan.baidu.com/s/1PrIo0Xo0h5s6Plcc_smS8w?pwd1234 提取码: 1234 或 https://pan.quark.cn/s/2e8de75027d3 《DeepSeek 15天指导手册——从入门到精通》以系统化学习路径为核心&…

微信小程序实现拉卡拉支付

功能需求:拉卡拉支付(通过跳转拉卡拉平台进行支付),他人支付(通过链接进行平台跳转支付) 1.支付操作 //支付 const onCanStartPay async (obj) > {uni.showLoading({mask: true})// 支付接口获取需要传…

Unity 第三人称人物切动画时人物莫名旋转

前提: 使用Starter Asset包中的第三人称插件包. 在给3D角色的动画器增加新动画时, 发现进入新动画会让角色莫名转动. 观察后发现是动画强行将朝向掰"正", 人物动画在进行时朝向会一直变化, 这使得动作非常的怪异. 对系动画进行以下处理后, 将可以解决这种不自然: 选…

启动Redis报错记录

突然启动Redis就报了个错:‘Could not create server TCP listening socket 127.0.0.1:6379: bind: 操作成功完成。‘ 查了下解决方案,应该是6379端口已绑定,服务没有关闭。 需要输入命令redis-cli 再输入shutdown 但又出现了新的问题&…

自然语言处理NLP 04案例——苏宁易购优质评论与差评分析

上一篇文章,我们爬取了苏宁易购平台某产品的优质评价和差评,今天我们对优质评价与差评进行分析 selenium爬取苏宁易购平台某产品的评论-CSDN博客 目录 1. 数据加载 2. 中文分词 3. 停用词处理 4. 数据标注与合并 5. 数据集划分 6. 文本特征提取 …

图片爬取案例

修改前的代码 但是总显示“失败” 原因是 修改之后的代码 import requests import os from urllib.parse import unquote# 原始URL url https://cn.bing.com/images/search?viewdetailV2&ccidTnImuvQ0&id5AE65CE4BE05EE7A79A73EEFA37578E87AE19421&thidOIP.TnI…

官方文档学习TArray容器

一.TArray中的元素相等 1.重载一下 元素中的 运算符,有时需要重载排序。接下来,我们将id 作为判断结构体的标识。 定义结构体 USTRUCT() struct FXGEqualStructInfo {GENERATED_USTRUCT_BODY() public:FXGEqualStructInfo(){};FXGEqualStructInfo(in…

Web刷题之PolarDN(中等)

1.到底给不给flag呢 代码审计 一道典型的php变量覆盖漏洞 相关知识 什么是变量覆盖漏洞 自定义的参数值替换原有变量值的情况称为变量覆盖漏洞 经常导致变量覆盖漏洞场景有:$$使用不当,extract()函数使用不当,parse_str()函数使用不当&…

学习笔记-250222

论文: Learning Hierarchical Prompt with Structured Linguistic Knowledge for Vision-Language Models 主要研究llm在图像分类中的能力,当提示输入目标类别时,llm能够生成相关的描述以及相应的结构化关系。 1.首先利用llm从普通的描述中获…

Unity游戏制作中的C#基础(1)界面操作基础

1.脚本有关注意事项 (1).进入项目之后,一般创建一个文件夹Scripts用来存放c#脚本; (2).在Scripts中创建脚本,双击脚本,进入VS编辑器,有如下结构: start&#…

为什么要将PDF转换为CSV?CSV是Excel吗?

在企业和数据管理的日常工作中,PDF文件和CSV文件承担着各自的任务。PDF通常用于传输和展示静态的文档,而CSV因其简洁、易操作的特性,广泛应用于数据存储和交换。如果需要从PDF中提取、分析或处理数据,转换为CSV格式可能是一个高效…

Android KMP初探

Android KMP初探 前言: 最近线上听了Kotlin官网举行的KMP会议,感觉听神奇的,于是就把官方demo下载下来尝试了一下,下载插件和所需要的依赖都用了很久,但是发现里面的代码很少,于是尝试自己手写了一下&…

网络安全之Web后端PHP

目录 一、PHP基础语法 1.PHP基础 (1)php的优点 (2)PhpStorm的优点 2.PHP基本语法 3.PHP变量 4.PHP运算符 二、PHP流控与数组 1.php流程控制语句以及循环 (1)if 语句 (2)if…

Redis——用户签到BitMap,UV统计

目录 BitMap 使用场景 1. 用户签到系统 2. 用户行为标记 3. 布隆过滤器(Bloom Filter) BitMap介绍 Redis中的使用 Redis功能示例 添加: 获取: 批量获取: java中实现 统计本月连续签到次数 UV统计 UV 统计…

pycharm技巧--鼠标滚轮放大或缩小 Pycharm 字体大小

1、鼠标滚轮调整字体 设置 Ctrl 鼠标滚轮调整字体大小 备注: 第一个是活动窗口,即缩放当前窗口 第二个是所有编辑器窗口,即缩放所有窗口的字体 2、插件 汉化包: Chinese Simplified 包

数字信任的底层逻辑:密码学核心技术与现实应用

安全和密码学 --The Missing Semester of Your CS Education 目录 熵与密码强度密码散列函数密钥体系 3.1 对称加密 3.2 非对称加密信任模型对比典型应用案例安全实践建议扩展练习杂项 密码学是构建数字信任的基石。 本文浅析密码学在现实工具中的应用,涵盖 1&…

全面理解-深拷贝与浅拷贝

在 C 中,深拷贝(Deep Copy) 和 浅拷贝(Shallow Copy) 是两种完全不同的对象拷贝策略,主要区别在于对指针和动态分配资源的处理方式。正确理解二者的区别是避免内存泄漏、悬空指针和程序崩溃的关键。 一、核…

Redis分布式锁故障处理:当Redis不可用时的应对策略

Redis分布式锁故障处理:当Redis不可用时的应对策略 在分布式系统中,Redis因其高性能和丰富的特性常被用于实现分布式锁。但当加锁过程中Redis服务不可用时,系统将面临严重挑战。本文将深入探讨这一问题,并提供多维度解决方案。 目…