2023年12月25日学习总结——MLP

news2024/9/23 17:17:35

💡我准备每一天都写一个学习总结,周末再把每日的学习总结汇总成专门的文章
🔆我的学习总结主要是为了自己的个人学习,没有商业用途,侵删
okkk开始今日学习
hao玩

目录

  • 1、今日计划学习内容
  • 2、今日学习内容
    • 深入学习MLP
      • (1)why deep learning is game changing?
      • (2)it all started with a neuron
      • (3)Perceptron
      • (4)Perceptron for Binary Classification
      • (5)put it all together
      • (6)multilayer Perceptron
      • (7)backpropagation
      • (8)实战演练-使用感知机用于感情识别
        • 1. 数据集划分
        • 2. 将文本转成vector
        • 3.对数据集进行预处理fit/transform/fit_transform
        • 4.创建模型并训练
        • 5、评估模型
      • (9)使用MLP来提升性能
    • 声纹识别项目
      • (1)配置环境
      • (2)下载数据集
  • 3、实际完成任务and思考总结

1、今日计划学习内容

  • 对昨天的流量预测的内容进行一些理论知识的学习(补充学习)
  • 使用更多的网络模型进行流量预测进行性能比较
  • 运行声纹识别的项目
  • 学习时不玩手机

presonal feelings should be put aside when studying📚
Let’s be emotionless learning machine😄

2、今日学习内容

深入学习MLP

link:https://towardsdatascience.com/multilayer-perceptron-explained-with-a-real-life-example-and-python-code-sentiment-analysis-cb408ee93141

(1)why deep learning is game changing?

传统的机器学习太依赖于模型,一般都需要有很多经验的专家来构建模型,而且机器学习的质量也很大程度上取决于数据集的质量和how well features encode the patterns in the data
深度学习算法使用人工神经网络作为主要的模型,好处就是不再需要专家来设计特征,神经网络自己学习数据中的characteristics
深度学习算法读入数据后,学习数据的patterns,学习如何用自己提取的特征来代表数据。之后组合数据集的特征,形成一个更加具体、更加高级的数据集表达形式。
深度学习侧重于使系统能够学习multiple levels of partern composition(组合)

(2)it all started with a neuron

1940 Warren McCulloch teamd up with Walter Pitts created neuron model
a piece of cake:
在这里插入图片描述
神经网络的首次应用是复制(replicated)了一个logic gate:
在这里插入图片描述
但是此时的神经网络没有办法像大脑一样学习,因为获得期望输出的前提是,魔性的参数要提前设置好
only a decade later, Frank Rosenblatt 创建了一个可以学习权重的模型:💥Perceptron💥

(3)Perceptron

Perception 最初是为了图像识别创造的,为了让模型具有人类的perception(感知),seeing and recognizing 图片的能力。
Perception模型核心就是neuron,主要不同就是输入被组合成一个加权和,如果这个加权和超过一个预设的阈值(threshold),神经网络就会被触发,得到一个输出。
在这里插入图片描述

(4)Perceptron for Binary Classification

Perceptron 用于二元分类问题的主要假设是数据是:linearly separable(线性可分):
在这里插入图片描述
神经网络的预测值:
f ( x ; w ) = s i g n ( ∑ i w i x i − T ) ∀ i = 1 , . . . , n f(x;w)=sign(\sum_i w_ix_i-T) \forall i=1,...,n f(x;w)=sign(iwixiT)i=1,...,n
神经网络的真实值(label): y i y_i yi
如果预测正确率的话: y i ⋅ f ( x ; w ) > 0 y_i \cdot f(x;w)>0 yif(x;w)>0
所以目标函数被设计为:
在这里插入图片描述
优化目标就是 min ⁡ D ( w , c ) \min D(w,c) minD(w,c)
和其他算法不同,这个目标函数不能求导,所以Perceptron使用 Stochastic Gradient Descent(随机梯度下降法)来最小化目标函数(如果数据集是线性可分的,就可以使用这个方法,并且在有限的steps内converge收敛)
在这里插入图片描述
对于足够小的正数 r r r,我们就能保证 L ( w 1 ) < L ( w ) L(w_1)<L(w) L(w1)<L(w)

Perceptron使用的激活函数是sigmoid function,这个函数把数值映射成一个0~1值:
在这里插入图片描述
之前总结过的sigmoid图:
在这里插入图片描述

  • 非线性函数
  • 值在0到1之间
  • 它有助于网络更新或忘记数据。如果相乘结果为0,则认为该信息已被遗忘。类似地,如果值为1,则信息保持不变。
    但是用的更多的是 Rectified Linear Unit (ReLU):
    在这里插入图片描述
    为什么更多使用ReLU?因为它可以使用随机梯度下降进行更好的优化,并且是尺度不变的,这意味着它的特征不受输入规模的影响。(没大搞懂)

(5)put it all together

神经网络输入数据,最初先随机设置权重,然后计算加权和,在通过激活函数ReLU,得到输出:
在这里插入图片描述
之后Perceptron使用随机梯度下降法,learn 权重,来最小化错误分类的点和决策边界(decision boundary)的距离,一旦收敛,数据集就会被线性超平面(linear hyperplane)分成两个区域
❌感知机不能表示XOR门(只有输入不同,返回1)
Minsky and Papert, in 1969 证明了这种只有一个神经元的Proceptron不能处理非线性数据,只能处理线性可分的数据

(6)multilayer Perceptron

多层感知器就是为了处理非线性可分问题的
多层感知器含有输入层、输出层、一个或者多个隐藏层
在这里插入图片描述
多层感知器和单层的一样将输入由最初随机的权重进行加权和再经过激活函数得到输出,但是不同的是,每个线性组合会传递给下一层:前向传播
但是只有秦香传播,就不能学习到能使得目标函数最小的权重,所以之后引入反向传播

(7)backpropagation

反向传播以最小化目标函数为goal,是的MLP能够迭代的调整神经网络的权重
⚡️反向传播的必要条件: 神经网络输入的加权和( ∑ i w i ⋅ x i \sum_i w_i \cdot x_i iwixi)、激活函数(ReLU)必须是可微分的
在这里插入图片描述
在每次迭代iteration,当所有层的加权和都被前向传播之后,计算所有输入和输出对的Mean Squared Error(均方差) 的梯度,之后让第一个隐藏层的权重更新为这个梯度,这个过程将抑制持续,直到所有的输入输出对都收敛,意味着新的梯度不能改变收敛阈值。
其实还是有点没搞懂这个过程,我记得陈木头?这个博主讲的害挺清晰的,之后再看看

(8)实战演练-使用感知机用于感情识别

识别一句话到底是“好话”还是“坏话”
在这里插入图片描述

1. 数据集划分

使用train_test_split 函数

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=42)
  • X和y:表示输入数据和对应的标签
  • test_size:表示测试集所占的比例,这里设置为 0.1,表示测试集占原始数据集的 10%。
  • random_state:表示随机数种子
    • 数据集划分为什么要用到随机数:数据集的划分方式可能会影响到算法的性能和稳定性。如果数据集的划分方式不够随机,那么算法可能会偏向于某些特定的数据集,从而影响算法的准确性和泛化能力。
    • 设置固定的随机数的好处:设置了随机数种子后,每次运行程序时都能得到相同的数据集划分,是因为函数使用了指定的随机数种子来生成随机数。这样,每次运行程序时生成的随机数都是相同的,从而保证了数据集的划分结果相同。如果我们将 random_state 设置为 None,那么每次运行程序时都会得到不同的数据集划分。
2. 将文本转成vector

使用Term Frequency — Inverse Document Frequency (TF-IDF):该方法将任何类型的文本编码为每个单词或术语在每个句子和整个文档中出现频率的统计数据。

from sklearn.feature_extraction.text import TfidfVectorizer
TfidfVectorizer(stop_words='english', lowercase=True, norm='l1')
# 删除英语停顿词,应用L1规范化

sklearn 是 Python 中一个流行的机器学习库,全名 scikit-learn。它提供了大量的分类、回归、聚类、降维和数据处理等算法,可以用于处理和分析数据,以帮助用户进行数据建模、预测和分类等任务。sklearn 基于 NumPy、SciPy 和 matplotlib,使用这些库的功能来提供高效的算法实现。

3.对数据集进行预处理fit/transform/fit_transform

参考链接:fit_transform,fit,transform区别和作用详解!!!!!!
TfidfTransformer举例
在较低的文本语料库中,一些词非常常见(例如,英文中的“the”,“a”,“is”),因此很少带有文档实际内容的有用信息。如果我们将单纯的计数数据直接喂给分类器,那些频繁出现的词会掩盖那些很少出现但是更有意义的词的频率。

  • fit:求得训练集X的均值,方差,最大值,最小值,这些训练集X固有的属性。
    • fit(raw_documents, y=None):根据训练集生成词典和逆文档词频 由fit方法计算的每个特征的权重存储在model的idf_属性中。
  • transform:在fit的基础上,进行标准化,降维,归一化等操作(看具体用的是哪个工具,如PCA,StandardScaler等)。
    • transform(raw_documents, copy=True):使用fit(或fit_transform)学习的词汇和文档频率(df),将文档转换为文档 - 词矩阵。返回稀疏矩阵,[n_samples, n_features],即,Tf-idf加权文档矩阵(Tf-idf-weighted document-term matrix)。
  • fit_transform:fit_transform是fit和transform的组合,既包括了训练又包含了转换。fit_transform(trainData)对部分数据先拟合fit,找到该part的整体指标,如均值、方差、最大值最小值等等(根据具体转换的目的),然后对该trainData进行转换transform,从而实现数据的标准化、归一化等等。
    • 必须先用fit_transform(trainData),之后再transform(testData)
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
sc.fit_tranform(X_train)
sc.tranform(X_test)
# 根据对之前部分trainData进行fit的整体指标,对剩余的数据(testData)使用同样的均值、方差、最大最小值等指标进行转换transform(testData),从而保证train、test处理方式相同。
4.创建模型并训练
from sklearn.linear_model import Perceptron
classifier = Perceptron(random_state=457)
classifier.fit(train_features, train_targets)
  • sklearn.linear_model.Perceptron:感知机模型

    • class sklearn.linear_model.Perceptron(*, penalty=None, alpha=0.0001, l1_ratio=0.15, fit_intercept=True, max_iter=1000, tol=0.001, shuffle=True, verbose=0, eta0=1.0, n_jobs=None, random_state=0, early_stopping=False, validation_fraction=0.1, n_iter_no_change=5, class_weight=None, warm_start=False
    • 在这里插入图片描述
  • model.fit函数:训练模型,返回loss和测量指标(history)

    • model.fit(x, y, batch_size, epochs, verbose, validation_split, validation_data, validation_freq)
      在这里插入图片描述
    • callback=callbacks.EarlyStopping(monitor=‘loss’,min_delta=0.002,patience=0,mode=‘auto’,restore_best_weights=False)
      • monitor:监视量,一般是loss。
      • min_delta:监视量改变的最小值,如果监视量的改变绝对值比min_delta小,这次就不算监视量改善,具体是增大还是减小看mode
      • patience:如发现监视量loss相比上一个epoch训练没有下降,则经过patience个epoch后停止训
      • mode:在min模式训练,如果监视量停止下降则终止训练;在max模式下,如果监视量停止上升则停止训练。监视量使用acc时就要用max,使用loss时就要用min。
      • restore_best_weights:是否把模型权重设为训练效果最好的epoch。如果为False,最终模型权重是最后一次训练的权重
    • model.fit( )函数返回一个History的对象,即记录了loss和其他指标的数值随epoch变化的情况。
5、评估模型
predictions = classifier.predict(test_features)
score = np.round(metrics.accuarry_score(test_labels, predictions), 2)
  • model.predict(X_test, batch_size=32,verbose=1)
    • X_test:为即将要预测的测试集
    • batch_size:为一次性输入多少张图片给网络进行训练,最后输入图片的总数为测试集的个数
    • verbose:1代表显示进度条,0不显示进度条,默认为0
    • 返回值:每个测试集的所预测的各个类别的概率
    • 例子:
      # 各个类别评估(X_test为10000个数据集)
      print("[INFO] evaluating network...")
      predictions = model.predict(X_test, batch_size=32) #显示每一个测试集各个类别的概率,这个值的shape为(10000,10)
      print(predictions)
      print(predictions.shape)
      
    • 在这里插入图片描述
    • model.predict(X_test, batch_size=32)的返回值为每个测试集预测的10个类别的概率
  • metrics.accuarry_score:计算分类的准确率
    • sklearn.metrics.accuracy_score(y_true, y_pred, normalize=True, sample_weight=None)
    • normalize:默认值为True,返回正确分类的比例;如果为False,返回正确分类的样本数
    • true: 在这里插入图片描述
    • false:TP+TN
    >>>import numpy as np  
    >>>from sklearn.metrics import accuracy_score  
    >>>y_pred = [0, 2, 1, 3]  
    >>>y_true = [0, 1, 2, 3]  
    >>>accuracy_score(y_true, y_pred)  
    0.5  
    >>>accuracy_score(y_true, y_pred, normalize=False)  
    2
    
    

在这里插入图片描述
完整代码:

在这里插入图片描述

(9)使用MLP来提升性能

  • 激活函数:参数activation=’relu’
  • 使用随机梯度下降算法:solver=’sgd’
  • 学习率:learning_rate=’invscaling’这是啥啊
  • 迭代次数:max_iter=20
    代码:
    在这里插入图片描述
    使用的MLP是有3个隐藏层,每个隐藏层有两个节点
    此时的性能并不好
    当把num_neurons=5之后,性能就变好了
    这就是调参!

声纹识别项目

我现在就想探究一下给的90dB下声纹识别到底合不合适
我先运行一下github上的这个项目看看:click here

(1)配置环境

  • Anaconda 3
  • Python 3.8
  • Pytorch 1.13.1(GPU)可以看我之前写的博客:window配置GPU_pytorch_cuda
  • Windows 10 or Ubuntu 18.04
  • 安装ppvector库

(2)下载数据集

CN-Celeb:这个数据集一共有约3000个人的语音数据,有65W+条语音数据,下载之后要解压数据集到dataset目录
数据集有20G,我下载着呢,我现在不想训练模型,直接用大大给的模型看一下加上噪声的效果
呜呜呜,竟然要50块钱,对贫穷的我来说还是算了吧,明天问问老师能不能报销,今天先换一个东西看看

看这个项目好像有模型参数:添加链接描述
下载一下👍
我服了竟然要Python2x,下载包花了好久
今天估计不行了,现在都2023年12月25日21:52:53了
回去玩游戏,原

3、实际完成任务and思考总结

  • MLP的深度学习
  • 对keras有了进一步的了解

思考算了吧
没啥思考的
明天要继续看流量预测的算法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1335363.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL的事务-隔离级别

上篇&#xff0c;整理了MySQL事务的原子性&#xff0c;这篇继续整理MySQL事务的一致性、隔离性和持久性。 2. 一致性指的是事务开始前和结束后&#xff0c;数据库的完整性约束没有被破坏&#xff0c;这保证了数据的完整性和一致性。一致性必须确保数据库从一个一致的状态转换到…

结构体的对齐规则

1.引入 我们在掌握了结构体的基本使⽤后。 现在我们深⼊讨论⼀个问题&#xff1a;计算结构体的大小。 这也是⼀个特别热门的考点&#xff1a; 结构体内存对齐。 2.具体分析 ⾸先我们得掌握结构体的对⻬规则&#xff1a; 1. 结构体的第⼀个成员对⻬到和结构体变量起始位置偏移量…

智能变电站协议系列-3、MMS协议示例(IEC61850)

文章目录 一、前言二、资料收集三、libiec61850的MMS协议的操作文件的示例运行及抓包分析1、协议理解2、代码查看及示例运行3、wireshark抓包及分析 四、最后 一、前言 接下来我们来分析一下MMS协议&#xff0c;该协议比较抽象&#xff0c;从定义上和理解上都比较抽象&#xf…

阶段七-GitEE

Git&#xff1a;版本控制软件 Git的优点 1.1 协同修改 多人并行不悖的修改服务器端的同一个文件。 1.2 数据备份 不仅保存目录和文件的当前状态&#xff0c;还能够保存每一个提交过的历史状态。 1.3 版本管理 在保存每一个版本的文件信息的时候要做到不保存重复数据&…

【Git】fatal: bad boolean config value ‘true~‘ for ‘core.longpaths‘

windwos操作系统git config设置错了参数值&#xff0c;解决方法。 出现原因 在拉取代码时&#xff0c;仓库中存在文件名过长得文件&#xff0c;拉取报错了“filename too long” 解决 git config --system core.longpaths true结果在复制命令时&#xff0c;粘贴到命令行多了一…

第19章总结

一.Java绘图类 1.Graphics类 Graphics类是所有图形上下文的抽象基类&#xff0c;它允许应用程序在组件以及闭屏图像上进行绘制。Graphics类封装了Java支持的基本绘图操作所需的状态信息&#xff0c;主要包括颜色、字体、画笔、文本、图像等。 2.Graphics2D类 Graphics2…

【MySQL】脏读、不可重复读、幻读介绍及代码解释

&#x1f34e;个人博客&#xff1a;个人主页 &#x1f3c6;个人专栏&#xff1a; 数 据 库 ⛳️ 功不唐捐&#xff0c;玉汝于成 目录 前言 正文 结语 我的其他博客 前言 数据库事务隔离级别是关系数据库管理系统中一个重要的概念&#xff0c;它涉及到多个事务并发执行…

Shell三剑客:awk(awk编辑编程)二

一、IF 语句 IF 条件语句语法格式 #方式一&#xff1a; if (condition)action #方式二&#xff1a;使用花括号语法格式 if (condition) {action1;action2; ... } {if(表达式)&#xff5b;语句1;语句2;...&#xff5d;} IF 语句实例 #判断数字是奇数还是偶数 [rootlocalhost ~…

Kafka生产环境问题总结与性能优化实践

Kafka可视化管理工具kafka-manager 安装及基本使用可参考: httos://wwwcnbloas.com/dadonaaa/o/8205302.html 线上环境规划 1. 消息丢失情况: 消

数据入表倒逼数据治理,国有企业如何做好数据资产管理

数据是驱动数字经济发展的核心生产要素&#xff0c;数据资产化是释放数据要素价值的重要方式。国有企业作为驱动数字化转型升级的排头兵&#xff0c;在数据资产入表的背景下&#xff0c;如何充分发挥海量规模数据和应用场景等优势&#xff0c;如何解决数据难点&#xff0c;管好…

ES8生产实践——Kibana对接Azure AD实现单点登录

基本概念介绍 什么是单点登录 单点登录&#xff08;Single Sign-On&#xff0c;SSO&#xff09;是一种身份验证和访问控制机制&#xff0c;允许用户使用一组凭据&#xff08;通常是用户名和密码&#xff09;仅需登录一次&#xff0c;即可访问多个应用程序或系统&#xff0c;而…

算法基础之最长公共子序列

最长公共子序列 核心思想&#xff1a; 线性dp 集合定义 : f[i][j]存 a[1 ~ i] 和 b[1 ~ j] 的最长公共子序列长度 状态计算&#xff1a; 分为取/不取a[i]/b[j] 共四种情况 其中 中间两种会包含两个都不取的情况(去掉) 但是因为取最大值 有重复也没事用f[i-1][j] 和 f[i][j-1]表…

GNN 图神经网络

GCN 邻接矩阵A&#xff1a;adjacency matrix用来表示节点间的连接关系。 度矩阵D&#xff1a;degree matrix用来表示节点的连接数 特征矩阵X&#xff1a;feature matrix用来表示节点的特征

openGauss学习笔记-172 openGauss 数据库运维-备份与恢复-导入数据-分析表172.1 分析表172.2 表自动分析

文章目录 openGauss学习笔记-172 openGauss 数据库运维-备份与恢复-导入数据-分析表172.1 分析表172.2 表自动分析 openGauss学习笔记-172 openGauss 数据库运维-备份与恢复-导入数据-分析表 执行计划生成器需要使用表的统计信息&#xff0c;以生成最有效的查询执行计划&#…

Sam Altman 晒网友新年愿望清单;AI Pin 明年 3 月开始交付丨 RTE 开发者日报 Vol.112

开发者朋友们大家好&#xff1a; 这里是 「RTE 开发者日报」 &#xff0c;每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE &#xff08;Real Time Engagement&#xff09; 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文…

什么是非功能性测试?

&#x1f4e2;专注于分享软件测试干货内容&#xff0c;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; 如有错误敬请指正&#xff01;&#x1f4e2;交流讨论&#xff1a;欢迎加入我们一起学习&#xff01;&#x1f4e2;资源分享&#xff1a;耗时200小时精选的「软件测试」资…

AI爆文写作变现:如何让自己的文章减少AI味,提升写作质量

利用AI实现自媒体写作变现&#xff0c;核心就是爆文写作提示词&#xff08;Prompt&#xff09; 对新手来说&#xff0c;缺少好用的爆文提示词&#xff0c;这无疑是大家碰到的一个难点。 如何创建属于自己的高效AI指令&#xff0c;无疑是大家最关心的问题。 本篇文章将一步一…

计算机网络——网络层(四)

前言&#xff1a; 前面我们已经对物理层和数据链路层有了一个简单的认识与了解&#xff0c;现在我们需要对数据链路层再往上的一个层&#xff0c;网络层进行一个简单的学习与认识&#xff0c;网络层有着极其重要的作用&#xff0c;让我们对网络层进行一个简单的认识与学习吧 目…

市场复盘总结 20231225

仅用于记录当天的市场情况&#xff0c;用于统计交易策略的适用情况&#xff0c;以便程序回测 短线核心&#xff1a;不参与任何级别的调整 昨日回顾&#xff1a; SELECT CODE,成交额排名,净流入排名,代码,名称,DDE大单金额,涨幅,主力净额,DDE大单净量,CONVERT(DATETIME, 最后封…

nosql--RedisTemplate定制化

nosql--RedisTemplate定制化 1、序列化2、如果使用redis中保存数据会使用默认的序列化机制&#xff0c;导致redis中保存的对象不可视2.1将所有的对象以JSON的形式保存2.2配置reids自定义配置2.3转化成功2.4配置文件代码 3redis客户端 1、序列化 stringRedisTemplate RedisTemp…