基于自注意和残差结构的跨模态情感识别融合网络

news2024/9/24 13:13:02
题目A cross-modal fusion network based on self-attention and residual structure for multimodal emotion recognition
译题基于自注意和残差结构的跨模态情感识别融合网络
时间2021年
代码https://github.com/skeletonNN/CFN-SR

A cross-modal fusion network based on self-attention and residual structure for multimodal emotion recognition

摘要:基于音视频的多模态情感识别由于其强大的性能而引起了人们的广泛关注。现有的方法大多侧重于提出不同的跨模态融合策略。然而,这些策略在没有充分考虑模态信息之间的互补特性的情况下,在不同模态的特征中引入了冗余,并且这些方法不能保证在模态内和模态间交互过程中不丢失原始语义信息。在本文中,我们提出了一种新的基于自注意和残差结构的跨模态融合网络(CFN-SR),用于多模态情感识别。首先,我们分别通过有效的 ResNeXt 和 1D CNN 对音频和视频模态进行表示学习,以获得这两种模态的语义特征。其次,我们将两种模态的特征分别输入到跨模态块中,以确保信息的有效互补性和完整性。最后,我们通过将获得的融合表示与原始表示拼接来获得情感的输出。为了验证所提出方法的有效性,我们在 RAVDESS 数据集上进行了实验。实验结果表明,所提出的 CFN-SR 达到了最先进的水平,在 26.30M 的参数下获得了 75.76% 的准确率。

1 Introduction

多模态情感识别因其高性能和鲁棒性而备受关注[1],应用于人机交互和社交机器人等各个领域[2]。多模态情感识别的主要目标是从视频序列中获得人类的情感表达。人类主要通过多种方式表达情感,如言语[3]、肢体手势[4]、面部表情[5]和文本[6]。尽管许多研究采用了更复杂的模态,但视频和音频仍然是这项任务的主要模态,因为它们能够充分传达情感。因此,在这项工作中,我们专注于基于音频-视频的多模态情绪识别。

在现有的研究中,多模态情感识别可以根据模态信息融合方法进行分类:早期融合[7]、晚期融合[8,9]和模型融合[10,11]。早期融合是将多个模态数据提取并构造成相应的模态特征,然后将它们拼接成一个集成每个模态特征的特征集。晚期融合是找出每个模型的合理性,然后进行协调并做出联合决策。最近,随着 Transformer [12]在自然语言处理和计算机视觉任务中的发展,模型融合通常使用Transformer进行跨模态交互,由于融合位置的灵活性,性能显著提高。对于音频-视频情感识别,[13]引入了 Transformer 来融合音频和视频表示。[14]探讨了不同的跨模态融合策略。[10] 提出了一种新的表示融合方法——胶囊图卷积(CapsGCN),将图胶囊网络用于音频和视频情感识别。

然而,现有的方法忽略了不同模态之间的互补信息,最终决策往往需要两个模态特定特征以及融合特征的联合决策。补充信息确保在添加融合模块时性能有所提高。此外,现有方法的融合方式仍存在大量冗余。一些模型仅被缝合在一起用于最终结果输出,并且缝合的结果将具有许多重复的表示,并且在缝合之前需要过滤特征信息以进一步减少冗余特征。此外,现有的方法不能保证特征学习过程中的信息完整性,模态内和模态间信息的学习往往会丢失一些语义信息。

为了解决上述问题,我们提出了一种新的基于自注意和残差结构的跨模态融合网络(CFN-SR),用于多模态情感识别。具体来说,我们首先对音频模态和视频模态进行表示学习。视频帧序列的时空结构特征是通过 ResNeXt [15]获得的。音频序列的 MFCC 特征是通过简单有效的 1D CNN 获得的。其次,我们将特征分别输入到跨模态块中,并通过自注意机制使音频模态进行模态内特征选择,这将使所选择的特征能够在模态之间自适应且高效地与视频模态交互。残余结构可以确保视频模态的原始结构特征的完整性。最后,我们通过拼接获得的融合表示和原始表示来获得情感的输出。我们将该模型应用于 RAVDESS [16]多模态情绪识别数据集,实验结果表明,我们提出的 CFN-SR 更有效,与其他模型相比,我们的方法达到了最先进的水平,获得了 75.76% 的准确率和 26.30M 的参数数。

2 Methodology

如图 1 所示,我们设计了一个基于自注意和残差结构的跨模态融合网络。首先,我们使用 3D CNN 来获得视频特征,使用 1D CNN 来获得音频特征。然后,我们通过跨模态融合块获得两种模态的模态间和模态内融合表示。最后,我们通过将获得的融合表示与原始表示拼接来获得情感的输出。我们将在下面详细描述这一过程。
图1

2.1 音频 Encoder

对于音频模态,最近的工作[17,18]已经证明了基于梅尔频率倒谱系数(MFCC)特征的深度学习方法的有效性。我们设计了一种简单高效的 1D CNN 来进行 MFCC 特征提取。具体来说,我们使用经过特征预处理的音频模态特征作为输入,表示为 X A X_A XA。我们首先通过2层卷积运算来提取相邻音频元素的局部特征。之后,我们使用最大池来下采样,压缩特征,并去除冗余信息。具体方程式如下:
X ^ A = B N ( R e L U ( C o n v 1 D ( X A , k A ) ) ) ( 1 ) X ^ A = D r o p o u t ( B N ( M a x P o o l ( X ^ A ) ) ) ( 2 ) \hat{X}_A = BN ( ReLU(Conv1D(X_A, k_A)) ) \kern10em (1) \\ \hat{X}_A = Dropout(BN(MaxPool(\hat{X}_A)) ) \kern10em (2) X^A=BN(ReLU(Conv1D(XA,kA)))(1)X^A=Dropout(BN(MaxPool(X^A)))(2)
其中, B N BN BN 代表批量标准化, k A k_A kA 是模态音频的卷积核的大小,而 X ^ A \hat{X}_A X^A 表示学习的语义特征。我们再次将学习到的特征馈送到 1D 时间卷积中,以获得音频的高阶语义特征。最后,我们对获得的特征进行展平:
X ^ A = F l a t t e n ( B N ( R e L U ( C o n v 1 D ( X ^ A , k A ) ) ) ) ( 3 ) \hat{X}_A = Flatten(BN(ReLU(Conv1D(\hat{X}_A, k_A)))) \kern10em (3) X^A=Flatten(BN(ReLU(Conv1D(X^A,kA))))(3)

2.2 视频 Encoder

视频数据在空间和时间维度上都是依赖的,因此需要一个具有 3D 卷积核的网络来学习面部表情和动作。我们考虑了网络的性能和训练效率,并选择 3D ResNeXt [15]网络来获得视频模态的时空结构特征。ResNeXt 在普通卷积核的深度分割卷积之间提出了一种组卷积策略,并通过控制组的数量来实现两种策略之间的平衡,结构简单但性能强大。我们使用经过特征预处理的音频模态特征作为输入,表示为 X V X_V XV。我们通过这个网络获得了视频模态的高阶语义特征:
X ^ V = R e s N e X t 50 ( X v ) ∈ R C ∗ S ∗ H ∗ W ( 4 ) \hat{X}_V = ResNeXt50(X_v) \in R^{C*S*H*W} \kern10em (4) X^V=ResNeXt50(Xv)RCSHW(4)
其中, X ^ V \hat{X}_V X^V 表示学习的语义特征, C 、 S 、 H 和 W C、S、H和W CSHW 分别是通道的数量、序列长度、高度和宽度。在获得高阶语义特征后,我们将它们输入到跨模态块中,并融合音频特征表示。我们认为,最终得到的融合表示不仅包含视频模态的高阶语义特征,还包含两种模态的交互特征。之后,我们使用平均池执行下采样以减少冗余信息。

2.3 跨模态块

通过对两种模态的编码操作,我们获得了音频和视频模态的高阶语义特征。为了使最终决策更加准确,我们利用了两种模态之间互补的模态内和模态间交互信息。具体来说,我们首先通过自注意机制使音频模态进行模态内表征学习。该操作允许对音频模态的高阶语义特征进行自适应学习,使其更加关注对结果权重有更大影响的特征。继Transformer[12]之后,我们使用自注意对音频特征进行特征选择。自注意机制能够反映特征相邻元素的影响,其查询、关键字和值都是同一音频模态在不同投影空间下的表示。具体公式如下:
s e l f − a t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T d k ) V ( 4 ) self-attention(Q, K, V) = softmax(\dfrac{QK^T}{\sqrt{d_k}})V \kern10em (4) selfattention(Q,K,V)=softmax(dk QKT)V(4)
其中 Q , K , V Q,K,V QKV 表示 Z A [ i − 1 ] Z^{[i−1]}_A ZA[i1] Z A [ i − 1 ] Z^{[i−1]}_A ZA[i1] 由具有不同参数矩阵的不同投影空间表示,其中 i i i 表示变换器注意力的层数, i = 1 , . . . , D i=1 ,..., D i=1,...,D。我们将学习到的权重信息馈送到全连接中,以获得特征自适应学习结果:
X ^ A = L N ( Z A [ i ] + F e e d f o r w a r d ( Z A [ i ] ) ) ∈ R d f ( 6 ) \hat{X}_A = LN(Z_A^{[i]} + Feedforward(Z_A^{[i]}) ) \in R^{d_f} \kern10em(6) X^A=LN(ZA[i]+Feedforward(ZA[i]))Rdf(6)
其中 L N LN LN 表示层归一化, d f d_f df 表示提取的特征的维度。该操作使音频模态的高阶特征能够执行特征选择,使其更加关注对结果有更大影响的特征。

然后,我们使自动选择的特征和视频模态进行有效的模态间交互。该模块接受两种模态的输入,这两种模态被称为 X ^ A ∈ R d f \hat{X}_A \in R^{d_f} X^ARdf X ^ V ∈ R C ∗ S ∗ H ∗ W \hat{X}_V \in R^{C*S*H*W} X^VRCSHW。我们通过线性投影获得了两种模态的特征的映射表示。然后我们用 a d d add add t a n h tanh tanh 激活函数处理这两种表示。最后,通过软件tmax得到了融合表示的ξXo∈RC×S×H×W。我们认为,最终融合的信息不仅包含两种模态的互补信息,还包含视频模态的特征。具体公式如下:
X ^ q = t a n h ( ( W v X ^ v + b v ) + W a X ^ A ) ∈ R k ∗ S ∗ H ∗ W ( 7 ) X ^ o = ( s o f t m a x ( X ^ q ) ⨂ X ^ V ) ⨁ X ^ V ∈ R C ∗ S ∗ H ∗ W ( 8 ) \hat{X}_q = tanh((W_v\hat{X}_v + b_v) + W_a\hat{X}_A) \in R^{k*S*H*W} \kern10em (7)\\ \hat{X}_o = (softmax(\hat{X}_q) \bigotimes \hat{X}_V) \bigoplus \hat{X}_V \in R^{C*S*H*W} \kern10em (8) X^q=tanh((WvX^v+bv)+WaX^A)RkSHW(7)X^o=(softmax(X^q)X^V)X^VRCSHW(8)
其中 W v ∈ R k × C W_v \in R^{k×C} WvRk×C W a ∈ R k × d f W_a \in R^{k×d_f} WaRk×df 是线性变换权, b v ∈ R k b_v \in R^k bvRk 是偏差,其中 k k k 是预先定义的超参数, ⨁ \bigoplus 表示张量和向量的广播加法运算。

这种操作使高级特征能够与低级特征互补学习,从而补充了低级特征的语义特征,表达了更丰富的信息。在这个过程中,为了确保视频模态的信息不丢失,我们通过残差结构来确保视频模态原始结构特征的完整性。

2.4 分类

最后,我们通过拼接所获得的融合表示和原始表示来获得情绪 I = [ X ^ o , X ^ A ] I=[\hat{X}_o, \hat{X}_A] I=[X^o,X^A] 的输出。利用交叉熵损失对模型进行了优化。具体方程式如下:
p r e d i c t i o n = W 1 I + b 1 ∈ R d o u t ( 9 ) L = − ∑ i y i l o g ( y ^ i ) ( 10 ) prediction = W_1I + b_1 \in R^{d_out} \kern10em(9)\\ L = -\displaystyle\sum_i y_ilog(\hat{y}_i) \kern15em(10) prediction=W1I+b1Rdout(9)L=iyilog(y^i)(10)
其中, d o u t d_{out} dout 是情绪类别的输出维度, W 1 ∈ R d o u t W_1 \in R^{d_{out}} W1Rdout 是权重向量, b 1 b_1 b1 是偏差, y = y 1 , y 2 , … , y n T y={y_1, y_2, …, y_n}^T y=y1,y2,,ynT 是情绪标签的 o n e − h o t v e c t o r one-hot vector onehotvector y = y 1 , y 2 , … , y n T y={y_1, y_2, …, y_n}^T y=y1,y2,,ynT 是预测的概率分布, n n n 是情绪类别数。

3 实验

3.1 数据集

Ryerson 情感语音和歌曲视听数据库( R A V D E S S RAVDESS RAVDESS)[16]是一个多模态情感识别数据集,包含 1440 个简短演讲视频剪辑中的 24 名演员(12 名男性,12 名女性)。数据集是在演员被告知要表达的情绪时执行的,在视频和音频记录方面都具有高质量。数据集中包括八种情绪:中性、平静、快乐、悲伤、愤怒、恐惧、厌恶和惊讶。

3.2 实现细节

对于视频模态,我们从每个视频中提取 30 个连续的图像。我们使用为每个图像提供的2D面部标记来裁剪面部区域,然后调整大小为(224*224)。数据扩充是使用随机裁剪、级别翻转和规范化方法进行的。对于音频模态,由于前 0.5 秒通常不包含声音,因此我们修剪前 0.5 秒,并在接下来的 2.45 秒内保持一致。根据[19]的建议,我们为每个裁剪的音频片段提取前 13 个 MFCC 特征。

我们对 RAVDESS 数据集进行了 5 倍的交叉验证,以提供更稳健的结果。我们将 24 名演员按 5 : 1 5:1 5:1 的比例分为训练组和测试组。由于演员的性别由偶数或奇数个演员 I D ID ID 表示,我们通过旋转 4 个连续的演员 I D ID ID 作为交叉验证的每个折叠的测试集,使性别能够均匀分布。该模型使用 Adam 优化器[20]进行训练,学习率为 0.001,模型的整个训练在单个 N V I D I A R T X 8000 NVIDIA RTX 8000 NVIDIARTX8000 上完成。报告的最终准确率是 5 次折叠的平均准确率。

3.3 Baselines

对于这项任务,我们实现了多种最新的多模态融合算法作为我们的基线。我们将它们分为以下几类:

  1. 基于[21]和 MCBP [22]的简单特征级联和完全连接层是两种典型的早期融合方法。
  2. 平均和乘法是作为基线采用的两种标准后期融合方法。
  3. 乘法层[23]是一种后期融合方法,它在 CE 损失中添加了一个向下加权因子,以抑制较弱的模态。
  4. MMTM[24]模块允许通过添加到不同的特征层来缓慢地融合模态之间的信息,这允许融合不同空间维度的卷积层中的特征。
  5. MSAF[25]模块将每个通道在通道方向上划分为相等的特征块,并创建用于在特征块上为每个通道生成 soft notes 的联合表示。
  6. ERANNs [26]提出了一种用于音频视频情感识别的新卷积神经网络架构,是最先进的方法。

3.4 与最新的进行对比

表 1 显示了所提出的方法与基线的准确性比较。从表 1 中可以看出,我们的模型在 2630M 个参数的情况下实现了 75.76% 的精度,达到了最先进的水平。与单峰基线相比,我们的网络准确率超过 10% ,验证了多模态融合的重要性。此外,跨模态融合块的加入只引入了 30K 数量的参数,但带来了显著的性能改进。与早期的融合方法相比,我们的方法的准确率提高了 4% 以上,这表明在早期发现视频和音频模态之间的关联是一项艰巨的任务。此外,我们提出的 C F N − S R CFN-SR CFNSR M M T M MMTM MMTM [24]提高了 2.64%,比性能最好的 M S F A MSFA MSFA [25]提高了 0.9%,并且两者都有相当数量的参数。这表明我们的模型充分利用了两种模态之间的互补性,并减少了冗余特征。

表1

3.5 消融实验

表 2 显示了 RAVDESS 数据集上的消融实验。为了验证跨模态块的有效性,我们通过简单地拼接两种模态的高级语义特征来获得最终的情感。实验结果表明,我们的跨模态块只增加了0.4M个参数,就可以使性能提高2%以上,这表明来自两种模态的有效互补信息可以对最终决策产生很大影响。同时,我们观察到,简单拼接的结果输出也会比早期融合方法更好,这表明早期融合方法不能充分表达两种模态的高级语义特征。

我们进一步探讨了跨模态块内部结构的有效性。在跨模态块中,自注意机制和残差结构对模型的性能起着重要作用。我们将自注意机制和残差结构分开,可以看出,自注意对最终结果的影响超过2%。这表明我们获得的音频语义特征包含冗余信息,可以通过自注意机制进行特征选择,使其对模态间交互具有高效和自适应性。此外,我们还看到残差结构对最终结果的影响较小,这表明残差结构的加入有助于确保在交互过程中最大限度地减少视频特征的损失。此外,我们观察到,即使不包括残余结构,也可以实现当前的最先进技术,这进一步证明了跨模态块的效率。

此外,我们将音频模态集成到视频模态中,作为模型设计中的最终融合结果,表示为 V − > A V->A V>A。我们比较了将视频模态集成到音频模态的结果,表示为 A − > V A->V A>V。我们发现它们之间有 1.6% 的差异,我们将其归因于这样一个事实,即自注意机制减少了音频特征的冗余,并且对结果更有效。同时,视频模态丰富的时空结构也对最终结果输出产生影响。

4 总结

在本文中,我们提出了一种基于自注意和残差结构的跨模态融合网络(CFN-SR),用于多模态情感识别。我们设计了跨模态块,充分考虑了不同模态的互补信息,充分利用模态间和模态内的相互作用来完成语义特征的传递。包含自注意机制和残差结构可以保证信息交互的效率和完整性。我们在 RAVDESS 数据集上验证了所提出方法的有效性。实验结果表明,所提出的方法达到了最先进的水平,在 26.30M 个参数的情况下获得了 75.76% 的准确率。在未来的工作中,我们将扩展该模块,以探索多种模态之间的有效互动。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/758387.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

verilog实现数码管静态显示

文章目录 verilog实现数码管静态显示一、任务要求二、实验代码三、仿真代码四、仿真结果五、总结 verilog实现数码管静态显示 一、任务要求 六个数码管同时间隔0.5s显示0-f。要求:使用一个顶层模块,调用计时器模块和数码管静态显示模块。 二、实验代码…

DS-SLAM论文翻译

DS-SLAM:面向动态环境的语义可视化SLAM 摘要-同时定位与绘图(SLAM)被认为是智能移动机器人的一项基本能力。在过去的几十年里,许多印象深刻的SLAM系统已经开发出来,并在某些情况下取得了良好的性能。然而,一些问题仍然没有很好地解决&#x…

windows下mingw 编译boost-1.78.0

1.mingw环境设置 添加C:\cygwin64\bin 到环境变量,cmd运行检查是否安装成功 打开cmd,验证: 2.boost编译 创建文件夹 #后期可以删除,安装Boost.Buildmkdir D:\boost_build#后期可以删除,存放mkdir D:\boost_1_78_0\b…

SpringBoot使用Redis作为缓存器缓存数据的操作步骤以及避坑方案

1.非注解式实现 2.1使用之前要明确使用的业务场景 例如我们在登录时&#xff0c;可以让redis缓存验证码&#xff0c;又如在分类下显示菜品数据时&#xff0c;我们可以对分类和菜品进行缓存数据等等。 2.2导入Redis相关依赖 <dependency><groupId>org.springfra…

Leetcode每日一题(困难):834. 树中距离之和(2023.7.16 C++)

目录 834. 树中距离之和 题目描述&#xff1a; 实现代码与解析&#xff1a; DFS 原理思路&#xff1a; 834. 树中距离之和 题目描述&#xff1a; 给定一个无向、连通的树。树中有 n 个标记为 0...n-1 的节点以及 n-1 条边 。 给定整数 n 和数组 edges &#xff0c; edge…

重定向与转发

转发 package com.qf.controller;import org.springframework.stereotype.Controller; import org.springframework.ui.Model; import org.springframework.web.bind.annotation.RequestMapping;import javax.servlet.http.HttpServletRequest; import javax.servlet.http.Htt…

很强!Windows11 渗透测试工具包

项目介绍 基于Windows11打造的一个渗透测试工具包&#xff1b;本项目制作的初衷是帮助渗透新手快速搭建工作环境&#xff0c;工欲善其事&#xff0c;必先利其器&#xff1b; 关注【Hack分享吧】公众号&#xff0c;回复关键字【230516】获取下载链接 目前已集成了各类常用开发环…

MySQL(一)基本架构、SQL语句操作、试图

MySQL系列文章 MySQL&#xff08;一&#xff09;基本架构、SQL语句操作、试图 MySQL&#xff08;二&#xff09;索引原理以及优化 MySQL&#xff08;三&#xff09;SQL优化、Buffer pool、Change buffer MySQL&#xff08;四&#xff09;事务原理及分析 MySQL&#xff08;五&a…

B2B商城赋能传统企业加速转型

企业和企业之间的交易涉及大量的人力、财力、物力的投入&#xff0c;还需要花大量的时间进行审核&#xff0c;其中的工作量是十分巨大的&#xff0c;而B2B电商模式的出现&#xff0c;妥善的处理了以上这些难题&#xff0c;来一起看看B2B电商模式给企业之间的交易带来了哪些便利…

[Linux] 网络编程 - 初见TCP套接字编程: 实现简单的单进程、多进程、多线程、线程池tcp服务器

网络的上一篇文章, 我们介绍了网络变成的一些重要的概念, 以及 UDP套接字的编程演示. 还实现了一个简单更简陋的UDP公共聊天室. [Linux] 网络编程 - 初见UDP套接字编程: 网络编程部分相关概念、TCP、UDP协议基本特点、网络字节序、socket接口使用、简单的UDP网络及聊天室实现……

Windows 10 - Flask 框架 学习总结 1

目录 一、环境配置安装安装 Virtualenv 虚拟环境Virtualenv 虚拟环境内安装 Flask 框架Tips: 二、Flask 框架的初级学习Flask 的 app 补充说明&#xff1a;运行 Flask 的最小应用(app)(后期) 解决 Warning 报错&#xff0c;开启 WSGI 服务 理解调试模式 app.run理解 Flask 框架…

直流有刷电机

直流有刷电机 直流有刷电机(Brushed DC motor) 具有结构简单、易于控制、成本低等特点&#xff0c;在一些功能简单的应用场合&#xff0c;或者说在能够满足必要的性能、低成本和足够的可靠性的前提下&#xff0c;直流有刷电机往往是一个很好的选择。例如便宜的电子玩具、各种风…

辅助驾驶功能开发-功能规范篇(22)-5-L2级辅助驾驶方案功能规范

1.3.5 LKA 系统功能定义 1.3.5.1 状态机 1.3.5.2 状态迁移表 初始状态转移状态转移条件INITOFF系统自检过程中&#xff0c;为 OFF 状态&#xff0c;自检无故障且车辆上次掉电前&#xff0c;为 OFF 状态INITSTANDBY自检无故障&#xff0c;车辆为首次上电&#xff0c;或者上次…

力扣 1005. K 次取反后最大化的数组和

题目来源&#xff1a;https://leetcode.cn/problems/maximize-sum-of-array-after-k-negations/description/ C题解1&#xff1a;最直接的想法就是负的变正的&#xff0c;如果负的元素数量小于k&#xff0c;就挑选绝对值大的负数变正&#xff1b;如果负的元素数量大于k&#xf…

深入浅出对话系统——基于预训练语言模型的对话管理

引言 主要讲解三篇论文&#xff0c;主要思想是把自然语言理解、对话管理和自然语言生成三部分整合到一起。 先导知识 数据集 CamRest676MultiWOZ 都是用的自回归语言模型 causalGPT-2、Transformer Decoder 一个概念&#xff1a;delexicalization 通过相应的占位符替换…

TTS | 文本转语音中的声码器(Vocoder)

在这篇文章中&#xff0c;我想详细说明 语音合成(TTS) 中的 Vocoder 部分。 目录 1.声码器(Vocoder)的作用 2.经典的声码器 2.1.WaveNet 2.2.WaveGlow 2.3.MelGAN 2.4.VocGAN 2.5.HiFi-GAN 参考文献 Reference 1.声码器(Vocoder)的作用 神经语音合成主要分为&…

通讯录(纯C语言实现)

相信大家都有过通讯录&#xff0c;今天我来带大家实现以下最简单的通讯录&#xff0c;通过本篇文章&#xff0c;相信可以让大家对C语言有进一步的认识。 话不多说&#xff0c;我们先放函数的实现 #define _CRT_SECURE_NO_WARNINGS 1 #include "Contact.h"int Chea…

Python 算法基础篇:什么是算法及其重要性

Python 算法基础篇&#xff1a;什么是算法及其重要性 引言 1. 什么是算法&#xff1f;2. 算法的重要性 a ) 提高程序性能 b ) 解决复杂问题 c ) 优化资源利用 3. 算法实践与 Python a ) 线性搜索算法 b ) 快速排序算法 结论 引言 算法是计算机科学中的基础概念之一&#xff0…

程序执行过程发生了什么

程序执行过程发生了什么 预处理&#xff08;Preprocessing&#xff09;&#xff1a; 预处理包括宏替换、条件编译、文件包含、去除注释等工作。 此时产生的是 .i文件&#xff0c;这是一个文本文件。 linux生成预处理文件命令&#xff1a; gcc -E test.c -o test.i上述命令中…

天眼使用指南-威胁文件鉴定器

包含了静态检测&#xff0c; 主要负责对传感器&#xff0c;手东提交url等多种数据来源的一些通道&#xff0c;过来的一些样本进行检测。 检测过程&#xff1a;威胁情报的匹配&#xff0c;沙箱检测。及时发现恶意行为和文件进行告警&#xff0c;传给天眼分析平台统一的分析。提…