【人工智能】【总结】CMSC5707 Advanced Topics in Artificial Intelligence

news2025/1/12 6:15:42

文章目录

  • 1. 音频信号处理介绍
  • 2. 音频信号预处理
  • 3. 特征
  • 4. 特征重现
  • 5. 语音识别
  • 6. AdaBoost
  • 7. 人脸识别
  • 8. 神经网络
  • 9. 卷积神经网络
  • 10. Auto-Encoder
  • 11. 循环神经网络 和 LSTM
  • 12. Word Representation
  • 13. 决策树

1. 音频信号处理介绍

  • x KHz, y bit, n s 多少 byte: x ∗ 1000 ∗ y / 8 ∗ n   b y t e s x*1000*y/8*n\ bytes x1000y/8n bytes
  • (模拟到数字)系统采样率 20 KHz,采样声音频率最大为 20/2 KHz
  • 声音频率为 20 KHz,(模拟到数字)系统采样率为 20*2 KHz

2. 音频信号预处理

  • frame blocking

    • frame size (ms) + overlapping rate -> frame (Hz*ms/1000)
  • windowing (window size = N)

    • s ~ ( k ) = s ( k ) ⋅ W ( k ) W ( k ) = 0.54 − 0.46 cos ⁡ ( 2 π k N − 1 ) 0 ≤ k ≤ N − 1 \tilde{s}(k) = s(k)\cdot W(k)\\ W(k) = 0.54-0.46\cos(\frac{2\pi k}{N-1})\\ 0\le k\le N-1 s~(k)=s(k)W(k)W(k)=0.540.46cos(N12πk)0kN1
  • Fourier Transform

    • X m = ∑ k = 0 N − 1 s ( k ) ⋅ e i ( − 2 π k m / N ) = ∑ k = 0 N − 1 s ( k ) ⋅ ( cos ⁡ ( 2 π k m N ) − sin ⁡ ( 2 π k m N ) ) e i θ = cos ⁡ ( θ ) + i sin ⁡ ( θ ) \begin{aligned} X_m & = \sum_{k=0}^{N-1}s(k)\cdot e^{i(-2\pi k m/N)} \\ & = \sum_{k=0}^{N-1}s(k)\cdot\left(\cos\left(\frac{2\pi k m}{N}\right)-\sin\left(\frac{2\pi k m}{N}\right)\right)\\ e^{i\theta} & = \cos(\theta)+i\sin(\theta) \end{aligned} Xmeiθ=k=0N1s(k)ei(2πkm/N)=k=0N1s(k)(cos(N2πkm)sin(N2πkm))=cos(θ)+isin(θ)

    • e n e r g y = ( X m . r e a l ) 2 + ( X m . i m g i n a r y ) 2 energy = (X_m.real)^2+(X_m.imginary)^2 energy=(Xm.real)2+(Xm.imginary)2

    • m a g n i t u d e = e n e r g y magnitude = \sqrt{energy} magnitude=energy

  • Inverse Fourier Transform

    • KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ s(k) & = \frac…
  • 计算第 7 个 frame 的开始和结束位置 N = 256 m = 243

    • q = 7 start = 243*6
    • q = 7 end = 243*6 + 256 - 1

3. 特征

  • Mel Scale

    • m = 2595 log ⁡ 10 ( 1 + f 700 ) m = 2595\log_{10}(1+\frac{f}{700}) m=2595log10(1+700f)
    • Δ m = 2595 log ⁡ 10 ( 700 + f 1 700 + f 2 ) \Delta m=2595\log_{10}(\frac{700+f_1}{700+f_2}) Δm=2595log10(700+f2700+f1)
  • LPC (Linear Predictive Coding) filter

    • windowing - pre-emphasis - autocorrelation - LPC - cepstral coef

    • pre-emphasis

      • s ′ ( k ) = s ( k ) − a ~ ⋅ s ( k − 1 ) s ′ ( 0 ) = s ′ ( 1 ) s^\prime(k) = s(k)-\tilde{a}\cdot s(k-1) \\ s^\prime(0)=s^\prime(1) s(k)=s(k)a~s(k1)s(0)=s(1)

      • a ~ \tilde{a} a~ 为给定值

    • LPC of order p p p

      • 先算 r 0 r_0 r0 r p r_p rp (auto-correlation 值)

        • r i = ∑ n = 0 n = N − 1 − i ( s n ⋅ s n + i ) r_i = \sum_{n=0}^{n=N-1-i}(s_n\cdot s_{n+i}) ri=n=0n=N1i(snsn+i)

        • r = 4

          • 00 11 22 33 44 55
          • 01 12 23 34 45
          • 02 13 24 35
          • 03 14 25
          • 04 15
      • 构成矩阵和向量求 a 1 a_1 a1 a p a_p ap

        • [ r 0 r 1 r 2 … , r p − 1 r 1 r 0 r 1 … , r p − 2 r 2 r 1 r 0 … , r p − 3 : : : … , : r p − 1 r p − 2 r p − 3 … , r 0 ] [ a 1 a 2 a 3 : a p ] = [ r 1 r 2 r 3 : r p ] \left[\begin{array}{ccccc} r_0 & r_1 & r_2 & \ldots, & r_{p-1} \\ r_1 & r_0 & r_1 & \ldots, & r_{p-2} \\ r_2 & r_1 & r_0 & \ldots, & r_{p-3} \\ : & : & : & \ldots, & : \\ r_{p-1} & r_{p-2} & r_{p-3} & \ldots, & r_0 \end{array}\right]\left[\begin{array}{c} a_1 \\ a_2 \\ a_3 \\ : \\ a_p \end{array}\right]=\left[\begin{array}{c} r_1 \\ r_2 \\ r_3 \\ : \\ r_p \end{array}\right] r0r1r2:rp1r1r0r1:rp2r2r1r0:rp3,,,,,rp1rp2rp3:r0a1a2a3:ap=r1r2r3:rp
      • a = A − 1 b a = A^{-1}b a=A1b

        • 伴随矩阵,右边和单位矩阵连起来,把左边化成单位矩阵
  • Cepstrum

    • s’(k) = window(s(k))
    • |X(m)| = dft(s’(k))
    • Log(|X(m)|)
    • C(n) = idft(Log(|X(m)|))

4. 特征重现

  • Vector Quantization
    • LPC 几个参数就是几维,如果能划分开,把相同发音的 LPC 取均值(中心坐标)即可代表该发音
  • Standard K-means
  • Binary-split K-means
  • 10KHz, 8-bit, frame size = 25 ms 没有 overlapping, LPC 10 求压缩率
    • 10*1000*8/1*25/1000 = 25*10 = 250 Bytes
    • 一个浮点数 4 Bytes 10*4 = 40 Bytes
    • ratio = 250/40 = 6.25

5. 语音识别

  • end-point detection - pre-emphasis - frame blocking and windowing - LPC/MFCC - distortion
  • end-point detection
    • 能量和 zero-crossing 在一帧超过阈值
  • frame blocking and windowing
    • 得到的是两堆向量
    • 向量和向量之间两两求距离 [1,2,3] [2,3,4] 距离 1+1+1 不用开平方,作为两个向量之间的距离
  • distortion 慢慢来,慢慢来
    • 两个音频之间得到一个值
    • n个音频两两之间的值构成一个 confusion matrix

6. AdaBoost

在这里插入图片描述

7. 人脸识别

AttributeCalculation
Accuracy T P + T N T P + T N + F P + F N \frac{TP+TN}{TP+TN+FP+FN} TP+TN+FP+FNTP+TN
Precision T P T P + F P \frac{TP}{TP+FP} TP+FPTP
Recall T P T P + F N \frac{TP}{TP+FN} TP+FNTP

8. 神经网络

  • 前向传播

  • 反向传播

    • f ( u i ) = x i f(u_i) = x_i f(ui)=xi 激活函数

    • 隐藏层和输出层之间

      • Δ w j , i = − η ∂ ε ∂ w j , i = − η [ ( x i − t i ) ⋅ f ( u i ) ( 1 − f ( u i ) ) ] ⋅ x j \Delta w_{j,i}=-\eta \frac{\partial\varepsilon }{\partial w_{j,i}}= -\eta[(x_i-t_i)\cdot f(u_i)\left(1-f(u_i)\right)]\cdot x_j Δwj,i=ηwj,iε=η[(xiti)f(ui)(1f(ui))]xj

      • t i t_i ti 是输入的正确值,用来训练的

    • 隐藏层和隐藏层之间

      • Δ w k , j = − η ∂ ε ∂ w k , j = − η ( ∑ i = 0 i = I ( s i ⋅ w j , i ) ) ⋅ [ f ( u j ) ⋅ ( 1 − f ( u j ) ) ] ⋅ x k \Delta w_{k,j} = -\eta \frac{\partial\varepsilon }{\partial w_{k,j}}= -\eta \left(\sum_{i=0}^{i=I}(s_i\cdot w_{j,i})\right)\cdot \left[f(u_j)\cdot \left(1-f(u_j)\right)\right]\cdot x_k Δwk,j=ηwk,jε=η(i=0i=I(siwj,i))[f(uj)(1f(uj))]xk

      • s i s_i si 是用来干啥的?

9. 卷积神经网络

  • 卷积
    • 每一个卷积核有一个bias
    • feature map 大小 (N-m+2p)/m + 1
  • 采样
    • 没有bias

10. Auto-Encoder

  • 传统的和新的 Auto-Encoder 的输入和输出维度都一样
  • 考试考了两个分布上的转换,要细看!

11. 循环神经网络 和 LSTM

  • RNN

    • T a n h ( W h x ( 1 , : ) ∗ X t + W h h ( 1 , : ) ∗ h t + b i a s ( 1 ) ) = h t + 1 ( 1 ) Tanh(Whx(1,:)*X_t+Whh(1,:)*h_t+bias(1))=h_{t+1}(1) Tanh(Whx(1,:)Xt+Whh(1,:)ht+bias(1))=ht+1(1)

    • 矩阵化:

      T a n h ( W h x ∗ X t + W h h ∗ h t + b i a s ) = h t + 1 Tanh(Whx*X_t+Whh*h_t+bias)=h_{t+1} Tanh(WhxXt+Whhht+bias)=ht+1

    • y _ o u t = W h y ∗ h t y\_out = Why * h_t y_out=Whyht

    • s o f t m a x _ y _ o u t = S o f t m a x ( y _ o u t ) softmax\_y\_out = Softmax(y\_out) softmax_y_out=Softmax(y_out)

  • LSTM

    • 权重数量计算
      • cell = m, input = n, output = y, hidden layer number = l
      • W = 4 ∗ m ∗ ( m + n ) + 4 ∗ m ∗ ( l − 1 ) ∗ ( m + m ) + y ∗ m W = 4*m*(m+n) + 4*m*(l-1)*(m+m)+y*m W=4m(m+n)+4m(l1)(m+m)+ym
      • B = 4 ∗ l ∗ m B = 4*l*m B=4lm

12. Word Representation

  • BOW (Bag Of Words) cosine similarity

  • TF-IDF cosine similarity

    • 在该句子中占的比例和所有句子中出现的比例的log的乘积
  • cosine similarity

    • 两向量相乘除以(两向量的长度乘积)
  • Word2Vec

    • N-gram, skip-gram
    • 3-skip-2-gram
      • 包含 2 gram
      • 包含 2-skip 1-skip 2-gram

13. 决策树

  • GINI_index

    • G i n i i n d e x = 1 − ∑ i p i 2 Gini_{index}=1-\sum_ip_i^2 Giniindex=1ipi2

    • G I N I s p l i t = ∣ S 1 ∣ ∣ S ∣ G I N I ( S 1 ) + ∣ S 2 ∣ ∣ S ∣ G I N I ( S 2 ) GINI_{split} = \frac{|S_1|}{|S|}GINI(S_1)+\frac{|S_2|}{|S|}GINI(S_2) GINIsplit=SS1GINI(S1)+SS2GINI(S2)

  • Entropy

    • E n t r o p y = ∑ i − p i log ⁡ 2 ( p i ) Entropy=\sum_i-p_i\log_2(p_i) Entropy=ipilog2(pi)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/82593.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【12月9日更新1/4决赛预测】用二元泊松模型预测2022年世界杯淘汰赛结果

用二元泊松模型预测2022年世界杯淘汰赛结果 网上有很多文章用双泊松(Double Poisson)模型来预测世界杯比赛结果。但是双泊松模型有一个严重的缺陷,那就是它假设比赛中两队的比分是条件独立的。而我们都知道,在对抗性比赛中&…

【PCB设计】孔间距不可忽视,小心废板!

为什么有时候明明PCB设计没有检查出错误,但是在生产加工后还是出现短路、断板等不良情况? 那是因为你没有考虑到孔间距问题,导致在装配过程中无法避免的产生损耗。 PCB单面板或双面板的制作,都是在下料之后,直接进行非…

商品信息管理系统(Python)完整版

目录 功能模块: 实现思路: 运行功能演示: 具体实现过程: 定义商品类: 定义商品管理类 定义显示商品信息函数 输入销量函数: 添加商品信息: 删除商品信息 修改商品信息 导入商品信息…

Linux下安装Zookeeper教程

ZooKeeper 简介 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服…

字符串匹配算法(BFRK)

文章目录题目一、BF算法二、RK算法补充题目 有字符串 str1 和 str2 ,str1 中是否包含 str2,如果没有包含返回 -1,如果包含,则返回 str2 在 str1 中开始的位置 注:保证 str1 和 str2 字符串的长度大于 0 举例&#x…

k8s-kubeadm安装1.25.5

准备环境: 想体验下新的版本 主机名IP资源k8s-master192.168.1.1912u2G内存20G磁盘k8s-node192.168.1.1922u2G内存20G磁盘 1 修改主机名,配置hosts文件 # 修改主机名 hostnamectl set-hostname k8s-master hostnamectl set-hostname k8s-node # 修改h…

CMMI2.0配置管理工作及访谈学习笔记(续)

1. 配置管理岗位职责 范围:组织级和项目级配置管理管理对象为过程和产品,产品为识别出的配置项建立配置库:为项目建立开发库(管理库)、基线库,建立配置库结构并分配权限(命名规范)基…

猿如意中的【DBeaver】工具详情介绍

猿如意中的【DBeaver】工具详情介绍一、工具名称二、下载安装渠道2.1 什么是猿如意?2.2 如何下载猿如意?2.3 如何在猿如意中下载开发工具?三、工具介绍四、DBeaver功能介绍五、软件截图六、DBeaver安装过程6.1 在猿如意中下载DBeaver6.2 选择…

道路裂缝坑洼图像开源数据集汇总

CrackForest数据集 数据集下载链接:http://suo.nz/2wdNdX CrackForest数据集是一个带注释的道路裂缝图像数据库,可以大致反映城市路面状况。 道路裂缝坑洼图像数据集 数据集下载链接:http://suo.nz/3eEDlj 这个数据集是一个极具挑战性的集…

67、INGeo:利用占用网格先验加速/减少迭代次数

简介 论文地址:INGeo: Accelerating Instant Neural Scene Reconstruction with Noisy Geometry Priors 首先我们知道Instant-ngp利用最先进的射线推进技术(指数步进、空白跳过、样本压缩)实现密集网格自剪枝的采样策略,这种采样…

代码随想录训练营第48天|LeetCode 198.打家劫舍、213.打家劫舍II、 337.打家劫舍III

参考 代码随想录 题目一:LeetCode 198.打家劫舍 确定dp数组下标及其含义 dp[i]:考虑下标i(包括i)以内的房屋,可以偷窃的最大金额为dp[i]。确定递推公式 如果当前的第i个房间不偷,那么dp[i] dp[i-1].如…

干货收藏 |关键词优化攻略!(附11款关键词检索工具)

关键字搜索是买家查找产品的方式,一个高质量的关键词可以帮助卖家快速增加曝光率。简而言之,利用好关键词机理,能让我们的产品产生更有利的排名因素。 那如何找到合适的关键字,设置关键字时应该注意什么? 今天从产品的…

libcrypto-1_1.dll丢失,要怎么处理?

一般出现这个libcrypto-1_1.dll丢失的问题,我看绝大部分都是出在刺客信条这边的人,很多人吐槽 在运行刺客信条3游戏的时候遇到提示缺少libcef.dll文件的问题。其实遇到这问题还是比较好解决的。 libcrypto-1_1.dll丢失的处理方法 第一种,首…

云存储--1

背景 这一板块主要是讲诉云计算中的存储板块。 那么云存储主要分为三大类:块存储、文件存储、对象存储。 那么,这一章我们来了解一下什么是块存储,以及块存储在云计算当中的使用场景。 1、 什么是块存储? 我们来思考一个场景&a…

Spring Boot集成MyBatis

1.整合Durid数据源 1、引入Jar包 2.application.yml配置 3.读取配置类DruidConfig 总结:其实没有必要一个个手动去配置, druid 启动starter druid 自动配置类 2.整合MyBatis 2.1生成MyBatis代码: pom.xml generatorConfig.xml 运行插件—…

java计算机毕业设计ssm余庆金阳驾校管理系统75wh9(附源码、数据库)

java计算机毕业设计ssm余庆金阳驾校管理系统75wh9(附源码、数据库) 项目运行 环境配置: Jdk1.8 Tomcat8.5 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#…

看完这篇,轻松编写Markdown

攻城狮为什么要会Markdown Markdown是什么 Markdown是一种轻量级标记语言,创始人为约翰格鲁伯(John Gruber)。它允许人们使用易读易写的纯文本格式编写文档,然后转换成有效的 XHTML(或者HTML)文档。这种语…

【网络攻防】Linux提权(待更)

Linux提权 文章目录Linux提权1.利用suid提权(1)如何设置suid(2)如何找到设置了suid的程序(3) suid提权2.利用环境变量提权(1)创建拥有 suid 权限的程序(2)劫持…

vue innerHTML 绑定单击事件不生效

在使用 vue时候对 innerHTML进行绑定单击事件&#xff0c;绑定后事件不生效 原代码 div.innerHTML "<el-button sizemini typetext clickhandleUpdate1("JSON.stringify(warnCntItem)") stylecolor: #f56c6c> "warnCntItem.warnCnt"</el-b…

【云计算与大数据技术】分布式协同系统Chubby锁、ZooKeeper在HDFS中的使用讲解(图文解释 超详细)

阿里云Kuafa RPC系统 夸父(Kuafu)是飞天平台内核中负责网络通信的模块&#xff0c;它提供了一 个 RPC 的接口 , 简化编写基于网络的分布式应用 夸父的设计目标是提供高可用(724小时)、大吞吐量(Gigabyte)、高效率、易用(简明 API、多种协议和编程接口)的 RPC服务 Hadoop IPC…