PBA.常用人工智能预测分析算法

相同的数据型态，利用不同的方法分析，就可以解决不同的课题。例如目前已相当纯熟的人脸识别技术，在国防应用可以进行安保工作；企业可做员工门禁系统；可结合性别、年龄辨识让卖场进行市调分析，或结合追踪技术进行人流分析等。

本篇接下来要针对深度学习方法的数据类型或算法，介绍AI常见的应用。

1. 神经网络算法

以算法区分深度学习应用，算法类别可分成三大类：

常用于影像数据进行分析处理的卷积神经网络(简称CNN)
文本分析或自然语言处理的递归神经网络(简称RNN)
常用于数据生成或非监督式学习应用的生成对抗网络(简称GAN)

CNN卷积神经网络(简称CNN)

CNN主要应用可分为图像分类(image classification)、目标检测(object detection)及语义分割(semantic segmentation)。下图可一目了然三种不同方法的应用方式。

1、图像分类 (Classification)

顾名思义就是将图像进行类别筛选，通过深度学习方法识别图片属于哪种分类类别，其主要重点在于一张图像只包含一种分类类别，即使该影像内容可能有多个目标，所以单纯图像分类的应用并不普遍。不过由于单一目标识别对深度学习算法来说是正确率最高的，所以实际上很多应用会先通过目标检测方法找到该目标，再缩小撷取影像范围进行图像分类。所以只要是目标检测可应用的范围，通常也会使用图像分类方法。图像分类也是众多用来测试算法基准的方法之一，常使用由ImageNet举办的大规模视觉识别挑战赛(ILSVRC)中提供的公开图像数据进行算法测试。图像分类属于CNN的基础，其相关算法也是最易于理解，故初学者应该都先以图像分类做为跨入深度学习分析的起步。使用图像分类进行识别，通常输入为一张图像，而输出为一个文字类别。

2、目标检测 (Object Detection)

一张图像内可有一或多个目标物，目标物也可以是属于不同类别。算法主要能达到两种目的：找到目标坐标及识别目标类别。简单来说，就是除了需要知道目标是什么，还需要知道它在哪个位置。

目标检测应用非常普遍，包含文章开头提到的人脸识别相关技术结合应用，或是制造业方面的瑕疵检测，甚至医院用于X光、超音波进行特定身体部位的病况检测等。目标识别的基础可想象为在图像分类上增加标示位置的功能，故学习上也不离图像分类的基础。不过目标检测所标示的坐标通常为矩形或方形，仅知道目标所在位置，并无法针对目标的边缘进行描绘，所以常用见的应用通常会以「知道目标位置即可」作为目标。

最常见的算法为YOLO及R-CNN。其中YOLO因算法特性具有较快的识别速度，目前已来到v3版本。R-CNN针对目标位置搜寻及辨识算法和YOLO稍有不同，虽然速度稍较YOLO慢，但正确率稍高于YOLO。使用目标检测进行识别，通常输入为一张图像，而输出为一个或数个文字类别和一组或多组坐标。

3、语义分割 (Semantic Segmentation)

算法会针对一张图像中的每个像素进行识别，也就是说不同于目标检测，语义分割可以正确区别各目标的边界像素，简单来说，语义分割就是像素级别的图像分类，针对每个像素进行分类。当然这类应用的模型就会需要较强大的GPU和花较多时间进行训练。

常见应用类似目标检测，但会使用在对于图像识别有较高精细度，如需要描绘出目标边界的应用。例如制造业上的瑕疵检测，针对不规则形状的大小瑕疵，都可以正确描绘。医学上常用于分辨病理切片上的病变细胞，或是透过MRI、X光或超音波描绘出病变的区块及类别。算法如U-Net或是Mask R-CNN都是常见的实作方法。使用语义分割进行识别，通常输入为一张图像，而输出也为一张等大小的图像，但图像中会以不同色调描绘不同类别的像素。

RNN

RNN的特色在于可处理图像或数值数据，并且由于网络本身具有记忆能力，可学习具有前后相关的数据类型。例如进行语言翻译或文本翻译，一个句子中的前后词汇通常会有一定的关系，但CNN网络无法学习到这层关系，而RNN因具有内存，所以性能会比较好。因为可以通过RNN进行文字理解，其他应用如输入一张图像，但是输出为一段关于图像叙述的句子。(如下图)

RNN虽然解决了CNN无法处理的问题，但其本身仍然有些缺点，所以现在很多RNN的变形网络，其中最常被使用的网络之一为长短记忆网络(Long Short-Term Network，简称LSTM)。这类网络的输入数据不限于是图像或文字，解决的问题也不限于翻译或文字理解。数值相关数据也同样可以使用LSTM进行分析，例如工厂机器预测性维修应用，可透过LSTM分析机台震动讯号，预测机器是否故障。在医学方面，LSTM可协助解读数以千计的文献，并找出特定癌症的相关信息，例如肿瘤部位、肿瘤大小、期数，甚至治疗方针或存活率等等，透过文字理解进行解析。也可结合图像识别提供病灶关键词，以协助医生撰写病理报告。

GAN

除了深度学习外，有一种新兴的网络称为强化学习(Reinforcement Learning)，其中一种很具有特色的网络为生成式对抗网络(GAN)。

这里不详述GAN的理论或实作方式，而是探讨GAN实际应用的场域。深度学习领域最需要的是数据，但往往不是所有应用都可以收集到大量数据，并且数据也需要人工进行标注，这是非常消耗时间及人力成本。图像数据可以通过旋转、裁切或改变明暗等方式增加数据量，但如果数据还是不够呢？目前有相当多领域透过GAN方法生成非常近似原始数据的数据，例如3D-GAN就是可以生成高质量3D对象。当然，比较有趣的应用例如人脸置换或表情置换。(如下图)

图片来源于网络

另外，SRGAN (Super Resolution GAN)可用于提高原始图像的分辨率，将作为低分辨率影像输入进GAN模型，并生成较高画质的影像(如下图)。这样的技术可整合至专业绘图软件中，协助设计师更有效率完成设计工作。

图片来源于网络

NVIDIA也有提供一些基于GAN的平台的应用，包含透过GauGAN网络，仅需绘制简单的线条，即可完成漂亮的画作，并且还能随意修改场景的风格(如下图)。

2. 基于时间序列的预测算法

时间序列预测就是利用过去一段时间的数据来预测未来一段时间内的信息，包括连续型预测（数值预测，范围估计）与离散型预测（事件预测）等，具有非常高的商业价值。

需要明确一点的是，与回归分析预测模型不同，时间序列模型依赖于数值在时间上的先后顺序，同样大小的值改变顺序后输入模型产生的结果是不同的。

如之前的文章所介绍，时间序列可以分为平稳序列，即存在某种周期，季节性及趋势的方差和均值不随时间而变化的序列，和非平稳序列。

本文为大家总结时间序列预测的有关方法，浅析这些技术并探索如何可以提高这些方法的预测效果。

时间序列预测方法最全总结！

1）自回归积分移动平均型或ARIMA(Autoregressive Integrated Moving Average Model)模型

自回归积分移动平均模型或ARIMA(p,d,q)，相当于在自回归移动平均过程（ARMA）的基础上增加了积分要素，相比AR、MA、ARMA模型来说，不再对数据平稳性存在要求，在模型中可以直接通过积分参数d控制数据差异化的次数。

将预测对象按照时间顺序排列起来，构成一个所谓的时间序列，从所构成的一组时间序列的变化规律，推断今后变化的可能性及变化趋势、变化规律，就是时间序列预测法。
时间序列模型其实也是一种回归模型，其基于的原理是，一方面承认事物发展的延续性，运用过去时间序列的数据统计分析就能推测事物的发展趋势；另一方面又充分考虑到偶然因素影响而产生的随机性，为了消除随机波动的影响，利用历史数据，进行统计分析，并对数据进行适合的处理，进行趋势预测。
自回归模型是用自身做回归变量的过程，即利用前期若干时刻的随机变量的线性组合来描述以后某时刻随机变量的线性回归模型，它是时间序列中的一个常见形式。

AR模型利用前期数值与后期数值的相关关系（自相关），建立包含前期数值和后期数值的回归方程，达到预测的目的，因此成为自回归过程。比较自回归过程和MA移动平均过程可知，移动平均过程其实可以作为自回归过程的补充，解决自回归方差中白噪声的求解问题，两者的组合就成为自回归移动平均过程，称为ARMA模型。

从回归方程可知，自回归移动平均模型综合了AR和MA两个模型的优势，在ARMA模型中，自回归过程负责量化当前数据与前期数据之间的关系，移动平均过程负责解决随机变动项的求解问题，因此，该模型更为有效和常用。

介绍时间序列平稳性时提到过，AR/MA/ARMA模型适用于平稳时间序列的分析，当时间序列存在上升或下降趋势时，这些模型的分析效果就大打折扣了，这时差分自回归移动平均模型也就应运而生。ARIMA模型能够用于齐次非平稳时间序列的分析，这里的齐次指的是原本不平稳的时间序列经过d次差分后成为平稳时间序列。

在现实生活中，存在很多非平稳的时间序列，它们的均值和方差是随着时间的变化而变化的，幸运的是，统计学家们发现，很多时间序列本身虽然不平稳，但是经过差分（相邻时间点的指标数值相减）之后，形成的新时间序列就变成平稳时间序列了。因此，差分自回归移动平均模型写成ARIMA(p,d,q)。p代表自回归阶数；d代表差分次数；q代表移动平均阶数。在spss软件中，有时输出的ARIMA模型包括6个参数：ARIMA(p,d,q)(P,D,Q)，这是因为如果时间序列中包含季节变动成分的话，需要首先将季节变动分解出来，然后再分别分析移除季节变动后的时间序列和季节变动本身。这里小写的p,d,q描述的是移除季节变动成分后的时间序列；大写的P,D,Q描述的是季节变动成分。两个部分是相乘的关系。因此，ARIMA(p,d,q)(P,D,Q)也被称为复合季节模型。

3. 累积距平法(Cumulative.0ffset. .Verification, COV) /累积偏差法

累积距平是一种用于检验计量器的精度、稳定性和可靠性的方法。该方法通过分别记录被测计量器测量的结果和标准测量结果之间的差值，并将其累积起来，从而计算出平均差值和标准偏差。这种方法的优点在于可以消除系统漂移和运动误差的影响，从而提供更准确的结果。

在进行累积距平法检测之前，需要先确定所选的参考标准测量器是否符合要求。标准测量器应具有高精度、稳定性和可靠性，并经过校准。在检测过程中，被测计量器应准确地连接到标准测量器，并按指定的测量标准进行测量。同时还需保持测量环境稳定，并排除外力干扰。每次测量的差值将被累加起来，以得到平均差值和标准偏差。平均差值指的是所有测量结果与标准测量结果之间的差值的平均值，而标准偏差则表示这些...
利用距平法对洮河流域降水特性的分析

累积距平法是一种常用的数据分析方法，它通过计算数据点与平均值之间的差距，并累积这些差距值，来帮助我们判断数据的分布情况。通过绘制累积距平图，我们可以直观地了解数据的偏离程度。这可以帮助我们在实际应用中更好地理解和解释数据，从而做出更准确、可靠的决策。

累计偏差是指在一段时间内.数值或观测结果与预期值之间的累积差异或偏离程度。它可以用于分析和评估实际结果与理论模型、预测值或标准之间的差异。在统计学和数据分析领域，累计偏差通常用于衡量实际观测值与预期值之间的总体差异。它可以通过将每个观测值与预期值之间的差异相加来计算得出。

累计偏差可以在不同应用场景中起到重要作用。例如，在财务分析中，它可以用于评估公司的实际销售额与预期销售额之间的差距。在生产过程控制中，累计偏差可以用来监测产品质量是否符合规范要求。
通过计算累计偏差,我们可以获得对实际结果与预期值之间偏离程度的整体了解。这有助于识别系统中的潜在问题、改进预测模型或调整决策以提高结果的准确性和一致性。