摘要

1 研究背景

主要是研究水文时间序列相似性；
目前是k个最近邻水文过程发现，特别是洪水过程的相似性。

众多学者结合水文时间序列的特点，进行了水文时间序列相似性的研究。

李薇《水文时间序列相似性查询的分析与研究》
抽取时间序列的模式特征（包括长度和斜率），然后借鉴动态弯曲的思想定义序列之间的动态模式匹配距离（DPM）
欧阳如琳《水文时间序列的相似性搜索研究》
采用DTW距离计算流域内多水文站之间相似性洪水过程，发现流域的洪水过程形态。
朱跃龙《基于语义相似的水文时间序列相似性挖掘》
提出基于语义的水文时间序列相似性度量，定义水文时间序列的上升、保持和下降等语义模式，在此基础上，定义序列的语义距离描述序列的相似程度。

在这里插入图片描述

李士进《基于BORDA计数法的多元水文时间序列相似性分析》
针对多维水文时间序列相似性，李士进首先逐维进行一元时间序列相似性分析，然后采用BORDA投票法对各维的相似子序列进行组合和排序，获取多维相似子序列。

目前水文时间序列相似性所示大多采用单一相似度量来评价序列之间的相似性。

[11-12]文献提出多度量相似性分析，采用启发式搜索确定各度量的权重，相似距离为各度量距离的加权和。

在这里插入图片描述

在这里插入图片描述

本文关注h近邻搜索问题，即查询与指定序列最相似的前k个子序列从分类角度来看，k近邻相似搜索可以视为采用相似度量将时间子序列划分为第1相似子序列、第2相似子序列…，第h相似子序列以及不相似子序列。（也就是说，前k个都是相似的，后面都是不相似的）
本文采用改进的BORDA投票法，对多个单一相似度量算法计算得到的相似子序列进行并行组合，得到最终的k近邻子序列。

本文指定：针对每个投票人的排序，给每个候选人设定一个排序分数，规定排在最后的候选人的排序分数为1分，倒数第2位的候选人为2分，依次类推，排在第1位为p分，候选人的排序分数的累积称为BORDA分数,BORDA分数进入前m名的候选称作BORDA胜者。

BORDA投票法只考虑所有候选人排序先后，没有考虑前后候选人差距的大小，这样可能造成无法计算出真实的排序。【啥意思啊，看不懂啊，候选人差距的大小？感觉根据例子是投票人差距大小吧阿巴阿巴】

如假设,有A、B.C、D四匹马进行四场比赛，四场比赛名次排序分别为:A、B C、D,B、A、D、C,D、C、A、B和C、D、B、A。四匹赛马BORDA分数都为10分,出现了四匹赛马并列第一名的情况，因为BOR-DA投票法仅考虑四匹马的名次排序，而没有考虑各匹马在比赛时成绩的具体差异。

在这里插入图片描述

在这里插入图片描述

在各单一相似度量的查询结果中，出现次数越多，说明其被越多的相似度量认可为相似子序列，其改进BORDA分数将可能越高；若只是在单一相似度量的查询结果靠前，说明可能只是被单一的度量认为是相似子序列，其改进BORDA分数可能不高。

因此，相比于单一相似度量，多度量组合可以在结果中包含参与组合的多个单一相似度量结果中的优秀结果，从而提高相似搜索的准确性。

在这里插入图片描述

首先可以看到是11年间的，6-9这四个月的流量数据（标题中的水文序列就是指的是流量序列，水文数据包括了流量数据、水文数据、降水量数据等等），每天是四个检测时间点，也就是说（这里是大概算了一下数据量）11年 * 4个月 * 30天 * 4个时间点 = 5280个数据点 这些数据都是连续的记录型数据，但是要注意的是，这里是洪水过程相似性分析，应该是要对5千个数据点按照一场洪水为单位去划分的，每场洪水大概持续多少天然后大概几十到一百多的流量数据能刻画出一场洪水。