太阳城集团

  • / 12
  • 下载费用:30 金币  

一种基于DTW的太阳城集团序列相似性预测方法.pdf

摘要
申请专利号:

太阳城集团CN201611167179.5

申请日:

2016.12.16

公开号:

太阳城集团CN106777980A

公开日:

2017.05.31

当前法律状态:

实审

有效性:

审中

法律详情: 实质审查的生效IPC(主分类):G06F 19/00申请日:20161216|||公开
IPC分类号: G06F19/00(2011.01)I 主分类号: G06F19/00
申请人: 重庆邮电大学
发明人: 陶洋; 李鹏亮; 熊炫睿; 沈敬红
地址: 400065 重庆市南岸区黄桷垭崇文路2号
优先权:
专利代理机构: 北京同恒源知识产权代理有限公司 11275 代理人: 廖曦
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

太阳城集团CN201611167179.5

授权太阳城集团号:

|||

法律状态太阳城集团日:

太阳城集团2017.06.23|||2017.05.31

法律状态类型:

太阳城集团实质审查的生效|||公开

摘要

本发明涉及一种基于DTW的太阳城集团序列相似性预测方法,属于太阳城集团序列数据挖掘技术领域。该方法将目前已知的对DTW进行加速的方法,如LB_Kim、LB_Keogh、逆LB_Keogh和传统的DTW方法等进行级联,在不同阶段利用不同方法对查询集进行过滤。同时,为了提高查询准确性,我们引入z??score标准化,在计算DTW距离之前对查询序列进行标准化,在读取数据的过程中,同步进行标准化,进一步提高算法效率。然后,将改进的DTW方法应用到太阳城集团序列的类比合成预测方法中,从而提高预测的速度与精度。本方法充分利用不同方法的优点,有效的提高了太阳城集团序列的查询速度,继而提高了类比合成预测方法的速度和准确性。

权利要求书

1.一种基于DTW的太阳城集团序列相似性预测方法,其特征在于:该方法包括以下步骤:
S1:生成类比模式和参考模式:假设一个一维太阳城集团序列为T={x1,x2,…,xm,…xm+k},先
假定已有合适的模式长度k,则生成类比模式C={x1,x2,…,xm}和参考模式Q={xm+1,
xm+2,…,xm+k},其中类比模式为太阳城集团序列T中的历史数据,参考模式为太阳城集团序列最近的发展
趋势;
S2:构造类比模式C的封带,所述封带指的是利用全局约束条件得到序列的上下边界,
其边界所包含的部分;对C进行z-score标准化,z-score标准化是基于原始数据的均值
(mean)和标准差(standard deviation)进行数据的标准化,定义如下:
<mrow> <msup> <mi>x</mi> <mo>&prime;</mo> </msup> <mo>=</mo> <mfrac> <mrow> <mi>x</mi> <mo>-</mo> <mi>&mu;</mi> </mrow> <mi>&sigma;</mi> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <mi>&mu;</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> <mo>=</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msup> <msub> <mi>x</mi> <mi>i</mi> </msub> <mn>2</mn> </msup> <mo>-</mo> <msup> <mi>&mu;</mi> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
其中,x为X中的数据点,μ为X的均值,σ为X的标准差;
S3:利用LB_kimFL方法对类比模式C进行过滤,所述LB_kimFL方法为LB_kim方法的改
进,具体如下:LB_kim方法通过提取四元组特征向量,包括序列第一个元素、最后一个元素
和序列的最大值和最小值,该下界利用提取四元组中个向量之间平方差最大值最为下界,
其算法复杂度为O(N),特征提取的计算公式如下:
<mrow> <mi>L</mi> <mi>B</mi> <mo>_</mo> <mi>k</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>Q</mi> <mo>,</mo> <mi>C</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>max</mi> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mo>|</mo> <mrow> <mi>f</mi> <mi>i</mi> <mi>r</mi> <mi>s</mi> <mi>t</mi> <mo>{</mo> <mi>Q</mi> <mo>}</mo> <mo>-</mo> <mi>f</mi> <mi>i</mi> <mi>r</mi> <mi>s</mi> <mi>t</mi> <mo>{</mo> <mi>C</mi> <mo>}</mo> <mo>)</mo> </mrow> <mo>|</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>|</mo> <mrow> <mi>l</mi> <mi>a</mi> <mi>s</mi> <mi>t</mi> <mo>{</mo> <mi>Q</mi> <mo>}</mo> <mo>-</mo> <mi>l</mi> <mi>a</mi> <mi>s</mi> <mi>t</mi> <mo>{</mo> <mi>C</mi> <mo>}</mo> <mo>)</mo> </mrow> <mo>|</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>|</mo> <mrow> <mi>max</mi> <mo>{</mo> <mi>Q</mi> <mo>}</mo> <mo>-</mo> <mi>max</mi> <mo>{</mo> <mi>C</mi> <mo>}</mo> </mrow> <mo>|</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>|</mo> <mrow> <mi>min</mi> <mo>{</mo> <mi>Q</mi> <mo>}</mo> <mo>-</mo> <mi>min</mi> <mo>{</mo> <mi>C</mi> <mo>}</mo> </mrow> <mo>|</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
由于进行标准化后的太阳城集团序列数据的最大和最小值对于整个下界距离贡献较小,因
此,去除原来LB_kim方法中提取的四个特征点中的最大和最小值,只保留起始点和终止点,
称为LB_kimFL方法,其算法复杂度降为O(1),定义如下:
<mrow> <mi>L</mi> <mi>B</mi> <mo>_</mo> <mi>k</mi> <mi>i</mi> <mi>m</mi> <mi>F</mi> <mi>L</mi> <mrow> <mo>(</mo> <mi>Q</mi> <mo>,</mo> <mi>C</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>max</mi> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mo>|</mo> <mrow> <mi>f</mi> <mi>i</mi> <mi>r</mi> <mi>s</mi> <mi>t</mi> <mo>{</mo> <mi>Q</mi> <mo>}</mo> <mo>-</mo> <mi>f</mi> <mi>i</mi> <mi>r</mi> <mi>s</mi> <mi>t</mi> <mo>{</mo> <mi>C</mi> <mo>}</mo> </mrow> <mo>|</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>|</mo> <mrow> <mi>l</mi> <mi>a</mi> <mi>s</mi> <mi>t</mi> <mo>{</mo> <mi>Q</mi> <mo>}</mo> <mo>-</mo> <mi>l</mi> <mi>a</mi> <mi>s</mi> <mi>t</mi> <mo>{</mo> <mi>C</mi> <mo>}</mo> </mrow> <mo>|</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>
S4:利用LB_keogh方法对查询集进行过滤;
S5:利用LB_rkeogh方法进行过滤,当步骤S4中的方法计算得到的下界距离还未超出预
定阈值时,利用LB_rkeogh方法进行进一步判断;
S6:经过步骤S5得到与参考模式相似的序列候选集S,那么得到的相似序列结果为S=
{Q1,Q2,…,Qn};接下来从S中的相似序列按照相似性大小进行排序,得到S’={Q1’,Q2’,…,
Qn’};根据实验,从中选取p个最相似序列,最为合成预报的参考模式,最终的得到整合的参
考模式Q,={Q,Q1’,Q2’,…,QP’},将其用于下一步的合成预报;
S7:将得到的参考模式利用加权平均法进行合成预报。
2.根据权利要求1所述的一种基于DTW的太阳城集团序列相似性预测方法,其特征在于:在所
述步骤S2中,利用的全局约束条件是Sakoe-Chiba约束,该方法是通过参数r来限制弯曲路
径偏离对角线的带状约束。
3.根据权利要求1所述的一种基于DTW的太阳城集团序列相似性预测方法,其特征在于:在所
述步骤S4中,引入Sakoe-Chiba约束条件,将其用于构造参考模式Q的封带EQ:设Q封带的上
下边界分别为U={um+1,um+2,…,um+i,…,um+k}和L={lm+1,lm+2,…,lm+i,…,lm+k},则基于DTW
的下界函数LB_keogh定义如下:
<mrow> <mi>L</mi> <mi>B</mi> <mo>_</mo> <mi>k</mi> <mi>e</mi> <mi>o</mi> <mi>g</mi> <mi>h</mi> <mrow> <mo>(</mo> <mi>Q</mi> <mo>,</mo> <mi>C</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msqrt> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>m</mi> <mo>+</mo> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>u</mi> <mrow> <mi>m</mi> <mo>+</mo> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </msqrt> <mo>,</mo> <msub> <mi>x</mi> <mrow> <mi>m</mi> <mo>+</mo> <mi>i</mi> </mrow> </msub> <mo>&gt;</mo> <msub> <mi>u</mi> <mrow> <mi>m</mi> <mo>+</mo> <mi>i</mi> </mrow> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msqrt> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>m</mi> <mo>+</mo> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>l</mi> <mrow> <mi>m</mi> <mo>+</mo> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </msqrt> <mo>,</mo> <msub> <mi>x</mi> <mrow> <mi>m</mi> <mo>+</mo> <mi>i</mi> </mrow> </msub> <mo>&lt;</mo> <msub> <mi>l</mi> <mrow> <mi>m</mi> <mo>+</mo> <mi>i</mi> </mrow> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow>
4.根据权利要求1所述的一种基于DTW的太阳城集团序列相似性预测方法,其特征在于:在所
述步骤S5中,LB_rkeogh是将LB_keogh中的Q和C进行调换,构造C的封带,这意味着Q要和C的
封带Ec进行比较;C封带的上下边界为U={u1,u2,…,um}和L={l1,l2,…,lm},那么
其定义如下:
<mrow> <mi>L</mi> <mi>B</mi> <mo>_</mo> <mi>r</mi> <mi>k</mi> <mi>e</mi> <mi>o</mi> <mi>g</mi> <mi>h</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>,</mo> <mi>Q</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msqrt> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>m</mi> <mo>+</mo> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </msqrt> <mo>,</mo> <msub> <mi>x</mi> <mrow> <mi>m</mi> <mo>+</mo> <mi>i</mi> </mrow> </msub> <mo>&gt;</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msqrt> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>m</mi> <mo>+</mo> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>l</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </msqrt> <mo>,</mo> <msub> <mi>x</mi> <mrow> <mi>m</mi> <mo>+</mo> <mi>i</mi> </mrow> </msub> <mo>&lt;</mo> <msub> <mi>l</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>
当该方法不能再进一步过滤查询集时,便计算Q和C的DTW距离,将其放入候选集,其计
算公式如下:
Ddtw(Q,C)=f(M,N) (8)
<mrow> <mtable> <mtr> <mtd> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>M</mi> <mo>,</mo> <mi>N</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>D</mi> <mrow> <mi>b</mi> <mi>a</mi> <mi>s</mi> <mi>e</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>q</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>min</mi> <mo>{</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>,</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>,</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>}</mo> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <mtable> <mtr> <mtd> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>,</mo> <mn>0</mn> <mo>)</mo> </mrow> <mo>=</mo> <mn>0</mn> <mo>,</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mn>0</mn> <mo>)</mo> </mrow> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>,</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>&infin;</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>(</mo> <mn>1</mn> <mo>&le;</mo> <mi>i</mi> <mo>&le;</mo> <mi>m</mi> <mo>,</mo> <mn>1</mn> <mo>&le;</mo> <mi>j</mi> <mo>&le;</mo> <mi>n</mi> <mo>)</mo> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>
其中,Dbase(ci,qi)表示向量点ci和qi之间的基距离,可以根据情况进行选择。

说明书

一种基于DTW的太阳城集团序列相似性预测方法

技术领域

本发明属于数据挖掘技术领域,特别是太阳城集团序列数据挖掘技术领域,涉及一种基
于DTW的太阳城集团序列相似性预测方法。

背景技术

动态太阳城集团规整(Dynamic Time Warping,DTW)是太阳城集团序列的一个强大的相似性度
量方法。虽然我们常见的欧氏距离计算简单、容易理解,但它要求两条太阳城集团序列的长度必须
相等,且对太阳城集团轴伸缩和弯曲问题无能为力。DTW距离定义了序列之间的最佳对齐匹配关
系,支持不同长度太阳城集团序列的相似性度量,支持太阳城集团轴的伸缩和弯曲。由于DTW距离比欧式
距离有更好的鲁棒性,因此被广泛用于太阳城集团序列的相似性度量,这是很多太阳城集团序列数据挖
掘问题的基础,比如分类和聚类以及预测等。然而,DTW的太阳城集团和空间复杂度较高,导致基于
DTW的数据挖掘效率很低。因此,如何降低DTW时空复杂度成为了当前的研究重点和难点。

DTW最早是用于语音识别中的一项技术,目前在金融、生物、化学以及机器人等领
域都有广泛的应用,特别是在多媒体数据领域。目前,对DTW进行加速的方法主要有以下两
种:1)添加全局约束。这种方法的目的是对DTW中的规整路径进行全局约束,即限定一个序
列中的点只能同另一序列中位置相近的某些点进行匹配。然而,该方法由于只针对查询空
间进行约束,并未从实质上降低DTW方法的复杂度,且在查询时,由于查询范围的限制,存在
误报情况。2)利用下界距离进行过滤。该方法的主要思想是寻找一种计算更简单的距离度
量来粗略地估计DTW距离,称为DTW下界距离,通过它可以过滤掉大部分不满足相似性要求
的序列,从而提高查询效率。然而,该类方法,如果下界距离选取复杂度较高,则会降低整体
查询效率;如果下界距离选取比较简单,又会降低过滤效果,增大候选集,产生误报。

传统的太阳城集团序列分析预测方法将太阳城集团序列数据匹配到某些数学模型中,然后再对
其整体进行分析和预测。但这些数据模型往往对数据有必要的限制,而现实中许多数据不
能满足模型参数要求。基于太阳城集团序列相似性的类比合成方法是一种典型的非参数回归方
法,其非参数回归特性使得它能够很好的规避上述问题,所以该方法日渐成为太阳城集团序列预
测领域的研究焦点,然而,传统的类比合成方法在选取距离度量方法时,大多使用的是欧式
距离,由于该方法不能处理太阳城集团序列的伸缩,平移等。所以,利用该方法得到的相似序列具
有一定的局限性,其用于后期合成预报的参考模式数据质量不高,从而会影响后期预测的
准确性。

因此,如何综合考虑下界距离复杂度与下界距离过滤能力,从而实现太阳城集团序列快
速而且准确的查询,进而将其应用到类比合成预测方法中目前来说很少有人进行研究,但
具有重要的研究意义。

发明内容

有鉴于此,本发明的目的在于提供一种基于DTW的太阳城集团序列相似性预测方法,该方
法将目前已知的对DTW进行加速的方法,如LB_Kim、LB_Keogh、逆LB_Keogh和传统的DTW方法
等进行级联,在不同阶段利用不同方法对查询集进行过滤。同时,为了提高查询准确性,我
们引入z-score标准化,在计算DTW距离之前对查询序列进行标准化,在读取数据的过程中,
同步进行标准化,进一步提高算法效率。然后,将改进的DTW方法应用到太阳城集团序列的类比合
成预测方法中,从而提高预测的速度与精度。

为达到上述目的,本发明提供如下技术方案:

一种基于DTW的太阳城集团序列相似性预测方法,该方法包括以下步骤:

S1:生成类比模式和参考模式:假设一个一维太阳城集团序列为T={x1,x2,…,xm,…
xm+k},先假定已有合适的模式长度k,则生成类比模式C={x1,x2,…,xm}和参考模式Q=
{xm+1,xm+2,…,xm+k},其中类比模式为太阳城集团序列T中的历史数据,参考模式为太阳城集团序列最近的
发展趋势;

S2:构造类比模式C的封带,所述封带指的是利用全局约束条件得到序列的上下边
界,其边界所包含的部分;对C进行z-score标准化,z-score标准化是基于原始数据的均值
(mean)和标准差(standard deviation)进行数据的标准化,定义如下:




其中,x为X中的数据点,μ为X的均值,σ为X的标准差;选择z-score标准化的原因是
利用z-score标准化方法得到的标准化太阳城集团序列的形状与原始太阳城集团序列较为接近,因此其
经常被用于太阳城集团序列数据挖掘任务中。

S3:利用LB_kimFL方法对类比模式C进行过滤,所述LB_kimFL方法为LB_kim方法的
改进,具体如下:LB_kim方法通过提取四元组特征向量,包括序列第一个元素、最后一个元
素和序列的最大值和最小值,该下界利用提取四元组中个向量之间平方差最大值最为下
界,其算法复杂度为O(N),特征提取的计算公式如下:


由于进行标准化后的太阳城集团序列数据的最大和最小值对于整个下界距离贡献较小,
因此,去除原来LB_kim方法中提取的四个特征点中的最大和最小值,只保留起始点和终止
点,称为LB_kimFL方法,其算法复杂度降为O(1),定义如下:


S4:利用LB_keogh方法对查询集进行过滤;由于LB_kim方法的过滤能力有限,因此
还有一大部分的非候选集序列需要过滤,因此选择过滤效果较好的LB_keogh方法对序列进
行再次过滤;

S5:利用LB_rkeogh方法进行过滤,当步骤S4中的方法计算得到的下界距离还未超
出预定阈值时,利用LB_rkeogh方法进行进一步判断;

S6:经过步骤S5得到与参考模式相似的序列候选集S,那么得到的相似序列结果为
S={Q1,Q2,…,Qn};接下来从S中的相似序列按照相似性大小进行排序,得到S’={Q1’,
Q2’,…,Qn’};根据实验,从中选取p个最相似序列,最为合成预报的参考模式,最终的得到整
合的参考模式Q,={Q,Q1’,Q2’,…,QP’},将其用于下一步的合成预报;

S7:将得到的参考模式利用加权平均法进行合成预报。

进一步,在所述步骤S2中,利用的全局约束条件是Sakoe-Chiba约束,该方法是通
过参数r来限制弯曲路径偏离对角线的带状约束。

进一步,在所述步骤S4中,引入Sakoe-Chiba约束条件,将其用于构造参考模式Q的
封带EQ:设Q封带的上下边界分别为U={um+1,um+2,…,um+i,…,um+k}和L={lm+1,lm+2,…,
lm+i,…,lm+k},则基于DTW的下界函数LB_keogh定义如下:


进一步,在所述步骤S5中,LB_rkeogh是将LB_keogh中的Q和C进行调换,构造C的封
带,这意味着Q要和C的封带Ec进行比较;C封带的上下边界为U={u1,u2,…,um}和L={l1,
l2,…,lm},那么

其定义如下:


当该方法不能再进一步过滤查询集时,便计算Q和C的DTW距离,将其放入候选集,
其计算公式如下:

Ddtw(Q,C)=f(M,N) (8)



其中,Dbase(ci,qi)表示向量点ci和qi之间的基距离,可以根据情况进行选择。为不
失一般性,在本发明中使用欧式距离作为基距离,即Dbase(ci,qi)=|ci-qi|。

本发明的有益效果在于:本发明提供的方法针对当前查询方法的准确性和查询效
率不高的情况,利用目前已知的对DTW进行加速的方法,如LB_kim、LB_keogh、LB_rkeogh和
传统的DTW方法等进行级联,在不同阶段利用不同方法对查询集进行过滤。同时,引入z-
score标准化,在计算DTW距离之前对查询序列进行标准化。然后将查询得到的结果集作为
合成预测方法的合成预报的参考模式,利用加权平均法对其进行处理,进行合成预报。综合
来说,本发明充分利用不同方法的优点,有效的提高了太阳城集团序列的查询速度,继而提高了类
比合成预测方法的速度和准确性。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行
说明:

图1为本发明提出的相似性预测方法流程图;

图2为Sakoe-Chiba方法原理图;

图3为LB_kimFL方法原理图;

图4为LB_keogh以及其封带上下边界结构图;

图5为LB_rkeogh以及其封带上下边界结构图。

具体实施方式

下面将结合附图,对本发明的优选实施例进行详细的描述。

图1为本发明提出的相似性预测方法流程图,如图所示,该方法包括如下步骤:

步骤一:生成类比模式和参考模式。假设一个一维太阳城集团序列为T={x1,x2,…,xm,…
xm+k},先假定已有合适的模式长度k,则生成类比模式C={x1,x2,…,xm}和参考模式Q=
{xm+1,xm+2,…,xm+k}。其中类比模式为太阳城集团序列T中的历史数据,参考模式为太阳城集团序列最近的
发展趋势。

步骤二:构造类比模式C的封带,封带指的是利用全局约束条件得到序列的上下边
界,其边界所包含的部分。对C进行z-score标准化。z-score标准化是基于原始数据的均值
(mean)和标准差(standard deviation)进行数据的标准化。定义如下:




其中,x为X中的数据点,μ为X的均值,σ为X的标准差。选择z-score标准化的原因是
利用z-score标准化方法得到的标准化太阳城集团序列的形状与原始太阳城集团序列较为接近,因此其
经常被用于太阳城集团序列数据挖掘任务中。

在步骤二中,本发明利用的全局约束条件是Sakoe-Chiba约束,该方法是通过参数
r来限制弯曲路径偏离对角线的带状约束,参见图2,其中阴影部分为约束区域,动态弯曲路
径只在该区域前进,不能超过该区域,从而防止了病态弯曲情况的发生,也提高了查询效
率。

步骤三:利用LB_kimFL方法对类比模式C进行过滤。由于LB_kim方法通过提取四元
组特征向量,包括序列第一个元素、最后一个元素和序列的最大值和最小值。该下界利用提
取四元组中个向量之间平方差最大值最为下界。其算法复杂度为O(N),特征提取的计算公
式如下:


在本发明中,对该方法进行了改进,由于进行标准化后的太阳城集团序列数据的最大和
最小值对于整个下界距离贡献较小,因此,去除原来LB_kim方法中提取的四个特征点中的
最大和最小值,只保留起始点和终止点,称为LB_kimFL方法,参见图3,可以看到构建特征空
间的过程,其算法复杂度降为O(1),定义如下:


步骤四:利用LB_keogh方法对查询集进行过滤。由于LB_kim方法的过滤能力有限,
因此还有一大部分的非候选集序列需要过滤,因此选择过滤效果较好的LB_keogh方法对序
列进行再次过滤。参见图4,描述了在Sakoe-Chiba约束下,构造的Q的封带,其中的黑色直线
代表C超出封带部分的点的连线,需要计算其欧式距离,然后求和,作为下界距离。

在步骤四中,引入Sakoe-Chiba约束条件,将其用于构造参考模式Q的封带EQ。设Q
封带的上下边界分别为U={um+1,um+2,…,um+i,…,um+k}和L={lm+1,lm+2,…,lm+i,…,lm+k},则
基于DTW的下界函数LB_keogh定义如下:


步骤五:该步骤利用LB_rkeogh方法进行过滤,当步骤四中的方法计算得到的下界
距离还未超出预定阈值时,利用LB_rkeogh方法进行进一步判断。参见图5,描述了在Sakoe-
Chiba约束下,构造的C的封带,其中黑色直线代表Q超出封带部分的点的连线,需要计算其
欧式距离,然后求和,作为下界距离。

在步骤五中,LB_rkeogh是将LB_keogh中的Q和C进行调换,构造C的封带,这意味着
Q要和C的封带Ec进行比较。C封带的上下边界为U={u1,u2,…,um}和L={l1,l2,…,lm},那么

其定义如下:


当该方法不能再进一步过滤查询集时,便计算Q和C的DTW距离,将其放入候选集。
其计算公式如下:

Ddtw(Q,C)=f(M,N) (8)



其中,Dbase(ci,qi)表示向量点ci和qi之间的基距离,可以根据情况进行选择。为不
失一般性,本实施例使用欧式距离作为基距离,即Dbase(ci,qi)=|ci-qi|。

步骤六:经过步骤五得到与参考模式相似的序列候选集S,那么得到的相似序列结
果为S={Q1,Q2,…,Qn}。接下来从S中的相似序列按照相似性大小进行排序,得到S’={Q1’,
Q2’,…,Qn’}。根据实验,从中选取p个最相似序列,最为合成预报的参考模式,最终的得到整
合的参考模式Q,={Q,Q1’,Q2’,…,QP’},将其用于下一步的合成预报。

步骤七:将得到的参考模式利用加权平均法进行合成预报。

最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通
过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在
形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

关 键 词:
一种 基于 DTW 太阳城集团 序列 相似性 预测 方法
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:一种基于DTW的太阳城集团序列相似性预测方法.pdf
链接地址:http://zh228.com/p-6019529.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');