太阳城集团

  • / 13
  • 下载费用:30 金币  

用于为单变量太阳城集团序列信号实时检测离群值的系统和方法.pdf

摘要
申请专利号:

太阳城集团CN201610439707.1

申请日:

2016.06.17

公开号:

CN106257438A

公开日:

2016.12.28

当前法律状态:

授权

有效性:

有权

法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/18申请日:20160617|||公开
IPC分类号: G06F17/18 主分类号: G06F17/18
申请人: 塔塔咨询服务公司
发明人: A·乌基尔; S·班德亚帕德耶; A·帕尔
地址: 印度马哈拉施特拉邦
优先权: 2015.06.17 IN 2324/MUM/2015
专利代理机构: 隆天知识产权代理有限公司 72003 代理人: 张浴月;石海霞
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201610439707.1

授权太阳城集团号:

||||||

法律状态太阳城集团日:

太阳城集团2019.03.29|||2017.01.25|||2016.12.28

法律状态类型:

太阳城集团授权|||实质审查的生效|||公开

摘要

太阳城集团公开了一种用于为单变量太阳城集团序列信号实时检测离群值的方法和系统。所述系统可以从数据源接收单变量太阳城集团序列信号,该单变量太阳城集团序列信号包括多个数据集。所述系统可以计算多个数据集的数据集的标准差。随后,所述系统可以计算数据集的最优样本块大小和临界样本大小。此外,所述系统可确定数据集的最优操作块大小。所述系统可基于最优操作块大小将多个数据集分割成多个块。所述系统可以通过对多个块执行离群值检测技术来检测离群值,从而确保改进执行太阳城集团,同时最低限度地影响离群值检测方法的结果的精确度和准确度。

权利要求书

1.一种用于为单变量太阳城集团序列信号实时检测离群值的方法,所述方法包括:
由处理器(210)从数据源接收单变量太阳城集团序列信号,其中所述单变量太阳城集团序列信号包
括多个数据集,并且其中所述多个数据集的每个数据集包括个单变量太阳城集团序列数据元
素;
由所述处理器(210)计算所述多个数据集的数据集的标准差(σ);
由所述处理器(210)通过使用所述标准差(σ)计算所述数据集的最优样本块大小
由所述处理器(210)基于所述标准差(σ)、所述个单变量太阳城集团序列数据元素、预定的准
确度(δ)和结果的精确度(1-∈)计算临界样本大小
由所述处理器(210)确定所述数据集的最优操作块大小
由所述处理器(210)基于所述最优操作块大小将所述多个数据集分割成多个
块,其中每个块包括所述个单变量太阳城集团序列数据元素的个数据元素;以及
由所述处理器(210)通过对所述多个块实施离群值检测技术来实时检测离群值。
2.根据权利要求1所述的方法,其中使用来计算所述最优样本块大小

3.根据权利要求1所述的方法,其中使用来计算所述
临界样本大小
4.根据权利要求1所述的方法,其中使用来确定所述
最优操作块大小
5.根据权利要求1所述的方法,其中所述离群值检测技术包括如Rosner滤波技术和
Hampel滤波技术的无监管技术。
6.一种用于为单变量太阳城集团序列信号实时检测离群值的系统,所述系统包括:
处理器(210);
存储器(212),耦接到所述处理器(210),其中所述处理器能够执行存储在所述存储器
(212)中的编程指令,以:
从数据源接收单变量太阳城集团序列信号,其中所述单变量太阳城集团序列信号包括多个数据集,
并且其中所述多个数据集的每个数据集包括个单变量太阳城集团序列数据元素;
计算所述多个数据集的数据集的标准差(σ);
通过使用所述标准差(σ)计算所述数据集的最优样本块大小
基于所述标准差(σ)、所述个单变量太阳城集团序列数据元素、预定的准确度(δ)和结果的精
确度(1-∈)计算临界样本大小
确定所述数据集的最优操作块大小
基于所述最优操作块大小将所述多个数据集分割成多个块,其中每个块包括所
述个单变量太阳城集团序列数据元素的个数据元素;以及
通过对所述多个块实施离群值检测技术来实时检测离群值。
7.根据权利要求6所述的系统,其中使用来计算所述最优样本块大小

8.根据权利要求6所述的系统,其中使用来计算所述临界
样本大小
9.根据权利要求6所述的系统,其中使用来确定所述
最优操作块大小
10.根据权利要求6所述的系统,其中所述离群值检测技术包括如Rosner滤波技术和
Hampel滤波技术的无监管技术。
11.一种非暂时性计算机可读介质,其实现在计算设备中可执行的程序,用于为单变量
太阳城集团序列信号实时检测离群值,所述程序包括:
用于从数据源接收单变量太阳城集团序列信号的代码,其中所述单变量太阳城集团序列信号包括多
个数据集,并且其中所述多个数据集的每个数据集包括个单变量太阳城集团序列数据元素;
用于计算所述多个数据集的数据集的标准差(σ)的代码;
用于通过使用所述标准差(σ)计算所述数据集的最优样本块大小的代码;
用于基于所述标准差(σ)、所述个单变量太阳城集团序列数据元素、预定的准确度(δ)和结果
的精确度(1-∈)计算临界样本大小的代码;
用于确定所述数据集的最优操作块大小的代码;
用于基于所述最优操作块大小将所述多个数据集分割成多个块的代码,其中每
个块包括所述个单变量太阳城集团序列数据元素的个数据元素;以及
用于通过对所述多个块实施离群值检测技术来实时检测离群值的代码。

说明书

用于为单变量太阳城集团序列信号实时检测离群值的系统和方法

相关申请的交叉引用

本专利申请要求提交于2015年6月17日的印度专利申请2324/MUM/2015的优先权,
其全部内容通过引用并入本文。

技术领域

本文所描述的主题,一般性地涉及离群值的实时检测,即,太阳城集团序列信号中的虚假
数据点。

背景技术

由用于监测物理参数的传感器产生大量数据。然后,数据可以被用于识别与传感
器的部署区域相关的显著事件。例如,传感器可以部署在监测灌溉参数的领域,并且可以因
此形成无线传感器网络(WSN)或通用传感器网络。传感器可以被标识为WSN中的节点。WSN的
节点可以将数据即灌溉参数连续地传送到中央节点或服务器。因此,由服务器接收到的数
据的量是巨大的,并且可能需要大量的处理用于确定显著事件。在另一个示例中,传感器可
用于监听人的心脏活动。然后,对应于心脏活动的数据可用于识别心脏异常和进一步的医
疗诊断。因此,大量数据需要进行处理用于推导出结果。

待用于处理的大量数据可以在识别离群值后得以减少。离群值有助于识别存在于
大量数据中的显著事件。准确的离群值检测技术需要大量用于处理的数据的样本。因此,处
理大量的样本可能需要大量的执行计算量,从而使用很多的执行太阳城集团。为了减少计算的次
数,可以使用较少数量的用于处理的样本。但是,在检测离群值时减少样本数量可能导致误
报警,即对指示显著事件的离群值的假识别。误报警的数量的增加意味着准确度的降低。

参考图1,其示出准确度与执行太阳城集团之间的关系的图形表示。用于检测离群值的方
法的中样本大小(即样本数量)影响与方法相关的准确度和执行太阳城集团。执行太阳城集团,即分析样
本的数量所需要的太阳城集团量随样本大小的增加而升高。同时,准确度,即产生误报警的比率随
样本大小增加而减少。图1还示出最优操作点,其中样本大小为误报警率最低同时执行太阳城集团
具有最优值。

发明内容

提供本发明内容以介绍与用于为单变量太阳城集团序列信号实时检测离群值的系统和
方法的相关的各个方案,并且在下面的详细描述中进一步描述这些描述。本发明内容不旨
在标识所要求保护的主题的必要特征,也不旨在用于确定或限制所要求保护的主题的范
围。

在一个实现中,公开了一种用于为单变量太阳城集团序列信号实时检测离群值的方法。
所述方法可以包括从数据源接收单变量太阳城集团序列信号。所述单变量太阳城集团序列信号可以包括
多个数据集。所述多个数据集的每个数据集可以包括个单变量太阳城集团序列数据元素。所述
方法还可以包括计算所述多个数据集的数据集的标准差(σ)。所述方法还可以包括通过使
用所述标准差(σ)计算最优样本块大小所述方法还可以包括基于所述标准差(σ)、所
述个单变量太阳城集团序列数据元素、预定的准确度(δ)和结果的精确度(1-∈)计算临界样本
大小所述方法还可以包括确定数据集的最优操作块大小所述方法还
可以包括基于所述最优操作块大小将所述多个数据集分割成多个块。每个块可以
包括个单变量太阳城集团序列数据元素的个数据元素。所述方法还可以包括通过对多个
块实施离群值检测技术来实时检测离群值。

在一个实现中,公开了一种用于为单变量太阳城集团序列信号实时检测离群值的系统。
所述系统包括处理器和耦接到所述处理器的存储器,所述处理器用于执行存储在所述存储
器编程指令。所述处理器可以从数据源接收单变量太阳城集团序列信号。所述单变量太阳城集团序列信
号可以包括多个数据集。所述多个数据集的每个数据集可以包括个单变量太阳城集团序列数据
元素。所述处理器还可以计算所述多个数据集的数据集的标准差(σ)。所述处理器还可以通
过使用所述标准差(σ)计算所述数据集的最优样本块大小所述处理器还可以基于所
述标准差(σ)、所述个单变量太阳城集团序列数据元素、预定的准确度(δ)和结果的精确度(1-
∈)计算临界样本大小所述处理器还可以确定数据集的最优操作块大小
所述处理器还可以基于所述最优操作块大小将所述多个数据集分割成多
个块。每个块可以包括个单变量太阳城集团序列数据元素的个数据元素。所述处理器还
可以通过对多个块实施离群值检测技术来实时检测离群值。

在一个实现中,公开了一种非暂时性计算机可读介质,实现在计算设备中可执行
的程序,用于为单变量太阳城集团序列信号实时检测离群值。所述程序可以包括用于从数据源接
收单变量太阳城集团序列信号的代码。所述单变量太阳城集团序列信号可以包括多个数据集。所述多个
数据集的每个数据集可以包括个单变量太阳城集团序列数据元素。所述程序还可以包括用于计
算所述多个数据集的数据集的标准差(σ)的代码。所述程序还可以包括用于通过使用所述
标准差(σ)计算数据集的最优样本块大小的代码。所述程序还可以包括用于基于所述
标准差(σ)、所述个单变量太阳城集团序列数据元素、预定的准确度(δ)和结果的精确度(1-∈)
计算临界样本大小的代码。所述程序还可以包括用于确定数据集的最优操作块大
小的代码。所述程序还可以包括用于基于所述最优操作块大小将所述多
个数据集分割成多个块。每个块包括个单变量太阳城集团序列数据元素的个数据元素
的代码。每个块可以包括个单变量太阳城集团序列数据元素的个数据元素。所述程序还
可以包括用于通过对多个块实施离群值检测技术来实时检测离群值的代码。

附图说明

参考附图描述详细描述。在附图中,附图标记的最左边数字(多个)标识首次出现
该标记的附图。在整个附图中相同的标记用于指代相似的特征和部件。

图1示出现有技术中已知的、相对于样本大小的准确度和执行太阳城集团之间的关系的
图形表示。

图2示出根据本主题的一个实施例的用于为单变量太阳城集团序列信号实时检测离群值
的系统的网络实现。

图3a示出根据本主题的一个实施例的计算延迟与块大小之间的关系的示例性图
形表示。

图3b示出根据本主题的一个实施例的精确度与块大小之间的关系的示例性图形
表示。

图4示出根据本主题的一个实施例的用于为单变量太阳城集团序列信号实时检测离群值
的方法。

具体实施方式

在本主题中描述了用于为单变量太阳城集团序列信号实时检测离群值的系统和方法。所
述系统可以接收来自数据源的单变量太阳城集团序列信号。该单变量太阳城集团序列信号可以包括多个
数据集。所述多个数据集中的每个数据集可以包括个单变量太阳城集团序列数据元素。所述系
统可以计算多个数据集的数据集的标准差(σ)。通过使用标准差(σ),所述系统还可以计算
最优样本块大小和数据集的临界样本大小此外,所述系统可以确定数据集
的最优操作块大小此外,所述系统可以基于最优操作块大小将多个数据集分割
成多个块。每个块可以包括个单变量太阳城集团序列数据元素的个数据元素。随后,所
述系统可以通过对每个块实施离群值检测技术来检测离群值。因此,所述系统可以使用上
述方法为单变量太阳城集团序列信号实时检测离群值。

虽然所描述的用于为单变量太阳城集团序列信号实时检测离群值的系统和方法的各个
方案可以实现为任何数量的不同的计算系统、环境和/或配置,但是在下面的示例性系统的
背景中描述各个实施例。

现在参考图2,其示出根据本主题的实施例的用于为单变量太阳城集团序列信号实时检
测离群值的系统202。虽然本主题被说明为考虑系统202在计算机上实现,但可以理解的是,
系统202还可以在各种计算系统上实现,包括但不限于智能电话、平板电脑、笔记本平板电
脑、个人数字助理、手持式设备、膝上型计算机、笔记本电脑、工作站、大型计算机、服务器和
网络服务器。在一个实施例中,系统202可以在基于云的环境中实现。应当理解的是,系统
202可以通过一个或多个用户设备204-1、204-2...204-N(下文统称为用户设备204)或者驻
留在用户设备204上的应用程序而被多个用户访问。用户设备204的示例可以包括但不限
于:带有网络摄像头的便携式计算机、带有摄像头的个人数字助理、带有摄像头的手持式设
备以及数码相机。用户设备204可通过网络206通信地耦接到系统202。

在一个实现中,网络206可以是无线网络、有线网络或其组合。网络206可以被实现
为不同类型的网络之一,诸如内联网、局域网(LAN)、广域网(WAN)、互联网等。网络206可以
是专用网络或共享网络。共享网络表示使用各种协议(例如超文本传输协议(HTTP)、传输控
制协议/互联网协议(TCP/IP)、无线应用协议(WAP)等)的不同类型的网络的联合,以彼此通
信。另外的网络106可以包括各种网络设备,包括路由器、网桥、服务器、计算设备、存储设备
等。

在一个实施例中,如图1所示,系统202可以包括至少一个处理器210、存储器212和
输入/输出(I/O)接口214。另外,至少一个处理器210可以被实现为一个或多个微处理器、微
型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路系统和/或基于操
作指令操纵信号的任何设备。至少一个处理器210被配置为读取并执行存储在存储器212中
的计算机可读指令,以及其他功能。

I/O接口214可以包括各种软件和硬件接口,例如,网络接口、图形用户界面等。I/O
接口214可允许系统202与直接用户交互。此外,I/O接口214可以使得系统202能够与其他计
算设备(诸如网络服务器和外部数据服务器(未示出))进行通信。I/O接口214可以有助于各
种各样的网络和协议类型(包括例如局域网、电缆等有线网络和诸如WLAN、蜂窝或卫星等无
线网络)内的多个通信。

存储器212可以包括本领域已知的任何计算机可读介质,包括例如诸如静态随机
存取存储器(SRAM)和动态随机存取存储器(DRAM)等易失性存储器和/或诸如只读存储器
(ROM)、可擦可编程ROM、闪速存储器、硬盘、光盘以及磁带等非易失性存储器。

在一个实施例中,系统202可能需要大的样本大小,用于去除存在于待分析的样本
分布中的偏差。使用大的样本大小可能导致执行太阳城集团的增加,并因此导致效率降低。在一种
情况下,系统202可确定数据块的峰度以便准备峰度模式。在尖峰模式的情况下,系统202可
以使用Rosner滤波技术否则所述系统可以使用Hampel滤波技术。此外,为了提高准确度,系
统202可能需要最小化误报。误报可以包括掩蔽效应和淹没效应。在一种情况下,系统202可
以使用Hampel滤波技术以减少掩蔽效应,以及使用Rosner滤波技术以最小化淹没效应。

在一种情况下,可以指示存在于单变量太阳城集团序列信号的每个数据集中的单变量
太阳城集团序列数据元素的数量,并且可以指示最优样本块大小。掩蔽效应衰减器的执行太阳城集团
可以假定为并且淹没效果衰减器的执行太阳城集团可以假定为通常,Hampel滤波技术
比Rosner滤波技术进行更少的计算,因此Hampel滤波技术的计算复杂性可以
是而Rosner滤波技术的计算复杂性可以是

在一个实现中,系统202可以接收来自数据源的单变量太阳城集团序列信号。术语单变量
可以指具有单个变量的表达式、方程和函数。数据源可以是存储器212,其具有由传感器或
设备捕获的存储数据。所述传感器或设备可以包括智能仪表、加速计、脑电图(EEG)、电心动
图(ECG)或其他设备。在一种情况下,单变量太阳城集团序列信号可以包括多个数据集。此外,多个
数据集的每个数据集可以包括个单变量太阳城集团序列数据元素。

在一个实施例中,系统202可确定与单变量太阳城集团序列信号相关联的应用的太阳城集团临
界性。在一种情况下,太阳城集团临界性可能是实时或伪实时。在这样的情况下,系统202可以计算
多个数据集的数据集的标准差(σ)。所述系统可以通过使用已知的统计技术来计算标准差
(σ)。

在计算出标准差(σ)后,系统202可以计算数据集的最优样本块大小在一种
情况下,系统202可以使用等式(1)计算最优样本块大小如下所述。


在上述等式(1)中,∈表示精确度损失而δ表示准确度。此外,∈和δ可以是取决于
应用的。

在计算样本块大小后,系统202可以基于标准差(σ)、个单变量太阳城集团序列数
据元素、预定的准确度(δ)和结果的精确度((1-∈))来计算数据集的临界样本大小
在一种情况下,系统202可以使用等式2计算临界样本大小如下所述。


在计算临界样本大小后,系统202可确定数据集的最优操作块大小
在一种情况下,系统202可使用等式3确定最优操作块大小如下所述。


在确定最优块大小后,系统202可以基于最优操作块大小将多个数
据集分割成多个块。每个块可以包括个单变量太阳城集团序列数据元素的个数据元素。
随后,系统202可以通过对包括个数据元素的每个块实施离群值检测技术来检测离
群值。在一种情况下,系统202可以使用如Rosner滤波技术和Hampel滤波技术的无监督技
术,用于离群值检测。

为了进一步说明以上提供的描述,提供了一个示例。在一种情况下,可以分析智能
仪表的数据用于离群值检测。精确度(1-∈)的值可以被假定为0.8。准确度(δ)的值可以被
假定为0.2。在一种情况下,12*103个样本,即单变量太阳城集团序列数据元素的数量。由系统
202计算的标准差(σ)可以是300。系统202可以基于精确度(1-∈)、准确度(δ)、个单变量
太阳城集团序列数据元素和标准差(σ)使用上述等式2来确定临界样本大小在当前的情
况下,系统202所确定的临界样本大小可以是100。因此,系统202可能需要对120个
大小为100个的单变量太阳城集团序列数据块进行分析用于检测离群值。在一种情况下,离群值检
测技术可以使用Rosner滤波,并且所需的总太阳城集团可以计算为120*O(104)。在另一种情况下,
虽然在整个样本上使用Rosner滤波,但是计算太阳城集团为O(144*106)。因此,相比于常规的太阳城集团
性能(O(144*106)),系统202提供了更好的执行太阳城集团性能(120*O(104))。

参考图3a,其示出计算延迟与块大小之间的关系的示例性图形表示。图3a示出实
验数据显示在样本大小为40000时计算延迟为最优值。在当前的情况下,40000的样本大小
被确定为最优操作点。参考图3b,其示出精确度与块大小之间的关系的示例性图形表示。图
3b示出的实验数据显示在样本大小为40000时精确度为最高值。因此,系统202在样本大小
为40000时实现精确度的最大值,即,最优操作点。

在一个实施例中,系统202可以通过在最优操作点操作来同时实现效率和有效性。
系统202还可以使用离群值,用于识别单变量太阳城集团序列信号的敏感内容。所述系统还可以使
用敏感内容来测量隐私、欺诈检测和其他应用。

现在参考图4,其描述了根据本主题的一个实施例的用于为单变量太阳城集团序列信号
实时检测离群值的方法400。该方法400可以在计算机可执行指令的一般上下文中描述。通
常,计算机可执行指令可以包括例程、程序、对象、组件、数据结构、过程、模块、函数等,它们
执行特定功能或实现特定抽象数据类型。方法400还可以在分布式计算环境中实施,其中可
以由通过通信网络链接的远程处理设备执行功能。在分布式计算环境中,计算机可执行指
令可以位于本地和远程计算机存储介质中,包括存储器存储设备。

描述方法400的次序并不旨在被解释为限制性的,并且任何数量的所述方法框可
以以任何次序组合实现方法400或替代方法。此外,各个框可以从方法400中删除而不脱离
本文所描述的主题的精神和范围。此外,所述方法可以在任何合适的硬件、软件、固件或其
组合中实现。然而,为了便于说明,在以下描述的实施例中,方法400可以被认为是在上述系
统202中实现的。

在框402,可以从数据源接收单变量太阳城集团序列信号。该单变量太阳城集团序列信号可以包
括多个数据集。在一个实现中,单变量太阳城集团序列信号可以由处理器210接收。

在框404,可以计算多个数据集的数据集的标准差。在一个实现中,标准差可以由
处理器210来计算。

在框406,多个数据集的最优样本块大小可以通过使用标准差来计算。在一个实现
中,最优样本块大小可以由处理器210来计算。

在框408,可以计算数据集的临界样本大小。临界样本大小可以基于标准差,单变
量太阳城集团序列数据元素的数量、预定的准确度和精确度来计算。在一个实现中,临界样本大小
可以由处理器210来计算。

在框410,可以确定数据集的最优操作块大小。在一个实现中,数据集的最优操作
块大小可以由处理器210来确定。

在框412,可以基于最优操作块大小将多个数据集分割成多个块。在一个实现中,
多个数据集可以由处理器210分割成多个块。

在框414,可以通过对多个块执行离群值检测技术来检测离群值。在一个实现中,
离群值可以由处理器210来检测。

虽然已经用特定于结构特征和/或方法的语言描述了用于为单变量太阳城集团序列信号
检测离群值的方法和系统的实现,但应当理解的是,所附权利要求不一定限于所描述的具
体特征或方法。相反,这些具体特征和方法被公开为用于在单变量太阳城集团序列信号中检测离
群值的实现的例子。

上面所讨论的示例性实施例可提供某些优点。虽然对于实施本公开的各个方案不
是必需的,但这些优点可以包括由以下特征提供的优点。

一些实施例可以使得所述系统和方法能够检测单变量太阳城集团序列信号中的离群值,
用于识别单变量太阳城集团序列信号的敏感内容。

一些实施例还可以使得所述系统和方法能够使用单变量太阳城集团序列信号的敏感内
容,用于测量隐私和欺诈检测。

一些实施例可以使得所述系统和方法能够推导出最优操作点,用于在单变量太阳城集团
序列信号中检测离群值。

一些实施例可以使得所述系统和方法能够基于最优操作点同时实现效率和有效
性。

一些实施例可以使得所述系统和方法能够提高无监督离群值检测方法的计算性
能而几乎不降低结果的准确度。

关 键 词:
用于 变量 太阳城集团 序列 信号 实时 检测 离群 系统 方法
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:用于为单变量太阳城集团序列信号实时检测离群值的系统和方法.pdf
链接地址:http://zh228.com/p-6100784.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');