<meta name="description" content="m" />

太阳城集团

  • / 17
  • 下载费用:30 金币  

数据分析结果的管控放置.pdf

摘要
申请专利号:

太阳城集团CN201610440621.0

申请日:

2016.06.17

公开号:

太阳城集团CN106257482A

公开日:

2016.12.28

当前法律状态:

实审

有效性:

审中

法律详情: 授权|||实质审查的生效IPC(主分类):G06F 21/62申请日:20160617|||公开
IPC分类号: G06F21/62(2013.01)I; G06F17/30 主分类号: G06F21/62
申请人: 伊姆西公司
发明人: S·托德; S·塔贝特
地址: 美国马萨诸塞州
优先权: 2015.06.19 US 14/744,921
专利代理机构: 北京市金杜律师事务所 11256 代理人: 王茂华
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

太阳城集团CN201610440621.0

授权太阳城集团号:

||||||

法律状态太阳城集团日:

太阳城集团2019.04.05|||2017.01.25|||2016.12.28

法律状态类型:

授权|||实质审查的生效|||公开

摘要

获得分别与由一个或多个分析应用所处理的一个或多个输入数据集相关联的元数据。针对每个数据集的元数据指示与该数据集相关联的信任度和真实性中的至少一者。该一个或多个分析应用基于该一个或多个输入数据集生成分析结果。基于所获得的元数据的至少一部分而至少针对该分析结果来确定管控放置。

权利要求书

1.一种方法,包括:
获得分别与由一个或多个分析应用所处理的一个或多个输入数据集相关联的元数据,
其中针对每个数据集的元数据指示与所述数据集相关联的信任度和真实性中的至少一者,
并且所述一个或多个分析应用基于所述一个或多个输入数据集生成分析结果;并且
基于所获得的元数据的至少一部分而至少针对所述分析结果来确定管控放置;
其中所述获得步骤和所述确定步骤由一个或多个处理设备所执行,所述一个或多个处
理设备中的每一个包括操作地耦合至存储器的处理器。
2.根据权利要求1所述的方法,进一步包括获得管控选择器输入,其中针对所述分析结
果确定管控放置的步骤经由所述管控选择器输入进行控制。
3.根据权利要求2所述的方法,其中所述管控选择器输入指定对所获得的元数据进行
处理以做出放置决定的一种或多种模式。
4.根据权利要求3所述的方法,其中对所获得的元数据进行处理的所述一种或多种模
式中的至少一种模式包括选择具有最高真实性或信任度水平的元数据以做出所述放置决
定。
5.根据权利要求3所述的方法,其中对所获得的元数据进行处理的所述一种或多种模
式包括对所述一个或多个输入数据集的元数据求平均以做出所述放置决定。
6.根据权利要求3所述的方法,其中对所获得的元数据进行处理的所述一种或多种模
式中的至少一种模式包括计算所述一个或多个输入数据集合的元数据的中值以做出所述
放置决定。
7.根据权利要求3所述的方法,其中对所获得的元数据进行处理的所述一种或多种模
式中的至少一种模式包括计算所述一个或多个输入数据集合的元数据的模式以做出所述
放置决定。
8.根据权利要求3所述的方法,其中对所获得的元数据进行处理的所述一种或多种模
式中的至少一种模式包括覆盖所述一个或多个输入数据集合的元数据以做出缺省放置决
定。
9.根据权利要求8所述的方法,其中所述缺省放置决定由定义用于放置所述分析结果
的受信任设施的形式的数字签名的指令所指定。
10.根据权利要求1所述的方法,其中所述管控放置确定步骤进一步包括生成合规目标
简档,所述合规目标简档指定针对要在其上存储符合所获得的元数据的至少一部分的分析
结果的设施的真实性和信任度标准中的至少一者。
11.根据权利要求10所述的方法,其中所述合规目标简档被安全存储以便在后续审计
中使用。
12.一种系统,包括:
操作地耦合至一个或多个存储器的一个或多个处理器,所述一个或多个处理器被配置
为:
获得分别与由一个或多个分析应用所处理的一个或多个输入数据集相关联的元数据,
其中针对每个数据集的元数据指示与所述数据集相关联的信任度和真实性中的至少一者,
并且所述一个或多个分析应用基于所述一个或多个输入数据集生成分析结果;并且
基于所获得的元数据的至少一部分来至少针对所述分析结果确定管控放置。
13.根据权利要求12所述的系统,其中所述一个或多个处理器进一步被配置为获得管
控选择器输入,其中针对所述分析结果确定管控放置的步骤经由所述管控选择器输入进行
控制。
14.根据权利要求13所述的系统,其中所述管控选择器输入指定对所获得的元数据进
行处理以做出放置决定的一种或多种模式。
15.根据权利要求14所述的系统,其中对所获得的元数据进行处理的所述一种或多种
模式包括以下中的至少一者:
选择具有最高真实性或信任度水平的元数据以做出所述放置决定;
对所述一个或多个输入数据集的元数据求平均以做出所述放置决定;
计算一个或多个输入数据集合的元数据的中值以做出所述放置决定;和
计算一个或多个输入数据集合的元数据模式以做出所述放置决定。
16.根据权利要求14所述的系统,其中对所获得的元数据进行处理的所述一种或多种
模式中的至少一种模式包括覆盖所述一个或多个输入数据集合的元数据以做出缺省放置
决定。
17.根据权利要求16所述的系统,其中所述缺省放置决定由定义用于放置所述分析结
果的受信任设施的形式的数字签名的指令所指定。
18.根据权利要求12所述的系统,其中所述管控放置确定步骤进一步包括生成合规目
标简档,所述合规目标简档指定针对要在其上存储符合所获得的元数据的至少一部分的所
述分析结果的设施的真实性和信任度标准中的至少一者。
19.根据权利要求18所述的系统,其中所述合规目标简档被安全存储以便在后续审计
中使用。
20.一种制造品,包括具有已在其中编码的一个或多个软件程序的可执行代码的处理
器可读存储介质,其中所述一个或多个软件程序在被一个或多个处理设备所执行时实施以
下步骤:
获得分别与由一个或多个分析应用所处理的一个或多个输入数据集相关联的元数据,
其中针对每个数据集的元数据指示与所述数据集相关联的信任度和真实性中的至少一者,
并且所述一个或多个分析应用基于所述一个或多个输入数据集生成分析结果;并且
基于所获得的元数据的至少一部分来至少针对所述分析结果确定管控放置。

说明书

数据分析结果的管控放置

技术领域

该领域总体上涉及数据分析,并更为具体地涉及管理数据分析结果。

背景技术

数据分析通常是指合并各种学科的科学,上述学科包括但并不局限于数据工程、
数学、统计学、计算学以及特定于领域的专门知识。因此,数据科学家或数据工程师是实践
数据分析的一些或全部方面以尝试解决涉及一个或多个输入数据集的复杂数据问题的人
员。

数据科学家或数据工程师采用通常对输入数据集进行探究和/或对输入数据集进
行汇总(当涉及到多个数据集时)的一种或多种分析算法,并且随后生成表示该一种或多种
分析算法的分析输出或结果的一个或多个输出数据集。这样的分析结果通常被放置在分析
沙箱或数据湖中以用于进一步的行为。分析沙箱是被用来利用数据进行调控和/或进一步
实验的单独计算环境,而数据湖则是用于结构化和非结构化数据的集中式数据存储系统。

然而,无论分析结果被放在分析沙箱、数据湖还是一些其它存储位置中,这样的数
据放置通常都并未受到高度管控。

发明内容

本发明的实施例提供了用于管理数据分析结果的技术。

例如,在一个实施例中,一种方法包括以下步骤。获得分别与由一个或多个分析应
用所处理的一个或多个输入数据集相关联的元数据。每个数据集的元数据指示与该数据集
相关联的信任度和真实性中的至少一者。该一个或多个分析应用基于该一个或多个输入数
据集生成分析结果。基于所获得的元数据的至少一部分而至少针对该分析结果确定管控放
置。可以使用管控选择器数据(例如,最大值、平均值、中间值、模式、覆盖模式)来做出放置
决策。

有利地,说明性实施例通过提供动态的、受信任的放置而消除了分析结果的非管
控放置,因此使得数据科学家和数据工程师能够保持符合与从其得出该结果的数据集相关
联的信任度和真实性要求/偏好。

本发明的这些和其它特征及优势将由于附图和以下详细描述而变为更加显而易
见的。

附图说明

图1图示了根据本发明实施例的用于管控数据分析结果放置的系统。

图2图示了根据本发明实施例的与数据集相关联的真实性得分。

图3图示了根据本发明实施例的与存储数据集的受信任设施相关联的信任度分类
法。

图4图示了根据本发明实施例的用于利用管控推荐引擎进行管控数据分析结果放
置的系统。

图5图示了根据本发明实施例的经由管控放置服务进行的分析结果放置。

图6图示了根据本发明实施例的用于分析结果的管控放置的方法。

图7图示了根据本发明实施例的被用来实施用于管控数据分析结果放置的系统的
处理平台。

具体实施方式

这里可以参考示例性的云端设施、数据库集、数据中心、数据处理系统、计算系统、
数据存储系统以及相关联的服务器、计算机、存储单元、存储阵列和诸如处理设备之类的设
备对说明性实施例进行描述。然而,所要意识到的是,本发明的实施例并不局限于随所示出
的特定说明性系统和设备配置而使用。此外,如这里所使用的短语“云端设施”、“数据库
集”、“数据中心”、“数据处理系统”、“计算系统”、“数据存储系统”等等意在宽泛地被理解,
从而例如涵盖私有、公共或混合(部分私有且部分公众)的云计算或存储系统,以及包括分
布式虚拟设施的其它类型的系统。然而,给定实施例可以更为一般地包括一个或多个处理
设备的任意放置形式。

如这里所使用的,以下术语和短语具有以下说明性含义:“应用”是指被设计为执
行一种或多种功能的一个或多个软件程序;“设施”是指组成和/或支持整体太阳城集团技术环境
的物理和/或虚拟资源,包括但并不局限于计算、存储和/或网络组件(部件);“元数据”是指
描述或定义其它数据的数据;并且“受信任”是指以下至少一者:满足(或者至少基本上满
足)一种或多种基于信任的标准或者与之相符,上述标准例如策略、要求、规范等;拥有一种
或多种信任属性,作为示例,在数据的情况下诸如能够保留、加密、不变性等;以及拥有一个
或多个信任维度,作为示例,在设施的情况下诸如可用性、恢复性、安全性等。如这里将会详
细解释的,依据本发明实施例所生成并使用的表示信任度的元数据的示例包括设施信任度
指数(ITI)。ITI在这里也可以被称作ITI量度、ITI得分、ITI数值等。元数据的其它示例可以
包括但并不局限于信任度量度、真实性得分、信任度属性,和/或信任度特性和数据实体之
间的关联。总体上,这样的元数据示例被认为指示了给定数据集的信任度和/或真实性。

如以上太阳城集团针对数据科学家/数据工程师所采用的依据分析算法所生成的分析结
果的现有方法所提到的,无论分析结果被放在分析沙箱、数据湖或任意其它地方,这样的数
据放置都并未被高度管控。也就是说,采用该分析算法的数据科学家或数据工程师关注于
探究和实验,而并不关心(即使有)有关其输出/结果的放置的管理要求、公司政策和/或甚
至个人选择。另外,安全性和隐私的问题在这样的现有方案中很少被考虑。因此,分析结果
的创建和/或所产生数据集的放置在最低限度会违反公司政策,而在最坏情况下会违反国
家或国际法律。

例如,考虑下面未管控分析结果会呈现问题的说明性情形。假设当前被保留多年
的抵押文档被用作分析引擎的输入,后者产生报告,而该报告进而可能被要求以多份副本
被立即(没有任何修改机会)保留所规定年份数。未能将该报告以未改变的状态保留在数据
存储系统中达所规定年份数可能违反美国以及其它国家的各种政府规定。作为另外的示
例,假设新加坡的金融公司将数据集运送至美国以便连同基于美国人的数据集(例如,抵押
贷款支持安全性、衍生产品等)一起进行分析。按照新加坡的法律,分析的输出不能以明文
形式存储在新加坡国外。因此,未能考虑有关汇总数据集的这些要求会与国际法相冲突。

说明性实施例通过对真实性、信任度数据以及在可用情况下的起源地进行权衡从
而以可审计且可证明的方式对将分析输出放置到适当设施上加以管控而解决了以上以及
许多其它的问题。

例如,如下文中将要说明的,给定的输入数据集A...N的列表伴随有太阳城集团它们的可
靠性的真实性声明。该真实性声明使得能够实现适当的分析输出放置。

另外,作为示例,输入数据集伴随有描述那些数据集处于其上的受信任设施的级
别的声明。这对于(a)已经经过ELT进入到数据湖的数据集或者(b)当前处于在其中可能具
有受信任设施的不同区域(pocket)的数据湖中的数据集中的任一个而言都是如此。这实现
了基于对数据数值的理解(例如,太阳城集团受信任设施针对该数据的投资水平)的约束分析输出
的放置的能力。

再进一步地,意识到编程人员经常通过将输出随意管送(piping)至他们的分析沙
箱和/或数据湖中可用的任何位置来编写他们的分析代码。即使这些编程人员洞悉到输入
数据集上的真实性或信任度元数据,但也没有现有的编程架构来确保适当的输出定向。他
们还缺乏数据管控以及相关的合规和风险管理(GRC)需求的知识和专业知识。说明性实施
例提供了这样的架构,其确保适当的输出定向并且具有解决GRC需求的知识和专业知识。

即使编程人员能够正确地将分析输出放置到合规且受信任的数据存储上,并且随
后将该输出提供给管理方,但是也不存在现有方法在后续审计的情况下以编程的方式保留
该放置的证据。说明性实施例提供了这样的保留方法。

图1图示了根据本发明实施例的用于管控数据分析结果放置的系统。如系统100所
示,管控元数据被添加至由一种或多种分析算法所处理的每个数据集,并且基于该元数据
而在预先确定的环境中部署一种或多种分析算法。

更具体地,每个数据集A,...,N(102-A,...,102-N)分别具有为添加至其的相对应
的元数据集合MA,....,MN(104-A,...,104-N)。如该说明性上下文中所使用的术语“添加”
可以包括但并不局限于将元数据集合插入到所要分析的数据集中,或者保持集合分开并且
以某些方式(例如,映射、附加等)将它们互相关联,即,MA→A,MB→B,MC→C,...,MN→N。一
种或多种分析算法108在管控的放置环境110中被执行,它们的示例将在下文中进行说明和
解释,以使得一种或多种算法的分析结果112(Z)被置于一个或多个被信任的存储库114中,
例如满足每个被分析的数据集的元数据指定的内容和/或与之相符。

虽然包括104-A,...,104-N的元数据的类型能够有所变化,但是现将对一些说明
性实施例加以解释。然而,需要理解的是,可以获得和/或得出其它类型的元数据以被用于
太阳城集团由一种或多种分析算法所输出的结果做出管控放置决策。

能够与数据集(102)相关联的元数据(104)的一个示例包括真实性得分。真实性得
分的示例在于2015年3月31日提交的题为“LINEAGE-BASED VERACITY FOR DATA
REPOSITORIES”的美国专利申请序列号No.14/674,121(代理所卷号EMC-14-1126)中有所描
述,其公开的内容通过引用全文结合于此。

图2图示了根据本发明实施例的真实性得分的概念。如图2的示例中所示,五个信
任度属性与三个数据集:数据集1、数据集2和数据集3中的每一个相关联。这些数据集可以
是图1中所示的数据集(102A,...,102-N)中的三个。在该说明性实施例中,这些信任度属性
是:(i)祖先;(ii)签名/太阳城集团戳;(iii)保留;(iv)散列值;和(v)不变性。如所指出的,数据集
1具有除祖先之外的所有信任度属性(因此为4个信任度属性),数据集2仅具有保留和散列
值(因此为2个信任度属性),而数据集3则具有保留、散列值和不变性(因此为3个信任度属
性)。假设每个信任度属性的存在具有为1的值,则针对每个数据集的真实性得分被计算为
针对该数据集所存在的信任度属性的值的相加。因此,由于数据集1具有4个信任度属性,所
以其真实性得分为4。相应地,数据集2具有真实性得分2,而数据集3则具有真实性得分3。这
些真实性得分在图2中示出并且分别表示与每个数据集(102A,...,102-N)相关联的元数据
(104-A,...,104-N)。

可以实施用于计算真实性得分的备选方法。仅作为另外的示例,消费者可能希望
使得一个信任度属性比另一个具有更高“权重”。例如,如果确定存在“不变性”,则他们可能
希望与其它属性相比将该属性的权重加倍(例如,相对于“1”而赋予数值“2”)。类似地,针对
每个信任度属性(例如,保留),可能有不同的保留能力水平,例如普通的保留、基于事件的
保留(事件能够触发保留长度的变化)和/或保留分类(使用可变名称来追踪保留长度)。如
果这三种全部都存在,则针对保留的得分将为“3”。如果仅存在一种,则得分将为“1”。所要
意识到的是,这些是可以如何计算真实性得分的非限制性示例。

能够与数据集(102)相关联的元数据(104)的一个示例包括信任度指数。信任度指
数的示例在与本申请同时提交的题为“INFRASTRUCTURE TRUST INDEX”且代理所卷号为
EMC-15-1053CIP2的美国专利申请中有所描述,其公开的内容通过引用全文结合于此。

针对给定数据集的设施信任度指数实质上是当前存储(或曾经存储)所讨论数据
集的设施的所有信任度能力的完整概括。图3强调了基础设施的六种不同的信任度维度,并
且这六种维度中的每一个都可以具有大量的所描述的能力。所有这些能力能够在作为汇总
设施信任度指数而附加至输入数据集的元数据结构中有所描述,上述汇总设施信任度指数
描述了该设施值得信任的程度(并且因此可归于其上所存储的数据集)。

更具体地,假设受信任设施被配置为提供描述其信任度能力(特性)的元数据。在
该实施例中,如将要进一步解释的,这些信任度能力包括:(i)可用性和可恢复性;(ii)安全
性、隐私性和合规性;(iii)持续性;(iv)透明性;(v)可服务性;和(vi)可管理性。更具体地,
可用性和可恢复性元数据包括描述和/或量化设施在被要求时执行其(多种)协定功能的能
力以及其从(多种)故障恢复的能力的统计或其它量度。安全性、隐私性和合规性元数据则
包括描述和/或量化设施确保数据和设施的置信度、完整性和合规性的能力的统计或其它
量度。持续性元数据包括描述和/或量化设施使得功率和/或能量效率能够提高并且确保道
德实践的能力的统计或其它量度。透明性元数据包括描述和/或量化设施提供针对客户操
作报告的标准化访问并且针对信任度客体进行报告的能力的统计或其它量度。可服务性元
数据包括描述和/或量化设施促成技术支持和问题解决的能力的统计或其它量度。可管理
性元数据包括描述和/或量化设施在管理基于信任度的标准时实现自动化和互操作性的能
力的统计或其它量度。

针对这样的分类法的元数据能够从存储设施中提取(主动模式),或者该设施能够
被配置为声明这些信任度特性(被动模式)。

图3图示以上所提到的六维度的信任度分类法的进一步细节。更具体地,根据本发
明的实施例,图3示出了信任度维度311至316以及能够利用其计算设施信任度指数的相应
域(对应于上面提及的信任度分类法元数据类型)。如所示出的,每个信任度维度进一步包
含多个域:可用性和可恢复性信任度维度311具有多个域,后者包括但并不局限于数据可用
性、商业连续性、质量和可靠性和操作弹性;安全性、隐私性和合规性信任度维度312具有多
个域,后者包括但并不局限于加密和秘钥管理、数据安全性和太阳城集团生命周期管理(ILM)、标
识和访问管理、事变管理、e发现和鉴证、管控、风险和合规(GRC),以及威胁和易损性管理;
持续性信任度维度313具有多个域,后者包括但并不局限于绿色(对环境负责)、高效、解决
方案展望以及道德;透明性信任度维度314具有多个域,后者包括但并不局限于评估和事变
报告、设施服务和公开;可服务性信任度维度315具有多个域,后者包括但并不局限于技术
支持、自动化、前摄性支持和分析;并且可管理性信任度维度316具有多个域,后者包括但并
不局限于资源管理、整合管理、监视和纠正,以及操作一致性。

在一个示例中,针对加密和秘钥管理域(信任度维度312的一部分)定义了控制和
值,它们被用来计算设施信任度指数。更具体地,假设表示了两个单独的控制(控制标识符
或ID),即休眠数据(非活动数据)加密秘钥大小(DAREKS)和网络协议业务加密秘钥大小
(Channel KS)。每个控制具有与该控制的可用特性相关联的数值。例如,256位的DAREKS被
赋予数值1,512位的DAREKS被赋予数值2,1024位的DAREKS被赋予数值3,并且2048位的
DAREKS被赋予数值4。另外,作为示例,112位的Channel KS被赋予数值1,128位的Channel
KS被赋予数值2,192位的Channel KS被赋予数值3,并且256位的Channel KS被赋予数值4。
如以下所解释的,这些数值被汇总以计算主体设施的设施信任度指数。

能够对于控制描述不同的策略以对指数进行评估。根据组织的需求,某些控制能
够被给予更高的权重。在以上示例中,组织可能发现休眠数据加密(DAREKS控制)更为关键
并且因此赋予比其它控制(Channel KS)更高的权重。控制要求也能够通过为相对应的控制
赋予适当权重来表达。例如,假设DAREKS控制被赋予比Channel KS控制—即1—更高的权
重—即10。该权重被用来形成指数策略。假设针对特定设施的用户要求是256位的DAREKS以
及112位的Channel KS。则根据这样的用户要求以及如以上所定义的控制的该策略的汇总
指数得分被计算为10*DAREKS+1*Channel KS=10*1+1*1=11。因此,11是该主体设施的设
施信任度指数。

所要意识到的是,针对每个信任度维度及其相对应的域(图3中的311至316)创建
控制、数值和权重赋值,以使得值被赋予给与每个信任度维度相关联的控制的可用特性,并
且权重被赋予给每个控制。除了针对给定信任度维度或域控制子集的特定信任度指数之
外,能够计算总体设施信任度指数,其将针对所考虑的每个信任度维度所计算的指数数值
加以汇总。

因此,如以上所提到的,针对给定数据集计算设施信任度指数并且表示当前存储
(或曾经存储)所讨论数据集的设施的所有信任度能力(信任度维度)的完整概括。

给定具有相关联的真实性元数据(例如,以上在图2的上下文中所解释的真实性得
分)和/或信任度元数据(例如,以上在图3的上下文中所解释的设施信任度指数)的输入数
据集的集合,根据说明性实施例而提供了管控部署推荐引擎,其强调了以合规方式存储分
析输出所必需的所要求/所期望属性。如将要解释的,管控选择器输入能够被提供至控制该
决策的推荐引擎。

图4图示了根据本发明实施例的这样的用于利用管控推荐引擎的管控数据分析结
果放置的系统。如系统400中所示,类似于图1的系统100,数据集A,...,N(402-A,...,402-
N)分别具有添加至其的相对应的元数据集合MA,....,MN(404-A,...,404-N)。同样,该管控
元数据可以是各种类型,但是在说明性实施例中包括如以上所提到的真实性得分和设施信
任度指数。

管控元数据(MA,MB,MC,...,MN)被管控推荐引擎410所收集。此外,管控推荐引擎
410(例如,从数据科学家/数据工程师或一些其它系统)接收管控选择器输入406。该管控选
择器输入指定了从预定管控模式中所选择的处理模式,作为示例,上述管控模式为:最大
值、平均值、中值、模式和覆盖。因此,推荐引擎410使用选择器406来决定是否:(a)选择最
高、最值得信任的真实性和信任度指数(最大值选项);(b)将它们全部平均(平均值选项);
(c)选择中值(中值选项);(d)选择模式(模式选项);或者(e)忽略所有元数据得分和信任度
指数(元数据404),并且使用预先提供的值得信任的配置作为缺省值(覆盖选项)。在说明性
实施例中,该覆盖选项可以是数字签名的指令,其具体描述了何种形式的受信任设施应当
为针对分析输出的目标。

管控推荐引擎410随后基于所收集的元数据(404-A,...,404-N)和管控选择器选
项406生成合规的目标简档412。该简档412指定了通过对输入数据集(402-A,...,402-N)执
行一种或多种分析算法(例如,108)而获得的分析结果要被置于其上以便满足所收集元数
据的信任度/真实性要求的设施。

另外,简档412能够包括所有数据集的输入元数据、管控选择器输入以及最终结果
(分析输出),并且简档412能够被存储在谱系图中并且保留在合规、防止篡改且防止删除的
位置以便在后续审计中使用。该谱系数据结构还能够整体被馈送至如以下在图5的上下文
中将要解释的部署环境之中。

使用以上所描述的技术,能够将合规的目标简档412(和/或与合规目标简档相关
联的谱系图)连同生成结果的一种或多种分析应用(算法)以及数据集送至如图5所示的管
控放置环境500中。于2015年1月30日提交的题为“GOVERNED APPLICATION DEPLOYMENT ON
TRUSTED INFRASTRUCTURE”序列号为No.14/610191的美国专利申请描述了一种管控应用放
置环境,其全文通过引用结合于此。图5适应于这样的环境以便使用根据以上所描述的说明
性实施例生成的合规目标简档进行分析结果的放置(部署)。

更具体地,生成主体分析结果的分析应用(算法)505连同该合规目标简档一起被
送至PaaS层510(例如,CloudFoundry)的部署模块512。该简档被送至管控放置服务模块
514,后者从元数据湖530取得任意基础云端设施的所有信任度简档,并且随后执行该合规
目标资源与该设施的最佳适合匹配。如果无法找到,则管控放置服务模块514可以选择拒绝
该放置。如果找到,则该目标设施被送回模块512的部署逻辑,后者继续将应用和分析结果
部署至目标设施,例如可以包括软件定义的数据中心(SDDC)或云端设施的云端的部分或所
有设施的受信任设施515。

描述以上图5中所描述的整个管控放置处理的太阳城集团能够在不变的、不可删除的谱
系链中进行捕捉以保留来支持未来审计。

图6图示了根据本发明实施例的用于分析结果的管控放置的方法。

如方法600中所示,步骤610获得分别与由一个或多个分析应用所处理的一个或多
个输入数据集相关联的元数据。针对每个数据集的元数据指示与该数据集相关联的信任度
和真实性中的至少一者。该一个或多个分析应用基于该一个或多个输入数据集生成分析结
果。

步骤612基于所获得的元数据的至少一部分以及管控选择器输入(例如,最大值、
平均值、中值、模式、覆盖模式)而至少针对该分析结果确定管控放置。

给出本文中的教导,各种用例都能够实施本文中所描述的管控分析结果放置方法
和系统。以下是几个非限制性的示例。

假设大型金融服务数据提供方P被位于客户数据保护法规严格的不同司法管辖区
的大型机构客户C所雇佣。C想要P执行涉及到包括开放数据、客户数据、市场数据和所有权
太阳城集团在内的多个数据源的复杂分析。他们想要确保这项工作中所涉及到的雇员和数据科学
家将不会直接访问到所有数据本身。此外,他们要求所汇总的数据以及其它中间结果需要
被安全存储并且它们的访问被严格政策(假设提供)所管控。另一项要求是需要包括来自两
个其它司法管辖区的数据。最终分析结果(可交付的成果)需要被存储回原始位置。

这是以上所描述的管控分析结果放置技术将会证明有帮助的某种程度上复杂的
情形。然而,这是一种利用当前技术无法妥善处理的典型情形,因为我们经常特别是在金融
服务中发现压力测试和合规失败、数据保护挑战以及监管限制。依据本发明的实施例,数据
管控系统将与分析引擎进行交互并且基于所提供和发现的标准及简档实时得出最为适当
的选项和配置的理念在下面多个层面是非常重要的:(a)对首席数据官的管控工作提供帮
助;(b)为客户进行合规和风险管理的支持;以及(c)促成审计和监管。

该第二种用例描述了保健情形。假设保健数据提供方Alpha被用来捕捉键控监控
数据,将其与公开数据和其它门诊数据以及来自多个患者的汇总数据进行整合。随后输出
被提供至位于不同司法管辖区的多个客户。这些客户并未被授权访问原始客户数据,但是
只要输出依据政策和管理要求被适当存储,他们就能够将汇总太阳城集团重复用于其自己的用
途。被重复使用的聚合分析数据无法被传送至本地司法管辖区。如第一种用例,所要意识到
的是,本文所描述的该管控分析结果放置系统和方法能够有利地被应用以应对该保健情
形。

能够在其上实施用于管控数据分析结果放置的系统(例如,图1、4和5所示的系统)
的处理平台的示例是图7中所示的处理平台700。该实施例中的处理平台700包括被表示为
702-1,702-2,702-3,...702-N的多个处理设备,它们通过网络704互相通信。所要意识到的
是,这里所描述的管控分析结果放置方法可以在一个这样的处理设备702中执行,或者以分
布式方式跨两个或更多这样的处理设备702执行。还可以跨两个或更多这样的处理设备702
以分布式方式执行云端设施环境。这里所描述的各种功能都能够在相同处理设备、单独处
理设备或者单独和相同(重叠)处理设备的一些组合上执行。进一步要意识到的是,客户端
设备、计算设备或者任意其它处理平台部件都可以被示为在这里被更为一般地称为“处理
设备”的示例。如图7所示,这样的设备一般包括至少一个处理器以及相关联的存储器,并且
实施用于例示和/或控制这里所描述的系统和方法的特征的一个或多个功能模块。在给定
实施例中,多个部件或模块可以由单个处理设备来实施。

处理平台700中的处理设备702-1包括耦合至存储器712的处理器710。处理器710
可以包括微处理器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它类
型的处理电路,以及这样的电路部件的部分或组合。如这里所公开的系统的组件能够至少
部分以存储在存储器中并且由处理设备的处理器所执行的一个或多个软件程序的形式来
实施,上述处理器诸如处理器710。具有体现于其中的这样的程序代码的存储器712(或其它
存储设备)是在这里更一般地被称为处理器可读存储介质的示例。包括这样的处理器可读
存储介质的制造品被认为是本发明的实施例。给定的这样的制造品例如可以包括诸如存储
盘、存储阵列和包含存储器的集成电路之类的存储设备。如这里所使用的术语“制造品”应
当被理解为排除了瞬态的传播的信号。

此外,存储器712可以包括电子存储器,诸如处于任意组合形式的随机访问存储器
(RAM)、只读存储器(ROM)或者其它类型的存储器。一个或多个软件程序咋被诸如处理设备
702-1的处理设备所执行时使得该设备执行与图1-6中的系统/方法的一个或多个组件/步
骤相关联的功能。本领域技术人员将轻易地能够实施给出这里所提供的技术的这样的软
件。体现本发明实施例的处理器可读存储媒体的其它示例例如可以包括光盘或磁盘。

处理设备702-1还包括网络接口电路714,后者被用来将该设备与网络704和其它
系统组件进行对接。这样的电路可以包括本领域公知类型的常规收发器。

处理平台700的其它处理设备702(702-2,702-3,...702-N)被假设以类似于图中
针对计算设备702-1所示出的方式进行配置。

图7所示的处理平台700可以包括另外的已知组件,诸如批处理系统、并行处理系
统、物理机器、虚拟机、虚拟交换机、存储卷等。同样,该图中所示出的特定处理平台仅是作
为示例而呈现,并且如图1、4和5所分别示出的系统环境可以包括另外或客体化内的处理平
台,以及处于任意组合形式的多种不同处理平台。

而且,处理平台700中可能有服务器、客户端、计算机、存储设备或其它组件的多种
其它放置形式。这样的组件能够通过任意类型的网络与处理平台700的其它部件进行通信,
上述吴昂来诸如广域网(WAN)、局域网(LAN)、卫星网络、电话或有线网络,或者这些和其它
类型的网络的各种部分或组合。

此外,所要意识到的是,图7的处理平台700能够包括使用监管程序的虚拟机(VM)。
监管程序是这里更为一般地被称之为“虚拟化设施”的示例。监管程序运行在物理设施上。
这样,这里说明性描述的技术能够依据一种或多种云端服务而提供。该云端服务因此在该
监管程序的控制下在相应的虚拟机上运行。处理平台700还可以包括均在其自己的物理设
施上运行的多个兼顾啊你程序。该物理设施的多个部分可能被虚拟化。

如已知的,虚拟机是可以在一个或多个物理处理部件(例如,服务器、计算机、处理
设备)上进行例示的逻辑处理部件。也就是说,“虚拟机”一般是指像物理机器那样执行程序
的机器(即,计算机)的软件实施方式。因此,不同虚拟机能够在相同的物理计算机上运行不
同的操作系统以及多种应用。虚拟化由直接插入在计算机硬件顶端的监管程序所实施以便
动态且透明地分配该物理计算机的硬件资源。该监管程序给予多个操作系统同时在单个物
理计算机上运行并且互相共享硬件资源的能力。

可以被用来实施本发明的一个或多个实施例中的处理平台700的多个部分的能够
商业获得的监管程序平台的示例是VMware vSphere(加利福尼亚州Palo Alto的VMware公
司),其具有诸如VMware vCenter的相关联的虚拟设施管理系统。基础的物理设施可以包括
一个或多个分布式处理平台,后者可以包括诸如VNX和Symmetrix VMAX(二者均能够从马萨
诸塞州Hopkinton的EMC公司获得)之类的存储产品。各种其它计算和存储产品可以被用来
实施提供这里所描述的功能和特征的一种或多种云端服务。

以上提到了这里所描述的系统环境的多个部分可以使用一个或多个处理平台来
实施。给定的这样的处理平台包括至少一个处理设备,后者包括耦合至存储器的处理器,并
且该处理设备可以至少部分利用一个或多个虚拟机、容器或者其它虚拟化设施来实施。作
为示例,这样的容器可以是Docker容器或其它类型的容器。

应当再次强调的是,以上所描述的本发明的实施例仅是出于说明的目的而给出。
可以在所示出的特定放置形式中进行各种变化。例如,虽然以特定系统和设备配置为背景
进行描述,但是该技术能够应用于各种其它类型的数据处理系统、处理设备和分布式虚拟
设施放置形式。此外,以上在描述说明性实施例的过程中所进行的许多简化假设也应当被
视为是示例性而不是对本发明的要求或限制。所附权利要求范围内的许多其它可替换实施
例对于本领域技术人员而言将是轻易显而易见的。

关 键 词:
数据 分析 结果 放置
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:数据分析结果的管控放置.pdf
链接地址:http://zh228.com/p-6100767.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');