太阳城集团

  • / 15
  • 下载费用:30 金币  

一种数据布局优化方法及系统.pdf

摘要
申请专利号:

CN201310732673.1

申请日:

2013.12.26

公开号:

CN103678158A

公开日:

2014.03.26

当前法律状态:

授权

有效性:

有权

法律详情: 授权|||实质审查的生效IPC(主分类):G06F 12/06申请日:20131226|||公开
IPC分类号: G06F12/06; G06F12/08 主分类号: G06F12/06
申请人: 中国科学院太阳城集团工程研究所
发明人: 周晓阳; 王树鹏; 张永铮; 吴广君; 王海平; 李斌斌
地址: 100093 北京市海淀区闵庄路甲89号
优先权:
专利代理机构: 北京轻创知识产权代理有限公司 11212 代理人: 杨立
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

太阳城集团CN201310732673.1

授权太阳城集团号:

||||||

法律状态太阳城集团日:

2016.11.02|||2014.04.23|||2014.03.26

法律状态类型:

授权|||实质审查的生效|||公开

摘要

太阳城集团本发明涉及一种数据布局优化方法,具体包括以下步骤:步骤1:接收业务系统输入的连续数据流;步骤2:将数据流划分为连续无交叉的多个数据块;步骤3:判断待处理的数据块是否达到缓存上限,如果是,进行下一步;否则,跳转至步骤1;步骤4:计算得到缓存中的所有数据块的指纹;步骤5:将缓存中数据块的指纹与指纹列表中的指纹进行匹配,将匹配的数据块标记为重复数据块;将不指纹匹配的指纹存入指纹列表中;步骤6:更新数据块太阳城集团表中的数据块的物理位置太阳城集团;步骤7:根据数据块太阳城集团表中的各个数据块的物理位置太阳城集团存储对应的数据块。本发明提高了数据的顺序性,降低了数据布局的离散化,提高了重复数据删除系统的顺序读写性能。

权利要求书

权利要求书
1.  一种数据布局优化方法,其特征在于,具体包括以下步骤:
步骤1:接收业务系统输入的连续数据流;
步骤2:将数据流划分为连续无交叉的多个数据块,并将数据块保存到缓存中;
步骤3:判断缓存中的待处理的数据块是否达到缓存上限,如果是,进行下一步;否则,跳转至步骤1;
步骤4:计算缓存中的所有数据块的哈希值,并将每个哈希值作为对应数据块的指纹;
步骤5:将缓存中数据块的指纹与指纹列表中的指纹进行匹配,将与指纹列表中的指纹相匹配的指纹所对应的数据块标记为重复数据块;将不与指纹列表中的指纹匹配的指纹存入指纹列表中,所述不匹配的指纹对应的数据块集合在一起构成数据块太阳城集团表,得到更新后的指纹列表和数据块太阳城集团表;
步骤6:根据指纹列表中指纹对应的物理位置太阳城集团更新数据块太阳城集团表中的数据块的物理位置太阳城集团;
步骤7:根据数据块太阳城集团表中的各个数据块的物理位置太阳城集团存储对应的数据块。

2.  根据权利要求1所述的一种数据布局优化方法,其特征在于,所述步骤5具体包括以下步骤:
步骤5.1:将一个数据块的指纹与指纹列表中所有的指纹进行匹配,并判断是否匹配,如果匹配,进行下一步;否则,进行步骤5.3;
步骤5.2:将所述数据块标记为重复数据块,跳转至步骤5.4;
步骤5.3:该数据块为新数据块,将新数据块的指纹记录到指纹列表中,更新指纹列表;
步骤5.4:判断缓存中的所有数据块是否全部完成与指纹列表中的指纹的匹配;如果是,进行步骤6;否则,跳转至步骤5.1。

3.  根据权利要求2所述的一种数据布局优化方法,其特征在于,所述指纹列表以数据块的指纹为关键字,指纹列表中保存多个数据块的太阳城集团,所述数据块的太阳城集团包括数据块的指纹、数据块对应的物理位置太阳城集团和具有同一指纹的数据块的数量值。

4.  根据权利要求3所述的一种数据布局优化方法,其特征在于,所述数据块太阳城集团表中包括数据块的指纹、与所述数据块指纹相对应的指纹列表中的数据块的物理位置太阳城集团和数据块的大小。

5.  根据权利要求1-4任一项所述的一种数据布局优化方法,其特征在于,所述步骤6中更新数据块太阳城集团表中的数据块的物理位置太阳城集团采用数据布局优化策略;
所述数据布局优化策略采用以下第一种、第二种或第三种策略:
第一种策略:统计数据块太阳城集团表中所存在的连续数据块的个数,判断连续数据块的个数是否小于预设值;若都小于,则为每个数据块重新设置新的物理位置太阳城集团,使得所有数据块据连续存储;若存在连续数据块的个数大于等于预设值,则仅存储新数据块,并将新数据块太阳城集团添加到数据块太阳城集团表中;
第二种策略:统计数据块太阳城集团表中重复数据块占总数据量的比例,判断所述比例是否小于预设的重复数据的比例阈值;若小于,则为每个数据块重新设置新的物理位置太阳城集团,使得所有数据块据连续存储;否则,仅存储新数据块,并将新数据块太阳城集团添加到数据块太阳城集团表中;
第三种策略:结合第一种和第二种,当连续数据块的个数大于等于预设值,并且统计的重复数据块比例大于等于比例阈值时,仅存储新数据块,并将新数据块太阳城集团添加到数据块太阳城集团表中;否则,将每个数据块重新设置新的物理位置太阳城集团,使得所有数据块据连续存储。

6.  一种数据布局优化系统,其特征在于,包括接收模块、数据分块模块、数据查重模块、数据布局优化模块和数据存储模块;
所述数据接收模块接收业务系统输入的连续数据流;
所述数据分块模块将数据流划分为连续无交叉的多个数据块,并将数据块保存到缓存中;
所述数据查重模块将缓存中达到缓存上限的待处理的数据块计算哈希值,并将每个哈希值作为对应数据块的指纹;所述数据查重模块将缓存中数据块的指纹与指纹列表中的指纹进行匹配,将与指纹列表中的指纹相匹配的指纹所对应的数据块标记为重复数据块;将不与指纹列表中的指纹匹配的指纹存入指纹列表中,所述不匹配的指纹对应的数据块集合在一起构成数据块太阳城集团表,得到更新后的指纹列表和数据块太阳城集团表;
所述数据布局优化模块根据指纹列表中指纹对应的物理位置太阳城集团更新数据块太阳城集团表中的数据块的物理位置太阳城集团;
所述数据存储模块根据数据块太阳城集团表中的各个数据块的物理位置太阳城集团存储对应的数据块。

7.  根据权利要求6所述的一种数据布局优化系统,其特征在于,所述数据查重模块包括匹配模块、指纹列表更新模块和判断模块;
所述匹配模块用于将数据块的指纹与指纹列表中所有的指纹进行匹配,判断是否匹配;如果匹配,将所述数据块标记为重复数据块;否则,该数据块为新数据块;
所述指纹列表更新模块用于将新数据块的指纹记录到指纹列表中,更新指纹列表;
所述判断模块用于判断缓存中的所有数据块是否全部完成与指纹列表中的指纹匹配,如果是,转向数据布局优化模块;否则转向匹配模块。

8.  根据权利要求7所述的一种数据布局优化系统,其特征在于,所述指 纹列表以数据块的指纹为关键字,指纹列表中保存多个数据块的太阳城集团,所述数据块的太阳城集团包括数据块的指纹、数据块对应的物理位置太阳城集团和具有同一指纹的数据块的数量值。

9.  根据权利要求8所述的一种数据布局优化系统,其特征在于,所述数据块太阳城集团表中包括数据块的指纹、与所述数据块指纹相对应的指纹列表中的数据块的物理位置太阳城集团和数据块的大小。

10.  根据权利要求6-9任一项所述的一种数据布局优化系统,其特征在于,所述数据布局优化模块中更新数据块太阳城集团表中的数据块的物理位置太阳城集团采用数据布局优化策略;
所述数据布局优化策略采用以下第一种、第二种或第三种策略:
第一种策略:统计数据块太阳城集团表中所存在的连续数据块的个数,判断连续数据块的个数是否小于预设值;若都小于,则为每个数据块重新设置新的物理位置太阳城集团,使得所有数据块据连续存储;若存在连续数据块的个数大于等于预设值,则仅存储新数据块,并将新数据块太阳城集团添加到数据块太阳城集团表中;
第二种策略:统计数据块太阳城集团表中重复数据块占总数据量的比例,判断所述比例是否小于预设的重复数据的比例阈值;若小于,则为每个数据块重新设置新的物理位置太阳城集团,使得所有数据块据连续存储;否则,仅存储新数据块,并将新数据块太阳城集团添加到数据块太阳城集团表中;
第三种策略:结合第一种和第二种,当连续数据块的个数大于等于预设值,并且统计的重复数据块比例大于等于比例阈值时,仅存储新数据块,并将新数据块太阳城集团添加到数据块太阳城集团表中;否则,将每个数据块重新设置新的物理位置太阳城集团,使得所有数据块据连续存储。

说明书

说明书一种数据布局优化方法及系统
技术领域
本发明涉及一种数据布局优化方法及系统。
背景技术
随着数据量的爆炸式增长,数据的存储和管理成本越来越高,由于重复数据删除技术能够有效地减少数据量,降低存储空间需求,因此成为存储领域的研究热点。
随着重复数据删除技术发展,其逐渐应用主存储系统中,但由于重复数据删除技术的特点,其在减少数据存储量的优点下,也对存储系统读取性能带来了一定的影响。针对重复数据删除性能优化问题,公开号为102385554A的中国专利申请在2012年3月21日公开了一种重复数据删除系统的优化方法,采用该方法,能够根据系统当前各存储节点的负载和能耗状态,动态分配存储空间,平衡各存储节点的工作负载,提高系统性能。但是,重复数据块的出现造成连续数据流在磁盘存储介质分布离散,在系统读取过程中引发了大量随机读操作,严重降低了系统顺序读取性能。该专利申请公开的技术方案不能解决由于数据块分布离散造成的系统读性能下降问题。
发明内容
本发明所要解决的技术问题是,针对现有技术的不足,提供一种提高重复数据删除系统的顺序读取速度,提高系统性能的用于重复数据删除系统的数据布局优化方法。
本发明解决上述技术问题的技术方案如下:一种数据布局优化方法,具 体包括以下步骤:
步骤1:接收业务系统输入的连续数据流;
步骤2:将数据流划分为连续无交叉的多个数据块,并将数据块保存到缓存中;
步骤3:判断缓存中的待处理的数据块是否达到缓存上限,如果是,进行下一步;否则,跳转至步骤1;
步骤4:计算缓存中的所有数据块的哈希值,并将每个哈希值作为对应数据块的指纹;
步骤5:将缓存中数据块的指纹与指纹列表中的指纹进行匹配,将与指纹列表中的指纹相匹配的指纹所对应的数据块标记为重复数据块;将不与指纹列表中的指纹匹配的指纹存入指纹列表中,所述不匹配的指纹对应的数据块集合在一起构成数据块太阳城集团表,得到更新后的指纹列表和数据块太阳城集团表;
步骤6:根据指纹列表中指纹对应的物理位置太阳城集团更新数据块太阳城集团表中的数据块的物理位置太阳城集团;
步骤7:根据数据块太阳城集团表中的各个数据块的物理位置太阳城集团存储对应的数据块。
本发明的有益效果是:本发明通过新数据的重复规律和已存储数据为物理位置太阳城集团,计算出数据块的物理位置,提高了数据的顺序性,降低了数据布局的离散化,提高了重复数据删除系统的顺序读写性能。本发明不仅适用于多节点的分布式系统,也适用于单节点存储系统。本发明能够在单存储节点内提高系统的读取性能,提高了系统整体效率,符合目前的应用需求,具有广阔的应用前景。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述步骤5具体包括以下步骤:
步骤5.1:将一个数据块的指纹与指纹列表中所有的指纹进行匹配,并 判断是否匹配,如果匹配,进行下一步;否则,进行步骤5.3;
步骤5.2:将所述数据块标记为重复数据块,跳转至步骤5.4;
步骤5.3:该数据块为新数据块,将新数据块的指纹记录到指纹列表中,更新指纹列表;
步骤5.4:判断缓存中的所有数据块是否全部完成与指纹列表中的指纹的匹配;如果是,进行步骤6;否则,跳转至步骤5.1。
进一步,所述指纹列表以数据块的指纹为关键字,指纹列表中保存多个数据块的太阳城集团,所述数据块的太阳城集团包括数据块的指纹、数据块对应的物理位置太阳城集团和具有同一指纹的数据块的数量值。
进一步,所述数据块太阳城集团表中包括数据块的指纹、与所述数据块指纹相对应的指纹列表中的数据块的物理位置太阳城集团和数据块的大小。
进一步,所述步骤4中计算数据块的哈希值采用安全散列算法SHA-1或消息摘要算法MD5。
进一步,所述步骤6中更新数据块太阳城集团表中的数据块的物理位置太阳城集团采用数据布局优化策略;
所述数据布局优化策略采用以下第一种、第二种或第三种策略:
第一种策略:统计数据块太阳城集团表中所存在的连续数据块的个数,判断连续数据块的个数是否小于预设值;若都小于,则为每个数据块重新设置新的物理位置太阳城集团,使得所有数据块据连续存储;若存在连续数据块的个数大于等于预设值,则仅存储新数据块,并将新数据块太阳城集团添加到数据块太阳城集团表中;
第二种策略:统计数据块太阳城集团表中重复数据块占总数据量的比例,判断所述比例是否小于预设的重复数据的比例阈值;若小于,则为每个数据块重新设置新的物理位置太阳城集团,使得所有数据块据连续存储;否则,仅存储新数据块,并将新数据块太阳城集团添加到数据块太阳城集团表中;
第三种策略:结合第一种和第二种,当连续数据块的个数大于等于预设 值,并且统计的重复数据块比例大于等于比例阈值时,仅存储新数据块,并将新数据块太阳城集团添加到数据块太阳城集团表中;否则,将每个数据块重新设置新的物理位置太阳城集团,使得所有数据块据连续存储。
本发明所要解决的技术问题是,针对现有技术的不足,提供一种提高重复数据删除系统的顺序读取速度,提高系统性能的用于重复数据删除系统的数据布局优化系统。
本发明解决上述技术问题的技术方案如下:一种数据布局优化系统,包括接收模块、数据分块模块、数据查重模块、数据布局优化模块和数据存储模块;
所述数据接收模块接收业务系统输入的连续数据流;
所述数据分块模块将数据流划分为连续无交叉的多个数据块,并将数据块保存到缓存中;
所述数据查重模块将缓存中达到缓存上限的待处理的数据块计算哈希值,并将每个哈希值作为对应数据块的指纹;所述数据查重模块将缓存中数据块的指纹与指纹列表中的指纹进行匹配,将与指纹列表中的指纹相匹配的指纹所对应的数据块标记为重复数据块;将不与指纹列表中的指纹匹配的指纹存入指纹列表中,所述不匹配的指纹对应的数据块集合在一起构成数据块太阳城集团表,得到更新后的指纹列表和数据块太阳城集团表;
所述数据布局优化模块根据指纹列表中指纹对应的物理位置太阳城集团更新数据块太阳城集团表中的数据块的物理位置太阳城集团;
所述数据存储模块根据数据块太阳城集团表中的各个数据块的物理位置太阳城集团存储对应的数据块。
本发明的有益效果是:本发明通过新数据的重复规律和已存储数据为物理位置太阳城集团,计算出数据块的物理位置,提高了数据的顺序性,降低了数据布局的离散化,提高了重复数据删除系统的顺序读写性能。本发明不仅适用 于多节点的分布式系统,也适用于单节点存储系统。本发明能够在单存储节点内提高系统的读取性能,提高了系统整体效率,符合目前的应用需求,具有广阔的应用前景。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述数据查重模块包括匹配模块、指纹列表更新模块和判断模块;
所述匹配模块用于将数据块的指纹与指纹列表中所有的指纹进行匹配,判断是否匹配;如果匹配,将所述数据块标记为重复数据块;否则,该数据块为新数据块;
所述指纹列表更新模块用于将新数据块的指纹记录到指纹列表中,更新指纹列表;
所述判断模块用于判断缓存中的所有数据块是否全部完成与指纹列表中的指纹匹配,如果是,转向数据布局优化模块;否则转向匹配模块。
进一步,所述指纹列表以数据块的指纹为关键字,指纹列表中保存多个数据块的太阳城集团,所述数据块的太阳城集团包括数据块的指纹、数据块对应的物理位置太阳城集团和具有同一指纹的数据块的数量值。
进一步,所述数据块太阳城集团表中包括数据块的指纹、与所述数据块指纹相对应的指纹列表中的数据块的物理位置太阳城集团和数据块的大小。
进一步,所述计算数据块的哈希值采用安全散列算法SHA-1或消息摘要算法MD5。
进一步,所述数据布局优化模块中更新数据块太阳城集团表中的数据块的物理位置太阳城集团采用数据布局优化策略;
所述数据布局优化策略采用以下第一种、第二种或第三种策略:
第一种策略:统计数据块太阳城集团表中所存在的连续数据块的个数,判断连续数据块的个数是否小于预设值;若都小于,则为每个数据块重新设置新的 物理位置太阳城集团,使得所有数据块据连续存储;若存在连续数据块的个数大于等于预设值,则仅存储新数据块,并将新数据块太阳城集团添加到数据块太阳城集团表中;
第二种策略:统计数据块太阳城集团表中重复数据块占总数据量的比例,判断所述比例是否小于预设的重复数据的比例阈值;若小于,则为每个数据块重新设置新的物理位置太阳城集团,使得所有数据块据连续存储;否则,仅存储新数据块,并将新数据块太阳城集团添加到数据块太阳城集团表中;
第三种策略:结合第一种和第二种,当连续数据块的个数大于等于预设值,并且统计的重复数据块比例大于等于比例阈值时,仅存储新数据块,并将新数据块太阳城集团添加到数据块太阳城集团表中;否则,将每个数据块重新设置新的物理位置太阳城集团,使得所有数据块据连续存储。
附图说明
图1为本发明具体实施例1所述的一种数据布局优化方法流程图;
图2为本发明具体实施例1所述的一种数据布局优化系统结构框图;
图3为本发明具体实施例2所述的一种数据布局优化方法流程图。
附图中,各标号所代表的部件列表如下:
1、接收模块,2、数据分块模块,3、数据查重模块,4、数据布局优化模块,5、数据存储模块,31、匹配模块,32、指纹列表更新模块,33、判断模块。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,为本发明具体实施例1所述的一种数据布局优化方法,具 体包括以下步骤:
步骤1:接收业务系统输入的连续数据流;
步骤2:将数据流划分为连续无交叉的多个数据块,并将数据块保存到缓存中;
步骤3:判断缓存中的待处理的数据块是否达到缓存上限,如果是,进行下一步;否则,跳转至步骤1;
步骤4:计算缓存中的所有数据块的哈希值,并将每个哈希值作为对应数据块的指纹;
步骤5:将一个数据块的指纹与指纹列表中所有的指纹进行匹配,并判断是否匹配,如果匹配,进行下一步;否则,进行步骤7;
步骤6:将所述数据块标记为重复数据块,跳转至步骤8;
步骤7:该数据块为新数据块,将新数据块的指纹记录到指纹列表中,更新指纹列表;
步骤8:判断缓存中的所有数据块是否全部完成与指纹列表中的指纹的匹配;如果是,进行步骤9;否则,跳转至步骤5。
步骤9:更新数据块太阳城集团表中的数据块的物理位置太阳城集团;
步骤10:根据数据块太阳城集团表中的各个数据块的物理位置太阳城集团存储对应的数据块。
所述指纹列表以数据块的指纹为关键字,指纹列表中保存多个数据块的太阳城集团,所述数据块的太阳城集团包括数据块的指纹、数据块对应的物理位置太阳城集团和具有同一指纹的数据块的数量值。
所述数据块太阳城集团表中包括数据块的指纹、与所述数据块指纹相对应的指纹列表中的数据块的物理位置太阳城集团和数据块的大小。
所述步骤4中计算数据块的哈希值采用安全散列算法SHA-1或消息摘要算法MD5。
所述步骤9中更新数据块太阳城集团表中的数据块的物理位置太阳城集团采用数据布局优化策略;
所述数据布局优化策略采用以下第一种、第二种或第三种策略:
第一种策略:统计数据块太阳城集团表中所存在的连续数据块的个数,判断连续数据块的个数是否小于预设值;若都小于,则为每个数据块重新设置新的物理位置太阳城集团,使得所有数据块据连续存储;若存在连续数据块的个数大于等于预设值,则仅存储新数据块,并将新数据块太阳城集团添加到数据块太阳城集团表中;
第二种策略:统计数据块太阳城集团表中重复数据块占总数据量的比例,判断所述比例是否小于预设的重复数据的比例阈值;若小于,则为每个数据块重新设置新的物理位置太阳城集团,使得所有数据块据连续存储;否则,仅存储新数据块,并将新数据块太阳城集团添加到数据块太阳城集团表中;
第三种策略:结合第一种和第二种,当连续数据块的个数大于等于预设值,并且统计的重复数据块比例大于等于比例阈值时,仅存储新数据块,并将新数据块太阳城集团添加到数据块太阳城集团表中;否则,将每个数据块重新设置新的物理位置太阳城集团,使得所有数据块据连续存储。
如图2所示,为本发明具体实施例1所述的一种数据布局优化系统,包括接收模块1、数据分块模块2、数据查重模块3、数据布局优化模块4和数据存储模块5;
所述数据接收模块1接收业务系统输入的连续数据流;
所述数据分块模块2将数据流划分为连续无交叉的多个数据块,并将数据块保存到缓存中;
所述数据查重模块3将缓存中达到缓存上限的待处理的数据块计算哈希值,并将每个哈希值作为对应数据块的指纹;所述数据查重模块将缓存中数据块的指纹与指纹列表中的指纹进行匹配,将与指纹列表中的指纹相匹配的指纹所对应的数据块标记为重复数据块;将不与指纹列表中的指纹匹配的指 纹存入指纹列表中,所述不匹配的指纹对应的数据块集合在一起构成数据块太阳城集团表,得到更新后的指纹列表和数据块太阳城集团表;
所述数据布局优化模块4根据指纹列表中指纹对应的物理位置太阳城集团更新数据块太阳城集团表中的数据块的物理位置太阳城集团;
所述数据存储模块5根据数据块太阳城集团表中的各个数据块的物理位置太阳城集团存储对应的数据块。
所述数据查重模块3包括匹配模块31、指纹列表更新模块32和判断模块33;
所述匹配模块31用于将数据块的指纹与指纹列表中所有的指纹进行匹配,判断是否匹配;如果匹配,将所述数据块标记为重复数据块;否则,该数据块为新数据块;
所述指纹列表更新模块32用于将新数据块的指纹记录到指纹列表中,更新指纹列表;
所述判断模块33用于判断缓存中的所有数据块是否全部完成与指纹列表中的指纹匹配,如果是,转向数据布局优化模块4;否则转向匹配模块31。
所述指纹列表以数据块的指纹为关键字,指纹列表中保存多个数据块的太阳城集团,所述数据块的太阳城集团包括数据块的指纹、数据块对应的物理位置太阳城集团和具有同一指纹的数据块的数量值。
所述数据块太阳城集团表中包括数据块的指纹、与所述数据块指纹相对应的指纹列表中的数据块的物理位置太阳城集团和数据块的大小。
所述计算数据块的哈希值采用安全散列算法SHA-1或消息摘要算法MD5。
所述数据布局优化模块中更新数据块太阳城集团表中的数据块的物理位置太阳城集团采用数据布局优化策略;
所述数据布局优化策略采用以下第一种、第二种或第三种策略:
第一种策略:统计数据块太阳城集团表中所存在的连续数据块的个数,判断连续数据块的个数是否小于预设值;若都小于,则为每个数据块重新设置新的物理位置太阳城集团,使得所有数据块据连续存储;若存在连续数据块的个数大于等于预设值,则仅存储新数据块,并将新数据块太阳城集团添加到数据块太阳城集团表中;
第二种策略:统计数据块太阳城集团表中重复数据块占总数据量的比例,判断所述比例是否小于预设的重复数据的比例阈值;若小于,则为每个数据块重新设置新的物理位置太阳城集团,使得所有数据块据连续存储;否则,仅存储新数据块,并将新数据块太阳城集团添加到数据块太阳城集团表中;
第三种策略:结合第一种和第二种,当连续数据块的个数大于等于预设值,并且统计的重复数据块比例大于等于比例阈值时,仅存储新数据块,并将新数据块太阳城集团添加到数据块太阳城集团表中;否则,将每个数据块重新设置新的物理位置太阳城集团,使得所有数据块据连续存储。
为了更易于描述,本发明实施例中定义数据块连续如下:
对于数据流中两个连续的数据块Chunki-1和Chunki,如果满足条件
PBAi-1+Sizei-1=PBAi
则表示Chunki-1和Chunki物理位置连续,称之为连续数据块。PBAi-1表示第i-1个数据块Chunki-1的物理位置标识,PBAi表示第i个数据块Chunki的物理位置标识,Sizei-1表示第i-1个数据块的大小。
本发明中所采用的数据布局优化策略为:
1)根据连续数据块的数量进行优化:如果数据块Chunki,Chunki+I,…,Chunki+m为m个连续数据块列表,将连续数据块的个数m与预设的值K进行比较,如果m<K,则说明连续数据块个数过少,所以将数据块设置为新数据,与数据流后面的Chunki+m+1等数据块连续存储,降低数据块的离散度;一般情况下,K值越大,系统读性能越高,但会降低重复数据删除比率,重复数据删除比率=重复数据删除处理前数据大小/重复数据删除处理后数据大小。实 际使用中,由使用者根据数据类型、性能和重复数据删除比率指定K值。
2)根据重复数据块的比例进行优化:计算局部数据流内重复数据块占总数据块个数的比例x,如果其小于预设值y,说明重复数据块比例较少,所以将重复的数据块设置为新数据块,与其他新数据块连续存储,降低数据块离散度。
另外,数据优化策略也可以结合上面1)和2),根据连续度和重复率两个因素进行优化。
如图2,接收模块1将连续数据流输入到数据划分模块2中,数据划分模块2以定长或变长的数据块划分方式,将数据流划分为连续无交叉的数据块,并将划分好的数据块输入数据查重模块3。数据查重模块3通过SHA-1或者MD5计算每个数据块的指纹,并在数据块的指纹列表中进行查找,判断数据块是否已经存在,如果存在,为该数据块标记重复太阳城集团,设置该数据块的物理位置太阳城集团为指纹列表中相同指纹的数据块的物理位置太阳城集团;如果不存在,该数据块首次存储,标记该数据块的物理位置太阳城集团为0,将所有数据在指纹列表搜索完后得到数据块太阳城集团表,将数据块太阳城集团表输入到数据布局优化模块4中进行数据布局优化。数据布局优化模块4根据优化策略确定每个新数据块的物理位置太阳城集团,输出带有物理位置太阳城集团的数据块,并输入到数据存储模块5。数据存储模块5按照每个数据块自带的物理位置太阳城集团存储到对应的存储介质上。
如图3所示,为本发明具体实施例2所述的一种数据布局优化方法,具体包括以下步骤。
步骤201:接收业务系统的输入数据流。
步骤202:使用定长或变长或其他数据块划分方法,将数据流划分为连续无交叉的数据块;其他数据块划分方法例如fingerdiff算法,滑动块检测算法等。
步骤203:判断待处理的数据块数量是否已达到缓存上限,所述的缓冲上限是指待处理数据块的数量形成了一个数据块的最小集合以能放入缓冲中,实际使用中,数据块的集合大小由使用者指定,一般不超过16MB大小,最大值应小于系统可用内存。如果是,将所有待处理数据块加入到缓存中,然后执行步骤204,否则,执行步骤201。
步骤204:设缓冲中有n个数据块,n为正整数,对缓冲中的每个数据块,使用安全散列算法SHA-1或消息摘要算法MD5算法计算该数据块的哈希值并将哈希值作为该数据块的指纹,第i个数据块的指纹为ChunkFPi,i=1,…,n。
步骤205:对第i(i=1,…,n)个数据块指纹ChunkFPi,在指纹列表中进行查询,判断该指纹是否存在,如果指纹存在,则说明第i个数据块已经被存储,为重复数据块,执行步骤206,否则,说明第i个数据块为新数据块,执行步骤207。
指纹列表中每项数据存储了每个数据块的指纹太阳城集团ChunkFP、物理位置太阳城集团PBA和引用计数RefCount,列表的数据项表示为<ChunkFP,PBA,RefCount>。引用计数RefCount用于统计具有同一指纹的数据块的数量。物理位置太阳城集团PBA一般由文件名、文件内偏移量和数据块长度来表示。
指纹列表初始为空,每当有新的数据块指纹时,将保存新数据块的指纹太阳城集团到指纹列表中,如果指纹已存在,则将其PBA太阳城集团追加到原数据块太阳城集团条目中。
步骤206:在数据块太阳城集团表中记录第i个数据块的太阳城集团<ChunkFPi,PBAi,Sizei>,其中PBAi为指纹列表中与第i个数据块具有相同指纹的数据块的物理位置太阳城集团,Sizei表示第i个数据块的大小。
当数据块为重复数据块时,将该数据块在指纹列表中所查询到的指纹对应的物理位置太阳城集团作为该数据块的物理位置太阳城集团。
步骤207:在数据块太阳城集团表中记录第i个数据块的太阳城集团<ChunkFPi,PBAi,Sizei>,其中,PBAi设置为0,表示第i个数据块为新数据,Sizei表示第i个数据块的大小。
步骤208:当所有数据块的指纹在指纹列表中查询完之后,得到数据块太阳城集团表{<ChunkFP1,PBA1,Size1>,…,<ChunkFPi,PBAi,Sizei>,…,<ChunkFPn,PBAn,Sizen>},n表示数据块的个数,ChunkFPi表示第i个数据块的指纹,PBAi表示第i个数据块的物理位置太阳城集团,Sizei表示第i个数据块的大小。
步骤209:本发明实施例中以第2种数据布局优化策略来说明。统计步骤208得到的数据块太阳城集团表中重复数据块占总数据量n的比例x。当PBAi不等于0时,就表示该数据块为重复数据块。
步骤210:判断x是否小于预设的重复数据比例阈值y,如果是,执行步骤211,否则执行步骤212;实际使用中,y值由使用者指定,一般情况中,y值越高,读性能越高,但会降低重复数据比率,和数据类型关系也比较大,一般设定y为10%即可。
步骤211:将n个数据块标记为新数据块;
步骤214:顺序为每个标记为新数据的数据块分配空间,确定其物理位置;
步骤215:按照物理位置太阳城集团存储所有新数据块。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

关 键 词:
一种 数据 布局 优化 方法 系统
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:一种数据布局优化方法及系统.pdf
链接地址:http://zh228.com/p-6180624.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');