太阳城集团

  • / 15
  • 下载费用:30 金币  

文件处理方法和装置.pdf

摘要
申请专利号:

CN201510437027.1

申请日:

2015.07.23

公开号:

CN104991963A

公开日:

2015.10.21

当前法律状态:

授权

有效性:

有权

法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20150723|||公开
IPC分类号: G06F17/30 主分类号: G06F17/30
申请人: 中国工商银行股份有限公司
发明人: 鲁莽; 孙艳; 林子涯; 韩方明
地址: 100140北京市西城区复兴门内大街55号
优先权:
专利代理机构: 北京三友知识产权代理有限公司11127 代理人: 王天尧
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201510437027.1

授权太阳城集团号:

||||||

法律状态太阳城集团日:

2018.09.25|||2015.11.18|||2015.10.21

法律状态类型:

太阳城集团授权|||实质审查的生效|||公开

摘要

本发明提供了一种文件处理方法和装置,其中,该方法包括:获取需要解析对比的两组文件的文件清单;将两组文件的文件清单中含有通配符的文件名进行两两配对;对两两配对后的文件名进行基于有向拓扑序列的交集运算,得到交集的候选拓扑序列;将候选拓扑序列还原为含通配符的文件名表达式,并确定生成该文件名的文件名对之间的交集关系;对确定出的各对文件名之间的交集关系进行汇总合并,以确定出两组文件的文件清单之间的交集关系;根据确定的两组文件的文件清单之间的交集关系,响应于用户输入的操作指令对两组文件进行处理。通过本发明达到了对含通配符的文件清单进行快速和准确地解析,从而有效提高文件管理的效率和可靠性的目的。

权利要求书

权利要求书
1.  一种文件处理方法,其特征在于,包括:
获取需要解析对比的两组文件的文件清单;
将两组文件的文件清单中含有通配符的文件名进行两两配对;
对两两配对后的文件名进行基于有向拓扑序列的交集运算,得到交集的候选拓扑序列;
将所述候选拓扑序列还原为含通配符的文件名表达式,并根据还原结果,确定生成该文件名的文件名对之间的交集关系;
对确定出的各对文件名之间的交集关系进行汇总合并,以确定出两组文件的文件清单之间的交集关系;
根据确定的两组文件的文件清单之间的交集关系,响应于用户输入的操作指令对两组文件进行处理。

2.  如权利要求1所述的方法,其特征在于,根据还原结果,确定生成该文件名的文件名对之间的交集关系,包括:
对还原出的文件名表达式进行合法性检查;
根据合法性检查的结果,按照以下规则确定生成该文件名的文件名对之间的交集关系:
如果还原出的文件名表达式未能通过合法性检查,则确定生成该文件名表达式的文件名对的交集为空;
如果还原出的文件名表达式能通过合法性检查,且还原出的文件名表达式与生成该文件名的文件名对中的一个文件名完全相同,则确定生成该文件名表达式的文件名对之间为包含和被包含关系;
如果还原出的文件名表达式能通过合法性检查,且与生成该文件名表达式的文件名对中的任意一个文件名都不同,则确定生成该文件名表达式的文件名对之间为相交关系。

3.  如权利要求1所述的方法,其特征在于,对还原出的文件名表达式进行合法性检查,包括:
将还原出的文件名表达式中的文件名段数、除去通配符部分的长度、每段文件名 的长度与预定的限制规则进行比较;
如果都满足限制规则,则确定通过合法性检查。

4.  如权利要求1至3中任一项所述的方法,其特征在于,对两两配对后的文件名进行基于有向拓扑序列的交集运算,得到交集的候选拓扑序列,包括:
对两两配对后的文件名中的各对文件名执行如下操作:
分别构建该对中的两个文件名的等价拓扑有向图;
对这两个文件名的等价拓扑有向图进行合并,得到合并后的有向图的所有拓扑序列,添加权值并筛选出合法的序列;
对筛选后的拓扑序列进行相邻节点的合并处理,直至不能再合并为止,以得到合并后的一个或多个交集的候选拓扑序列。

5.  一种文件处理装置,其特征在于,包括:
获取模块,用于获取需要解析对比的两组文件的文件清单;
配对模块,用于将两组文件的文件清单中含有通配符的文件名进行两两配对;
拓扑计算模块,用于对两两配对后的文件名进行基于有向拓扑序列的交集运算,得到交集的候选拓扑序列;
交集关系确定模块,用于将所述候选拓扑序列还原为含通配符的文件名表达式,并根据还原结果,确定生成该文件名的文件名对之间的交集关系;
合并模块,用于对确定出的各对文件名之间的交集关系进行汇总合并,以确定出两组文件的文件清单之间的交集关系;
处理模块,用于根据确定的两组文件的文件清单之间的交集关系,响应于用户输入的操作指令对两组文件进行处理。

6.  如权利要求5所述的装置,其特征在于,所述交集关系确定模块包括:
合法性检查单元,用于对还原出的文件名表达式进行合法性检查;
交集判断单元,用于根据合法性检查的结果,按照以下规则确定生成该文件名的文件名对之间的交集关系:
如果还原出的文件名表达式未能通过合法性检查,则确定生成该文件名表达式的文件名对的交集为空;
如果还原出的文件名表达式能通过合法性检查,且还原出的文件名表达式与生成该文件名的文件名对中的一个文件名完全相同,则确定生成该文件名表达式的文件名 对之间为包含和被包含关系;
如果还原出的文件名表达式能通过合法性检查,且与生成该文件名表达式的文件名对中的任意一个文件名都不同,则确定生成该文件名表达式的文件名对之间为相交关系。

7.  如权利要求5所述的装置,其特征在于,所述合法性检查单元包括:
比较子单元,用于将还原出的文件名表达式中的文件名段数、除去通配符部分的长度、每段文件名的长度与预定的限制规则进行比较;
确定子单元,用于当还原出的文件名表达式中的文件名段数、除去通配符部分的长度、每段文件名的长度都满足限制规则的情况下,确定通过合法性检查。

8.  如权利要求5至7中任一项所述的装置,其特征在于,所述拓扑计算模块具体用于对两两配对后的文件名中的各对文件名执行如下操作:
分别构建该对中的两个文件名的等价拓扑有向图;
对这两个文件名的等价拓扑有向图进行合并,得到合并后的有向图的所有拓扑序列,添加权值并筛选出合法的序列;
对筛选后的拓扑序列进行相邻节点的合并处理,直至不能再合并为止,以得到合并后的一个或多个交集的候选拓扑序列。

说明书

说明书文件处理方法和装置
技术领域
本发明涉及数据处理技术领域,特别涉及一种文件处理方法和装置。
背景技术
文件备份作为主机数据备份的重要手段之一,主要是通过执行专门的备份作业(可以理解为程序或者任务等)实现的,其中,每一个备份作业所涉及的文件范围主要是由用户在备份策略中设置的文件备份清单确定的。然而,由于主机文件系统的特性,备份策略不仅支持具体的文件名,也允许在文件清单中使用多种不同级别、不同类型的通配符,用于表示在文件命名上有共性的文件集合。同时,备份策略中的文件清单分为“包含”和“排除”两部分,主机通过对这两部分清单进行集合计算以后,最终确定需要备份的文件范围。
主机文件清单对多种通配符的支持简化了文件清单的表达,有效减少了备份策略的条目数量,但同时也由于通配符的抽象性和复杂性,增加了文件清单的解析难度,使得对备份策略的分割、组合和变更等变得难以操作。目前,业内对于主机含通配符的文件清单的解析尚无有效的解决方案,只能借助专业人员凭借经验进行人工分析,或者是通过让系统将含通配符的文件名展开,枚举为明细的文件清单后,再进行进一步的处理。然而,由于主机文件系统中文件数量庞大,命名错综复杂,而且随着业务处理的需要,文件清单往往会发生较为频繁的变化。第一种方法全程需要人工参与,无法实现自动化处理,缺乏可靠性,第二种方法由于操作对象为具体的文件清单,不仅需要耗费大量的系统资源,而且由于输出结果条目过多,在实际应用中也存在诸多不便。
目前,含通配符的文件清单在主机文件管理中的运用非常普遍,例如:批量文件的备份、恢复、删除等主要都是基于这类文件清单的,因此,对含有通配符的文件清单的解析和处理的速度,直接关系到主机文件管理的效率,同时文件清单的解析结果的可靠性,也将直接影响主机数据的安全性和完整性。
针对如何对含通配符的文件清单进行快速和准确地解析,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文件处理方法,以达到对含通配符的文件清单进行快速和准确地解析,从而有效提高文件管理的效率和可靠性的目的,该方法包括:
获取需要解析对比的两组文件的文件清单;
将两组文件的文件清单中含有通配符的文件名进行两两配对;
对两两配对后的文件名进行基于有向拓扑序列的交集运算,得到交集的候选拓扑序列;
将所述候选拓扑序列还原为含通配符的文件名表达式,并根据还原结果,确定生成该文件名的文件名对之间的交集关系;
对确定出的各对文件名之间的交集关系进行汇总合并,以确定出两组文件的文件清单之间的交集关系;
根据确定的两组文件的文件清单之间的交集关系,响应于用户输入的操作指令对两组文件进行处理。
在一个实施方式中,根据还原结果,确定生成该文件名的文件名对之间的交集关系,包括:
对还原出的文件名表达式进行合法性检查;
根据合法性检查的结果,按照以下规则确定生成该文件名的文件名对之间的交集关系:
如果还原出的文件名表达式未能通过合法性检查,则确定生成该文件名表达式的文件名对的交集为空;
如果还原出的文件名表达式能通过合法性检查,且还原出的文件名表达式与生成该文件名的文件名对中的一个文件名完全相同,则确定生成该文件名表达式的文件名对之间为包含和被包含关系;
如果还原出的文件名表达式能通过合法性检查,且与生成该文件名表达式的文件名对中的任意一个文件名都不同,则确定生成该文件名表达式的文件名对之间为相交关系。
在一个实施方式中,对还原出的文件名表达式进行合法性检查,包括:
将还原出的文件名表达式中的文件名段数、除去通配符部分的长度、每段文件名的长度与预定的限制规则进行比较;
如果都满足限制规则,则确定通过合法性检查。
在一个实施方式中,对两两配对后的文件名进行基于有向拓扑序列的交集运算,得到交集的候选拓扑序列,包括:
对两两配对后的文件名中的各对文件名执行如下操作:
分别构建该对中的两个文件名的等价拓扑有向图;
对这两个文件名的等价拓扑有向图进行合并,得到合并后的有向图的所有拓扑序列,添加权值并筛选出合法的序列;
对筛选后的拓扑序列进行相邻节点的合并处理,直至不能再合并为止,以得到合并后的一个或多个交集的候选拓扑序列。
本发明实施例还提供了一种文件处理装置,以达到对含通配符的文件清单进行快速和准确地解析,从而有效提高文件管理的效率和可靠性的目的,该装置包括:
获取模块,用于获取需要解析对比的两组文件的文件清单;
配对模块,用于将两组文件的文件清单中含有通配符的文件名进行两两配对;
拓扑计算模块,用于对两两配对后的文件名进行基于有向拓扑序列的交集运算,得到交集的候选拓扑序列;
交集关系确定模块,用于将所述候选拓扑序列还原为含通配符的文件名表达式,并根据还原结果,确定生成该文件名的文件名对之间的交集关系;
合并模块,用于对确定出的各对文件名之间的交集关系进行汇总合并,以确定出两组文件的文件清单之间的交集关系;
处理模块,用于根据确定的两组文件的文件清单之间的交集关系,响应于用户输入的操作指令对两组文件进行处理。
在一个实施方式中,所述交集关系确定模块包括:
合法性检查单元,用于对还原出的文件名表达式进行合法性检查;
交集判断单元,用于根据合法性检查的结果,按照以下规则确定生成该文件名的文件名对之间的交集关系:
如果还原出的文件名表达式未能通过合法性检查,则确定生成该文件名表达式的 文件名对的交集为空;
如果还原出的文件名表达式能通过合法性检查,且还原出的文件名表达式与生成该文件名的文件名对中的一个文件名完全相同,则确定生成该文件名表达式的文件名对之间为包含和被包含关系;
如果还原出的文件名表达式能通过合法性检查,且与生成该文件名表达式的文件名对中的任意一个文件名都不同,则确定生成该文件名表达式的文件名对之间为相交关系。
在一个实施方式中,所述合法性检查单元包括:
比较子单元,用于将还原出的文件名表达式中的文件名段数、除去通配符部分的长度、每段文件名的长度与预定的限制规则进行比较;
确定子单元,用于当还原出的文件名表达式中的文件名段数、除去通配符部分的长度、每段文件名的长度都满足限制规则的情况下,确定通过合法性检查。
在一个实施方式中,所述拓扑计算模块具体用于对两两配对后的文件名中的各对文件名执行如下操作:
分别构建该对中的两个文件名的等价拓扑有向图;
对这两个文件名的等价拓扑有向图进行合并,得到合并后的有向图的所有拓扑序列,添加权值并筛选出合法的序列;
对筛选后的拓扑序列进行相邻节点的合并处理,直至不能再合并为止,以得到合并后的一个或多个交集的候选拓扑序列。
在上述实施例中,提取出两组文件的文件清单,并对其中含有通配符的条目进行两两配对进行求交集运算,再将条目求交集计算的结果行进一步汇总和整理,从而得到两组文件的文件清单之间的相互包含关系以及交集部分的内容,进一步的,引入了基于拓扑有向图的字符串交集算法,实现了文件清单中各类通配符的准确分析,从而解决了现有技术中难以对含通配符的文件清单进行快速和准确地解析的技术问题,达到了有效提高文件管理的效率和可靠性的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1是根据本发明实施例的文件处理方法的一种方法流程图;
图2是根据本发明实施例的文件处理方法的另一方法流程图;
图3是根据本发明实施例的文件处理方法的又一方法流程图;
图4是根据本发明实施例的文件处理装置的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在本例中,提供了一种文件处理方法,用以解决现有技术中在主机文件管理操作中,难以准确解析含通配符的文件清单的问题。如图1所示,该方法包括:
步骤101:获取需要解析对比的两组文件的文件清单;
获取的需要解析对比的文件,可以是用户输入的两组或者多组包含通配符文件清单的作业或者文件。具体实现的时候,当输入为作业时,可以从作业中涉及文件操作的定义部分读取文件清单,当输入为仅包含文件清单的文件时,可以直接执行读取操作,在文件清单读取完成后,就可以进行解析了。在实施时,一般选择两组文件进行后续操作,即,可以两组两组文件进行。
具体地,可以预先设定完备的文件清单提取机制,然后在实际执行的过程中可以自动判定用户输入的文件和作业的类型,同时根据确定的输入类型采取相应的操作,从输入的文件和作业中正确提取出含通配符的文件清单部分的内容。
步骤102:将两组文件的文件清单中含有通配符的文件名进行两两配对;
即,可以先从需要进行比对的两组文件中获取各组清单中含有通配符的文件名,然后对两组文件中含有通配符的文件名进行两两配对,例如,可以按照相似度进行匹配配对。
步骤103:对两两配对后的文件名进行基于有向拓扑序列的交集运算,得到交集的候选拓扑序列;
具体地,为需要比对的文件名分别构建等价的拓扑有向图,并进行合并,求出合并后有向图的所有拓扑序列,添加权值并筛选出合法的序列,对筛选后的拓扑序列进行相邻节点合并处理,直至不能再合并为止,合并后得到的一个或多个候选的拓扑序 列。
步骤104:将所述候选拓扑序列还原为含通配符的文件名表达式,并根据还原结果,确定生成该文件名的文件名对之间的交集关系;
具体地,在将所述候选拓扑序列还原为含通配符的文件名表达式之后,根据还原结果,确定生成该文件名的文件名对之间的交集关系之前,还可以先对还原出的含通配符的文件名表达式进行合法性筛选,同时消除其中重复的表达式,然后再确定相互之间的交集关系。
该步骤实现的原理可以是:将节点合并后获得的拓扑序列还原成表达式,然后根据主机文件的命名规则,对表达式进行合法性筛选,同时消除重复的表达式,在完成上述操作之后,便可以获得两个文件名所指代的文件集合之间的关系,即确定出两个文件名所指代的集合之间的关系为:包含、被包含、无关或者有交集之间的一种,并获得文件集合之间的关系表达式。
例如:当进行计算后没有获得候选拓扑序列,或者候选拓扑序列还原出的文件名表达式均未能通过合法性筛选时,则可以确定这两组文件清单的文件名交集为空;当还原出来的文件名表达式与输入的两个文件名中的一个完全相同,则可以确定这两组文件清单的文件名之间是包含与被包含的关系;当在通过筛选和消除重复后,得到了与两个输入文件名均不相同的表达式,则可以将该表达式作为交集,这个交集就相当于指代两个文件名所指代文件范围的重叠部分。
步骤105:对确定出的各对文件名之间的交集关系进行汇总合并,以确定出两组文件的文件清单之间的交集关系;
如果文件清单中的文件名之间两两无交集,则表明两个清单之间没有重叠部分,如果文件清单A中所有表达式都是文件名清单B的子集,则可以确定出文件名清单A是文件名清单B的子集。
步骤106:根据确定的两组文件的文件清单之间的交集关系,响应于用户输入的操作指令对两组文件进行处理。
按照用户选择的操作对文件清单执行相应的操作,如果用户选择的是合并操作,则根据文件清单的交集计算结果,对文件清单进行合并操作,如果用户选择的是分割操作,则根据文件清单的交集计算结果,对文件清单进行分割操作,如果用户选择的是对比操作,则直接输出文件清单的交集计算结果即可。即,在文件清单交集比对解 析结果的基础上,根据用户需要对文件清单执行相应的操作(例如:合并、分割、检查比对等),在对文件清单进行相应的操作处理后,输出处理结果。
在上述实施例中,提取出两组文件的文件清单,并对其中含有通配符的条目进行两两配对进行求交集运算,再将条目求交集计算的结果行进一步汇总和整理,从而得到两组文件的文件清单之间的相互包含关系以及交集部分的内容,进一步的,引入了基于拓扑有向图的字符串交集算法,实现了文件清单中各类通配符的准确分析,从而解决了现有技术中难以对含通配符的文件清单进行快速和准确地解析的技术问题,达到了有效提高文件管理的效率和可靠性的技术效果。
下面将结合一个具体的实施例,对上述文件处理方法进行说明,如图2所示,包括如下步骤:
步骤201:用户选择操作类型,并指定需要进行解析对比的两组或多组作业,或者是包含文件清单的输入文件;
步骤202:接收用户的输入后,记录用户选择的操作类型,同时对用户输入的各组作业或文件逐个进行解析,提取出文件清单的内容,并检查其中是否包含通配符,如果文件清单中有含通配符的内容,则执行步骤203,否则转而执行步骤208。
步骤203:根据从作业中提取的文件清单,将不同组文件清单中的文件名两两配对形成文件名对。
步骤204:对生成的文件名对逐对进行基于有向拓扑序列的交集运算,得到交集的候选拓扑序列。
以主机文件名AB.**.CD.**和AB.CD.**.EF为例,“.”为分隔符,**为代表任意段数、任意数量字符的通配符。在进行交集计算时,首先将文件名分别转换为如下所示的带边权值的有向图:
序列1:首节点—(0)—AB—(1)—CD—(1)—末节点
序列2:首节点—(0)—AB.CD—(1)—EF—(0)—末节点
其中,横线括号中的数字为边权值,在有通配符时,边权值取1。
然后,将上述两个序列进行合并运算,得到不含边权值的拓扑序列:
首节点——AB.CD——AB——CD——EF——末节点
具体的,对属于不同序列的相邻节点进行合并计算,并添加边权值,AB.CD节点和AB节点合并后为AB.CD,合并后边权值仍为1,CD和EF无法合并无交集, 因此保留原有的边权值。
最终计算得到的交集序列为:
首节点—(0)—AB.CD—(1)—CD—(1)—EF—(0)—末节点
步骤205:将计算得到的交集候选拓扑序列还原为含通配符的文件名表达式,例如,可以将上述的交集序列还原为表达式AB.CD.**.CD.**.EF。
步骤206:对还原出的表达式进行合法性检查和筛选,去除重复的表达式,获得文件名交集的表达式,并根据交集表达式判断输入的各对文件名之间的关系。
具体的,合法性检查筛选可以是基于文件系统的命名规范限制进行的,例如:交集的文件名表达式除去通配符部分的长度是否超过限制,文件名的段数是否超过允许数量,每段的长度是否超过文件系统限制等。
如果交集表达式为空,则表明输入的两个文件名表达式所指代的文件无重叠,如果交集表达式与原来的两个文件名表达式中的一个相同,则表明该文件名表达式所指代的文件为另一表达式的子集,否则表明两个文件名之间并无包含关系。
步骤207:对处理得出的各对文件名之间的交集关系进行汇总、合并,以获得各组文件清单之间的交集关系。如果清单中的文件名之间两两无交集,则表明两清单无重叠部分;如果文件清单A中所有表达式都是文件名清单B的子集,则表明文件名清单A也是文件名清单B的子集。
步骤208:由于文件清单中不包含通配符,只需将各组的文件清单中的文件名逐条进行比对,相同的文件名即为清单的交集部分。
步骤209:根据用户的选择对这些文件清单执行相应操作:如果用户选择合并操作,则执行步骤210;如果用户选择分割操作,则执行步骤211;如果用户选择对比操作,则执行步骤212。
步骤210:根据文件清单的交集计算结果,对文件清单进行合并操作。
步骤211:根据文件清单的交集计算结果,对文件清单进行分割操作。
步骤212:输出文件清单的交集计算的结果。
如图3所示,为对上述步骤204至步骤207的具体表述,即,基于有向拓扑序列的交集运算可以包括如下步骤:
步骤301:为输入的文件名NAMEA和NAMEB分别构建等价的拓扑有向图,并进行合并;
步骤302:计算出合并后的拓扑有向图,生成对应的所有可能的拓扑序列,并为拓扑序列添加边权值;
步骤303:对各个拓扑序列循环进行节点合并,直至不能再合并为止;
步骤304:对合并后的拓扑序列进行筛选,得到候选的候选交集拓扑序列;
步骤305:将候选的交集拓扑序列还原为含通配符的文件名表达式;
步骤306:消除重复的文件名表达式,并进行合法性筛选,得到交集部分对应的表达式EXP;
步骤307:根据EXP对NAMEA和NAMEB的相互关系进行判断:如果EXP为空,则NAMEA和NAMEB所代表的文件范围互不重叠,不存在交集;如果EXP的表达式与NAMEA或NAMEB相同,则说明NAMEA和NAMEB之间为包含与被包含的关系;如果EXP的表达式与NAMEA或NAMEB都不相同,说明NAMEA和NAMEB部分重叠,存在表达式为EXP的交集。
通过上述实施例提供的文件处理方法,解决了含通配符文件清单解析的难题,提供了一套对文件备份、恢复、复制、删除作业中包含通配符的文件清单进行快速解析的方案,且可以在无需人工干预的情况下实现对此类文件清单的对比、合并和分割操作。首先,实现了含通配符文件清单的准确解析,由于含通配符文件清单的抽象性,人工解析的方式只能凭借经验进行估计,无法实现完全准确解析,通过引入的基于有向拓扑序列的交集算法,解决了准确对此类文件清单进行解析的难题,其次,提升了含通配符文件清单的解析速度,减少了资源开销,较以往借助人工的处理方法相比,解析太阳城集团缩短了80%以上,进一步的,解析结果具有很强的通用性,无需处理可以直接用于主机文件清单的管理操作,且由于该方案解析得到的文件清单交集结果是以表达式的形式给出的,基于这一结果可以很方便对含通配符文件清单进行合并、分割和对比操作。
基于同一发明构思,本发明实施例中还提供了一种文件处理装置,如下面的实施例所述。由于文件处理装置解决问题的原理与文件处理方法相似,因此文件处理装置的实施可以参见文件处理方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。图4是本发明实施例的文件处理装置的一种结构框图,如图4所示,包括: 获取模块401、配对模块402、拓扑计算模块403、交集关系确定模块404、合并模块405和处理单元406,下面对该结构进行说明。
获取模块401,用于获取需要解析对比的两组文件的文件清单;
配对模块402,用于将两组文件的文件清单中含有通配符的文件名进行两两配对;
拓扑计算模块403,用于对两两配对后的文件名进行基于有向拓扑序列的交集运算,得到交集的候选拓扑序列;
交集关系确定模块404,用于将所述候选拓扑序列还原为含通配符的文件名表达式,并根据还原结果,确定生成该文件名的文件名对之间的交集关系;
合并模块405,用于对确定出的各对文件名之间的交集关系进行汇总合并,以确定出两组文件的文件清单之间的交集关系;
处理模块406,用于根据确定的两组文件的文件清单之间的交集关系,响应于用户输入的操作指令对两组文件进行处理。
在一个实施方式中,交集关系确定模块404可以包括:合法性检查单元,用于对还原出的文件名表达式进行合法性检查;交集判断单元,用于根据合法性检查的结果,按照以下规则确定生成该文件名的文件名对之间的交集关系:
1)如果还原出的文件名表达式未能通过合法性检查,则确定生成该文件名表达式的文件名对的交集为空;
2)如果还原出的文件名表达式能通过合法性检查,且还原出的文件名表达式与生成该文件名的文件名对中的一个文件名完全相同,则确定生成该文件名表达式的文件名对之间为包含和被包含关系;
3)如果还原出的文件名表达式能通过合法性检查,且与生成该文件名表达式的文件名对中的任意一个文件名都不同,则确定生成该文件名表达式的文件名对之间为相交关系。
在一个实施方式中,合法性检查单元可以包括:比较子单元,用于将还原出的文件名表达式中的文件名段数、除去通配符部分的长度、每段文件名的长度与预定的限制规则进行比较;确定子单元,用于当还原出的文件名表达式中的文件名段数、除去通配符部分的长度、每段文件名的长度都满足限制规则的情况下,确定通过合法性检查。
在一个实施方式中,拓扑计算模块403可以用于对两两配对后的文件名中的各对文件名执行如下操作:分别构建该对中的两个文件名的等价拓扑有向图;对这两个文件名的等价拓扑有向图进行合并,得到合并后的有向图的所有拓扑序列,添加权值并筛选出合法的序列;对筛选后的拓扑序列进行相邻节点的合并处理,直至不能再合并为止,以得到合并后的一个或多个交集的候选拓扑序列。
在另外一个实施例中,还提供了一种软件,该软件用于执行上述实施例及优选实施方式中描述的技术方案。
在另外一个实施例中,还提供了一种存储介质,该存储介质中存储有上述软件,该存储介质包括但不限于:光盘、软盘、硬盘、可擦写存储器等。
从以上的描述中,可以看出,本发明实施例实现了如下技术效果:在上述实施例中,提取出两组文件的文件清单,并对其中含有通配符的条目进行两两配对进行求交集运算,再将条目求交集计算的结果行进一步汇总和整理,从而得到两组文件的文件清单之间的相互包含关系以及交集部分的内容,进一步的,引入了基于拓扑有向图的字符串交集算法,实现了文件清单中各类通配符的准确分析,从而解决了现有技术中难以对含通配符的文件清单进行快速和准确地解析的技术问题,达到了有效提高文件管理的效率和可靠性的技术效果。
显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

关 键 词:
文件 处理 方法 装置
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:文件处理方法和装置.pdf
链接地址:http://zh228.com/p-6377771.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');