太阳城集团

  • / 15
  • 下载费用:30 金币  

一种运维机房的监控系统、方法和搜索引擎.pdf

摘要
申请专利号:

太阳城集团CN201710067387.6

申请日:

2017.02.06

公开号:

CN106776235A

公开日:

2017.05.31

当前法律状态:

实审

有效性:

审中

法律详情: 实质审查的生效IPC(主分类):G06F 11/30申请日:20170206|||公开
IPC分类号: G06F11/30; G06F11/34 主分类号: G06F11/30
申请人: 北京并行科技股份有限公司
发明人: 陈超; 陈健; 黄新平; 范瑾; 乔楠
地址: 100094 北京市海淀区西北旺东路10号院东区21号楼101-301
优先权:
专利代理机构: 北京思睿峰知识产权代理有限公司 11396 代理人: 谢建云;赵爱军
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201710067387.6

授权太阳城集团号:

|||

法律状态太阳城集团日:

太阳城集团2017.06.23|||2017.05.31

法律状态类型:

实质审查的生效|||公开

摘要

本发明公开了一种布置在运维机房监控系统中的搜索引擎,包括:输入/输出接口,适于接收搜索请求,并将操作命令发送给各节点;数据存储设备,适于存储节点状态太阳城集团和运维日志记录,每个节点状态太阳城集团包括节点标识和状态特征向量,每条运维日志记录包括节点标识、解决方案、第一状态特征向量和第二状态特征向量;搜索模块,适于查找节点的状态特征向量,并根据该状态特征向量生成太阳城集团解决方案的列表;检测模块,适于从解决方案列表中依次选取解决方案、执行该解决方案中定义的检测操作;验证模块,适于将检测结果与该解决方案对应的第二状态特征向量进行对比;若对比一致则认为验证通过,若不一致则由检测模块继续进行检测,直到验证通过为止。

权利要求书

1.一种搜索引擎,布置在运维机房的监控系统中,所述运维机房中包含多个节点,其
中,所述搜索引擎包括:
输入/输出接口,适于接收来自客户端的搜索请求,以及将操作命令发送给各节点以便
节点执行相应操作;
数据存储设备,适于存储一个或者多个节点状态太阳城集团和一条或者多条运维日志记录,
其中,每个节点状态太阳城集团包括节点标识和表征该节点的节点状态的状态特征向量,每条运
维日志记录包括节点标识、解决方案、在执行解决方案前节点的第一状态特征向量和在执
行解决方案后节点的第二状态特征向量;
搜索模块,适于提取所述搜索请求中的节点标识,从所述一个或者多个节点状态太阳城集团
中查找与该节点标识相对应的状态特征向量,并从所述一条或者多条运维日志记录中查找
第一状态特征向量与所述状态特征向量相似的运维日志记录、并根据所查找到的运维日志
记录中的解决方案生成解决方案列表;
检测模块,适于从所述解决方案列表中依次选取一个解决方案、执行该解决方案中定
义的检测操作,并获取该节点或机房的当前状态太阳城集团作为检测结果;
验证模块,适于将检测结果与该解决方案对应的第二状态特征向量进行对比,若对比
一致则认为验证通过,若对比不一致则认为验证不通过;
所述输入/输出接口还适于在验证通过时发送解决方案中定义的执行操作给相应节
点,以便该节点执行所述解决方案的执行操作;以及
所述检测模块还适于在验证不通过时从所述解决方案列表中依序选取下一个解决方
案并进行检测,直到验证通过为止。
2.如权利要求1所述的搜索引擎,其中,所述搜索模块包括:
提取子单元,适于提取所述搜索请求中的节点标识;
查找子单元,适于从所述一个或多个节点状态太阳城集团中查找与该节点标识相对应的状态
特征向量;以及
计算子单元,适于从所述一条或多条运维日志记录中计算与该状态特征向量相似的至
少一个第一状态特征向量、并根据其在运维日志记录中的解决方案生成解决方案列表。
3.如权利要求1或2所述的搜索引擎,所述搜索引擎与用于采集机房内节点状态太阳城集团的
采集器相连接,
所述输入/输出接口还适于通过所述采集器获取各节点的状态,
其中,所述节点的状态包括节点的CPU运行状态数据和内存运行状态数据。
4.如权利要求3所述的搜索引擎,其中,所述搜索引擎与用于采集机房状态太阳城集团的采集
器相连接,
所述输入/输出接口还适于通过所述采集器获取机房的状态,
其中,所述机房的状态包括机房温度、湿度、电源、网络连接状态。
5.如权利要求4所述的搜索引擎,其中,所述数据存储设备还适于根据各节点的状态和
机房的状态分别生成状态特征向量。
6.一种运维机房的监控系统,包括:
多个采集器,适于采集机房内各节点的状态太阳城集团和机房的状态,其中,所述节点的状态
包括节点的CPU运行状态数据和内存运行状态数据,所述机房的状态包括机房温度、湿度、
电源、网络连接状态;
如权利要求1-5中任一项所述的搜索引擎;以及
执行器,布置在机房内各节点上,适于在接收到来自搜索引擎的执行命令时,执行对应
解决方案的执行操作。
7.如权利要求6所述的监控系统,还包括:
客户端,适于接收用户输入,并发送搜索请求给所述搜索引擎。
8.一种运维机房的监控方法,包括步骤:
响应于搜索请求,提取所述搜索请求中的节点标识;
从一个或多个节点状态太阳城集团中查找该节点标识对应的状态特征向量,其中每个节点状
态太阳城集团包括节点标识和表征节点状态的状态特征向量;
从一条或多条运维日志记录中查找与该状态特征向量相似的至少一个第一状态特征
向量对应的运维日志记录,其中每条运维日志记录包括节点标识、解决方案、在执行解决方
案前节点的第一状态特征向量和在执行解决方案后节点的第二状态特征向量;
根据所查找到的运维日志记录中的解决方案生成解决方案列表;
从所述解决方案列表中依次选取一个解决方案并执行该解决方案中定义的检测操作,
并获取该节点或机房的当前状态太阳城集团作为检测结果;
将检测结果与该解决方案相关联的第二状态特征向量进行对比,若对比一致则认为验
证通过,发送解决方案中定义的执行操作给相应节点,以便该节点执行所述解决方案的执
行操作;以及
若对比不一致则认为验证不通过,从所述解决方案列表中依序选取下一个解决方案,
重复上述检测、对比验证步骤,直到验证通过为止。
9.如权利要求8所述的方法,在所述从一个或多个节点状态太阳城集团中查找该节点标识对
应的状态特征向量的步骤之前,还包括步骤:
获取机房内各节点的状态,并生成对应节点的状态特征向量;
其中,所述节点的状态包括节点的CPU运行状态数据和内存运行状态数据。
10.如权利要求9所述的方法,所述获取机房内各节点状态的步骤还包括:
获取机房的状态,并生成机房的状态特征向量;
其中,所述机房的状态包括机房温度、湿度、电源、网络连接状态。

说明书

一种运维机房的监控系统、方法和搜索引擎

技术领域

本发明涉及运维机房监控技术领域,尤其是一种运维机房的监控系统、方法和搜
索引擎。

背景技术

现代太阳城集团化机房的环境设备(如,供配电、空调、消防、温湿度、漏水设备等)为计算
机系统提供可靠的运行环境,同时,运维机房中大型计算设备本身的运行状态也对运维机
房的正常运行至关重要。因此,对运维机房的监控是机房维护的重要工作之一。如上所述,
运维机房内存在许多需要监控的要素,例如,计算设备的运气状态、供配电状态、空调运行
情况、消防、温度、湿度、漏水等,一旦运维机房内出现电源故障、环境温度过高、空调运行异
常、火灾和漏水等故障而又得不到及时处理,势必会对计算设备运行乃至计算机网络系统
构成威胁,甚至会造成严重后果及损失。

传统运维机房的监控设备对工作人员的依赖性强、工作效率低,一旦发生故障,只
能向监控中心发送报警太阳城集团,工作人员接收到报警太阳城集团后再开始排查故障、进行维修,严重
影响故障排除太阳城集团和工作效率。

因此,需要一种能够节约运维人力成本和太阳城集团成本的监控方案。

发明内容

为此,本发明提供了一种运维机房的监控系统、方法和搜索引擎,以力图解决或者
至少缓解上面存在的至少一个问题。

根据本发明的一个方面,提供了一种搜索引擎,布置在运维机房的监控系统中,运
维机房中包含多个节点,其中搜索引擎包括:输入/输出接口,适于接收来自客户端的搜索
请求,以及将操作命令发送给各节点以便节点执行相应操作;数据存储设备,适于存储一个
或者多个节点状态太阳城集团和一条或者多条运维日志记录,其中,每个节点状态太阳城集团包括节点
标识和表征该节点的节点状态的状态特征向量,每条运维日志记录包括节点标识、解决方
案、在执行解决方案前节点的第一状态特征向量和在执行解决方案后节点的第二状态特征
向量;搜索模块,适于提取所述搜索请求中的节点标识,从一个或者多个节点状态太阳城集团中查
找与该节点标识相对应的状态特征向量,并从一条或者多条运维日志记录中查找第一状态
特征向量与状态特征向量相似的运维日志记录、并根据所查找到的运维日志记录中的解决
方案生成解决方案列表;检测模块,适于从解决方案列表中依次选取一个解决方案、执行该
解决方案中定义的检测操作,并获取该节点或机房的当前状态太阳城集团作为检测结果;验证模
块,适于将检测结果与该解决方案对应的第二状态特征向量进行对比,若对比一致则认为
验证通过,若对比不一致则认为验证不通过;输入/输出接口还适于在验证通过时发送解决
方案中定义的执行操作给相应节点,以便该节点执行所述解决方案的执行操作;以及检测
模块还适于在验证不通过时从所述解决方案列表中依序选取下一个解决方案并进行检测,
直到验证通过为止。

可选地,在根据本发明的搜索引擎中,搜索模块包括:提取子单元,适于提取搜索
请求中的节点标识;查找子单元,适于从一个或多个节点状态太阳城集团中查找与该节点标识相
对应的状态特征向量;以及计算子单元,适于从一条或多条运维日志记录中计算与该状态
特征向量相似的至少一个第一状态特征向量、并根据其在运维日志记录中的解决方案生成
解决方案列表。

可选地,在根据本发明的搜索引擎中,搜索引擎与用于采集机房内节点状态太阳城集团
的采集器相连接,输入/输出接口还适于通过采集器获取各节点的状态,其中,节点的状态
包括节点的CPU运行状态数据和内存运行状态数据。

可选地,在根据本发明的搜索引擎中,搜索引擎与用于采集机房状态太阳城集团的采集
器相连接,输入/输出接口还适于通过所述采集器获取机房的状态,其中,机房的状态包括
机房温度、湿度、电源、网络连接状态。

可选地,在根据本发明的搜索引擎中,数据存储设备还适于根据各节点的状态和
机房的状态分别生成状态特征向量。

可选地,在根据本发明的搜索引擎中,运维日志记录还包括节点所在机房的机房
标识、解决方案、在执行解决方案前机房的第一状态特征向量和在执行解决方案后机房的
第二状态特征向量。

可选地,在根据本发明的搜索引擎中,数据存储设备还适于在验证通过时,将该解
决方案、节点标识和节点的第一状态特征向量、第二状态特征向量作为一条运维日志记录。

可选地,在根据本发明的搜索引擎中,计算子单元还适于采用邻近算法计算状态
特征向量间的相似性。

可选地,在根据本发明的搜索引擎中,计算子单元还适于按照相似度从高到低的
顺序,对所计算出的一条或多条运维日志记录进行排序。

可选地,在根据本发明的搜索引擎中,运维日志记录中还包括节点标识对应的搜
索词。

可选地,在根据本发明的搜索引擎中,提取子单元还适于提取搜索请求中的搜索
词;计算子单元还适于从运维日志记录中计算与所提取的搜索词具有相关性的搜索词对应
的解决方案,一并列入解决方案列表。

可选地,在根据本发明的搜索引擎中,搜索模块还适于在搜索不到与搜索请求中
节点标识和/或搜索词相关的解决方案时,搜索该节点对应机房的解决方案。

根据本发明的又一方面,提供了一种运维机房的监控系统,包括:多个采集器,适
于采集机房内各节点的状态和机房的状态,其中,节点的状态包括节点的CPU运行状态数据
和内存运行状态数据,机房的状态包括机房温度、湿度、电源、网络连接状态;如上所述的搜
索引擎;以及执行器,布置在机房内各节点上,适于在接收到来自搜索引擎的执行命令时,
执行对应解决方案的执行操作。

可选地,在根据本发明的监控系统中,还包括:客户端,适于接收用户输入,并发送
搜索请求给搜索引擎。

根据本发明的又一方面,提供了一种运维机房的监控方法,包括步骤:响应于搜索
请求,提取搜索请求中的节点标识;从一个或多个节点状态太阳城集团中查找该节点标识对应的
状态特征向量,其中每个节点状态太阳城集团包括节点标识和表征节点状态的状态特征向量;从
一条或多条运维日志记录中查找与该状态特征向量相似的至少一个第一状态特征向量对
应的运维日志记录,其中每条运维日志记录包括节点标识、解决方案、在执行解决方案前节
点的第一状态特征向量和在执行解决方案后节点的第二状态特征向量;根据所查找到的运
维日志记录中的解决方案生成解决方案列表;从解决方案列表中依次选取一个解决方案并
执行该解决方案中定义的检测操作,并获取该节点或机房的当前状态太阳城集团作为检测结果;
将检测结果与该解决方案相关联的第二状态特征向量进行对比,若对比一致则认为验证通
过,发送解决方案中定义的执行操作给相应节点,以便该节点执行解决方案的执行操作;以
及若对比不一致则认为验证不通过,从解决方案列表中依序选取下一个解决方案,重复上
述检测、对比验证步骤,直到验证通过为止。

可选地,在根据本发明的监控方法中,在从一个或多个节点状态太阳城集团中查找该节
点标识对应的状态特征向量的步骤之前,还包括步骤:获取机房内各节点的状态,并生成对
应节点的状态特征向量;其中,节点的状态包括节点的CPU运行状态数据和内存运行状态数
据。

可选地,在根据本发明的监控方法中,获取机房内各节点状态的步骤还包括:获取
机房的状态,并生成机房的状态特征向量;其中,机房的状态包括机房温度、湿度、电源、网
络连接状态。

可选地,在根据本发明的监控方法中,节点状态太阳城集团还包括节点所在机房的机房
标识和表征机房状态的状态特征向量;运维日志记录中还包括节点所在机房的机房标识、
解决方案、在执行解决方案前机房的第一状态特征向量和在执行解决方案后机房的第二状
态特征向量。

可选地,在根据本发明的监控方法中,若对比一致则认为验证通过的步骤之后,还
包括:将该解决方案、节点标识和节点的第一状态特征向量、第二状态特征向量作为一条运
维日志记录。

可选地,在根据本发明的监控方法中,从一条或多条运维日志记录中查找与该状
态特征向量相似的至少一个第一状态特征向量的步骤包括:采用邻近算法计算状态特征向
量间的相似性。

可选地,在根据本发明的监控方法中,根据所查找到的运维日志记录中的解决方
案生成解决方案列表的步骤包括:按照相似度从高到低的顺序,对所查找到的运维日志记
录中的解决方案进行排序。

可选地,在根据本发明的监控方法中,提取搜索请求中的节点标识的步骤还包括:
提取搜索请求中的搜索词,以及运维日志记录还包括节点标识对应的搜索词。

可选地,在根据本发明的监控方法中,从一条或多条运维日志记录中查找与该状
态特征向量相似的至少一个第一状态特征向量对应的运维日志记录的步骤还包括:从运维
日志记录中查找与所提取的搜索词相似的至少一条运维日志记录。

可选地,在根据本发明的监控方法中,还包括步骤:在搜索不到与搜索请求中节点
标识和/或搜索词相关的解决方案时,搜索该节点对应机房的解决方案。

根据本发明的方案,当运维机房出现问题时(可以是运维人员发现问题,或者是探
测到问题后自动报警),能够通过搜索引擎查找对应节点的状态太阳城集团,并自动筛查出以往应
对类似问题时所采取的解决方案,进一步通过检测、验证步骤,确定出能够解决问题的最佳
解决方案,再通过搜索引擎通知相应节点的执行器,执行相应的执行操作,以达到自动解决
解决运维问题的目的。

附图说明

为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方
面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面
旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述
以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的
部件或元素。

图1示出了根据本发明一个实施例的运维机房的监控系统100的示意图;

图2示出了根据本发明一个实施例的搜索引擎120的示意图;以及

图3示出了根据本发明一个实施例的运维机房的监控方法300的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开
的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例
所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围
完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的运维机房的监控系统100的示意图。

运维机房中布置有多台计算设备或服务器,尤其是在完成高性能计算的超级计算
中心的运维机房中,多台计算设备或服务器执行超级计算作业,其运维机房的安全稳定运
行显得尤为重要。根据本发明的实现方式,运维机房中的计算设备、服务器、以及配电设备、
空调等均作为机房内的一个节点。

如图1所示,该系统100包括多个采集器110、搜索引擎120、布置在运维机房内各节
点上的执行器130和客户端140。采集器110与搜索引擎120相连接,搜索引擎120分别与执行
器130和客户端140相连接。其中,采集器110布置在运维机房内,例如,机房内各个节点上,
用于采集机房内各节点的状态和机房的状态,可选地,节点的状态包括节点的CPU运行状态
数据和内存运行状态数据,机房的状态包括机房温度、湿度、电源、网络连接状态等。执行器
130布置在机房内各节点上,在接收到来自搜索引擎120的执行命令时,执行对应解决方案
的执行操作。客户端140接收用户输入,例如用户在客户端140的太阳城集团器上输入待搜索的内
容,客户端140即生成搜索请求并发送给搜索引擎130。本领域技术人员应当了解,图1仅是
示例性地示出上述设备,在实际系统中,采集器110、执行器130等的数量依实际情况而定,
本发明对此不作限制。

以下将详细阐述系统100中的搜索引擎120。如图2,示出了根据本发明一个实施例
的搜索引擎120的示意图。该搜索引擎120包括:输入/输出接口121、数据存储设备123、搜索
模块125、检测模块127和验证模块129。

输入/输出接口121接收由采集器110采集到的各节点和/或机房的状态,如上所
述,包括各节点的CPU运行状态数据和内存运行状态数据、机房的温度、湿度、电源、网络连
接状态等。

数据存储设备123根据各节点的状态和机房的状态分别生成状态特征向量并存
储,具体地,包括一个或者多个节点状态太阳城集团和一条或者多条运维日志记录。其中,每个节
点状态太阳城集团包括节点标识和表征该节点节点状态的状态特征向量;每条运维日志记录包括
节点标识、解决方案、在执行解决方案前节点的第一状态特征向量和在执行解决方案后节
点的第二状态特征向量。例如,用v表示每个节点的状态特征向量,记录节点在一段太阳城集团内
CPU运行的最大值、最小值、均值以及内存运行最大值、最小值、均值,v可以表示为:

v=[avg cpu,max cpu,min cpu,avg memory,max memory,min memory]

那么,多个节点状态太阳城集团可以以如下的形式存储:

节点标识
节点状态特征向量
node1
v_node1
node2
v_node2

同样地,多条运维日志记录如下所示:

节点标识
解决方案
第一状态特征向量
第二状态特征向量
node1
A
v1
v2
node2
B
v1’
v2’

根据本发明的又一个实施例,运维日志记录还包括节点所在机房的机房标识、解
决方案、在执行解决方案前机房的第一状态特征向量和在执行解决方案后机房的第二状态
特征向量。

根据本发明的另一个实施例,运维日志记录中还包括节点标识对应的搜索词。当
某一搜索词与某一节点标识一起出现时,就在该节点标识的运维日志记录中对应记录下该
搜索词。

输入/输出接口121接收来自客户端140的搜索请求。可选地,搜索请求中包含节点
标识,也可以包含搜索词,例如,当运维人员发觉机房内某台服务器温度过高时,可以在客
户端140上输入“node3温度过高”。当然,搜索请求中也可以只包含节点标识,本发明对此不
做限制。

搜索模块125提取该搜索请求中的节点标识、并从存储的运维日志记录中找出相
匹配的解决方案。根据本发明的一个实施例,搜索模块包括提取子单元1252、查找子单元
1254和计算子单元1256。

具体地,提取子单元1252提取搜索请求中的节点标识,可选地,当搜索请求中包含
搜索词时,提取子单元1252还可以提取搜索词。

而后,由查找子单元1254从数据存储设备123上存储的一个或多个节点状态太阳城集团
中查找与该节点标识相对应的状态特征向量。

再由计算子单元1256从数据存储设备123上存储的一条或多条运维日志记录中计
算与该状态特征向量相似的至少一个第一状态特征向量。可选地,计算子单元1256采用邻
近算法计算状态特征向量间的相似性。邻近算法作为数据挖掘分类中较为常见的算法,此
处不再对其具体实现过程进行阐述。当然,也可以采用其他数据聚类、相似度计算方法来计
算状态特征向量间的相似性,本发明对此不作限制。而后,计算子单元1256取出这至少一个
第一状态特征向量所在的运维日志记录,并按照相似度从高到低的顺序,对所述运维日志
记录进行排序,根据这些运维日志记录中的解决方案生成解决方案列表。可选地,计算子单
元1256对所计算出的相似度值大于预定阈值(如,0.7)的解决方案进行排序,得到解决方案
列表。

根据本发明的实施方式,当搜索请求中包含搜索词时,计算子单元1256也可以从
运维日志记录中通过计算与所提取的搜索词具有相关性的搜索词查找到对应的运维日志
记录,进而查找到这些运维日志记录中包含的解决方案,一并并入解决方案列表。

根据本发明的又一实施方式,若搜索模块125搜索不到与搜索请求中节点标识和/
或搜索词相关的解决方案,则继续搜索该节点对应机房的解决方案。

当通过上述方法搜索到解决方案列表时,检测模块127从解决方案列表中依次选
取一个解决方案、执行该解决方案中定义的检测操作,并获取该节点或机房的当前状态信
息作为检测结果。

根据本发明的实施方式,每个解决方案中包含检测操作和执行操作,若假设解决
方案是将1号空调温度调低,检测操作可以是将1号空调调低1°并持续1分钟,执行操作可以
是将空调温度调低2°。检测模块127根据检测操作的指示,将1号空调调低1°并持续1分钟,1
分钟后,通过采集器110获取对应节点的状态,并生成相应的状态太阳城集团作为检测结果。

验证模块129将检测结果与该解决方案对应的第二状态特征向量进行对比,若对
比一致则认为验证通过,若对比不一致则认为验证不通过。

若验证通过,说明该解决方案对于该节点的问题是有效的,故而,输入/输出接口
121发送解决方案中定义的执行操作(即,将空调温度调低2°)给相应节点上的执行器130,
以便该节点执行解决方案的执行操作。

相反,若验证不通过,说明该解决方案有可能尚有欠缺,故而,检测模块127从解决
方案列表中依序选取下一个解决方案并进行检测,直到验证通过为止。

根据一些实现方式,若在重复若干次、将解决方案列表中的解决方案全部验证完
毕后,还没有匹配到合适的解决方案,即停止验证,并记录该搜索请求中节点标识和/或搜
索词,以便运维人员后续处理。

上文仅是作为示例、给出简单的解决方案示范,在实际场景中,解决方案较为复
杂。如发现某一节点温度过高时,解决方案中的检测操作可能包含了:

1.查看空调设备运转情况

2.查看CPU风扇转速是否低于某一阈值

3.查看CPU使用率是否高于某一阈值

4.查看GPU使用情况

5.查看水冷设备是否正常


可选地,检测操作和执行操作也可以是一样的,或者区别只在于操作太阳城集团的长短
等,本发明对此并不作限制。

根据本发明的实施例,当验证通过时,数据存储设备123将该解决方案、节点标识
和节点的第一状态特征向量、第二状态特征向量作为一条运维日志记录下来。

根据本发明的方案,当运维人员发现问题时,能够通过搜索引擎查找对应节点的
状态太阳城集团,并自动筛查出以往应对类似问题时所采取的解决方案,进一步通过检测、验证步
骤,确定出能够解决问题的最佳解决方案,再通过搜索引擎通知相应节点的执行器,执行相
应的执行操作,以达到自动解决解决运维问题的目的。

进一步地,搜索引擎还可以将当前节点或机房的状态报告给客户端,在客户端上
实时显示。并且,当发现当前节点或机房的状态出现异常时,搜索引擎直接发送报警太阳城集团给
客户端,以便运维人员及时排查问题。

相应地,图3示出了根据本发明一个实施例的运维机房的监控方法300的流程图。

方法300始于步骤S310,响应于搜索请求,提取搜索请求中的节点标识。可选地,当
搜索请求中包含搜索词时,还可以提取搜索请求中的搜索词。如,搜索请求为:“node3温度
高”,其中,node3为节点标识,温度高为搜索词。

根据本发明的实施例,方法300在获取搜索请求之前,还包括步骤:获取机房内各
节点的状态,并生成对应节点的状态特征向量,其中,节点的状态包括节点的CPU运行状态
数据和内存运行状态数据。同时,还可以获取机房的状态,并生成机房的状态特征向量,其
中,机房的状态包括机房温度、湿度、电源、网络连接状态。

例如,用v表示每个节点的状态特征向量,记录节点在一段太阳城集团内CPU运行的最大
值、最小值、均值以及内存运行最大值、最小值、均值,v可以表示为:

v=[avg cpu,max cpu,min cpu,avg memory,max memory,min memory]。

随后在步骤S320中,从一个或多个节点状态太阳城集团中查找该节点标识对应的状态特
征向量,其中每个节点状态太阳城集团包括节点标识和表征节点状态的状态特征向量,如下所示:

节点标识
节点状态特征向量
node1
v_node1
node2
v_node2

根据本发明的又一实施例,节点状态太阳城集团还包括节点所在机房的机房标识和表征
机房状态的状态特征向量。

随后在步骤S330中,从一条或多条运维日志记录中查找与该状态特征向量相似的
至少一个第一状态特征向量,其中每条运维日志记录包括节点标识、解决方案、在执行解决
方案前节点的第一状态特征向量和在执行解决方案后节点的第二状态特征向量,如下所
示:

节点标识
解决方案
第一状态特征向量
第二状态特征向量
node1
A
v1
v2
node2
B
v1’
v2’

根据本发明的实施方式,运维日志记录中还包括节点标识对应的搜索词,当某一
搜索词与某一节点标识一起出现时,就在该节点标识的运维日志记录中对应记录下该搜索
词。可选地,从一条或多条运维日志记录中查找与搜索请求中搜索词相似的至少一条运维
日志记录。

可选地,采用邻近算法计算状态特征向量间的相似性。邻近算法作为数据挖掘分
类中较为常见的算法,此处不再对其具体实现过程进行阐述。当然,也可以采用其他数据聚
类、相似度计算方法来计算状态特征向量间的相似性,本发明对此不作限制。可选地,根据
所计算出的相似度值确定出与搜索请求中所指向的状态特征向量相似的第一状态特征向
量,进而筛选出多条运维日志记录,例如,选取相似度值大于预定阈值(如,0.7)的运维日志
记录。

根据本发明的实施例,运维日志记录中还包括节点所在机房的机房标识、解决方
案、在执行解决方案前机房的第一状态特征向量和在执行解决方案后机房的第二状态特征
向量。

随后在步骤S340中,根据所查找到的运维日志记录中的解决方案生成解决方案列
表。根据本发明的实施例,按照步骤S330中计算的相似度值,按相似度从高到低的顺序对所
查找到的运维日志记录进行排序,即,对所查找到的运维日志记录中的解决方案进行排序。

随后在步骤S350中,从解决方案列表中依次选取一个解决方案并执行该解决方案
中定义的检测操作,并获取该节点或机房的当前状态太阳城集团作为检测结果。根据本发明的实
现方式,每个解决方案中包含检测操作和执行操作,先执行解决方案中的检测操作,若验证
检测操作对解决本问题有效果,再执行解决方案中的执行操作。这样可以有效地提高监控
效率,避免对该搜索请求无效的解决方案浪费太阳城集团。

随后在步骤S360中,将检测结果与该解决方案相关联的第二状态特征向量进行对
比,若对比一致则认为验证通过,发送解决方案中定义的执行操作给相应节点,以便该节点
(上的执行器)执行解决方案的执行操作。

根据本发明的实施例,在验证通过时,将该解决方案、节点标识和节点的第一状态
特征向量、第二状态特征向量(可选地,若有搜索词的话,还包含搜索词)作为一条运维日志
记录下来。

随后在步骤S370中,若对比不一致则认为验证不通过,从解决方案列表中依序选
取下一个解决方案,重复上述检测、对比验证步骤(即重复步骤S350、S360),直到验证通过
为止。

可选地,在搜索不到与搜索请求中节点标识和/或搜索词相关的解决方案时,搜索
该节点对应机房的解决方案。

根据一些实现方式,若在重复若干次、将解决方案列表中的解决方案全部验证完
毕后,还没有匹配到合适的解决方案,即停止验证,并记录该搜索请求中节点标识和/或搜
索词,以便运维人员后续处理。

应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对
本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或
者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发
明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求
书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实
施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发
明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组
件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备
不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个
子模块。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地
改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单
元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或
子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何
组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任
何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权
利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代
替。

本发明还一并公开了:

A6、如A5所述的搜索引擎,其中,所述运维日志记录还包括节点所在机房的机房标
识、解决方案、在执行解决方案前机房的第一状态特征向量和在执行解决方案后机房的第
二状态特征向量。

A7、如A1-6中任一项所述的搜索引擎,其中,所述数据存储设备还适于在验证通过
时,将该解决方案、节点标识和节点的第一状态特征向量、第二状态特征向量作为一条运维
日志记录。

A8、如A2-7中任一项所述的搜索引擎,其中,所述计算子单元还适于采用邻近算法
计算状态特征向量间的相似性。

A9、如A2-7中任一项所述的搜索引擎,其中,所述计算子单元还适于按照相似度从
高到低的顺序,对所计算出的一条或多条运维日志记录进行排序。

A10、如A2-9中任一项所述的搜索引擎,其中,所述运维日志记录中还包括节点标
识对应的搜索词。

A11、如A10所述的搜索引擎,其中,所述提取子单元还适于提取所述搜索请求中的
搜索词;所述计算子单元还适于从运维日志记录中计算与所提取的搜索词具有相关性的搜
索词对应的解决方案,一并列入解决方案列表。

A12、如A1-11中任一项所述的搜索引擎,其中,所述搜索模块还适于在搜索不到与
搜索请求中节点标识和/或搜索词相关的解决方案时,搜索该节点对应机房的解决方案。

B18、如B15-17中任一项所述的方法,其中,所述节点状态太阳城集团还包括节点所在机
房的机房标识和表征机房状态的状态特征向量;所述运维日志记录中还包括节点所在机房
的机房标识、解决方案、在执行解决方案前机房的第一状态特征向量和在执行解决方案后
机房的第二状态特征向量。

B19、如B15-18中任一项所述的方法,所述若对比一致则认为验证通过的步骤之
后,还包括:将该解决方案、节点标识和节点的第一状态特征向量、第二状态特征向量作为
一条运维日志记录。

B20、如B15-19中任一项所述的方法,其中所述从一条或多条运维日志记录中查找
与该状态特征向量相似的至少一个第一状态特征向量的步骤包括:采用邻近算法计算状态
特征向量间的相似性。

B21、如B15-20中任一项所述的方法,其中所述根据所查找到的运维日志记录中的
解决方案生成解决方案列表的步骤包括:按照相似度从高到低的顺序,对所查找到的运维
日志记录中的解决方案进行排序。

B22、如B15-21中任一项所述的方法,其中,所述提取搜索请求中的节点标识的步
骤还包括:提取搜索请求中的搜索词,以及所述运维日志记录还包括节点标识对应的搜索
词。

B23、如B22所述的方法,其中,所述从一条或多条运维日志记录中查找与该状态特
征向量相似的至少一个第一状态特征向量对应的运维日志记录的步骤还包括:从运维日志
记录中查找与所提取的搜索词相似的至少一条运维日志记录。

B24、如B15-23中任一项所述的方法,还包括步骤:在搜索不到与搜索请求中节点
标识和/或搜索词相关的解决方案时,搜索该节点对应机房的解决方案。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例
中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的
范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任
意之一都可以以任意的组合方式来使用。

此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行
所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法
元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在
此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行
的功能。

如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来
描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必
须具有太阳城集团上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域
内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,
本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限
定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本
技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本
发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

关 键 词:
一种 机房 监控 系统 方法 搜索引擎
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:一种运维机房的监控系统、方法和搜索引擎.pdf
链接地址:http://zh228.com/p-6019825.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');