CN100459525C - 用于远程数据收集管理的方法和分布式计算系统 - Google Patents

用于远程数据收集管理的方法和分布式计算系统 Download PDF

Info

Publication number
CN100459525C
CN100459525C CNB2006100850976A CN200610085097A CN100459525C CN 100459525 C CN100459525 C CN 100459525C CN B2006100850976 A CNB2006100850976 A CN B2006100850976A CN 200610085097 A CN200610085097 A CN 200610085097A CN 100459525 C CN100459525 C CN 100459525C
Authority
CN
China
Prior art keywords
data
problem determination
management server
management
computer system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2006100850976A
Other languages
English (en)
Other versions
CN1878091A (zh
Inventor
F·A·鲍尔三世
T·D·法达勒
R·E·哈珀
K·K·沙阿
R·H·布朗
T·J·福科斯
D·B·罗伯茨
C·A·施赖伯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1878091A publication Critical patent/CN1878091A/zh
Application granted granted Critical
Publication of CN100459525C publication Critical patent/CN100459525C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • H04L41/042Network management architectures or arrangements comprising distributed management centres cooperatively managing the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Abstract

带有远程数据收集管理的分布式计算系统的方面包括一管理服务器,和多个网络连接到该管理服务器上并由该管理服务器管理的计算机系统。该多个计算机系统中的每一个包括一侦听代理,其用来接收来自管理服务器的过程代码并控制该过程代码的定期执行来从所述多个计算机系统收集数据。发生所述定期执行而无需在所述多个计算机系统和所述管理服务器之间维持连接。另外,所述收集的数据还包括从问题判定活动收集到的数据。

Description

用于远程数据收集管理的方法和分布式计算系统
技术领域
本发明涉及分布式计算环境,更具体地说,涉及在分布式计算环境/系统中管理远程数据收集。
背景技术
当前的计算环境通常使用多个分布式计算系统。图1示出典型的分布式计算系统的框图,其中管理服务器100,例如IBM eServer型号x205,通过网络110(例如WAN、LAN、因特网等)连接到多个被管理的计算机系统120,例如IBM eServer xSeries和BladeCenter服务器。在这些环境中存在的一个挑战是检测系统故障,防止停机,并隔离故障组件从而能够更新或者更换它们。解决这些问题的努力已经产生几个问题判定工具,它们解决系统中特定种类的问题。每个工具执行问题判定活动来解决开发它所针对的特定领域。因此,为了诊断整个系统,需要多种这些工具,因为每种工具给问题判定难题提供一些重要信息。当已经收集到来自每个工具的信息时,必须把这些结果关联起来以全面地考查和预测系统故障。
在当前环境中,系统管理员负责选择要启动的适当工具,必要时安装这些工具,将来自各工具的信息关联起来,并分析结果来防止或解决问题。经常需要去到系统现场来执行这些活动。这种对系统管理员的依赖是费时的,并且由于在有关对可用工具、工具更新、和每个工具所返回数据的类型和格式的认识的维护方面的知识和经验的不同也容易发生错误。
随着需要以这样一种方式在位于远程的系统上发现、安装、更新和启动问题判定工具,该方式允许在中央位置关联和分析这些工具的结果,从而预测即将发生的故障并生成对现存故障的解决方案,而面临另一挑战。当需要在分布式系统中定期执行某过程或者代码块(例如任务列表130中的任务)例如问题判定代码时,已知允许管理服务器100跟踪时间并允许以规则的间隔把信息发送给每个分布式系统中。然而,随着被管理系统120数量的增多,这种方法变得受局限,因为需要时间来把特定执行通知给每个系统并需要使所有系统连接到管理服务器100上以接收命令。
因此,需要一种在分布式计算环境中远程管理数据收集的方法,包括提供用于分布式计算环境中的问题判定工具的数据的远程管理的定期执行和分布式问题判定。本发明试图满足这种需要。
发明内容
描述了具有远程数据收集管理的分布式计算环境的方面。这些方面包括管理服务器,和多个网络连接到该管理服务器上并由该管理服务器管理的计算机系统。所述多个计算机系统中的每个都包括一侦听代理,该侦听代理从管理服务器接收过程代码(process code)并控制该过程代码的定期执行以从所述多个计算机系统收集数据。无需在多个计算机系统和管理服务器之间保持连接就能发生定期执行。另外,所收集的数据包括从问题判定活动所收集的数据。
通过本发明,利用被管理系统中的侦听代理实现了在分布式计算环境中的被管理系统中定期执行块代码(block code)的某种过程。实现定期执行的能力支持用于分布式数据收集和分析的服务方法,从而增强分布式计算环境中的问题判定活动。这使得可以高效和普通的方式最大程度地利用该系统可用的问题判定工具。结合下面的详细说明和附图,本发明这些方面的这些和其他优点将会得到更充分的理解。
附图说明
图1示出一个典型的分布式计算环境的框图。
图2示出一个根据发明的分布式计算环境的框图。
图3示出一个根据本发明的用于问题判定工具和数据的远程管理的分布式问题判定流程图。
具体实施方式
本发明涉及在分布式计算环境中远程管理数据收集。提供了下面的说明书以使本领域的普通技术人员可以实现和利用本发明,并且是在专利申请及其要求的上下文中提供的该说明。本领域的技术人员将容易想到这里所描述的最佳实施例以及基本原理和特征的各种变化。因此,本发明并非旨在局限于示出的实施例,而是被给予与这里所述的基本原理和特征相一致的最大范围。
根据本发明,如图2所示,图1的分布式系统被修改以在被管理系统120’中包括一常驻侦听代理200。常驻侦听代理200例如作为用适当编程语言编写的软件过程被提供,并被存储在计算机可读介质中,并且通过从管理服务器100获取命令来配置某过程或者代码块的适当的定期执行,而在每个分布式系统上执行。然后常驻侦听代理200负责该过程或代码块的定期执行。接着侦听代理200可以与管理系统100断开连接并仍执行必要的定期动作来收集数据。
例如,下面描述了在管理服务器100和侦听代理200之间的命令集,其用于通过侦听代理200在远程系统中实现定期执行:
Connect<主机名或IP号(即网际协以号)>:与给定主机建立通信并设置响应地址。
Disconnect:断开与所连接管理系统的基于套接字的通信。
Transport:通知被管理的系统发送所收集的结果。
SetPeriod<DATA_COLLECTION_CLASS>
<TIMEBETWEENSAMPLESINSECONDS>:管理服务器100指示侦听代理200计划安排由DATA_COLLECTION_CLASS定义的能够收集数据的组件每TIMEBETWEENSAMPLESINSECONDS执行。侦听代理200使用本地时间来计划安排执行,并且现在可与管理服务器100断开连接。
GetPeriod:获取由SetPeriod设置的周期。
如参照在图3中示出的流程图所述的那样,以这种方式进行定期执行的能力为分布式问题判定系统根据本发明对问题判定工具和数据进行远程管理提供了支持。参照图3,当生成对于问题判定数据的请求时,开始远程管理,所述请求如所允许的那样由客户或者外部服务中心启动,并由分布式计算环境中的目标系统接收,例如通过侦听代理接收(步骤300)。然后发现在该目标系统上所安装的问题判定工具(步骤310)。选择并配置所发现的与所请求的数据有关的工具(步骤320)。在目标系统中随需或者为了定期执行安装附加的工具(步骤330),并且问题判定工具的任何更新由管理系统远程完成。
随着选择和配置这些问题判定工具,在目标系统中启动这些工具并收集问题判定结果(步骤350)。开始把所有收集到的数据相关联(步骤360),并把所关联的数据传送到一远程系统中以进行结果的本地存储(步骤370)。卸载随需安装的任何问题判定工具(步骤380)。所存储的结果例如被传送到服务中心以便分析(步骤390)。根据所述结果,生成系统配置历史,其中列出所检测和预测的故障,并创建行动计划(步骤400)。解决方案的应用通过硬件和软件部署或者现场服务调用来发生(步骤410)。
作为在分布式计算环境中这些步骤如何进行的示例,使管理系统能够从目标系统请求技性能数据。目标系统接收请求并接着发现所安装的提供系统性能信息的应用软件。目标系统继续根据缺省或者生成的规则集来配置所安装的工具。将来自每个工具的数据在目标系统上相关联并接着将其传输到远程系统以进行进一步的分析。如果探测到性能问题,则将来自目标系统的相关联数据传送到一外部服务实体来判定硬件和软件配置错误或者生成解决该问题的行动计划。服务机构可以生成该过程中使用的某些问题判定工具,并能够判定远程系统上工具的等级以及以定期的方式或者随需部署更新和附加的工具。
通过本发明,利用被管理系统中的侦听代理,实现了分布式计算环境中的被管理系统中块代码的某过程的定期执行。实现该定期执行的能力支持一种用于分布式数据收集和分析以增强分布式计算环境中的问题判定活动的服务方法。这允许以高效和普通的方式最大程度地利用该系统可用的问题判定工具。所产生的系统能够自动地判定应当执行哪些工具来帮助判定特定问题,并提供了当对数据进行归类(通常为格式化数据)和分析所收集的数据时,在系统的网络中部署、更新和卸载该问题判定工具。
尽管根据示出的实施例描述了本发明,但是本领域普通技术人员将容易知道这些实施例可以有变化,并且这些变化将在本发明的精神和范围内。因此,本领域普通技术人员可以做出许多修改,而不脱离随后的权利要求的精神和范围。

Claims (18)

1.一种用于在分布式计算系统中远程管理数据收集的方法,该方法包括:
在多个计算机系统中的每一个中提供侦听代理,以接收来自网络连接到所述多个计算机系统的管理服务器的过程代码;以及
由所述管理服务器向所述侦听代理发送配置命令,从而使得所述侦听代理控制所述过程代码的定期执行,以从所述多个计算机系统收集数据,其中发生所述定期执行而无需在所述多个计算机系统和所述管理服务器之间维持连接。
2.如权利要求1所述的方法,其中所述收集的数据还包括从问题判定活动收集到的数据。
3.如权利要求2所述的方法,其中所述问题判定活动还包括至少在一个计算机系统中接收对于问题判定数据的请求。
4.如权利要求3所述的方法,还包括在所述至少一个计算机系统中发现所安装的问题判定工具,并选择与所述请求相关的一个或者多个所安装的问题判定工具。
5.如权利要求4所述的方法,还包括安装任何需要的附加工具并根据需要远程更新所选择的一个或者多个所安装的问题判定工具。
6.如权利要求5所述的方法,还包括根据规则集配置所选择的问题判定工具并将来自所选择的问题判定工具的数据相关联。
7.如权利要求6所述的方法,还包括将所述相关联的数据传送到远程系统。
8.如权利要求7所述的方法,还包括利用所传送的数据来进行分析并创建行动计划。
9.如权利要求8所述的方法,其中通过硬件和软件部署来应用所述行动计划。
10.一种具有远程数据收集管理的分布式计算系统,该系统包括:
管理服务器;以及
多个计算机系统,其网络连接到所述管理服务器上并由所述管理服务器管理,所述多个计算机系统中的每一个包括侦听代理,其用来接收来自管理服务器的过程代码,并接收来自所述管理服务器的配置命令,从而控制所述过程代码的定期执行以从所述多个计算机系统收集数据,其中发生所述定期执行而无需在所述多个计算机系统和所述管理服务器之间维持连接。
11.如权利要求10所述的系统,其中所述收集的数据还包括从问题判定活动收集到的数据。
12.如权利要求11所述的系统,其中所述问题判定活动还包括至少在一个计算机系统中接收对于问题判定数据的请求。
13.如权利要求12所述的系统,其中所述至少一个计算机系统还发现安装在所述至少一个计算机系统中的问题判定工具,并选择与所述请求相关的一个或者多个所安装的问题判定工具。
14.如权利要求13所述的系统,其中所述管理服务器还安装任何需要的附加工具并根据需要远程更新所选择的一个或者多个所安装的问题判定工具。
15.如权利要求14所述的系统,其中所述至少一个计算机系统还根据规则集配置所选择的问题判定工具并将来自所选择的问题判定工具的数据相关联。
16.如权利要求15所述的系统,其中所述至少一个计算机系统还把所述相关联的数据传送到远程系统。
17.如权利要求16所述的系统,其中所述远程系统还利用所传送的数据来进行分析并创建行动计划。
18.如权利要求17所述的系统,其中所述远程系统通过在所述至少一个计算机系统中进行硬件和软件部署来应用所述行动计划。
CNB2006100850976A 2005-06-02 2006-05-31 用于远程数据收集管理的方法和分布式计算系统 Active CN100459525C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/144,246 US8140614B2 (en) 2005-06-02 2005-06-02 Distributed computing environment with remote data collection management
US11/144,246 2005-06-02

Publications (2)

Publication Number Publication Date
CN1878091A CN1878091A (zh) 2006-12-13
CN100459525C true CN100459525C (zh) 2009-02-04

Family

ID=37495421

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100850976A Active CN100459525C (zh) 2005-06-02 2006-05-31 用于远程数据收集管理的方法和分布式计算系统

Country Status (2)

Country Link
US (1) US8140614B2 (zh)
CN (1) CN100459525C (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9363143B2 (en) 2008-03-27 2016-06-07 International Business Machines Corporation Selective computation using analytic functions
US7882219B2 (en) * 2008-03-27 2011-02-01 International Business Machines Corporation Deploying analytic functions
US20090248722A1 (en) * 2008-03-27 2009-10-01 International Business Machines Corporation Clustering analytic functions
US8943364B2 (en) 2010-04-30 2015-01-27 International Business Machines Corporation Appliance for storing, managing and analyzing problem determination artifacts
US8560544B2 (en) 2010-09-15 2013-10-15 International Business Machines Corporation Clustering of analytic functions
KR101047958B1 (ko) 2010-11-01 2011-07-12 엘아이지넥스원 주식회사 사용자 인터페이스를 업데이트하는 방법 및 장치
JP5696029B2 (ja) * 2011-12-09 2015-04-08 株式会社日立製作所 通信システム及び通信システムでの統計情報管理方法
US9582781B1 (en) 2016-09-01 2017-02-28 PagerDuty, Inc. Real-time adaptive operations performance management system using event clusters and trained models
US10515323B2 (en) * 2016-09-12 2019-12-24 PagerDuty, Inc. Operations command console

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0950949A2 (en) * 1998-03-20 1999-10-20 Sun Microsystems, Inc. Methods and apparatus for packaging a program for remote execution
US6023507A (en) * 1997-03-17 2000-02-08 Sun Microsystems, Inc. Automatic remote computer monitoring system
US20040153997A1 (en) * 1995-06-02 2004-08-05 International Business Machines Corporation Remote monitoring of computer programs
CN1553649A (zh) * 2003-06-08 2004-12-08 华为技术有限公司 远程维护的实现方法

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4665520A (en) * 1985-02-01 1987-05-12 International Business Machines Corporation Optimistic recovery in a distributed processing system
US5664093A (en) * 1994-12-27 1997-09-02 General Electric Company System and method for managing faults in a distributed system
US5619644A (en) * 1995-09-18 1997-04-08 International Business Machines Corporation Software directed microcode state save for distributed storage controller
US5781703A (en) * 1996-09-06 1998-07-14 Candle Distributed Solutions, Inc. Intelligent remote agent for computer performance monitoring
US6085243A (en) * 1996-12-13 2000-07-04 3Com Corporation Distributed remote management (dRMON) for networks
US6192034B1 (en) * 1997-06-30 2001-02-20 Sterling Commerce, Inc. System and method for network integrity management
US6014612A (en) * 1997-10-02 2000-01-11 Fisher Controls International, Inc. Remote diagnostics in a process control network having distributed control functions
US6236983B1 (en) * 1998-01-31 2001-05-22 Aveo, Inc. Method and apparatus for collecting information regarding a device or a user of a device
US6553403B1 (en) * 1998-06-03 2003-04-22 International Business Machines Corporation System, method and computer program product for monitoring in a distributed computing environment
US6470388B1 (en) * 1999-06-10 2002-10-22 Cisco Technology, Inc. Coordinated extendable system for logging information from distributed applications
US7020697B1 (en) * 1999-10-01 2006-03-28 Accenture Llp Architectures for netcentric computing systems
WO2001065368A2 (en) * 2000-03-01 2001-09-07 Tashenberg Bradley A A distributed operating network and method for using and implementing same
AU2001264944A1 (en) * 2000-05-25 2001-12-03 Transacttools, Inc. A method, system and apparatus for establishing, monitoring, and managing connectivity for communication among heterogeneous systems
US7580996B1 (en) * 2000-05-31 2009-08-25 International Business Machines Corporation Method and system for dynamic update of an application monitoring agent using a non-polling mechanism
US6823382B2 (en) * 2001-08-20 2004-11-23 Altaworks Corporation Monitoring and control engine for multi-tiered service-level management of distributed web-application servers
US6978422B1 (en) * 2001-09-28 2005-12-20 Emc Corporation Methods and apparatus for displaying managed resource information
JP2003208413A (ja) * 2002-01-17 2003-07-25 Fujitsu Ltd 資産情報の一元管理を行うコンピュータシステム
US20030158937A1 (en) * 2002-02-20 2003-08-21 Johal Sumer Singh Methods and systems for using distributed business data using observation technology to avoid the need to integrate servers and clients
US7165087B1 (en) * 2002-12-17 2007-01-16 Hewlett-Packard Development Company, L.P. System and method for installing and configuring computing agents
US20040158626A1 (en) * 2003-02-11 2004-08-12 Douglas Christopher Paul Method and apparatus for monitoring data flow to a router
JP4294353B2 (ja) * 2003-03-28 2009-07-08 株式会社日立製作所 ジョブ管理機能を有するストレージ系障害管理方法及び装置
US7246156B2 (en) * 2003-06-09 2007-07-17 Industrial Defender, Inc. Method and computer program product for monitoring an industrial network
US7600229B1 (en) * 2003-09-30 2009-10-06 Emc Corporation Methods and apparatus for load balancing processing of management information
US7409676B2 (en) * 2003-10-20 2008-08-05 International Business Machines Corporation Systems, methods and computer programs for determining dependencies between logical components in a data processing system or network
US7539706B1 (en) * 2004-03-30 2009-05-26 Emc Corporation Methods and apparatus for collecting and processing file system data
US20060080656A1 (en) * 2004-10-12 2006-04-13 Microsoft Corporation Methods and instructions for patch management
US9319282B2 (en) * 2005-02-28 2016-04-19 Microsoft Technology Licensing, Llc Discovering and monitoring server clusters

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040153997A1 (en) * 1995-06-02 2004-08-05 International Business Machines Corporation Remote monitoring of computer programs
US6023507A (en) * 1997-03-17 2000-02-08 Sun Microsystems, Inc. Automatic remote computer monitoring system
EP0950949A2 (en) * 1998-03-20 1999-10-20 Sun Microsystems, Inc. Methods and apparatus for packaging a program for remote execution
CN1553649A (zh) * 2003-06-08 2004-12-08 华为技术有限公司 远程维护的实现方法

Also Published As

Publication number Publication date
US8140614B2 (en) 2012-03-20
CN1878091A (zh) 2006-12-13
US20060277283A1 (en) 2006-12-07

Similar Documents

Publication Publication Date Title
CN100459525C (zh) 用于远程数据收集管理的方法和分布式计算系统
KR100817799B1 (ko) 다중 취약점 점검 도구를 활용한 네트워크 취약점 통합분석 시스템 및 방법
US7281041B2 (en) Method and apparatus for providing a baselining and auto-thresholding framework
US10997047B2 (en) Automatic selection of agent-based or agentless monitoring
US9246777B2 (en) Computer program and monitoring apparatus
CN101617501B (zh) 对通信网络进行操作的方法、产品和系统
CN1703007A (zh) 检查和修复网络配置的方法和系统
US9306806B1 (en) Intelligent resource repository based on network ontology and virtualization
US20070266138A1 (en) Methods, systems and computer program products for managing execution of information technology (it) processes
WO2010140183A1 (ja) サーバ管理プログラム、管理サーバ、仮想サーバ配置方法
US20080155086A1 (en) Agent management system
EP1454255A1 (en) Structure of policy information for storage, network and data management applications
CN101933003A (zh) 自动化的应用依赖性映射
JP2001209622A (ja) データ処理装置構成管理システム
CN1870027A (zh) 用于管理资产装置的电子资产标签的系统、方法和介质
US20070162488A1 (en) Method, apparatus and system for business performance monitoring and analysis using metric network
US20070206511A1 (en) Capability-based testing and evaluation of network performance
CN101206569A (zh) 用于动态识别促使服务劣化的组件的方法和系统
US20110153079A1 (en) Apparatus and method for distributing and monitoring robot application and robot driven thereby
CN113489711B (zh) DDoS攻击的检测方法、系统、电子设备和存储介质
CN101438275A (zh) 工作项事件处理
US20130173959A1 (en) Home/building fault analysis system using resource connection map log and method thereof
US20100274621A1 (en) Method and System for Integration of Systems Management with Project and Portfolio Management
US20090019438A1 (en) Method and apparatus for selecting a system management product for performance of system management tasks
CN104951855A (zh) 用于促进对资源的管理的装置和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant