大家好,首先我非常高兴地为大家带来一个好消息,Windows HPC Server 2008的Beta 2已经发布啦!相较于上一个Beta版本,我们一方面进行了许多新的产品特性的开发,另一方面也修正了不少问题,相信大家一定已经迫不及待地想要一睹Beta 2的风采了吧。您可以从http://connect.microsoft.com/了解更多关于我们的Beta 2的信息。
那么言归正传,本次我要为大家介绍的是Windows HPC Server 2008为我们提供的一系列性能监测的工具。通过这些工具,我们可以很方便地了解集群当前和过去的性能状况,发现可能存在的问题。
 
位于节点管理(Node Management)中的Heat map是HPC Server中一个很酷的功能。它允许我们同时选择一些Metric(性能标准),并以不同的颜色将每个节点上这些Metric当前的值显示出来。Heat map默认使用浅色表示较小的值,使用深色表示较大的值,如下图所示:

Heat Map

通过Heat map,我们不仅可以观察某个节点当前的状态,更可以很直观地在整个集群中找到那些与众不同的节点。举例来说,在一个非常繁忙的集群中,如果有某一个节点的CPU占用率总是为0,那么很有可能这个节点就没有正常工作。如果要通过查看每个节点上的CPU占用率来发现问题,在一个拥有许多节点的大集群上那将是非常困难的。不过如果用Heat map来进行观察,从一大片深色的小方块中找出一个白色的小格子应该是相当容易的吧。
 
我们也可以使用Windows HPC Server 2008的Powershell来完成这一任务,Get-HpcMetricValue命令可以被用来查看所指定的Metric的当前值。我们甚至可以运用Powershell强大的脚本功能来自动化一些性能监测任务,例如我们可以编写一个脚本当某个节点的磁盘剩余空间小于10%时让集群自动往发送一封电子邮件用于提醒。另一个非常有用的命令是Import-HpcMetric,通过这个命令您可以从您系统中已经注册的性能计数器(Performance Counter)导入新的Metric,系统中已注册的性能计数器可以通过Windows控制面板的管理工具中的可靠性与性能监视器(Perfmon)进行查看。
 
Heat map为我们展示了节点的当前状态,而性能图(Performance Charts)则为我们提供了Metric的历史数据。右键单击一个节点,从弹出的菜单中选择View Performance Charts(查看性能图)就可以观察所选择的节点的历史性能数据,如下图所示:
Performance Charts
在上图的窗口中,我们可以自由的选择想要查看的Metric,设定所要查看的时间范围(X轴),缩放图中可见数据的范围(Y轴)。我们甚至可以同时打开多个不同节点的性能图窗口,然后对它们依次做一比较。
 
看了这些,想必您一定有一个疑问,以上这些都是针对节点的Metric的监测,那么有没有对于整个集群的监测呢?答案当然是肯定的。位于图和报表(Charts and Reports)下的性能监视图(Monitoring Charts)就是用来查看整个集群的性能数据的。它提供了一个类似于性能图的界面,只不过这里可以选择的Metric不再是针对某个节点的Metric,而是针对整个集群的,例如总共失败的Job数目等等。同样的,这里的Metric也是可以通过Powershell的Import-HpcMetric命令进行定制的。
 
通过这些工具,我们可以自由的选择想要观察的性能数据,便于对集群的运行状况进行分析。是不是感觉一切尽在掌握之中呢?:)
 
Renqi Zhu
Dev, Windows HPC
Shanghai, China