摘要

为了支持绿色IT行动,随着Windows HPC Server 2008 R2 (SP1)的发布,我们在Windows HPC Server 2008 R2 (SP1) Monitoring Management Pack 添加了两个可配置的规则:“基于时间的能耗管理规则”和“基于利用率的能耗管理规则”

·          基于时间的能耗管理规则

此规则可以在一周的某几天和一天的某时段内,将一部分计算节点休眠以降低能耗。

 ·          基于利用率的能耗管理规则

此规则通过监控一段时间内集群的负载状况和作业队列长度,以决定是否将部分计算节点休眠以降低能耗。

此规则定义了三个级别的集群可用率,每一次休眠的条件触发时,集群的可用率将调整到下一个级别;另一方面,当唤醒的条件触发时,集群的可用率将调整到上一个级别。

 

 配置规则

在默认情况下,以上两个规则都被禁用。在SCOM服务器导入Windows HPC Server 2008 R2 Monitoring Management Pack后,管理员可以方便地启用、配置规则。

打开SCOM的界面,进入“Authoring”界面,选择“规则”,查询关键字“Power Management”,你就可以发现这两个规则,如下图所示:

  

下面是一些重要配置的默认值,管理员也可以对默认值进行修改

Calendar-based Rule

Parameter Name

Default Value

Notes

Enabled

False

The rule is disabled by default

Start Time

0:00

The time each day when power-saving mode for compute node starts.

End Time

6:00

The time each day when power-saving mode for compute node ends.

Exclude Days

 

A list of days each week when compute nodes are excluded from entering power-saving mode. The “exclude days” format is like: “Saturday, Sunday”

Power On Percentage

70

The percentage of compute nodes that will remain power on during the power-saving mode

Consumption-based Rule

Parameter Name

Default Value

Notes

Enabled

False

The rule is disabled by default

HighCapacityLevel

100

The percentage of high compute node capacity definition

MediumCapacityLevel

80

The percentage of medium compute node capacity definition

LowCapacityLevel

60

The percentage of low compute node capacity definition

UpperQueueLength

5

The length of the job queue above which the rule can cause the compute nodes to reach a higher capacity level

LowerQueueLength

1

The length of the job queue below which the rule can cause the compute nodes to reach a lower capacity level

LowConsumption

40

The compute node consumption percentage below which the rule can cause the compute nodes to reach a lower capacity level

Number of Samples

6

The number of samples to identify the LowConsumption which can push the compute nodes to enter a lower capacity level, the sampling interval is following “interval seconds”

Interval Seconds

300

The sampling interval, default is 300 seconds.

节能性能评估

为了评估节能性能以及对作业吞吐量的影响,我们进行了以下实验

(1)   安装一个HPC集群,该集群包含1个头节点,1个代理节点以及4个计算节点

(2)   模拟一个典型的工作日内的作业提交情况:

 

同时,作业运行时间分布如下:

(3)   在以下三种情况比较节能性能以及对作业吞吐量的影响

a.     禁用能耗管理规则

b.     仅启用时间能耗管理规则

c.     仅启用利用率能耗管理规则

注意:

我们在实验中对两个规则的参数设置作了调整:

·          时间规则:

o    设置StartTime22:00, EndTime 7:00, PowerOnPercentage60%

·          利用率规则

o   设置UpperQueueLength2.

 下面是实验结果:

·          节能效率

我们使用休眠的节点数量乘以休眠的时间来衡量节省的能耗。在使用时间规则时,有2个节点从2200700处于休眠状态;使用利用率规则,有2个节点从2100900处于休眠状态。两种规则都起到了很好的节能效果,相比之下,利用率规则更胜一筹。

·          可用核利用率

 利用率规则取得了最高的可用核利用率(49.1%),其次是时间规则(47.1%)。在没用启用规则的情况下,利用率为42.7%

  

·          对作业吞吐量的影响

作业吞吐量代表了每小时完成的作业的平均数量;启用两个规则,对作业吞吐量没有影响。

 

·          对作业周转时间的影响

作业周转时间代表了一个作业等待时间与作业运行时间的比率。在启用利用率规则之后,作业周转时间有微幅提高(从0.436增长到0.437);时间规则对作业周转时间没有影响。

 

结论

基于以上的模拟评估,在不影响作业吞吐量和作业周转时间的前提下,能耗管理规则能提高集群的能耗效率,真正实现集群的绿色ITJ