从大规模并发的动手实验室(HOL)实践看私有云架构 –– 存储及“冰山理论”

The dignity of movement of an ice-berg is due to only one-eighth of it being above water.

冰山运动之雄伟壮观,是因为他只有八分之一在水面上。

-- 海明威 《午后之死》

12月6日下午4点40分,当微软TechEd China 2012大会动手实验室(HOL)最后一时间段的动手实验进行完毕,学员们离开会场的时候,HOL团队终于迎来了这次支持大规模并发、支持多种复杂实验环境的动手实验室的胜利时刻。

http://blogs.technet.com/b/nevin_dongs_blog/archive/2012/12/20/hol.aspx

每当回想起这次难忘的经历,脑海里经常会想起海明威的那段话。在较短时间至此会如此大规模的虚拟环境并发,而且让学员体验到流畅的操作,何尝不像冰山的运动?在大家看来,一切都是那样的自然,但要真正一览冰山的壮观,则需要将大海变成彻底透明的液体,让水面下八分之七的巨大冰体与冰山一角融为一体。

那本次HOL的八分之七的巨大冰体是什么?是在后台机架上运行的共36T的NetApp存储。

如何做到这一点?

首先,也是至关重要的,需要进行事前的容量预测和规划。云计算要让IT满足业务的增长的需求,则需要超前(Proactive)进行容量分析和管理,而存储的容量又是非常关键的一点。

在TechNet上私有云的参考架构中,将基础设施即服务(IaaS)的规划摆在非常重要的地位。

http://social.technet.microsoft.com/wiki/contents/articles/4622.private-cloud-planning-guide-for-infrastructure-as-a-service-iaas.aspx

在对存储进行规划的时候,如何保证存储提供高性能和稳定的可用性,一个重要的指标就是每秒处理数(Operations per Second,IOPS)。

下图是本次HOL的批量虚拟机启动时所有存储所承受的压力。如果没有足够的存储设备的支持,很难想象如何满足如此规模的虚拟机同时provision和提供给用户进行操作。

clip_image002

当然,HOL团队也深刻理解存储的有限,而很多HOL环境比较复杂,需要同时起多部虚拟机,而且尺寸还比较大。如何有效地提供存储支持?HOL团队通过进行时间段的合理规划,将需求进行了预调度,确保了每个时间段存储压力的有序分布,避免了存储短缺风险。

另外一个关键点就是连接存储与计算节点(/服务器)的网络,这对于保证整体运行高性能和高可靠性至关重要。通过HBA卡和SAN解决方案,本次HOL确保了网络的高效和稳定。

另外一个非常值得一提的,就是本次HOL使用了NetApp存储的Flash Cache闪存的解决方案。Flash Cache闪存使得活动数据访问速度更快,充分发挥了存储的能力。

http://www.netapp.com/us/products/storage-systems/flash-cache/

本次HOL 使用的Flash Cache闪存总容量为512GB,用作存储系统读缓存。

clip_image004

图表中蓝色实线表示系统对外提供的总吞吐量,红色实线表示磁盘实际产生的吞吐量,二者差额为Flash Cache缓存加速部分。

可以看到大部分读请求通过Flash Cache卡直接响应,避免了磁盘机械结构造成的性能瓶颈。

再次向海明威致敬,精彩的阐述!

“冰山理论”用在云计算真是再贴切不过了,当大家正在体验云计算所带来的无所不在、无时不在的便利的时候,在世界的某些地方,在云中心机房里,灯光闪烁的机架上,海量的存储在工作…