September, 2014

  • Azure提供使用了固态硬盘SSD的新的虚拟机VM类型

     

    最近,在创建Azure虚拟机的时候,我们会发现多了一些新的选择,如下图:

    clip_image001

    一个明显的变化是出现了一些D系列的虚拟机,相比A系列同编号的虚拟机,内容要大1倍。当然,按照ScottGu的博客,新的虚拟机的CPU更快(60%)、更大的内容及本地使用了固态硬盘(Solid State Disk, SSD)。

    http://weblogs.asp.net/scottgu/new-d-series-of-azure-vms-with-60-faster-cpus-more-memory-and-local-ssd-disks

    其中,最令人感兴趣的就是固态硬盘SSD使用,及其对性能提升的作用。当然,如之前文章所讲,虚拟机中本地盘(或者说临收盘,如Windows Server虚拟机中的D盘)是不适合存储持久化数据的,因为当虚拟机被后台控制器转移到其他机柜的时候,存在在临收盘的数据会失去。具体请参考:Windows Azure 虚拟机(VM)尺寸选择及一些相关技术规格(Specification)的差异

    但结合一些恰好是临时性使用存储的情形,例如页文件(Page File)、SQL Server中的缓冲池扩展(Buffer Pool Extension),则恰好可以利用这个新特性。此外,当我们希望快速抓取SQL Server等的日志进行分析的时候,也可以考虑使用这个盘来完成,因为这些日志仅用于分析(例如大数据处理)然后就可以丢弃,需要时可以随时抓取以便进行实时分析。具体可参考如何掌握SQL Server Azure VM上AlwaysOn高可用(HA)方案的运行状态(Status diagnostics)

    为了对比分析到底使用固态硬盘SSD后,性能有如何提升,顺手做了个简单的对比试验。

    在Azure账户中创建了两个基本指标相近的CentOS 7.0的虚拟机,分布采用A6和D12类型,他们都是4核28G内存,如下图:

    clip_image002

    clip_image003

    结果分别如下:

    clip_image004

    clip_image005

    同时也对比了一下有缓存的硬盘读写性能,以做参考。

    可以看到性能确实有了显著提升。当然具体这一新特性到底对实际应用是否有更多价值,需要结合实际应用的特点来具体分析。

  • HDInsight已在Azure中国区预览上线及几个亮点

     

    Azure中国区最近最让人兴奋的发布莫过于HDInsight已经预览上线了。具体可见官网的最新公告:

    http://www.windowsazure.cn/what-is-new/

    凑巧最近在忙着四处奔波、传道解惑,不过也是忙里偷闲,体验了一下这个新服务。

    首先值得肯定的是微软与Hortonworks的联手,推动开放的Hadoop的发展,而HDInsight据说也是百分百原汁原味的Hadoop在Azure云上的实现。

    其中值得重点推荐的有几个,首先是为Hive查询语言提供了一个不错的编辑器。在这里可以直接对存储在Azure 存储(Storage)账号的容器(Container)中的Hive表(Table)进行查询。如下图。

    clip_image001

    而上图中底下红线所标识的,可以通过“查看细节”来看查询结果及执行过程中的情况(主要是LOG信息)。需要说明一点的是,在HDInsight中,Hive命令行被编译为MapReduce任务,在Hadoop中执行。如下图:

    clip_image002

    另外需要注意的是这里列出的结果(”Job Output“)只是整体结果的一部分,如果要看全部的话,如上图,可以点击”下载文件(Download File)”,则可以看到全部的查询结果。

    此外,如公告中所说,HDInsight中,基于Stinger/Tez进行了性能调优,根据基准测试结果,HDP2.1查询的性能相比之前最早的结果(HIVE10)得到2个数量级的提升。

    另外一个值得肯定的是再HDInsight中建立Hadoop服务,真正是非常简单,可以说在管理门户(Management Portal)上“Click”、“Click”、“Click”,然后就“OK”了。如下图。

    如果用PowerShell脚本的话,则更简单,可以实现高度自动化。

    clip_image003

    需要说明的是,这里采用快速创建方式建立的Hadoop默认版本是最新的3.1。当然也可以采用自定义创建的方式选择低版本。

    另外也可以看到这里也支持HBase,为NoSQL解决方案提供了更新、更强大的选择。此外还包括了支持Sqoop、Mahout等功能。

    当然,也不能不提在背后默默无闻工作的Azure Storage,这个担当了HDFS重要职能的关键角色。

    Azure Storage的强大功能,包括异地冗余复制等,对开发者来讲提供了强有力的支持。

    可以看到,包括Hadoop的系统文件,包括大家要上载的原始数据文件,包括MapReduce产生的结果,包括Hive创建的表及查询结果,甚至执行每个任务(Job)所产生的日志文件(Log)都在这里。

    clip_image004

    进一步去想,既然HDInsight每次分析处理的Job及Log都在这里,是不是可以进一步分析一下,对他们本身进行一次大数据分析呢?

    忙碌了好一会儿,得休息一下了,“到这里,就到这里吧” ...