云计算的“大数据”之年 盘点PaaS发展状况 |
发布时间: 2012/9/5 17:56:28 |
诸如Amazon公司、Google公司、Heroku、IBM公司以及微软公司等主要的PaaS厂商将今年定为云计算的“大数据”之年一事已得到了大肆宣传。但是,实际上在公共云计算中又是哪一家供应商提供了最为完整的Apache Hadoop实施呢?
随着企业越来越多地采用平台即服务(PaaS)云计算模式作为企业的数据仓库应用解决方案,Apache Hadoop以及HDFS、MapReduce、Hive、Pig与其他的子组件正在成为大数据分析的主力军,这一趋势也变得逐渐明朗化。为了表明Hadoop已经成熟并已可用于生产分析云计算环境的商用化应用,Apache Foundation已升级至具有里程碑性质的Hadoop v1.0版本。 在供应商的数据中心为批处理托管MapReduce处理创建高扩展性、即付即用Hadoop集群的能力可允许企业IT部门避免因内部自有服务器的零星使用而造成的资本支出。其结果就是,Hadoop已成为财大气粗PaaS供应商们(Amazon、Google、IBM和微软)的必需品,以打包Hadoop、MapReduce或这两者作为其预建服务。 AWS的弹性MapReduce 2009年四月Amazon网络服务(AWS)成为了弹性MapReduce(EMR)的始作俑者。EMR处理Hadoop集群配置、运行和终止任务以及在Amazon EC2和Amason S3(简单存储服务)之间实现数据传输。EMR还提供了Apache Hive,它可建立在Hadoop之上以用于数据仓库服务。
Amazon网络服务的弹性MapReduce功能,对CloudWatch工作的工作流指标进行采样。(图片由AWS提供) 对于从机故障,EMR是有故障容错机制的;Amazon建议以Spot Instances只运行任务实例组,从而实现在利用更低成本优势的同时仍然保持可用性。但是,在2011年八月之前AWS并不支持Spot Instances。 Amazon为EMR定出了每小时0.015至0.05美元的附加费标准,并将其作为小型云主机至超强集群云主机EC2实例的额定值。根据AWS的官方说法:一旦你开始了工作流,Amazon弹性MapReduce就处理Amazon EC2的实例配置、安全设置、Hadoop配置以及设置、日志收集、健康监控以及其他与硬件相关的复杂性,例如从你正在运行的工作流中自动移除故障实例。AWS于近期为EMR实例发布了免费CloudWatch指标。(图1) 本文出自:亿恩科技【www.enkj.com】 |