大数据应用

[separator headline=”h3″ title=”OpenStack Sahara 项目”]

[responsive]

144Q51357-0

[/responsive]
[hr style=”4″ margin=”10px 0px 10px 0px”]

用户需要给Sahara提供一些信息来建立集群,比如Hadoop版本、集群拓扑、节点硬件详情以及一些其它的信息。在用户提供这些参数之后,Sahara将帮助用户在几分钟之内建立起集群,同样还可以帮助用户根据需求对集群进行扩展(增加或者删除工作节点)。

  • Horizon——提供GUI以使用所有Sahara的特性。
  • Keystone——认证用户并提供安全令牌,用以与OpenStack通信,用以给用户分配特定的OpenStack权限。
  • Nova——为Hadoop集群配置虚拟机。
  • Glance——用于储存Hadoop虚拟机镜像,每个镜像都包含了已安装的OS和Hadoop;预安装的Hadoop应该给予我们在节点布置上的便利。
  • Swift——可以作为需要进行Hadoop作业的预存储。

云计算提供基础架构平台,大数据应用在这个平台上运行,这是目前公认非常高效的处理大数据的方法之一。使用Sahara方案可有效满足如下使用场景:

1. 在OpenStack云环境中快速部署Hadoop集群;
2. 更充分地利用通用OpenStack IaaS云环境中未被利用的计算资源;
3. 与亚马逊EMR类似,为临时的或突发的数据分析任务,提供数据分析即服务(Analytics as a Service)

OpenStack和Hadoop的融合,既最大限度提高了服务器的资源利用率,又大大降低了大数据处理的准入门槛。可以预见,作为云计算和大数据的桥梁之一,Sahara将会推动OpenStack云平台和Hadoop的整合,逐步进入大数据处理市场,更快速地借助云计算平台和大数据处理技术把数据转换为商业价值。