首页
登录 | 注册

Hadoop分布式文件系统和OpenStack对象存储有何不同?

Hadoop分布式文件系统和OpenStack对象存储有何不同?

“HDFS (Hadoop分布式文件系统)OpenStack对象存储(OpenStack Object Storage)似乎都有着相似的目的:实现冗余、快速、联网的存储。什么样的技术特性让这两种系统因而不一样?这两种存储系统最终趋于融合是否大有意义?”


问题提出之后,很快有OpenStack的开发者进行了回复。本文在此摘抄了前两名回复进行翻译,以供各位参考。


排名第一的答案来自RackSpaceOpenStack Swift开发者Chuck Their


虽然HDFSOpenstack对象存储(Swift)之间有着一些相似之处,但是这两种系统的总体设计却大不一样。


1. HDFS使用了中央系统来维护文件元数据(Namenode,名称节点),而在Swift中,元数据呈分布式,跨集群复制。使用一种中央元数据系统对HDFS来说无异于单一故障点,因而扩展到规模非常大的环境显得更困难。


2. Swift在设计时考虑到了多租户架构,而HDFS没有多租户架构这个概念。


3. HDFS针对更庞大的文件作了优化(这是处理数据时通常会出现的情况)Swift被设计成了可以存储任何大小的文件。


4. HDFS中,文件写入一次,而且每次只能有一个文件写入;而在Swift中,文件可以写入多次;在并发操作环境下,以最近一次操作为准。


5. HDFSJava来编写,而SwiftPython来编写。


另外,HDFS被设计成了可以存储数量中等的大文件,以支持数据处理,而Swift被设计成了一种比较通用的存储解决方案,能够可靠地存储数量非常多的大小不一的文件。


排名第二的答案来自Joshua McKenty,他是美国宇航局Nebula云计算项目的首席架构师,是OpenStack Nova软件的早期开发者之一,目前是OpenStack项目监管委员会的成员,还是Piston.cc这家基于OpenStack的公司的创始人。


Chuck刚才详细介绍了两者的技术差异,但是没有讨论两者可想而知的融合,OpenStack设计峰会上抛出了融合这个话题。简而言之,HDFS被设计 成可以使用Hadoop,跨存储环境里面的对象实现MapReduce处理。对于许多OpenStack公司(包括我自己的公司)来说,支持Swift 面的处理是路线图上面的一个目标,不过不是每个人都认为MapReduce是解决之道。


我们已讨论过为HDFS编写包装器,这将支持OpenStack内部存储应用编程接口(API),并且让用户可以针对该数据来执行Hadoop查询。还有一个办法就是在Swift里面使用HDFS。但是这些方法似乎没有一个是理想的。


OpenStack社区方面也在开展研究开发方面的一些工作,认真研究其他替代性的MapReduce框架(RiakCouchDB)


最后,现在有别的一些存储项目,目前隶属于”OpenStack社区(SheepDogHC2)。充分利用数据局部性,并且让对象存储变得更智能,这是预计会取得进步的一个领域。


相关文章

  • 认识的误区:Hadoop=云计算
    最近看到清华大学出版社发行的一本新书,<深入浅出云计算>出版时间是2012-10-01日,如图1所示.我以为这是一本科普型读物,是加深读者对云计算的认识的书籍,毕竟云计算覆盖的领域太广了. 泛读后发现完全不是这么回事.全书基本上 ...
  • 开源大数据平台如何才能保证身份认证安全?
    作为开源大数据卫士的Kerberos,其安全性可靠性毋庸置疑,但是在运营维护和部署成本等方面,却会为规模较大的企业用户带来一笔不小的负担.通常,企业在接入Kerberos之前,已经在多个场景下配置了对应的身份认证系统.而Hadoop开源大数 ...
  • java处理高并发高负载类网站中数据库的设计方法(java教程,java处理大量数据,java高负载数据)  一:高并发高负载类网站关注点之数据库  没错,首先是数据库,这是大多数应用所面临的首个SPOF.尤其是Web2.0的应用,数据库的 ...
  • 你必须知道的.NET(第2版)
    你必须知道的.NET(第2版)  王涛 编著 ISBN 978-7-121-14128-7   2011年7月出版 定价:79.00元 16开 548页 宣传语:以深入浅出的笔法,触摸.NET底层和框架的有趣角落,了解.NET平台的开发.设 ...
  • windows xp下如何安装SQL server2000企业版 windows xp下如何安装SQL server2000企业版 SQL2000企业版本适用于WIN 2000系统,2003系统和XP一般装不了需要选用个人版(其中,XP系统 ...
  • 1,数据库单独运行 关于使用ECS自行搭建数据库,要说的无非就是,数据库文件一定要放在SSD硬盘上.因为云硬盘本质都是虚拟硬盘,读写指标iops会损失的很严重.当然业务量大了之后,我更建议选购RDS,RDS阿里云专门的数据库服务产品,mys ...

2019 unjeep.com webmaster#unjeep.com
12 q. 0.013 s.
京ICP备10005923号