Hadoop是一个用Java编写的开源,可扩展和容错框架。它有效地处理大量商品硬件上的大量数据。Hadoop不仅是一个存储系统,而且是一个大数据存储和处理的平台。
Spark是闪电般的群集计算工具。ApacheSpark的应用程序运行速度比Hadoop快100倍,磁盘速度快10倍。由于减少了磁盘读/写周期的次数,并且可以存储内存中的中间数据。HadoopMapReduce从磁盘读取和写入,因此会降低处理速度。Spark很容易编程,因为它拥有大量具有RDD(弹性分布式数据集的高级操作符)。HadoopMapReduce的开发人员需要手动编写每一项操作,这使得工作非常困难。
Spark能够在同一个群集中执行批处理,交互式和机器学习和流式处理。因此使其成为一个完整的数据分析引擎。因此,不需要为每个需求管理不同的组件。在集群上安装Spark足以满足所有要求。MapReduce只提供批处理引擎,因此,会依赖于不同的引擎。例如Storm,Giraph,Impala等用于其他要求,所以,管理很多组件非常困难。
ApacheSpark可以以每秒数百万事件的速率处理实时数据,即来自实时事件流的数据,例如,例如Twitter数据或Facebook分享/发布。Spark的优势在于能够有效地处理直播视频流。Hadoop则不行,因为它旨在对大量数据执行批处理。
顺便说一句,如果你想知道更多硅谷或者美国科技的前沿信息,可以关注微信号“硅发布”。