Hadoop与Spark两个大数据技术生态系统各自的特点有哪些？ – 网络|

电脑怎么开启高性能w7，ios7越狱失败怎么办，服务营销有什么好处

Hadoop与Spark两个大数据技术生态系统各自的特点有哪些

Hadoop是一个用Java编写的开源，可扩展和容错框架。它有效地处理大量商品硬件上的大量数据。Hadoop不仅是一个存储系统，而且是一个大数据存储和处理的平台。

Spark是闪电般的群集计算工具。ApacheSpark的应用程序运行速度比Hadoop快100倍，磁盘速度快10倍。由于减少了磁盘读/写周期的次数，并且可以存储内存中的中间数据。HadoopMapReduce从磁盘读取和写入，因此会降低处理速度。Spark很容易编程，因为它拥有大量具有RDD（弹性分布式数据集的高级操作符）。HadoopMapReduce的开发人员需要手动编写每一项操作，这使得工作非常困难。

Spark能够在同一个群集中执行批处理，交互式和机器学习和流式处理。因此使其成为一个完整的数据分析引擎。因此，不需要为每个需求管理不同的组件。在集群上安装Spark足以满足所有要求。MapReduce只提供批处理引擎，因此，会依赖于不同的引擎。例如Storm，Giraph，Impala等用于其他要求，所以，管理很多组件非常困难。

ApacheSpark可以以每秒数百万事件的速率处理实时数据，即来自实时事件流的数据，例如，例如Twitter数据或Facebook分享/发布。Spark的优势在于能够有效地处理直播视频流。Hadoop则不行，因为它旨在对大量数据执行批处理。

顺便说一句，如果你想知道更多硅谷或者美国科技的前沿信息，可以关注微信号“硅发布”。