存储,存储是最基本的任务,如此大量的数据该如何存储,这是大数据出现伊始就需要解决的问题。
处理,如此大量的数据当然不是仅仅放在某个地方,大家需要对大数据进行相应的处理,例如清洗、计算统计等等。举个例子,大家可以很轻松的完成十道小学计算题,但是如果让你在短时间内完成一万道类似的计算题,该如何设计方法呢?
检索,如何从大量的数据中取得想要的数据?大家可以从一副扑克牌中迅速找到大家那张大家想要的牌,如果现在有一千副牌呢?
智能,这里偶找不到合适的词来概括此类任务,例如数据挖掘、机器学习等任务都能归结在这个类型。本质就是如何从大数据中,做出对历史经验的总结或者对未来的预测。
如果需要自学,其实可以好好根据上述的几个类型出发,搞懂现在主流的大数据技术框架是处理哪一部分任务的,例如Hadoop刚提出时的MapReduce,主要是用于大数据处理,HDFS是用于存储。后面的一系列新框架,无非是在这些任务基础上进行的改进与演化,比如Spark优化了MapReduce,使得数据处理更加简单、快速。
之后具体到技术,实际上就是上网看视频课程或者博客,例如极客时间、慕课网都有不错的教程可以去学习,微信公众号也有很多优质文章,这里就不多推荐了,有需要可以评论留言。