下面从大数据特征,及数据分析过程及分析目的等三个方面,来做具体解析:
一、大数据基本特征是量级大,类型多;但大数据≠全量数据集合;
1、数据时效性因素;
当下,随着科技技术及工具的发展使用,数据采集汇总的成本及难度越来越低,数据集合的量级、类型不断扩大,甚至在相对状态下,逐渐趋向全量数据集合;但由于数据的时效性,决定了数据分析中的样本,永远不可能是全量数据集合。
2、数据适用性因素;
用于分析挖掘的数据集合,其必须首先满足两个基本条件:数据的真实性和适用性;脱离了这两个基本特点的数据,不具备分析挖掘的必要性,其输出的结果没有价值,更不具备决策或行动计划参考性;这些数据一定是样本数据,而非全量数据;
二、数据分析过程中,所使用的数据集合均为样本,而非全量;
现实中数据,总是随着时间,空间的变化,在数量上动态增减,不管数据量多大,大家所能采集获取到的,都只是一个时空区间的样本数据,而并非全量。
三、数据分析挖掘目的,决定了数据的样本集合特点是抽样,而非全量;
1、目的一,校验过往数据输出价值。
举例说明:杜蕾斯的安全性;那么大家是不是需要把所有的小杜都吹成气球,测试一遍?
不现实,是吧。。。
2、目的二,描述事物当下实际状态;
举例说明:调研大数据人才市场需求情况,你会不会每个城市、每个人都去询问一遍?
这工作量,时间、人工成本,是不是难度很大?
能用抽样调查完成的相同结果的输出,凭啥还要消耗多余的资源呢?太浪费啦!
3、目的三,预测未来事物发展趋势;
如果这里一定要用全量数据进行分析预测的话,那么未来的数据你如何获取?你是超人?闪电侠?还是时空旅行者?能穿越吗?
这就是个根本问题,更能说明大数据时代,分析挖掘的数据集合,一定绝壁是样本数据了。
综上简述,大家处在一个动态的时空里,任何事物都不会是绝对全量存在,你偶也就百十来年的人生历程,也都只是历史长河中的微小一段的经历而已。
还认为大数据时代的数据集合,就是全量数据集合的观念,那么对数据认知及数据统计分析挖掘过程和价值目的输出等方面的理解,就太片面或者根本就是错误的。该扫扫“数盲”了。
【墨蔸数据】作者:
连续创业者,专注商业数据分析及项目团队管理。定期输出大数据商业运营管理实战经验。欢迎持续关注,一起探讨交流,谢谢!