1获取数据
首先确定数据源是什么、在哪里、获取方法及权限等;数据源是个相对概念,有深浅之分,最深层次的根源数据源一般都是源自业务实践产生,比如产品APP埋点技术获取用户PV/UV类线上流量数据明细,比如手工采集实际业务运作过程中产生的线下数据(比如登记表等)…这些都是最深层次的数据源,根据实际需要将这些数据进行一层层加工(格式优化、内容增减、数据聚合简化标准化等)后形成靠上层的新数据源
然后根据获取数据源流程进行实际操作;公司内部大数据离线和实时系统数据源是公司最高级机密数据源,必须经过公司授权才能获取,公司对外数据源可以通过公司发布的正规渠道获取(官网、指定途径等)。有些技术高手总想通过爬虫技术钻法律空子爬取别家公司的机密数据,这类操作是高风险、不可取的
最后将宝贵数据合理存储起来,一般数据源复用性都很强,要养成及时合理保存、存储的好习惯
2分析数据
拿到数据源后先进行清晰,然后才能根据实际业务需要进行分析,分析要有目标、或者带着问题去分析。
一是少量(不必使用大数据处理技术的)数据的统计分析,运用本地常用办公软件(比如offive等)、本地常用统计分析软件(Python/R/SP等SS)就能处理,涉及统计学、高数、概率论等基础数学计算知识
二是大规模数据的数据挖掘,由于数据规模很大导致本地软件处理不了、只能借助大数据处理技术进行分析,此类分析将运用高阶数学、AI算法等方法
3应用数据
将数据分析结果进行归纳提炼形成可行性的指导建议,应用在实际业务生产中,促进业务向前发展
4注意事项
数据源获取分2类,1类是直接获取(非技术人员不用写代码即可获取,比如从实时系统查询、下载、导出到本地)2是代码提取(需专业开发人员进行代码开发、运行后获取)。
数据源是数据分析阶段的输入、应用数据优化建议是数据分析阶段的输出,分析不是目的、分析是获取有指导业务发展类优化建议的必经途径/方法