数据分析主要是面向结论。通常是通过人依赖自身的分析经验和对数据的敏感度(人智活动),对收集来的数据进行处理与分析,按照明确目标或维度进行分析(目标导向),获取有价值的信息。比如利用对比分析、分组分析、交叉分析等方法,完成现状分析、原因分析、预测分析,提取有用信息和形成结论。
数据挖掘主要是面向决策。通常是指从海量(巨量)的数据中,挖掘出未知的且有价值的信息或知识的过程(探索性),更好地发挥或利用数据潜在价值。比如利用规则、决策树、聚类、神经网络等概率论、统计学、人工智能等方法,得出规则或者模型,进而利用该规则或模型获取相似度、预测值等数据实现海量数据的分类、聚类、关联和预测,提供决策依据。
需要注意,较传统数据挖掘主要针对相对少量、高质量的样本数据,机器学习的发展应用使得数据挖掘可以面向海量、不完整、有噪声、模糊的数据。
数据统计同样是面向结论,只不过是是把模糊估计的结论变得精确而定量。比如。得出具体的总和、平均值、比率的统计值。
从广义上讲,广义的数据分析分为如上介绍的数据分析、数据挖掘、数据统计三个方向。
机器学习是一门专门研究计算机怎样模拟或实现人类的学习行为,能够赋予机器学习的能力以让它完成通过编程无法完成的功能,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科,但机器学习不会让机器产生“意识和思考”,它是概率论与统计学的范畴,是实现人工智能的途径之一。
深度学习是机器学习的一个子领域,受大脑神经网络的结构和功能启发而创造的算法,能够从大数据中自动学习特征,以解决任何需要思考的问题。从统计学上来讲,深度学习就是在预测数据,从数据中学习产出一个模型,再通过模型去预测新的数据,需要注意的是训练数据要遵循预测数据的数据特征分布。它也是实现人工智能的途径之一。
机器学习中的“训练”与“预测”过程可以对应到人类的“归纳”和“推测”过程。