什么是数据挖掘?
- 数据挖掘是一个用数据发现问题、解决问题的学科。
- 通常通过对数据的探索、处理、分析或建模实现。
数据挖掘学习路线
- 大学里并没有数据挖掘这么一个专业,现有的数据挖掘工程师大都来自工科或统计学等专业。
- 目前的数据挖掘工程师大都来自不同背景,计算机科学、数学甚至是机械工程。要想成功胜任,其诀窍是热情、好奇心,不断学习新的工具的能力,以及对数据清洗和分析的耐心。
给新人的建议
- 最重要的三个品质:好奇心、是非观以及批判性思考。这三个品质,放在其他领域同样适用。
- 专业领域的三种能力:编程能力、统计基础、商业思维。编程和统计在大学较为容易学到,商业思维需要多实践总结。
#二、数据挖掘在做什么
数据挖掘工程师的一天
- 检查日常报表数据是否异常,寻求数据波动的合理解释。
- 针对新业务,设计指标,搭建数据模型。
- 搭建商品推荐系统、价格预测系统、文本分类系统或是聊天机器人。
数据挖掘的算法
- 使用复杂的机器学习算法并不能保证效果。一般来讲,最好的解决办法,通常很简单。
- 生产环境使用简单的算法,并不意味着要放弃前沿算法。每一套新的方法,其目的都在解决前面的薄弱之处。
数据挖掘与服务器
- 本地PC由于硬件与系统限制,工程师常在服务器进行大规模数据的运算、脚本部署与接口部署。
#三、商业中的数据挖掘
作为公司,该如何开展数据挖掘
- 评估可能的收益与需要的投入
- 开始收集数据
- 招募数据挖掘团队
招聘数据挖掘团队
- 好奇心应该是数据挖掘从业者的最重要品质。
- 招聘时,应确保候选人对工作内容感兴趣。
- 候选人应具备一定的成果意识。商业更重成果,而不是过程。
数据挖掘应用
- 广告位点击预估
- 信用卡风控评估
- 用户流失干预
#四、数据挖掘工具
数据挖掘工具与大数据
- 掌握以下工具:Python、Linux、Pandas及Jupyter、关系型和非关系型数据库。
- 大数据通常指传统数据系统无法处理的数据。体量和增速都相当大。处理工具以Hadoop为代表。
#五、数据挖掘进阶
神经网络和深度学习
- 神经网络出现已数十年,但由于条件限制,这一方向搁置了数十年。目前随着新的优化方法的出现和算力的提升,这一方向的工业化逐渐成为可能。
如何更上一层楼
- 掌握基本的编程知识,更多地去理解背后的原理。
- 流程化意识,及时复盘总结,规范流程(复用)。
- 成果导向,将知识转化为行动和成果,给他人带来价值,服务更多人。