首页 >

学会爬虫,还需要学什么,才能进行大数据分析? – 网络|

qq闪退怎么解决方法,如何确保地铁运营网络安全,判断函数怎么输入字符串学会爬虫,还需要学什么,才能进行大数据分析? - 网络|学会爬虫,还需要学什么,才能进行大数据分析

1.定义问题

  • 确定需要的问题,以及想得出的结论。需要考虑的选项有很多,要根据所在业务去判断。常见的有:变化趋势、用户画像、影响因素、历史数据等等。

  • 《数据之美》:这一本书里面没有什么干货,但有很多案例,可以通过里面的案例来了解数据分析的基本过程。不是很厚,但里面的数据分析思想非常值得学习,毕竟ideal才是最重要的。

2.数据获取

  • 数据获取的方式有很多种。一是可以直接从企业数据库调取,这时候就需要SQL技能去完成数据提取等的数据库管理工作。二是获取公开数据,可以从政府、企业、统计局等机构去下载公开数据。三是通过Python编写网页爬虫,收集互联网的数据。

  • SQL是用于访问和处理数据库的标准的计算机语言。需要掌握到如何使用SQL访问和处理数据系统中的数据。SQL在公司的应用多,可以说是必须掌握的。
  • 这里偶推荐一个SQL的教程:http://www.w3school.com.cn/sql/

3.数据预处理

  • 因为原始数据可能会有很多问题比如残缺、重复、无效的数据,所以数据预处理主要是对异常数据进行清洗,以便更加准确的分出分析结果。而偶最经常做的就是设定一些筛选规则把异常数据剔除掉,以及将缺失值用平均值或者线性函数估计进行填补。

  • 这里比较多涉及的就是统计学的知识了,刚入门不建议把统计学翻个底朝天的学习,不然就会觉得很吃力。所以建议暂时先掌握一些基本的预处理。
  • 推荐:《深入浅出统计学》,这本书可以说是非常适合入门了,如果对统计学一点了解都没有或者都忘得差不多了,可以从他入手。如果大学时数学就特别好,就不推荐这本书。

4.数据分析与建模

  • 这个部分学起来可能会觉得很抽象,因为模型是对现实世界特征的模拟和抽象。在这个部分需要了解基本的统计分析方法、数据挖掘算法,了解不同统计方法适用的场景和适合的问题。而数据挖掘的算法、特征提取可以用来优化自己的模型,获得更好的结果。

  • 这个部分涉及的知识就比较复杂,这是一个建立数据模型的过程,内容包括数据结构、数据操作、数据约束。还要学习的是数据挖掘和算法,需要很好的数学基础。

5.数据可视化和分析报告撰写

  • 数据可视化,学习一款可视化工具,将数据通过可视化最直观的展现出来。也可以进一步深入探究其内部的关系,通过建模和分析,来对未来的情况有更精准的预测。


  • 数据可视化的方法有很多,常见的有用SPSS、R语言来进行可视化,如果编程能力有限也可以选择一款喜欢的可视化软件。这里偶推荐一个Tableau,原因当然是简单易用还附带免费教程。


学会爬虫,还需要学什么,才能进行大数据分析? - 网络|
  • Python显式游标尺(详解Python游标尺的使用方法) |python里面while函数
  • Python显式游标尺(详解Python游标尺的使用方法) |python里面while函数 | Python显式游标尺(详解Python游标尺的使用方法) |python里面while函数 ...

    学会爬虫,还需要学什么,才能进行大数据分析? - 网络|
  • 如何用Python中的NLTK对中文进行分析和处理? |python 设计原则
  • 如何用Python中的NLTK对中文进行分析和处理? |python 设计原则 | 如何用Python中的NLTK对中文进行分析和处理? |python 设计原则 ...

    学会爬虫,还需要学什么,才能进行大数据分析? - 网络|
  • Python3x爬虫探秘互联网数据的无限可能 |python中类是结构体
  • Python3x爬虫探秘互联网数据的无限可能 |python中类是结构体 | Python3x爬虫探秘互联网数据的无限可能 |python中类是结构体 ...