一般脏数据分析可以分为以下几个步骤:
一.数据读取:根据数据源文件的文件类型,可以使用pandas的read_csv、read_table、read_excel、read_sql、read_json、read_html、DataFrame来读取。
二.查看数据信息:主要使用describe、info这两个方法,也可以直接用pandas的绘图功能可视化显示数据。
三.处理异常和缺失的数据:用到的方法主要有dropna、fillna,处理完异常和缺失数据后再可视化显示出处理完的数据
四.如果是做机器学习或深度学习,还要再做一下归一化处理。
五.数据处理完后再写入到文件中,以备调用,偶一般用to_csv方法来保存。
以下是偶这自己处理的一段实例代码: