pandas是python一个非常著名的数据处理库,内置了大量函数和类型,可以快速读取日常各种文件,包括txt,csv,excel,json,mysql等,为机器学习模型提供样本输入(包括数据预处理等),下面偶简单介绍一下这个库的使用,以读取这5种类型文件为例:
txt这里直接使用read_csv函数读取就行(早期版本中可以使用read_table函数),测试代码如下,非常简单,第一个参数为读取的txt文件名称,第二个参数为列标题(None代表无列标题,如果需要列标题的话,去掉header参数就行),第三个参数为分隔符,可以是任意符号(空格、逗号等都行):
csv这里也直接使用read_csv函数就行,测试代码如下,和上面读取txt文件差不多,分隔符就不需要单独指出了,默认是逗号:
excel这里直接使用read_excel函数读取就行,参数设置和read_csv差不多,第一个参数为文件名称,第二参数header为None,则没有列标题,若不写,则默认有列标题,如下,则含有列标题:
json这里直接使用read_json函数就行,第一个参数也是文件名称,第二个参数为编码,如果出现中文乱码的情况下,这里设置一下就行:
mysql这里需要借助sqlalchemy模块,才能完成mysql数据库(Oracle,SQL Server等也都可以)的读取,安装的话,直接在cmd窗口输入命令“pip install sqlalchemy”就行,测试代码如下,非常简单,先创建一个engine连接,然后直接调用read_sql_query函数执行sql查询就行:
至此,大家就完成了利用pandas模块来读取txt,csv,excel,json,mysql等5种类型的文件。总的来说,pandas这个库的功能非常强大,对于日常数据处理来说,是一个非常不错的选择,在机器学习中,经常会用于数据预处理,非常实用,只要你有一定的python基础,熟悉一下相关文档和说明,很快就能掌握的,网上也有相关资料和教程,介绍的非常详细,感兴趣的话,可以搜一下,希望以上分享的内容能对你有所帮助吧,也欢迎大家评论、留言进行补充。