3 数据的存取与清洗
学习目标
● 掌握TXT、CSV、XLSX、JSON文件的存取,以及使用Python操作MySQL
数据库的知识
● 掌握pandas、NumPy的基本用法,并学习使用pandas进行数据的清洗
● 学习在数据处理中使用自定义日志文件记录操作
3.1 数据存取
这里重点讨论数据的存储问题。因为存储数据是为了利用数据进行建模分析,那么选择恰当的数据存储方式会使得数据的提取更加方便快捷。本书将利用Python内建(built-in)的函数介绍基本的文件操作,利用第三方库对CSV、TXT、JSON、XLSX等格式的文件进行存储,以及利用Python操作MySQL数据库。
3.1.1 基本文件操作
相信了解Python基础语法的读者都知道文件操作涉及open函数,那么先从open函数开始吧。如果忘记open函数的用法了,怎么办?其实淡忘是正常的,即使是熟练的程序员有时候也会忘记函数的用法。这时候应该首先尝试查看帮助文档而不是上网查用法。学习查看帮助文档也是一项可以让我们受益很多的技能。下面尝试一下,熟悉查看帮助文档的读者可以跳过这段。
这里使用IPython交互界面进行测试(建议使用IPython,在Spyder和PyCharm内部均可使用,Ubuntu下直接在终端输入 ipython 即可),当然在Python自带的IDLE的交互界面亦可,不建议直接在Windows终端上操作。
输入:help(open)或者print(open.__doc__)
运行输出如下(这里分段解释)。
首先是一行提示信息,该信息表示这是关于属于io模块内建函数open的帮助文档。之后就是 open 函数的参数列表。在查看参数列表时,要注意只有 file是必须的参数,其他参数是可选的,即使不输入它们也都有默认值。再往后,介绍open的功能以及失败时的报错信息。
为了方便大家利用电子书更好的学习,精心整理了网络上的各种电子书,有PDF版本的,也有TXT版本的,现有一万多本PDF的,七万多本TXT的,还有精心整理的天涯神贴,而且还在不断增加中,有需要的可以点击下面的衔接或者扫码下载:
链接: https://pan.baidu.com/s/1z45OMvYM0Jy-BVuJJmRvtw?pwd=w3m9 提取码: w3m9 复制这段内容后打开百度网盘手机App,操作更方便哦
请先
!