专栏名称: 爱数据LoveData

中国统计网（www.itongji.cn），国内最大的数据分析门户网站。提供数据分析行业资讯，统计百科知识、数据分析、商业智能(BI)、数据挖掘技术，Excel、SPSS、SAS、R等数据分析软件等在线学习平台。

python数据分析笔记——数据加载与整理

爱数据LoveData · 公众号 · BI · 2017-02-13 17:07

正文

4、要将多个列做成一个层次化索引，只需传入由列编号或列名组成的列表即可。

5、文本中缺失值处理，缺失数据要么是没有（空字符串），要么是用某个标记值表示的，默认情况下，pandas会用一组经常出现的标记值进行识别，如NA、NULL等。查找出结果以NAN显示。

6、逐块读取文本文件

如果只想读取几行（避免读取整个文件），通过nrows进行制定即可。

7、对于不是使用固定分隔符分割的表格，可以使用正则表达式来作为read_table的分隔符。

（’\s+’是正则表达式中的字符）。

导入JSON数据

JSON数据是通过HTTP请求在Web浏览器和其他应用程序之间发送数据的标注形式之一。通过json.loads即可将JSON对象转换成Python对象。（import json）

对应的json.dumps则将Python对象转换成JSON格式。

导入EXCEL数据

直接使用read_excel（文件名路径）进行获取，与读取CSV格式的文件类似。

导入数据库数据

主要包含两种数据库文件，一种是SQL关系型数据库数据，另一种是非SQL型数据库数据即MongoDB数据库文件。

数据库文件是这几种里面比较难的，本人没有接触数据库文件，没有亲测，所以就不贴截图了。