专栏名称: 爱数据LoveData
中国统计网(www.itongji.cn),国内最大的数据分析门户网站。提供数据分析行业资讯,统计百科知识、数据分析、商业智能(BI)、数据挖掘技术,Excel、SPSS、SAS、R等数据分析软件等在线学习平台。
目录
相关文章推荐
51好读  ›  专栏  ›  爱数据LoveData

python数据分析笔记——数据加载与整理

爱数据LoveData  · 公众号  · BI  · 2017-02-13 17:07

正文

请到「今天看啥」查看全文


4、要将多个列做成一个层次化索引,只需传入由列编号或列名组成的列表即可。






5、文本中缺失值处理,缺失数据要么是没有(空字符串),要么是用某个标记值表示的,默认情况下,pandas会用一组经常出现的标记值进行识别,如NA、NULL等。查找出结果以NAN显示。






6、逐块读取文本文件


如果只想读取几行(避免读取整个文件),通过nrows进行制定即可。






7、对于不是使用固定分隔符分割的表格,可以使用正则表达式来作为read_table的分隔符。




(’\s+’是正则表达式中的字符)。


导入JSON数据


JSON数据是通过HTTP请求在Web浏览器和其他应用程序之间发送数据的标注形式之一。通过json.loads即可将JSON对象转换成Python对象。(import  json)


对应的json.dumps则将Python对象转换成JSON格式。



导入EXCEL数据




直接使用read_excel(文件名路径)进行获取,与读取CSV格式的文件类似。



导入数据库数据


主要包含两种数据库文件,一种是SQL关系型数据库数据,另一种是非SQL型数据库数据即MongoDB数据库文件。


数据库文件是这几种里面比较难的,本人没有接触数据库文件,没有亲测,所以就不贴截图了。








请到「今天看啥」查看全文