专栏名称: 数盟
数盟(数据科学家联盟)隶属于北京数盟科技有限公司,数盟致力于成为培养与发现“数据科学家”的黄埔军校。 数盟服务包括:线下活动、大数据培训。 官网:http://dataunion.org,合作:[email protected]
目录
相关文章推荐
CDA数据分析师  ·  【反焦虑法则】当我不再较劲这 5 ... ·  3 天前  
CDA数据分析师  ·  《CDA二级教材》电子版上线CDA网校,助你 ... ·  3 天前  
51好读  ›  专栏  ›  数盟

Data Cleaning | 数据清洗的经验与教训

数盟  · 公众号  · 大数据  · 2017-07-04 21:40

正文

请到「今天看啥」查看全文


准备工作

把原始数据单独保存在一个文件夹里,永远不要改动,标记它们的来源(开源网站?自己抓取?自己收集?数据库购买?)。在处理数据前,一定要想好你处理后的数据如何能和原始数据对应起来,例如通过变量名或者标识符(identifier)。 这个步骤很重要,因为如果你发现最终数据有误,还能通过变量名或标识符找到错误的源头。

在开始处理数据前,把数据结构了解清楚。最好把下列问题的答案写在一个文档里:你有哪几个数据集,分别叫什么名字、长什么样(几行几列,单位是什么:是个人-每年层面的数据,还是国家-每月的数据);你的目标是什么(合并?算每个子集的中位数?统一单位?合并或统一单位的目的又是什么?为什么我的研究要求我这么做?);要用的变量叫什么名字,输出的变量叫什么名字、长什么样,怎样应用到接下来的分析中。

以上步骤听起来很简单,甚至没有做的必要。但是数据集多了、处理内容复杂了以后,很容易弄混变量名,忘记最终目的(即“这个清洗过的数据集到底和我最终研究目的有什么关系”)。如果你的项目牵扯到第三方(例如公司或政府数据提供方),研究战线会拖得很长,可能你一月处理好数据集 A,三月调查公司才把数据集 B 给你,你看了一眼 B 发现又需要数据集 C。等你五月开始合并 A、B、C 的时候,你已经忘记 A 到底是用来做什么的了。

写清楚变量与步骤在个人项目中已经非常重要,在合作项目中当然必不可少。多人合作中弄错变量含义、弄混文件版本是常见且头疼的问题。







请到「今天看啥」查看全文