有问必答——匹配问题

爬虫俱乐部 · 公众号 · · 2018-07-16 14:54

正文

请到「今天看啥」查看全文

postname ：定义一个post的名称。

newvarlist ：定义输出变量的名称，可以是数值型，也可以是字符型。

filename ：指定输出结果的位置。

replace ：代替已有同名文件。

post ：输出结果。

postclose ：结束整个post过程。

我们可以把这整个使用过程当作一个邮件寄送的过程，首先定义一个邮件系统的名称（postname），其次，指定需要邮寄的信息（newvarlist）和收信位置（filename），然后，邮寄出指定的内容（post），最后结束邮递过程（postclose）。

接下来我们开始进行匹配工作。首先，用以下命令行对原始数据进行转码：

clear
cd E:\直播课程\qq群问答
unicode encoding set gb18030
unicode translate " 2018uf原始数据.dta", transutf8 invalid
unicode erasebackups, badidea

其次，建立循环匹配出我们需要的数值并输出。

use 2018uf原始数据.dta, clear
capture postclose mypost
postfile mypost  long pid  ///
 long pid_f  long income  ///
using  mypost.dta, replace
forvalues i = 1 (1)`=_N'{                 // 对pid变量下的每个身份代码进行循环
    forvalues  j = 1/ `=_N'{                 // 对pid_f变量的每个身份代码进行循环
          while pid[`i'] == pid_f[`j']{         // 判断个人身份代码是否匹配其“爹“的身份代码
              post mypost  (pid[`i'])  (pid_f[`j'])  (income[`j'])   // 输出符合判断语句的观测值
           continue, break
               }  
    } 
}
postclose mypost
use mypost.dta,clear
br  in  1/10

结果如下图所示：