专栏名称: 爱数据LoveData

中国统计网（www.itongji.cn），国内最大的数据分析门户网站。提供数据分析行业资讯，统计百科知识、数据分析、商业智能(BI)、数据挖掘技术，Excel、SPSS、SAS、R等数据分析软件等在线学习平台。

Python数据分析相亲网站，2w+异性中找到真爱！

爱数据LoveData · 公众号 · BI · 2019-10-23 15:54

正文

请到「今天看啥」查看全文

他意识到他应该去提高匹配的人数。如果McKinlay通过 统计取样确定哪些问题是他喜欢类型的女人愿意回答的， 那么他便可以诚实地回答这些问题而忽略其他问题，以此来创建一个全新的用户。利用这个办法，他可以匹配到在LA的每一个可能与他配对的女人，而不会匹配到不合适的人。

第二步：借助Python，收集数据

Chris McKinlay利用Python脚本浏览了上百道OkCupid的问卷题目，然后把女性用户分为七类，每一类都会贴上独特的标签，例如“多才多艺的”和“细心体贴的”等等。

他要寻找爱情，首先需要的是数据。就在他用旁边的窗口进行论文写作的时候，他建了12个假的OkCupid账户并写好了Python脚本去管理这些账户。这个脚本会搜索他的目标群体（25到45岁的异性恋的女人），访问她们的主页，然后爬取她们账户上每一条有用的信息：种族、身高、是否吸烟、星座—— “这些我全都要”他说。

为了找到心仪的另一半，他还做了一些额外调查。OkCupid可以让用户看到其他人的回答，但只能看到那些他们自己已经回答过的问题。于是McKinlay设置了自己的机器人程序，以简单地随机回答每个问题，他并没有使用虚拟的个人资料吸引任何女性，因此答案并不重要， 主要他要将这些女性的答案收集到了数据库中。

McKinlay满意地看着他程序一路狂奔。然后，在收集了大约一千个档案后，他遇到了第一个障碍。OkCupid有一个短平快的系统来防止这种数据收集，他的程序一个接一个地被禁。

因此他必须把自己的程序训练的更像真人一些。

根据手中的数据， McKinlay通过编程模拟Torrisi的点击率和打字速度。 他从家里带来了第二台电脑并将其插入数学系的宽带线路，以便可以24小时不间断运行。

三周后，他已经收集了来自 全国各地20000名女性的600万个问题和答案。

第三步：将20000名女性分7类

按照McKinlay的工作计划，他需要从调查数据中找到一个规律，即需要根据相似性粗略地对女性进行分组。这个问题在他编写一个名为K-Modes的改良贝尔实验室算法时取得了进展。

K-Modes算法1998年首次用于分析患病的大豆作物。

他通过算法发现了一个自然的分割点，根据问题和答案， 20,000名女性被分为成七个统计学组。 “我太高兴了，”他说，“那是六月份令我最兴奋的事情了。”

他重新设置条件来收集另一个样本库：在过去一个月内登录OkCupid的来自洛杉矶和旧金山的5000名女性。通过K-Modes的另一次分组确认他们以类似的方式聚集并 确保统计抽样有效。

现在只需要决定哪个类群最适合他了，在抽查了每个类群的一些档案后，发现一个类群太年轻，两个太老，另一个太“基督”了。于是他徘徊在一个二十五岁左右的女性主导的类群中，工作类型比较独立，像是音乐家和艺术家。这简直是黄金单身群！

就像是大海捞针，他找到了他的针，也就在这个类群的某个地方，他找到了真爱。

一个相邻的类群看起来也引起了McKinlay的注意：年龄稍微大一些，从事专业的创造性工作，如编辑和设计师。 他决定将两个类群都设定为自己的目标！ 于是设置了两个配置文件，A、B组各优化一个。

第四步：填写相关问题，找出灵魂伴侣

他对这两个类群进行了文本挖掘以了解她们感兴趣的内容：教学是一个热门话题，因此他撰写了一篇强调了他作为数学教授工作的文章。

更重要的是回答问题，于是他挑选了两个类群中最受欢迎的500个问题并决定诚实地填写答案，他不想在计算机生成的谎言的基础上建立未来的恋爱关系。但是他会使用一种称为 自适应提升的机器学习算法来得出最佳权重，从而让计算机确定分配每个问题的重要性。

有了这个后他发表了两个照片，一个是攀岩的照片，另一个是在音乐演出中弹吉他。

对于年轻的A群，他尊重计算机将问题评为“非常重要” 的结果。对于B群集，它则是“必须回答”的问题。