正文
和之前的爬虫不一样,这个爬虫是自动去获取数据的,不需要跟任何参数,因此我把它放在一边,没有管它,这样过了一个小时之后。。。
第二天我又把它开了半天,最后大概爬取了约20万份全国各地的人们主动上传的美食。看到数据的我突然觉得,要是这都是做给我吃的就好了,20万道菜,就算一天吃10道菜,都可以吃50年了。数据从某方面来讲确实是好东西,但毕竟不能吃,少了那么些意思。
和之前分析歌词不同,几十万字的歌词也才1M上下,存个文本文档就足够了,但这次不一样,20万份下来最少100M,要是放在文本文档里那别说分析了,打开它都得让电脑卡死,所以这一次,我鸟枪换炮,把它存在了 mysql 数据库里面,说实话,G 以下的数据,也暂时还用不到 Hadoop 一类的东西,mysql 足矣。
通过对食材的聚类分析,我们可以看出,最受欢迎的调理是盐,其次是糖,酱油(PS:同类词已经合并,例如糖和白糖,都算做糖)
这从某种程度上说明了,咸味比甜味还是更主流一点。
那么,人们最喜欢吃的肉是什么呢?我们把食材又做一次聚类,发现了如下事实:
可以看得出,五花肉是不可撼动的存在,第二名排骨的份额也不错,达到了12.1%,其次是牛肉和猪肉。虽然猪肉略逊于牛肉,但五花肉和排骨其实也是猪肉,因此,猪肉无可辩驳的是中国人的餐桌之王。令我比较吃惊的是虾仁有8.57%的份额,我小时候基本上很少吃虾仁,这世界变化快啊。
肉类看完了,那么对于蔬菜的选择又是怎样的呢?
看了结果我有一点愤怒,为什么这么难吃的胡萝卜居然是第一?而且那么领先。又是为什么,香菜居然出现在了前十的名单里面。我最爱的土豆,居然只有 14.54% 的份额。这太让人震惊了。
另外我还发现了一个不得不说一下的事实,就是在描述用量的时候,出现最多的是「适量」,这个描述每次我看到都很头疼,适量到底是多少,为什么不能说的明白一点呢,我手一抖,倒下去半瓶醋,是不是也是适量?
看完了食材,我们看一下中国人最常做的菜是什么:
可乐鸡翅,这勾起了我遥远的回忆,我第一次听到这个名字的时候还在上小学,那时候我觉得这个菜肯定特别牛逼,特别复杂。后来却发现,这道菜出奇的简单,那些号称能在厨房露一手,但是平时从来不下厨房的人们,往往能露的也只有可乐鸡翅和蛋炒饭,最多再加一个土豆丝。
另一个比较好玩的数据是烹饪时间,统计发现,接近半数的菜,烹饪时间为30-45分钟,这充分说明了中国人做菜是充满耐心的,虽然社交网络上充斥着几分钟做一个什么什么菜的教程,但是大家还是愿意认认真真,花几个小时做一桌一家人的晚餐,这是中国传统文化中关于食物的美好的地方。
中国菜的技艺复杂,煎炒炸蒸焖煮烧,什么技法是出现最多的呢?
炒是做常见的做法,其次是烧,蒸和煎。
照例,我们可以杜撰一下一道典型中国菜的画像:适量的五花肉,适量的胡萝卜,土豆和洋葱,以及适量的酱油,盐和糖。首先把锅烧热,倒入适量的油,然后放入姜蒜,等香味出来后,放入五花肉,等到五花肉的油出来,肉微焦,香味四溢的时候,放入胡萝卜,土豆,洋葱,继续翻炒,然后放入酱油上色,盐,糖,继续翻炒入味,还可以放点水烧一下。然后撒点葱花,就可以出锅了!
炒出来可能是这个样子:
MD,居然饿了。