大数据人工智能领域从菜鸟到高手晋级指南

软件定义世界（SDX） · 公众号 · 大数据 · 2017-11-19 06:00

正文

请到「今天看啥」查看全文

1. 最好的资源往往是公开的

读过背景铺垫后相信已经不需笔者再解释为什么最好的资源往往是公开的，在此直接给出一些获取高质量资源的渠道。首先推荐国外的三个网站，分别是“Coursera”、“Arxiv”以及“Github”。

Coursera 是全球顶尖的在线学习网站，由业内极具学术造诣及分享精神的大咖创办。Coursera上的课程相对比较基础，应该是“小白”起飞最好的平台，在这里推荐吴恩达（Andrew Ng）开设的“机器学习”以及“深度学习”。对于国内学生来说最大的问题可能就是英语了，在这里需要明确一点，如果各位想要成为真正的高手，那么英语是永远绕不过去的坎，业内最新、最好的资料无一例外都是英文，即便是来自国内的顶尖高手在发论文时都不会选择用中文。

其实对于绝大多数人， 英语并不应该被当作一门“学科”来学习，而应该被当作“工具”来用 。具体的做法也没有捷径，就是看到不懂的单词立即查，单词不用刻意去记忆，下次遇到不会就再查一次，一切以快速弄懂句子含义为目标。

Arxiv以及Github 是各位读者未来会特别常用的两个网站/工具，Arxiv上有最新最全的共享论文，论文中会对各类算法进行详尽的阐释，Github上有最新最好的开源代码，这些代码往往是对某种算法的实现，具体的使用方法网上有许多教程，在此不做展开。

读者可以简单的理解为Arxiv是修炼内功的地方，而Github是修炼外功的地方。只练内功不练外功是无法解决实际问题的，但只练外功不练内功又往往毫无威力，一定要内外兼修。最后再向大家介绍一个神奇的网站名叫“gitxiv”，会帮助各位找到论文与代码的对应关系。

2. 不要看书、不要看书、不要看书

一门学科怎么入门呢？菜鸟在面对这个问题时，最容易踩入的“深坑”就是找一本权威的书来从头学起，一旦踏入此坑，轻则荒废自己数周时间，重则对某一门学科彻底失望终生。首先好书本来就不多，往往可遇不可求。其次即便遇到好书，为了保证学术性，书中用语往往“严谨”但难懂，且会从学科的早期历史为读者打下“坚实基础”，讲到最近的技术手段时又戛然而止。最后，就算读者倾尽数月之功力，坚持读完了，笔者可以用血淋林的亲身实践告诉你，书中前半部分的内容一般人肯定会忘的。

当然也有特殊情况，如果各位已经确定了自己的研究方向，并且有高人/导师指点，给出了相应领域内必读好书的名录，这一类书还是值得一看的。不过在看的时候也要注意， 不要纠结于某些细节问题 ，看不懂的地方可以先记下来，这类细节往往会在各位后面实践过程中的具体场景下恍然大悟。

正确的做法一句话就可以概括， 好书是用来查的而不是用来啃的 ，什么时候来查呢？下文会逐步解答。

3. 找对好基友，连滚带爬往前走

现在已经不是一个单打独斗，凭着跌落断崖后找到一本秘籍闭关几年就能横扫天下的时代了，无论是像Hinton（推翻了BP算法的BP算法之父）这样的泰斗，还是像何凯明（发best paper像一般人发paper一样容易的神奇学霸）这样的新秀，都处在各自非常靠谱的团队中与小伙伴们共同探索。好基友不需要多，有一两个真正靠谱的就已经足够，至于队友的重要性后文会慢慢阐释。

菜鸟筑基这部分最后要给出的建议就是， 千万不要在这个阶段停留太久 ，不要等“准备好了”再去着手实践，因为这里的“准备好了”往往包含菜鸟的不自信，不去进一步提升自己是永远准备不“好”的。一般情况下，想做“计算机视觉”或者“自然语言处理”等偏AI方向的同学在完成吴恩达的《深度学习》课程后，想做“数据挖掘”的同学在完成吴恩达的《机器学习》课程后，就可以选择相应的实践项目准备进入下一阶段了。

那么我们该选择什么实践手段呢？ 最佳的情况是有大神带队做真实项目，但是这样的机会往往可遇而不可求，在此不展开讨论。普罗大众型的办法是参加一个大数据比赛项目，现在国内的“阿里天池”以及国外的“Kaggle”都是开放式的大数据比赛平台，平台上会有各种组织发布的各类真实项目供大家实践、比赛。读到这里各位心里可能还存有很大的疑问：“就算学会了基本课程，在没有人带的情况下能上手实践吗？”，下文将陆续回答如何 “连滚带爬” 的进行实践。

三、初入江湖

1. 找到一个最高的baseline

这里的“baseline”可以理解为前人已经做出成果，当自己恰好需要去做相同工作时的参照。对于上文提到的情况，如果有大神带队进行实践的话，那么带队大神此前的实践经验就成为了全体小队成员的“baseline”。那对于没有“大神”资源的广大读者是否有更通用的解决办法呢？答案是肯定的。如果读者目前对于一类问题无从下手，例如刚刚学完“深度学习”的课程，但是不知道如何去做“自然语言处理”类的项目，最好的办法是 利用好国内的“万方”以及“知网”这样的论文查询平台 ，去查询相关领域国内普通高校的学位论文，这样的论文绝大部分都是中文并且会在论文中介绍大量的基础背景知识，正好满足了我们的需求。

如果是对某一技术方的特定知识点不明所以，例如在做“自然语言处理”方向的项目，但却不太了解“LSTM”，则可以 利用好国内的诸如“知乎”、“简书”以及“CSDN”这类的知识分享网站 ，只要不是太新的理论，都可以找到相应的博文或者解答。使用上述两类渠道的共同技巧是，多搜几篇文章对比着看。同一个概念或者技术，一篇文章很难全面描述清楚，并且由于文章作者不同，解释问题的出发点也不尽相同，所以如果各位遇到看不懂某篇文章的情况时，不用急躁，接着看下一篇文章就好。另外，前文提到的“好书”在这里就可以用来查了，读者会发现原来想记都记不住的知识点，只要“查”完并且“用”过，那么一般想忘都忘不掉。

这里对baseline所谓“高”的定义是，越接近学术前沿，实践效果越好，就认为越“高”。 一般情况下，可参照的成果越“高”，中文文献就越少。