正文
所以在猎户星空所参与的这个项目里,不可以使用外部数据,有限制类别只能在限定的数据集内调用,比拼团队的算法能力。
简而言之,就是用尽量少的资源输出最好的结果,其难点在于技术算法以及团队整体的产品设计思维。
猎户星空介绍,有限定数据集的竞赛难度主要在于——竞赛数据噪声很大,无法直接用于训练;而整个训练数据集非常大,适合人脸模型大规模训练的模型对资源的要求又很高,很难做到又快又好。
“训练数据太脏。这里的脏是指一个类别里有很多不同的人,有时我观察一个类别都不知道正确的人应该是谁,这种数据直接训练很难。”PingWest品玩向相关人士了解到。
经过研究,猎户星空设计了一种鲁棒的去噪算法,可以针对各类不同程度的噪声数据都进行有效地去噪。同时选择采用适合大规模训练的triplet模型,并创新地使用了一种巧妙的设计,在有限资源下加速了triplet网络的训练,也大大提升了性能。
最终猎户星空团队获得0.75/0.606(random set/hard set)的高分。用比赛举办方的话来说,0.75已经接近满分,是一个非常难以达到的成绩。而在hard set上0.606的成绩,也是远远超过去年的最好成绩(0.534)。
一个问题是——一年成立刚刚一年的公司,就能在这样的赛事里拿下这样的成绩,这家公司是什么背景?
猎户星空的背后,是图像、语音识别两大核心技术
AI技术所面临的问题,现在已经明显——学术界的人才不停发paper,却不一定能在大公司中将技术应用落地,快速推向市场;而目前缺失的是工业界的人才——他们面临着如何将论文、学术转化为实际产品应用的问题。如何打开AI技术的应用市场,其实更注重后者。