正文
季军队伍将获得1.5万元人民币的奖金
另有若干奖项如优秀奖及双周奖等,详见网站对应竞赛页面的详细说明。
2、图像中文描述竞赛
图像中文描述问题融合了计算机视觉与自然语言处理两个方向,是用人工智能算法解决多模式、跨领域问题的典型代表。参赛者需要对给定的每一张测试图片输出一句话的描述。描述句子要求符合自然语言习惯,点明图像中的重要信息,涵盖主要人物、场景、动作等内容。此次发布的图像描述数据集以中文描述语句为主,与同类科研任务常见的英文数据集相比,中文描述通常在句法、词法上灵活度较大,算法实现的挑战也较大。
组委会将通过客观指标(BLEU, METEOR, ROUGE-L和CIDEr)并结合答辩表现,综合评估参赛者的算法模型。
本次竞赛的研究成果可以被直接应用于图像与视频语义理解、图像与视频自动标注、图像与视频内容检索、人工智能辅助教育、机器人视觉、盲人辅助等人工智能相关领域。
图像中文描述数据集,是计算机视觉与自然语言处理两个学科的交叉结晶。该数据集是目前规模最大、场景和语言使用最丰富的图片中文描述数据集,使用了超过100种复杂生活场景的含有人物的图片,其场景复杂度、人物动作复杂度、身体遮挡情况都高于现有的其他数据集;而且,此数据集的语言描述标注更符合中文语言使用习惯。
相对于MSCOCO和Flickr8k-CN,在完整描述图片主体事件的基础之上,该数据集创新性的引入了形容词和中文成语,用以修饰图片中的主要人物及背景事件,大大提升了描述语句的丰富度。同时,本数据集的30万图片标注量将远远大于Flickr8k-CN(8000张图)。巨大的数据量和复杂的图片场景将直接挑战现有算法的可用性。
-
冠军队伍将获得30万元人民币的奖金
-
亚军队伍将获得3万元人民币的奖金
-
季军队伍将获得1.5万元人民币的奖金
另有若干奖项如优秀奖及双周奖等,详见网站对应竞赛页面的详细说明。
3、场景分类竞赛
本次场景分类竞赛从400万张互联网图片上精选出10万张图片,分属于80个日常场景类别。每个场景类别包含大约1000张图片。要求参赛选手根据图片场景数据集建立算法,预测每张图片所属的场景类别,组委会将通过计算参赛者提交预测值和场景真实值之间的误差确定预测准确率,评估所提交的预测算法。
-
冠军队伍将获得10万元人民币的奖金
-
亚军队伍将获得1万元人民币的奖金
-
季军队伍将获得0.5万元人民币的奖金
另有若干奖项如优秀奖及双周奖等,详见网站对应竞赛页面的详细说明。
(二)机器翻译赛道
本次公开的机器翻译的训练数据为英中方向的高质量、大规模的口语领域的数据。训练数据全部经过译员检查和矫正,句正确率在97%以上,英中双语句对对照工整、质量高、噪音低。现有中英机器翻译评测比赛采用有效数据从30万(例如,The International Workshop on Spoken Language Translation)到900万(例如,Chinese Workshop on Machine Translation)不等。而此次采用的训练数据量达到1000万句对,是最大规模的口语领域英中比赛数据集。训练数据领域性强,面向口语领域。
1、英中机器文本翻译竞赛
英中机器翻译竞赛的目标是评测各家英中文本机器翻译的能力。本次文本机器翻译语言方向为英文到中文。参赛队伍需要根据评测方提供的数据,训练机器翻译系统,并且自由地选择机器翻译技术。例如,基于规则的翻译技术、基于实例的翻译技术、统计机器翻译及神经网络机器翻译技术等。
本次竞赛将利用机器翻译的客观考核指标(BLEU、NIST score、TER)进行评分,BLEU得分会作为主要的机器评价指标。组委会将通过客观指标,并结合答辩表现,综合评估参赛者的算法模型。
本次竞赛的研究成果可以被直接应用于机器翻译尤其是口语机器翻译等领域。
-
冠军队伍将获得30万元人民币的奖金
-
亚军队伍将获得3万元人民币的奖金
-
季军队伍将获得1.5万元人民币的奖金
另有若干奖项如优秀奖及双周奖等,详见网站对应竞赛页面的详细说明。
2、英中机器同声传译竞赛
本次英中机器竞赛主要任务为集中优化语音识别后处理和机器翻译模块,解决机器同声传译中的技术问题。语言翻译方向为英文到中文。
相对于传统的机器文本翻译系统,机器同声传译的输入文本,暨语音识别模块的输出信息具有无标点、无断句、文本口语化以及夹杂语气词等特点。这一系列特点将为基于书面风格的传统翻译系统带来极大干扰和挑战,因此选手首先需要设计多种策略,制作语音识别后处理模块,将语音识别后的文本,处理为可用于翻译的文本。随后,调用自己训练的机器翻译系统,将识别后处理的文本翻译成目标语言。评测方将提供数据用以训练机器翻译系统,选手可以自由地选择机器翻译技术。
本次竞赛将利用机器翻译的指标(BLEU、NIST score、TER)进行评分,BLEU得分会作为主要的机器评价指标,同时结合答辩表现,综合评估参赛者的算法模型。
本次竞赛的研究成果可以被直接应用于机器翻译特别是同声传译类应用。
-
冠军队伍将获得40万元人民币的奖金
-
亚军队伍将获得4万元人民币的奖金
-
季军队伍将获得2万元人民币的奖金
另有若干奖项如优秀奖及双周奖等,详见网站对应竞赛页面的详细说明。
AI Challenger赛事官网:
https://challenger.ai/
Panel环节
在今天的启动仪式中,CSDN 创始人兼董事长,AI100 创始人,极客帮创投创始合伙人蒋涛作为全程主持人,突出介绍了此次比赛的重大意义。而在随后的Panel环节,更是与创新工场创始人李开复,今日头条顾问张宏江,搜狗公司CEO王小川妙语连珠,展开对话。AI科技大本营简单截取部分摘要:
蒋涛:是什么机缘让三家走到了一起?
李开复:我之前去美国见到了很多美国顶尖的教授,他们都在感叹自己已经追不上美国互联网巨头了,虽然这些教授能力绝对不比谷歌的工程师差,但是他们没有数据、没有大的计算力,于是我就想到国内是不是也有类似的机会和挑战,回来以后就跟王小川、张宏江、一鸣聊了下。
王小川:我们因为之前跟清华做 9 年的联合研究,不断把数据输送给一个机构,当时我们意识到时代不是我们一起跟清华一起,把数据公开更多,我还思考给中国高校提供数据,跟李开复老师聊可以更大,全球的开放,觉得李开复老师很有号召力能做的更好,就愿意一起来做。
张宏江:我是觉得我们三个人走在一起是对于数据共同的认识,对于人工智能进展最核心的因素,我们能够开放出来,让更多人加入进来,让他们算法研发上进展更快。
蒋涛:比赛叫全球AI挑战赛是什么样的难度,包括我们开放这样数据是怎么样选择的?为什么选5类数据集,选择标准是什么?第二个是什么样的难度?
李开复:一开始合作三方都有想法贡献,我代表创新工场来描述一下,我们是感觉到AIChallenger已经一年比一年参与的人越来越少,人气越来越小,数据不够。一方面我们非常认可李教授当年做的事情,也认为他帮助视觉走了很长的路,包括我们的投资的首席科学家孙剑也做了很多工作。
现在数据已经远远不够了,所以我们从创新工场作为投资者角度,觉得创业者太可怜了,数据集不够,怎么样尽快速度做一些数据集,请孙建出来帮助他们领域的内容,孙建是张宏江培养出来的会比较密切。
蒋涛:现在大量AI人才都是研究院,打比赛也很强,您怎么看我们提出的数据集难度,对这些挑战?
张宏江:李开复刚才说的比较多,在过去两年不是那么让人激动人心了,并不意味着这个问题就解决了。其实当一个问题大面上解决的时候,我们应该认识到更加深入的,我们今年发布的数据更细分的领域,包括人体骨骼,包括其他的。我们希望这些数据能够把我们AI算法研究既带到下一个高度,能够分的更细。
蒋涛:这些问题对于这些问题很有挑战的。
张宏江:今日头条之所以跟王小川、李开复一起走到一起,我们希望看到更多的学校,通过这些数据集能够把更好的问题提出来,开发出更好的算法,我们也从中间受益,在学校能有新的解决方案。
王小川:我们有两个期待,一个是清华在用,一个我们自己在用,我们希望开放全球,尤其高校使用时,是否高校使用数据时,能像企业一样做出很好的研究性成果,有些企业思维惯性,有你自己路径,有可能学校用到数据有不同的方法,有比企业做的更好、更深的,这是一个期待。