正文
在这里我并不想对文化评论太多,主要是因为身为一个澳大利亚人,从地理位置上而言我远离大部分机器学习社区,但有些问题还是需要开诚布公。上一个月我们发现了一起学科内部的性骚扰事件
(译者注:指的是12月发生的NIPS大会性骚扰事件)
,虽然我们还是得等待,看看相关部门是否会跟进,但它所引起的反响还是相当强烈的。他们会努力推进文化变革吗,还是只说不做呢?
在机器学习社区内,这并非一起孤立事件(至少医疗领域有相同的问题
(http://www.nejm.org/doi/full/10.1056/NEJMp1715962#t=article))
,这要求我们每个人不仅仅要做到“体面”,还要树立更高的道德标准。讨论至今还集中于几个坏蛋身上,但我希望我们所有人都仔细思考这样一个事实:各级别的社区已经容忍这些研究者的行为很久了。正如一位澳大利亚最高军事领导人曾经说过的,“你能坦然路过的标准就是你所接受的标准。”
视频观看网址
:https://www.youtube.com/watch?v=QaqpoeVgr8U&feature=youtu.be
不要因为出处而感到失望,这是我所看到的来自于机构的关于骚扰和包容的最强有力的信息之一。观察、倾听、付诸实践。
我们可以做得更好,我希望我们作为社区的成员,能够更加积极主动地打击行业中各种形式的骚扰和偏见。
所以,这就是2017。紧随快速概览之后,让我们来看看,之前我是如何预测这一年的。
我的计分卡
去年大约这个时候,我对2017年医疗人工智能的发展做了一系列预测
(https://lukeoakdenrayner.wordpress.com/2016/12/31/predicting-medical-ai-in-2017/)
,现在是时候回头看看这些预测是如何一步步实现的了。
如果你没有读过那篇博客,这里
(https://lukeoakdenrayner.wordpress.com/2016/12/27/the-three-phases-of-medical-ai-trials/)
我将人工智能在医疗领域的发展分为3个阶段。我并不认为这种分类是看待人工智能研究的理想办法,但用来分析问题的效果还是不错的。
第一阶段的研究是概念验证。
使用典型的、通常与临床实践有很好的相关性的小型数据集。在药物领域,成功的第一阶段试验只有10%的概率能够转化成产品,平均花费8年时间才能进入市场。
第二阶段的研究更为严谨。
使用大型的数据集,将模型与一些合理的基线进行比较,并在更广泛的场景中呈现可信的结果。这些研究耗时且执行难度很大。我们在2016年进行了独立的第二阶段试验,促成了谷歌视网膜病变评估的论文
(https://jamanetwork.com/journals/jama/fullarticle/2588763)
的发表,每两篇博客我都会提到这件事一次。
第三阶段的试验才是真正的工作。
在一个大型随机对照试验中,人工智能系统被用作实践工具。这涉及到第二阶段没有回答的主要问题:我们如何在实践中使用接近人类水平或超过人类水平的人工智能系统呢?其实如何将超人的人工智能系统安全有效地纳入到临床工作流程中目前仍未清晰,再提一次,我在另一篇博客中描绘了未来的图景。
第一阶段
我曾经预测过,2017年期间,医疗人工智能的研究(定义为医疗数据的深度学习)数量至少增加一倍。这个预言似乎已经实现了。和去年的方法一样,我使用谷歌学术搜索的结果,估算周期为6个月。虽然这是个非常粗略的数字(会议月份出现了巨大的异常值,谷歌学术搜索也不是真正的权威来源),但它至少保持了一致性。
2016年:每月5-10个试验(接近5)
2017年:每月10-20个试验(大概15个左右)
在文献方面的另一个重大变化就是大量的期刊社论、综述文章和关于深度学习的地位陈述方面的文章数量激增。老实说,几乎每个月都有实际的研究论文发表!我在2017年的“其他杂项预测”(第3条)中提到了这个情况,但它的规模之大却让我大吃一惊。
虽然我们可以调侃,更多的人是在谈论深度学习,而不是真正在做深度学习,但我更愿意用积极的眼光看待这一问题。2017年是医生开始认真对待人工智能的一年。各种专家会议、大型和小型期刊、时事通讯、大型圆桌会议、工作小组和治理机构都在讨论人工智能。虽然仍能听到很多反对的声音,但是感觉经历了过去12个月的讨论之后,人工智能好像出现了转机,成为了主流医学时代潮流的一部分。
分值
我虽然准确地预测到了这一点,但很可能低估了大量对人工智能的非研究性的讨论的传播所造成的影响。
第二阶段
我预测人工智能在2017年,将会有3-5个第二阶段的医学试验,主要来自于既有的集团。
这一年以斯坦福大学关于皮肤病的论文
(https://www.nature.com/articles/nature21056)
在1月份《自然》杂志的出版这一“大爆炸”为开端。
但是后来很长时间又归于沉寂,今年大部分时间都没有再出现大规模的令人信服的试验。
但是随着年末临近,每个人似乎都在忙于发表研究成果。这些研究的大多数成果都有一些不足的地方,或者结论平淡无奇,或者说法夸张,但是他们都可能有资格作为第二阶段的研究。这实际上也是我预测到的一个问题;我并没有明确地定义第二阶段,只给了几种可能的解释。在新的一年里,我将会讨论一些方法来更好地评估第二阶段的研究质量,其实我真正想问的问题是:“是否有一个能够产生可信的结果的大型数据集”?
最有说服力的研究
(https://jamanetwork.com/journals/jama/article-abstract/2665774)
来自于从病理切片中识别乳腺癌淋巴结转移的大型竞赛
(https://camelyon16.grand-challenge.org/)
。我以前谈论过这个任务,它很酷也很重要。这篇论文汇集了多个参与者的成果,并与表现良好的人类基线做过比较。我们以后再来讨论这项研究,现在只想公平地说,这项工作的重要性可以与谷歌视网膜病变的论文相提并论。
接下来两个高质量的研究分别是“用卷积神经网络进行心脏病专家级的心律不齐检测
(Cardiologist Level Arrhythmia Detection Using Neural Networks,https://arxiv.org/abs/1707.01836)
”;和“肌肉骨骼影像学医师级的水平异常检测
(MURA Dataset: Towards Radiologist-Level Abnormality Detection in Musculoskeletal Radiographs, https://arxiv.org/abs/1712.06957)
”,有趣的是,它们都是来自于斯坦福的机器学习小组。我认为这两项研究是第二阶段“中等质量”的研究,因为虽然能够让我们在一定程度上推断出可信的结果来,但是直接的临床影响并不十分清楚。
如果你忽略一些要求的话,包括检测脑出血
(https://arxiv.org/abs/1710.04934)
,肺炎
(https://arxiv.org/abs/1711.05225)
,髋部骨折(顺便说一下,这是我的团队做的,
https://arxiv.org/abs/1711.06504
),各种脑病理学
(https://arxiv.org/abs/1711.09313)
和一个骨龄评估的竞赛
(http://rsnachallenges.cloudapp.net/
competitions/4#learn_the_details-news)