去年,Google Health宣称开发的AI实现了新突破:
在乳腺癌筛查上的准确性,大大超过放射科医生。
这一研究成果还登上了Nature。
AI这么强,放射科医生们是不是该下岗了?
9月2日,发表在医学顶刊BMJ(英国医学杂志)上的一项研究,给放射科医生们注射了一剂强心针:
目前的证据表明,AI在乳腺癌筛检上,距离临床应用还有很长的路要走。
目前,AI还远远没有强到能让放射科医生下岗。
研究人员来自英国华威大学的健康科学部门。
受英国国家筛查委员会委托,他们对AI在乳腺癌筛查项目中检测乳腺癌的准确性进行了调查。
研究人员回顾了自2010年以来开展的12项研究,共涉及瑞典、美国、德国、荷兰和西班牙131822名妇女的数据。
其中,3项研究报告了AI作为X光片辅助阅读工具的测试准确性,9项研究报告了AI作为独立系统的测试准确性。
所有研究评估的AI都使用了深度学习卷积神经网络。
规模最小的6项研究发现,AI比单个放射科医生更准确。
不过这6项研究中,5项的放射科医生是在实验室环境下检查的乳房X光照片,并不能推广到临床实践中。
其余的研究中,与美国放射科医生的单次读片相比,AI的准确性都低于临床应用的预期。
到底是什么原因造成了AI筛查乳腺癌不准,研究人员称目前还没有确切答案。
来自瑞典筛查项目的68008名妇女的DREAM挑战发现,表现最好的AI的特异性都不及单个的放射科医生(88% v 96.7%)。
当AI阈值被设定为与人类的灵敏度相匹配时,特异性表现也不及两名放射科医生的一致决策(81% v 98.5%)。
即使从数据集中选出八个表现最好的AI,它们集合方法的特异性也仍然不如放射科医生(92.5% v 96.7%,P<0.001)。
一项在此基础上的更广泛研究使用了三个商业可用AI,并给它们设定了与放射科医生的特异性相当的阈值。
结果发现,与第一位读片的放射科医生的灵敏度(77.4%)相比,一个AI的灵敏度较高(81.9%,p = 0.03),另外两个的灵敏度较低(67%,67.4%) 。
与两名放射科医生的共识(85% ,p = 0.11)相比,三个AI的灵敏度都较低。
在欧洲两项最大的回顾性队列研究中,36个AI的准确性均比不上两位放射科医生的共识,其中34个的准确性甚至低于单人读片。
小规模研究中有希望的结果,在大规模研究中没有得到重复。
最后,研究人员得出结论:
目前的证据还不足以判断AI在乳腺癌筛检计划中的准确性,而且还不清楚在临床应用中AI在哪些方面是最有益的。
过分依赖AI,也可能会加剧乳腺癌筛查带来的危害。
例如,微钙化一般与较低等级的原位导管癌有关。
AI如果不同程度上检测到了更多的微钙化,就可能会改变乳腺筛查中检测到的疾病谱。
在这种情况下,AI可能会增加过度诊断和过度治疗的比率,让筛查的危害大过效益。
为此,研究人员在论文中专门指出:
AI的特异性并不足以在乳腺癌筛查项目中取代放射科医生。
不过,AI虽然取代不了人类,却可以应用在降低乳腺癌的漏检率上。
4项研究表明,在较低的特异性阈值下,AI可以达到较高的灵敏度,因此可能适合于分流哪些妇女应该接受放射学检查。
3项报告AI作为读片辅助工具的研究显示,有AI辅助读片的放射科医生在平均灵敏度上均高于独立读片的放射科医生。
当然,这还需要进一步的研究以确定最合适的阈值。
与放射科医生相互补充而不是竞争,可能这才是AI目前最有意义的定位。
国外也有网友应和:
增强放射科医生的能力,让他们更加准确和有效,而不是试图把他们排除在外,这样的AI公司未来才会做得最好。
他提到的Rad AI是一家总部位于美国伯克利的AI公司,团队由放射学和人工智能的专家共同组成。
如何帮放射科医生提高生产力,减少倦怠感?
Rad AI给出了这样的解决办法:
由放射科医生口述,Rad AI识别他们的语言生成定制化的报告观后感。
不仅口述的字数可以减少35%,报告和建议也能更加保持一致。
Rad AI官网介绍,这可为放射科医生平均每天节省60+分钟。
论文地址
https://www.nature.com/articles/s41586-019-1799-6
https://www.bmj.com/content/374/bmj.n1872
参考链接
https://news.ycombinator.com/item?id=28394834
https://www.radai.com/product.html
“