实验室数据不断刷新记录的Google Health,最近公布了一项临床诊断试验结果。
不理想。
不仅诊断结果不一致,而且实际操作方法和在实验室里压根不一样。
这项系统是检测糖尿病性视网膜病变(DR)的症状,对糖尿病进行一个早期的筛查。
这。。不正是前几年,谷歌一直在发力的核心项目吗?
早在2016年,谷歌就在《美国医学会期刊》(JAMA)发表了他们的研究成果:
一个深度学习算法能够解释视网膜照片中的DR迹象,可能将帮助医生筛查更多的病人,尤其是在资源有限的社区中。
而当时谷歌产品经理及医学博士Lily Peng就表示:“几年前,谷歌的一个研究小组就开始探索利用机器学习来筛查糖尿病性视网膜病变(DR)。
深耕多年,内部研究都已经达到了90%的准确度,相当于人类专家水平。
没想到,落到临床试验,却失败了。
这大概就是理想与现实的差距吧。理想有多丰满,现实就有多骨感。
像极了我们在大学实验室里做实验的样子。
研究结果很“丰满”
若干年前,谷歌的研究人员就致力于利用深度学习算法来增强糖尿病视网膜的检测过程。
在2016年公布的论文“Development and Validation of a Deep Learning Algorithm for Detection of Diabetic RetinoPathy in Retinal Fundus Photographs”中,就介绍了他们的实验结果。
通常,糖尿病人的眼部检查是由眼科专家分析病人的眼底造影图像,并通过检查眼底病变来判定患病以及严重情况。
为此,谷歌研究人员专门建立了一个12.8万幅图片的数据集,每张图片记录了3-7名眼科医师的评估结果。
为了验证算法的性能,他们还使用了2个独立的临床试验数据集,包括1.2万幅图片,审核结果由专家来判决。
最终的结果表明,谷歌的算法诊断性能可以实现90%的准确率,已经可以跟眼科专家的诊断结果相媲美~
研究结果确实是很“丰满”,于是在这几年,他们就开始着手临床试验了。
临床试验很“骨感”
这个项目主要是在泰国展开,与泰国公共卫生部门合作,在泰国巴吞他尼省和清迈省的11所诊所安装了这个深度学习系统。
首先是由护士挨个给患者拍摄眼球照片,然后将这张照片上传到系统,随后拿着照片到眼科医生诊断。
理论上,这个系统能够在几秒钟内提供类似眼科专家的专业诊断,然后护士们可以在一分钟内做出初步的转诊或进一步检查的建议。
然而。。。
实际情况是,系统要1到2分钟才能上传图片,发送的图像达不到标准,护士的判断也就有了一定的误差。
那么我们就来具体聊一下他们的实际落地情况。
首先,在第一步,护士拍摄的眼球照片达不到算法的标准。
因为每个诊所的条件和资源不尽相同,而要达到算法的高标准,通常需要一个暗室。
光线调暗了,就确保了患者瞳孔放大,这样就能够拍摄高质量的眼底照片。
但是在11所诊所当中,只有2所才有这样专门的检查室。
这会造成什么样的影响呢?
如果图像有明显的DR症状,但是很模糊、质量很差,那么系统就会自行拒绝,这样流程就更加复杂,耗费更多的人力物力。
甚至,患者还有可能跑去另一家医院检测。
这还给护士带来了很大的压力,因为算法所要求的图像跟平时常采集的图像质量要求有一定的差距。
接着,可能是因为谷歌研究室的网络连接太强大,只需要几秒就可以上传。但是在诊所里,网络并不那么流畅,图像往往就需要一分多钟才能上传。
这样,筛查进程就变慢了。有一家诊所在进行眼底筛查时,网络中断了两个小时,导致筛查的患者人数从200人减少到只有100人。
所以,组织筛查流程的护士,因为具有自主性,有的护士就建议患者不参加研究,避免一些不必要的麻烦。
最后,其实还有一个最为关键的问题——患者。
其实这项研究,本身就以患者为中心,如果患者不愿意不满意,那就有必要进一步改进。
在实验中,一位诊所的护士曾提到:
患者关心的不是诊断的准确性,而是体验如何。如果诊断的过程太麻烦,他们宁愿不参加研究,直接找医生诊断。
努力了那么久,却是这样的结果,难免有些落差。
但这并不是一个坏消息。
谷歌公布失败结果的同时,也强调,有了这样与医生患者的互动,才能更好的改进这项技术。
同时,也给谷歌这种勇于“正视淋漓的临床结果”的态度,点个赞。
毕竟这个行业里,报喜的多,吹哨的少。
也提醒我们,医疗AI,没那么简单。
毕竟AI“进军”医疗,年头不少了,但你在医院和普通门诊场景里,有见到吗?你愿意把疾病交给AI诊断吗?
参考链接:https://www.blog.google/technology/health/healthcare-ai-systems-put-people-center/
论文地址:https://dl.acm.org/doi/fullHtml/10.1145/3313831.3376718
“