我国研究人员再创佳绩!
昨日,Nature子刊Medicine发布了一篇重磅文章——《使用人工智能评估和准确诊断儿科疾病》,在业界引发了不小的反响。
这是中国研究团队首次在顶级医学杂志发表有关自然语言处理(NLP)技术基于文本型电子病历(EMR)做临床智能诊断的研究成果!
这项人工智能程序,可以像医生一样准确地检测出测试结果、健康记录甚至手写笔记,诊断儿童疾病。
从流感、哮喘到威胁生命的肺炎和脑膜炎,该系统的准确率始终与初级保健儿科医生相当,甚至有所超越:
AI程序诊断出呼吸道感染和鼻窦炎准确率为95%;
不常见的疾病的确诊率也很高:急性哮喘(97%)、细菌性脑膜炎和水痘(93%)以及单核细胞增多症(90%)。
Nature杂志在一份新闻稿件中表示:
这项技术可能来的正是时候。近年来,由于疾病的范围、诊断测试和治疗方案都呈指数级增长,这就使得医生的决策过程变得更加复杂。
但是伯明翰大学工程学Duc Pham教授表示:
从结果来看,该系统的表现确实优于初级医生,但它绝对不能完全取代临床医生。无论使用多少训练样例,都无法保证100%正确的结果。
本文的作者之一,张康教授也表示:“医生和AI的关系,可以类比于人类驾驶员和在其监督下的自动驾驶汽车。它只会让医生在更短的时间内以更低的成本做更好的事情。”
基于人工智能(AI)的方法已成改变医疗保健的有力工具
虽然机器学习分类器(MLCs)已经在基于图像的诊断中显示出其强大的性能,但对各种大规模电子健康记录(EHR)数据的分析仍然具有挑战性。
在本文,作者表明MLC可以以类似于医生使用的假设 - 演绎推理的方式查询EHR,并且发现以前的统计方法所没有找到的关联特性。作者的模型采用一种自动化的自然语言处理系统,使用深度学习技术从EHR中提取临床相关信息。
本研究共分析了1362559名儿科患者就诊于某大型转诊中心的10160万个数据点,对该框架进行了训练和验证。
儿科诊断框架的工作流程图
首先提取数据,基于深度学习构建NLP模型,对数据进行语义分析,其次将数据进行结构化,最后对这些完全结构化的数据库用疾病分类器处理,预测临床诊断。
大型儿科队列中诊断框架的层次结构:使用分层逻辑回归分类器,来建立基于解剖学划分的诊断系统
基于器官的方法,首先将器官系统按照大类可以划分为5类,分别是呼吸系统疾病、系统性全身性疾病、神经精神疾病、泌尿生殖系统疾病、胃肠道疾病。然后将每个大类再细分成器官子系统,甚至更具体的诊断组。
下划线为计算机预测的诊断结果,医生诊断显示在顶部的第一行
在诊断层级的第一级,分类器能准确地辨别出,大量儿科患者的器官系统之间,存在哪些广泛解剖学分类。接下来诊断层级的第二级,我们拿呼吸系统疾病诊断举例。
在呼吸系统疾病的诊断中,分类器可以辨别上呼吸状况和下呼吸状况。
在上呼吸道系统内,可以进一步区分最常见的急性上呼吸道感染:鼻窦炎和喉炎,二者诊断准确度均超过95%。
哮喘被归类为呼吸系统中的一个独立类别,诊断系统准确地区分了无并发症的哮喘、咳嗽变异性哮喘和急性哮喘急性发作。
人类医生确诊的315661次主要呼吸道疾病中,AI够正确预测其中的295403例,精确度达到92%。
使用F1score来评估不同组(行)的诊断性能(Root是诊断分类的第一级)
表中第二列是AI的诊断结果,后面的1组和2组都是初级医师诊断结果,剩下的3组结果分别由三个高级医师给出。
可以看出,机器学习模型比初级医师组表现更好,但比三个经验丰富的医师组略差。
AI诊断系统方法介绍
数据收集
我们的数据收集自广州妇女儿童医学中心,来自该机构的567498名儿科患者中获得了1362559次门诊的电子病历。时间范围从2016年1月至2017年7月。患者年龄中位数为2.35岁,40.11%为女性。我们使用广东省增城妇女儿童医院的一组独立儿科患者的11926例就诊记录,将我们的AI系统和人类医生的表现进行对比。
NLP模型构建
我们建立了原始信息提取模型,从电子病历的原始数据中提取出关键概念和相关类别,并将其转换为查询-答案组合的新格式的临床数据。这些数据将相关症状进行分组,通过表示模型依赖的确切特征来进行诊断,从而提高了可解释性。三名医生策划并验证了这些模式,其中包括患者主诉、现有病史,体检和实验室报告。
自然语言处理信息提取模型的设计
NLP框架有多个组成部分:词典构建、符号化、单词嵌入、图构建,以及使用LSTM架构的句子分类。
词典构建
我们通过阅读训练数据中的句子,并选择临床相关单词以用于查询-答案模型构建来生成词典。词典的关键词由我们的医生策划,并使用中文医学词典生成。接下来,根据医生的临床知识和经验,以及专家共识修订词典中的错误。迭代运行程序,直到找不到现有疾病和体检的新的概念为止。然后使用这些句子来训练单词嵌入模型。
架构设计
架构由医生策划的问题列表组成,用于提取症状信息以进行诊断。比如问题有“患者是否发烧?”和“患者是否咳嗽?”。答案包括关键位置和数字函数。前者对解剖的位置进行编码,如肺或胃肠道。因此,该值可以是分类变量,也可以是二进制数,具体取决于要素类型。