《临床检验杂志》
医学领域其实非常需要强人工智能技术:可解释的人工智能技术,可以智能推理的人工智能技术。
医疗大数据通常包括临床电子病历(EMR -Electronic Medical Record)、医疗影像(包括超声/CT/MRI/DR等影像)、医学检验数据(包括临床检验(如血常规)、病理数据、生化检验、微生物检验、寄生虫检验、免疫检验、分子检测数据(包括DNA/RNA等数据)、中医临床数据、医学文献、药物大数据、健康(体检)大数据、医疗保险大数据、公共卫生(事务)大数据等。这些数据的挖掘,将会极大地促进医疗领域的发展。比如,对临床大数据的挖掘,将大大缓解临床医生的工作强度,减少漏诊和误诊,进而提高诊疗服务水平,提高人民生活质量。
同时,由于医疗行业本身的属性,医疗大数据具有一定的敏感性,如隐私性、安全性等。特别是分子检测方面的数据,涉及特定人群(民族)的遗传信息,不应当大规模地流出国门,以免泄露民族特有(遗传)信息。国务院在2019年6月,国务院发布《中华人民共和国人类遗传资源管理条例》,并于2019年7月1日起正式施行。这是我国在医疗大数据保护方面的一个重要节点。
一、医疗大数据(挖掘)的价值
数据挖掘的出现是一个逐渐演变的过程,最早可以追溯到上世纪60年代。随着科技的发展,到上世纪80年代提出了KDD(Knowledge Discovery in Database)概念,泛指所有从源数据中发掘模式或联系的方法。KDD描述了整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而数据挖掘(data mining)描述使用挖掘算法进行数据挖掘的子过程。现在人们逐渐习惯于使用数据挖掘来涵盖整个过程。
随着计算能力的快速发展和人工智能(AIArtificial Intelligence)技术的兴起,数据挖掘行业也进入高速发展时期。很多人工智能算法已经被应用在医疗大数据挖掘中,例如常见的机器学习/深度学习算法K N N(KNearestNeighbor)、K-Means、SVM(Supported Vector Machine)、CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)、NLP(Natural Language Processing) 等已经得到很好的运用,请见后面章节的更多具体介绍。
医疗大数据挖掘能够发现一些复杂疾病的发病机理、(潜在)治疗靶点,同时也有助于显著缩短新药物研发周期,甚至发现用于治疗某些恶症的新药物(分子)。而且,对医疗影像数据的(机器)学习和挖掘,可以快速发现影像数据中的潜在病灶,并判断良恶性。
图 医疗大数据挖掘整体构想
在医学文献方面,人工智能技术可以快速阅读大量的医学文献,从而帮助医学工作者及时更新自己的知识,并且在临床工作中做出更加全面的诊断。同时人工智能技术也大大简化了医学文献的编撰,进而大大节省临床医学研究者的时间,从而提高效率。
体检行业的医疗大数据也是很有价值的。它可以提供民众的健康指标、疾病分布图谱等。体检服务大都会提供基因检测、脑部MRI检测、CT/超声扫描、常规血液检测等。这些服务产生的数据基本构成了完整的人类健康数据。
对于慢病研究而言,体检行业的数据可能比医疗机构(如医院)在某些情况下更有价值,因为体检机构有受检客户的逐年数据,可以更好地理解慢病发生的机理(时间/疾病状况/各种健康数据的演变过程)。
体检行业某头部知名公司,有分布全国各地的体检门店,并且可以构建不同区域、不同民族、不同遗传背景条件下各种慢病发生的机理和过程。医药行业应该很需要这样的数据。对政府来说,这些数据是了解全国人民健康状况的窗口,也是规划医疗保险基金的重要依据之一。
另外,体检行业提供了大部分医疗场景(疾病诊断和治疗相关场景除外),所以体检行业也是各种医疗AI产品的理想“试刀石”, 因为体检行业主要是筛查和防治,基本上不涉及治疗场景。如果医疗AI产品决策不那么准确,造成的影响比在医院(使用它)造成的影响小很多。
关于医疗大数据挖掘的整体架构,有一种设想:AI智脑+挖掘算法+医疗大数据。
现在医学界已经有学者在讨论“电脑医生”,包括一些国外知名企业正在大力推广的AI医生,其实是以上医疗大数据挖掘的具体应用之一。
下面我们举几个典型的利用人工智能技术来挖掘医疗大数据的例子。
二、医疗大数据挖掘和应用的实例
生成式对抗自编码器(AAE-Adversarial Auto-Encoders)在生成新型(化学药物)分子指纹图谱中具有广泛的应用前景。