打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
童云海:大数据的关键技术及面临的挑战


医疗大数据的关键技术及其发展趋势 


由于医疗大数据涉及到电子病历、医学影像、医院视频等多种类型的数据,下面针对不同类型的数据对象,简要介绍医疗大数据分析的关 键技术。


1. 面向医疗电子病历的结构化信息抽取 


电子病历(Electronic Medical Record,EMR)是指医务人员在医疗 活动过程中,利用电子设备生成的文字、符号、图表、图形、数据、影 像等不同种类的数字化医疗信息,实现存储、管理、传输和重现的医疗 记录,并蕴含着富有价值的信息。自由文本形式是电子病历数据的主要格式,没有严格的语法和句法结构,且包含大量名词缩写和名词短语, 甚至还存在医生书写记录时的拼写错误,是典型的非(半)结构化数据。 面向电子病历的结构化信息抽取,主要涉及医疗命名实体及其属性 识别、医疗知识图谱构建和医疗知识图谱应用等几个方面。 


医疗命名实体识别的主要任务包括:①疾病、症状、手术、医疗检 查等医疗命名实体的识别;②相关命名实体的属性识别,核心在于否定触发词的探测(Negation Detection)与识别,例如某疾病史的有无、某症状的程度等;③命名实体之间的关联分析,利用不同命名实体或概念之间的共现关系,建立命名实体之间的联系。目前,医疗命名实体识别主要利用自然语言处理、信息抽取等技术对电子病历文本进行分析,命名实体抽取一般采用基于词典和规则的方法,基于隐马尔科夫模型、SVM 等机器学习方法。


医疗知识图谱构建,是指在医疗命名 实体及其属性信息抽取的基础上,构建不同命名实体之间的关联模型,现有的主要方法包括马尔可夫随机场、贝叶斯网络等 概率图模型方法。


医疗知识图谱应用,则是利用医疗知识图谱,面向医疗的实际应用需求,建立挂号咨询、医疗辅助诊断、疾病治疗预案 等实际应用系统。 


2. 面向医学影像的数据分析 


随着信息技术及医学影像技术的发展,医学图像处理在临床中发挥着越来越重要的作用,对推动医学科学研究和临床的进 步发挥了重要作用。


面向医学影像的数据分析研究重点在于如何利用图像分析理论和方法成果,结合临床医学的实际需求,探索面向医学影 像分析的新方法、新技术,进而实现高效定量分析与可视化,降低疾病诊断与治疗 的盲目性和不可靠性,为临床医生准确诊断,快速地制定治疗方案和有效地评估治 疗效果提供重要支持。


目前的研究主要集中在两个方面:一是医学影像处理研究包括医学影像的增强、分割、配准、融合以及三维重建等,这些 技术为医学影像数据应用提供技术支撑; 二是医学图像的分析,通过对医学影像的模式识别与分类,实现对医学图像的自动标注,并根据图像的特征及标签为图像建立索引,以实现后期用户的图像检索任务。 


3. 面向医院监控视频的智能分析 


随着视频监控技术和物联网技术的发展,目前各个医院安装了大量摄像头,尤 其在住院病房,通过视频监控可以对病人 的异常行为、医护人员的日常工作等进行实时监控。


传统的视频监控系统主要用于日常调 度和事后取证,需要专人监控并分析监控 画面,成本高昂且效率低下。 


近年来,面向医院的智能视频监控系统的研究、设计和实现已经引起了学术界和工业界的广泛关注。2013 年,美国 CMU 的 CAREMEDIA 项目,将智能视频 监控系统应用于监护中心,该系统可以自动识别医护人员和患者的日常行为(如行 走、交谈、诊断、肢体冲突等),并对异常行为实时预警。


4. 医疗大数据的数据治理体系 


医疗大数据涉及的数据类型多样,数据覆盖面广,服务用户多样,如何构建以病人、医生、医院和政府等多中心的数据治理体系,进而面向不同的用户提供不同的数据视图和分析结果,也是医疗大数据 研究中的重要问题。 


在现有医院各类信息系统(HIS、 PACS 等)的基础上,构建面向分析的数 据环境是实现大数据分析的前提。一方面, 从数据驱动出发,在数据层面上,实现面 向主题(Subject-oriented)的数据组织、 多个不同数据源的数据集成、反映医疗数 据的时空变化的数据环境,是医疗大数据 组织存储的基本要求;另一方面,从平台层面出发,需要利用云技术,构建新的运行环境,满足海量数据的存储要求。目前,国内在该方面的研究亟待加强。 


5. 医疗大数据的隐私保护技术 


医疗数据中包含大量的患者个人的隐 私信息,该数据的扩散性使用非常容易导 致隐私信息的泄露,一旦发生数据隐私泄 露,将损害患者人格和尊严,甚至给患者 的健康或者生活带来不良的影响。 国内外针对医疗数据的隐私保护研究 主要从法律和技术两个方面展开。 技术层面上,常用的有基于访问控制的技术、基于匿名化的技术和基于数据加密的技术等。


近年来,隐私保护和隐私攻击模型同步发展,对各类方法的有效性提出了 严峻挑战。近期以差分隐私保护为代表 的新的研究方向,成为面向医疗信息发布的隐私保护方法的主流,该方法不关心攻击者拥有多少背景知识,通过向查 询或者分析结果中添加适当噪音来达到隐私保护。


医疗大数据面临的主要挑战 


目前,医疗大数据的研究和应用刚刚起步,众多的研究仍然处于实验阶段,存在着一些挑战。其中数据质量差和不 确定度量是典型问题。 


1. 数据质量


目前医疗数据的来源主要为医疗机构(例如医院、医学药学实验室、医疗康复中心等)和互联网。采集的数据范 围广、维度高、类型种类繁多且不针对 特定的问题。


首先,从数据量的角度来看,医疗行业的数据量与互联网搜索及消费等行业PB级别的大数据仍有一定差距。即使公共卫生与医疗健康的数据量在不断增长,然而由于目前国内十分缺乏医疗健康信息的合理接口,导致医疗数据的采 集与应用严重脱节,医疗数据还未真正 释放潜能。另外,大数据的相关技术(例 如 NoSQL 等 ),在短时间内不太可能进入到医院的主流技术中。 


其次,从数据质量的角度来看,医疗数据的采集由于缺乏统一的标准或标 准未及时更新(例如医院之间、科室之 间标准不一等),以及采集人员的主观错误或数据采集系统本身的设计问题, 导致其中存在大量的不确定性。例如采集某感冒发烧患者的症状信息时,假设 患者为感冒发烧状态,在记录患者状态 时,使用“发烧”和“体温 37.5°C”在语义上存在一定差异,这种语义信息差异会给最终的数据挖掘和模式分类模型带来 偏差。另外,统计获得的数据分布很可能 在其统计过程中被人为改变,而导致估计 出的数据分布失真或者实际的数据分布根 本无法获得,导致最终的统计学习模型不可靠。 


2. 不确定性的度量问题 


目前比较成熟且进入实用阶段的大数 据模型多数都是面向药厂和保险公司的。美国的医疗大数据应用中,面向医生和患 者业务通常较难,很难找到合适的切入点。面向企业的业务相对容易,尤其是针对保 险公司和药厂,而医院则相对难一些。由于大数据模型精度有限,在安全性要求极 高的医院和医生中其实用价值非常有限,例如,一个95%准确度的模型对医生来说可能仍然不够精确,因为医生在决策时是针对患者个体的,而不是基于统计意义的。


模型本身的误差度量准则是否具有统 计学理论的支持以及背后的统计学意义也 值得商榷。在传统的生物统计学中,如果 基于完备的统计理论可以构造出准确刻画 模型的统计量,那么在很少的样本量下,模型也可以达到很高的置信水平。在统计学习模型中,希望数据的规模较大,所以需要新的误差度量准则。比如在决策树中,使用基尼不纯度(Gini Impurity)来判断哪个特征对数据的区分度更大,最终获得最简单高效的分类或回归决策树,这里的基尼不纯度和统计学中的 AU-ROC 和 Mann- Whitney-U 检验十分类似,但两者之间细微的差别是否会导致在大规模数据集上的巨大偏差有待考量。


另外,统计学习模型的可解释性也较差,往往只有统计学家和计算机科学家才能精确完整地解释模型,而对于模型真正的使用者如医生和政府官员等存在巨大的障碍。


医疗大数据的应用案列


下面,简要介绍一下医疗大数据在计算流行病学和药物学领域的研究进展。 


1. 医疗大数据在计算流行病学研究的进展


计算流行病学是从传统流行病学延伸出来的利用数学方法、计算机模型的新型 交叉学科,其目的主要是识别和控制疾病在人群中的时间与空间维度上的扩散、发展问题。 


从研究内容来分,计算流行病学主要分为以下 6 个方面:①预测流行病的发病 率;②识别流行病易感人群;③评估可获得的干预方法;④估计干预方法可实施的 概率;⑤从流行病发展、控制中学习经验教训;⑥促进公众对流行病的认知。 


除以上研究内容外,计算流行病学还 关注研究疾病是否引起生理退化(例如阿 尔兹海默综合症、轻度认知障碍、青光眼 等),疾病是否发展且发展过程是否可控 (例如青光眼、脂肪肝等),疾病是否可 完全治愈或部分治愈(例如创伤性脑损伤、 脂肪肝等),等等。 


从研究目标来分,计算流行病学主要 分为以下 3 个方面:①识别引发疾病的风 险因子及抑制疾病的保护因子(如生活方 式、用药史、基因等);②干预措施对患 者健康状态的影响以及对疾病发展的控制 情况;③疾病发展模式及其影响因素,患 者健康状态及其影响因素。 


医疗大数据在计算流行病学研究中的成功应用很多。U. Niemann 等通过随机 抽样方法获得纵向遗传病样本数据,共 578 例,学习分类和预测具体的特征因素 变量引起脂肪肝的可能性。A.I. Rughani 等基于入院记录和物理检查结果数据构建 了 30 个带负采样的人工神经网络模型来 预测病人因创伤性脑损伤而入院后的生还 概率。Z.F. Siddiqui 等通过使用截面数据评价创伤性脑损伤病人在临床治疗后认知 能力的恢复情况。


2. 医疗大数据在药物学研究的进展


药物学是目前医疗大数据挖掘领域发展较为成熟的一个方向。在药物学研究中 有以下两个问题目前最受关注。


(1)药物安全学:药物安全学是目前医疗大数据领域研究比较广泛的一个方 向。简单来说就是从海量 EMR 数据中识 别药物不良反应(adverse drug reaction)和 药物相互作用(drug-drug interaction),来弥补因为样本局限在临床试验中未能发现的药物治疗问题,最终目标是使药厂制出疗效更好的药,医生开出更安全合理的药方。


一方面,药物数据容易从医学实验室和药厂获得,且多为易理解和处理的结构 化数据;另一方面,药物制造背后巨大的 商业利益驱使。在美国的科研机构、药厂以及类似IBM这样的技术公司都有大量专业人士从事与生物医药开发相关的工作。 


(2)个性化药事服务:个性化药事服 务是指根据一个人特有的生理状况(如基 因、器官结构等)、病理状况(疾病发展 周期、多疾病复合等)甚至心理状况为患 者量身定制一个合理且高效的医疗方案。


结语 


随着医疗信息化、医疗物联网和健康云的发展,医疗行业进入大数据时代。医 疗大数据挖掘对于改进医疗诊治服务、提 升医疗效率、降低医疗成本、提高全民健 康水平等提供重要的技术支撑。医疗大数据在数据分析和隐私保护等关键技术领域 取得了长足的进展,但是在数据质量、不确定性问题等方面还面临着众多挑战。


(来源:《中国数字医学》 作者:童云海,北京大学信息科学技术学院副教授,移动数字医院系统教育部工程研究中心 副主任,中国通信学会智慧医疗专家委 员会委员。目前主要从事数据仓库、联机分析处理和数据挖掘等方面的研究和教学工作。先后参与和主持国家 973、 863和国家自然科学基金、北京市科委项目等10 余项。获得省部级科技奖励 5 项,在国际期刊和重要国际学术会议 上发表论文 40 余篇,申请国家发明专 利多项。)



本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
今天来聊一聊中文电子病历实体识别评测技术
医学知识图谱构建技术与研究进展
高考志愿填报:20个医学专业分析选择
医学知识图谱构建关键技术及研究进展
顶会集结 深度解析:医疗 AI如此火爆,NLP如何赋能?
来自首席AI科学家的干货!临床电子病历自然语言处理中的挑战与应对
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服