几年前,笔者就大数据时代下先天性巨结肠多中心研究的趋势进行过评述。最近,有关大数据与临床多中心研究的关系又有了新的发展,故在原文基础上就最近几年的新发展进行再思考,以期引起全国小儿外科同道的关注,使我国小儿外科多中心研究跟上时代步伐,进一步提升我国小儿外科的临床研究水平。
大数据概念的提出可以追溯到很多年以前,只是近几年才成为学术研究的热点。
“大数据”是指海量的、复杂的、可链接的信息,其基本特征可总结为“4V” ,即volume,variety,velocity,value。Volume:数据容量大,常常在 PB( 1 PB =250 B) 级以上; variety:数据种类多,常常具有不同的数据类型( 结构化、半结构化和非结构化) 和数据来源;velocity:产生和更新速度快( 如实时数据流) ,时效性要求高; value科学价值大,尽管利用密度低,却常常蕴藏着新知识或具有重要预测价值。
医疗大数据即患者在治疗和诊治过程中产生的基本数据、诊疗数据、医学影像数据、医疗仪器数据、医学管理数据 。医疗大数据包括:(1)基因序列、蛋白组学等生物信息数据;( 2) 以电子健康档案、电子病历、医学影像、检验检查等为主的医院医疗大数据;( 3) 自我量化大数据;( 4) 基于大量人群的医学研究或疾病监测大数据;( 5) 区域卫生服务平台大数据;( 6) 网络大数据等。
大数据时代的到来,使医学研究发生了质的飞跃,《自然》《科学》《柳叶刀》等杂志相继发表过医学大数据的评述甚至专刊,一致认为大数据分析是对随机对照研究的强化和扩展;大数据分析通过深入了解疾病的起因和结果,为精准医疗提供更好的药物靶点;同时,大数据分析还可加强疾病预测和预防,从而改善公众的健康状况。
100年前,人们就发现了染色体异常可影响肿瘤生长,但不清楚肿瘤发展与染色体异常的因果关系。但现代肿瘤学的研究,已建立了包含20多种肿瘤、8207个组织样品、120万个突变的大数据,并从中找出原癌基因70个和抑癌基因50个。然而,要存储和分析这些数据又有新的难点。单个病人肿瘤基因组和正常基因组的组合可产生1TB数据,100万个基因组将生成1eb的数据。存储和分析这么多数据每年可能花费1亿美元!Bionimbus的开发很好地解决了这一问题。Bionimbus是一个基于云的开源平台,用于共享和分析来自癌症基因组图谱的基因组数据。Megan McNerney等人使用Bionimbus来追踪一种与急性髓系白血病有关的基因,他们可以将涉及到的基因缩小到15~20个候选基因。另外,Megan McNerney从数据库中挑选了23名患者,用电脑比较他们的RNA序列,发现在这些患者中CUX1基因缺失;随后在果蝇和小鼠身上进行的试验表明,剔除CUX1基因会导致白血病,从而为开发靶向药物奠定了基础。1854年,霍乱席卷伦敦,流行病学之父John Snow经过长时间的艰苦工作才找出霍乱爆发源头;而今,应用全球定位系统信息和疾病流行数据,数小时即可解决此问题。
此外,当干预或预期结果为小概率时,更需要不同国家的大数据相结合。例如:泛北欧国家(丹麦、芬兰、冰岛、挪威和瑞典)共同研究产前暴露于抗抑郁药物对后代的不良反应。1995年以来,北欧关节成形术注册协会收集了约100万原发性髋关节和膝关节置换病例,从而解决了单个国家样本量不足的难题。OHDSI有超过120名研究人员分析临床大数据,已利用该网络中4个国家的2.5亿患者对慢性疾病进行了重大研究。
同时,越来越多的国际组织(如EU-ADR、Sentinel、OMOP、PROTECT和VAESCO)基于多个医疗保健数据库来检测研究药物和疫苗安全[18]。EU-ADR于2008年启动,开发了一个使用EHR和生物医学数据的计算机集成框架,该网络最初由4个欧洲国家(丹麦、意大利、荷兰和英国)的8个以人口为基础的管理数据库和全科医生数据库组成。Sentinel计划成立于2008年,是FDA建立的上市后检测系统,利用EHRs(电子医疗记录)来前瞻性地监测已上市医疗产品的安全性。OMOP由美国国立卫生研究院基金会管理,工作的目的是确定一个积极的药物安全监测系统,并制订必要的方法来加强对观察数据的二次使用,以最大限度地提高药物制剂的效益和减少其风险。EC资助项目则将多个医疗保健数据库结合在一起,以评估特定的安全问题,例如:非甾体抗炎药物化胃肠和心血管风险、药物的心律失常风险、选择血糖剂的心脑血管和胰腺安全性、哌甲酯对注意缺陷和多动障碍的长期不良影响、儿童特发性关节炎患者生物制剂的安全性、epoetins的安全性、与胰岛素类似物相关的癌症风险等 。
大数据促进了个性化的健康服务,为疾病发生、预防和治疗提供全面、全新的认识,也有利于开展个体化医学。此外,大数据的大样本能够解决流行病学研究中的样本量问题,大样本能够提高结果精度、降低随机/抽样误差; 客观的采集途径能够减少信息偏倚。医疗大数据也可有效提高诊断的准确性,避免和减少医患纠纷;还可通过医疗大数据优化患者治疗方案,避免重复诊治、减少住院时间、缩短治疗疗程、提高疗效。
临床随机对照试验一直被公认为医学研究的金标准,随着大数据时代的到来,大数据下的多中心临床研究受到越来越多的关注。多中心临床研究指的是由多个研究中心的临床医生或科研人员按照同样的研究设计、为同一个研究目的、协同完成的临床研究工作。多中心临床研究已成为国内外各类医疗机构开展疾病临床研究的重要方法。多中心临床研究实现了多中心、多学科对同一临床问题的广泛协作研究,对于发挥临床医生的学术优势、促进医学科学的发展具有重要的意义。多中心临床研究要求多个研究中心同时参与,可在较短的时间内遴选出临床科研所需的病例数;相对于单中心研究,在多中心临床研究中多个中心入选的病例在病种病情分布等方面范围比较广;研究的结果具有较为广泛的代表性;能充分发挥学术力量的优势。具有可信度高、可靠性强、可复制等优点。
多中心研究产生大数据,需要大数据的分析和处理。多中心临床研究要求多个研究中心同时参与,可在较短的时间内收集到大量医学数据。临床诊疗过程中的电子病历、医学影像数据、病理报告、门诊处方等数据,形成医疗数据的主要来源和依据。而庞大的医疗数据的处理有赖于大数据的整合分析。英国、德国等药品检查机构通过分析病人的治疗数据和特征的基础上,对比多种干预措施,有效地找到针对病人的最佳治疗途径,并且已经取得了初步的成功。
同时,大数据的应用改变了临床多中心研究方法。实际的临床工作中,大数据在医学领域运用的一个重要体现就是电子病历。电子病历减少随机对照研究的花费,更易完成。从电子病历中选择合适的受试者,可以减少工作量,研究的实施如随机化分组、病情观察等也可供助于电子化病历,研究结果的表述也可电子化。特殊标志物的应用可减少试验规模,从而节约成本,且在研究过程中,可随时根据研究进度调整和优化试验设计,根据已有的数据预测受试者可能的受益,在试验中如果得到验证,则可进一步修改数据库的结果,使其他将纳入研究的受试者或患者即刻从研究中受益。同时,大数据可弥补随机对照研究试验偏倚,如减少选择性偏倚、减少数据收集或测量结果偏倚、减少混淆性偏倚等。所以,临床多中心研究需要大数据的帮助。
大数据有众多优势,但实际操作过程仍存在挑战。大数据在医学领域运用的一个重要体现就是电子病。电子病历可以记录病情的动态变化、实验室检测结果和结局,但不能记录发生在医院以外的事件。况且电子病历等数据库在不同的单位其格式不同,通用性受到限制。许多国家的研究人员和管理人员一直在努力应用标准化数据模型来协调和收集来自各种不同来源的医疗数据,但此项工作困难重重。公共数据模型(CDM)要求每个研究中心根据CDM精确的规范创建标准输入数据集,该规范规定数据集的类型和结构、变量名和属性以及派生变量的定义,这为解决各国间或国家内部间数据结构和编码系统的差异提供了新的路线图 。由于数据获取、患者隐私以及潜在的利益冲突等问题,数据库也带来了技术、逻辑、伦理和法律方面的挑战。数据采集时因录入上传数据、数据存储时因访问不当或非法窃取、数据分析与发布时因匿名化程度不够都可能带来隐私问题。同时还存在数据所有权问题,当诊疗信息转变成科研数据后“所有权”将归属于谁?这关系到数据使用者、搜集者、生产者三者之间利益协调问题。
RCT和大数据都是顺应时代的产物,两者在临床研究中相辅相成,不能相互取代。小儿外科医生应将两者结合起来,充分利用两者的优点,更好地开展小儿外科临床研究,进一步提升我国小儿外科的临床科研水平,为科学地改进治疗方法、增进治疗效果奠定基础。
参考文献略 全文见《临床小儿外科杂志》2019年第1期
该文引用格式:王培,冯杰雄.再谈大数据时代的小儿外科临床多中心研究[J].临床小儿外科杂志,2019,18,(1):5-8.DOI:10.3969/j.issn.1671-6353.2019.01.002.
Citing this article as:Wang P, Feng JX.Clinical multi-center researches during the era of big data[J].J Clin Ped Sur, 2019,18,(1):5-8.DOI:10.3969/j.issn.1671-6353.2019.01.002.
*关注“洁净园”,获取更多价值干货!
评论留言