前言
国家癌症中心为了对全国肿瘤患者进行有效的统筹分析和回顾研究,持续推进覆盖登记工作,在2016年设立了487个监测点对全国癌症情况进行监测,涉及人口达3.8亿,非霍奇金淋巴瘤(Non-Hodgkin’sLymphoma,NHL)是一种常见的恶性肿瘤,在我国每年报告的肿瘤病例中,NHL患者数量基本排在前十位。基于肿瘤部位的不同,DLBCL分为结内DLBCL(PN-DLBCL)和结外DLBCL(PGI-DLBCL)。

影像组学特征数据集构建
图像包含了被描述对象的相关信息,图像分割就是根据学习到的前景和背景的区别,分别进行标定,从而达到从背景中分割ROI的目的。经过GrowCut运算,“滑动”图像以像素差异为依据开始增长,直到到达前景和背景边缘,完成图像的自动分割,由此获得影像组学特征提取所需要的ROI。
Pyradiomics可以对提取特征的过程进行自定义,可以指定包括输入的图像类型、需要提取的特征类、使用的滤波器和体素提取的相关参数设置。数据集预处理就是指在使用数据集进行进一步的分析之前,对数据进行一定的处理,以保证数据质量可以满足分析要求。

在多指标的评价体系中,如果直接使用原始数据,就会出现高数值的指标作用得到凸显,数值低的指标作用被弱化的情况。从图中可以得知,Z-Score表示的是原始样本值与样本均值之间的距离,度量单位为标准方差。其中푃表示样本满足括号内条件的概率,푥表示样本值,휇表示样本均值,훿表示样本标准差。
为了保证得到的关键特征向量具有独立性,在特征选择的过程中,对特征变量和MTV使用皮尔逊相关系数进行检验。组内相关系数经常被用于评价不同样本之间属性的相似度,或用于评价不同的测定方法对同一批样本测量结果的一致性。

机器学习是对多门学科的融合交叉应用,涵盖了统计学、最优化、概率论、计算机算法等学科,机器学习有两种不同的学习策略,一是对人脑活动、习惯进行学习和模拟,二是基于数学规律、方法进行行为判断。
决策树是一种拥有内部节点和叶子节点的树状结构,每一个节点都表示一个特征属性,每一个叶子节点是对样本的分类判断结果。决策树先从纹理特征进行判断,如果特征值为模糊则直接判定为坏瓜;如果特征值为清晰,则接着判断根蒂情况。
朴素贝叶斯算法是一种分类算法,它的整体思想可以概括为“先验概率加上数据等于后验概率”。

随机森林的基本单元是决策树,它将多棵决策树集成在一起,形成“森林”。因素分析采用Cox风险回归模型,包括单因素分析和多因素分析。
单因素分析是指在某一个时间点上对每个变量进行分析,可以初步探索某一预测变量对结果变量的影响程度,单因素分析结果显示无统计学显著性,但多因素分析结果却相反。
这种情况一般不常见,因为多因素分析往往是建立在单因素分析的结果上的,某个因素在两类分析中均显示有统计学显著性。

基于PET/CT图像影像组学特征的预后研究
从患者的医疗记录中获取临床数据,包括性别、年龄、B症状、体力状态评分(ECOGPS)、改良国际预后指数、乳酸脱氢酶水平和AnnArbor分期,PET/CT病理图像的获取使用了飞利浦公司的GeminiGXLPET/CT组合扫描仪,其可以提供良好的小病灶探测和定性能力。
3DSlicer在医学研究领域中用于图像处理、信息提取和结构可视化,由于身体中肿瘤病灶部位对于葡萄糖的代谢程度相较于正常部位有较大的区别,而这些区别可以通过示踪剂图像中显示的高摄取值区域即病灶部位。

除影像组学特征以外,18F-FDGPET/CT图像中提取的代谢参数在预后模型的建立中也起到至关重要的作用。首先对数据集进行了针对缺失值、异常值的处理,以及数据分布调整。其次,为了避免在ROI分割问题上的主观差异对数据采集产生影响,采用ICC来判断数据集的置信度,影像组学特征数据集用于构建影像组学模型。
为了提取与肿瘤复发相关的特征,应将患者病情进展情况作为结局事件,以PFS为预后预测指标;在获得影像组学特征签名后,需要结合数据集中的临床参数、代谢参数进行重要性分析,以选取具有统计学显著性的影响因子。

使用Cox回归模型来分析训练队列中的独立预测因子,以进展情况为结果变量进行PFS的预测训练,以死亡情况为结果变量进行OS的预测训练。在本文的数据分析处理中,采用了Cox回归模型预测病人的病情发展概率或死亡概率。
为了保证预后模型的可靠性和有效性,校准曲线是用来评价模型一致性的,即预测值和真实值之间的一致程度。左图表示训练队列的预测模型校准曲线,右图表示验证队列的预测模型校准曲线。ROC曲线通常用来反映分类器敏感度和特异度之间的关系,曲线上的每一点坐标都是对应的模型预测阈值概率下两者的相关值。

在构建分类器的时候,会设置一个阈值概率P,分类器判断某事件发生的概率为k,当k大于等于P时,将该事件判断为阳性事件,随着阈值概率的减小,越来越多的事件被预测为阳性事件,同时在这些被判定为阳性的事件中也会有更多实际是阴性的事件,所以FPR和TPR会同时增大。
采用ROC曲线比较两个学习器的性能,如果两条曲线发生重叠或交叉,很难直观地看出两者孰优孰劣。在真实场景中,ROC曲线一般会在第一象限푦=푥直线上方,所以AUC的结果会在0.5到1之间,值越大说明模型预测越准确,诊断价值越高。
决策曲线分析显示,在预测PFS和OS的训练 和验证队列中,在大多数预测阈值概率的设定上,组合模型比临床模型、PET模型和NCCN-IPI 模型具有更高的总体净增益。

用ROC曲线评价某个模型的好坏,是从敏感性、特异度以及AUC进行考虑判断模型准确性,没有考虑特定模型的临床效用,DCA曲线图横坐标表示阈值概率(ThresholdProbability),在风险预测模型中,设定判断为患病的阈值概率为Pt,当某患者的预测患病风险Pi大于等于Pt,DCA曲线图可以用来评估模型在临床效用上的优劣。
在很大的阈值概率范围内,B模型和C模型的净收益都比A模型和极端曲线高,所有的统计检验使用R版本为4.0.2。实验目的是以进展和死亡情况为终点,构建对PGI-DLBCL患者PFS和OS预后情况进行预测的模型。

参与试验的患者中位年龄为45岁(范围19-83岁),一共有46例患者出现疾病复发或进展的情况,在中位随访时间(31个月)之后死亡人数为37例,LASSO回归模型通过构造惩罚函数对特征向量的回归系数进行压缩,会使得部分特征的权值降为0,从而获得一个比较精炼的模型,达到稀疏化和特征选择的目的。
XGBoost是基于GradientBoosting框架的进一步实现,是一种迭代的决策树算法,对每课决策树得出的分类结果进行累加,作为最终的数据结果。

在获得10个影像组学特征之后,将患者死亡状态作为因变量,建立SVM二分类模型,用SVM模型对样本预测结局事件的情况进行分析,采用ROC曲线对RadScore预测OS和PFS的准确度进行检验。
在针对OS的预测模型中,分别对预测PFS和OS的RadScore以对应的截断值进行分割,设置特征属性risk表示风险分层,属性值1表示低风险组,包含RadScore低于截断值的样本;由单因素分析结果可知与PFS相关的危险因素包括LDH、ECOGPS、AnnArbor分期、NCCN-IPI、大块症状、SUVmax、TMTV、TLG和RadScore-PFS,保护因素为原发部位。

单因素分析中p值小于0.05的变量被认为有统计学显著性,将符合要求的变量纳入到多因素Cox分析中,其中TMTV和TLG由于具有强相关性,分别对PFS和OS建立预后临床模型、NCCN-IPI模型和组合模型,其中临床模型的预测因子包括AnnArbor分期和LDH,发现在对PFS和OS的预测中,组合模型均获得了更大的AUC。
说明在这三类模型中,组合模型的准确性是最高的,验证了本文提出的组合模型对于临床预后的可靠性。我们将从云计算、人工智能(AI)和机器学习(ML)的基本概念开始。这些是我们将在本书中处理的基本要素。本章中的指导说明将为您提供使用AmazonSimpleStorageService(S3)存储和检索数据所需的技能,同时学习此技术的核心概念。

采用Harrell’sC-index对三类模型的分类结果一致性进行检验。对于PFS,在训练集和验证集中,组合模型的C-index值分别为0.825和0.831,结果优于临床模型(C-index值分别为0.814和0.820)和NCCN-IPI模型(C-index值分别为0.757和0.744)。
为了更直观地展示预测模型的结果,利用列线图将Cox回归模型中各个预测变量对结局事件的影响程度进行可视化,采用Bootstrap方法进行内部验证,对样本重复抽样次数为1000次,获得组合列线图预测1年、3年以及5年PFS和OS概率的校准曲线。

总结
首先针对数据集样本数量的局限性,在本章中做了进一步的扩展,将训练组患者样本从140例增加到了273例,同时,还选取了不同医院的110例患者作为外部验证集,以检验所建模型的一般适用性。组合模型对于PFS和OS的预测平均AUC在0.9以上,准确性高于一般方法建立的模型,并且净增益优于单一的临床模型或PET模型。进一步证实了影像组学特征的预后价值。

评论留言