打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
在高维数据中寻找价值线索:神经科学家的典型相关分析(CCA)

     21世纪标志着“大数据”的崛起,数据集中多重测量的可用性迅速增加。在神经科学领域,脑成像数据集通常伴随着数十甚至数百个关于行为、神经和基因层面的表型主题描述符。这种“大数据”仓库的复杂性为系统神经科学提供了新的机会,也带来了新的挑战。典型相关分析(CCA)是一种原型方法家族,对于识别来自不同模态的变量集之间的联系非常有用。重要的是,CCA非常适合描述跨多个数据集的关系,比如最近可用的大型生物医学数据集。我们的入门指南讨论了CCA的基本原理、优势和陷阱。本文发表在NeuroImage杂志。可添加微信号1996207406318983979082获取原文及补充材料,另思影提供免费文献下载服务,如需要也可添加此微信号入群)。

重点: 

· 典型相关分析(CCA)特性及其应用介绍,例如将两个或多个数据领域(如行为和神经影像测量)结合起来。

· 不同变体的CCA的实用性及其优缺点。

· 关于如何在丰富的表型数据集(例如英国生物银行和人类连接项目)上应用CCA的建议。

关键词:机器学习、大数据、数据科学、深度表型分析、模态融合

1.引言

      大型生物医学数据集和计算能力的并行发展为理解大脑、认知和疾病之间的关系开辟了新的途径。与遗传学中微阵列的出现类似,脑成像和广泛的行为表型分析产生了包含数万个变量的数据集(Efron, 2010)。自21世纪初以来,技术的改进和可用性,如功能性磁共振成像(fMRI),使收集大型神经科学数据集成为可能(Poldrack和Gorgolewski, 2014)。同时,神经科学和心理学关键研究结果的重现问题突显了基于丰富数据集得出可靠结论的重要性(开放科学协作,2015)。

       例如,英国生物银行是一项有500,000名参与者的前瞻性人口研究,包括全面的影像数据、遗传信息以及关于精神障碍和其他疾病的环境测量(Allen等人,2012;Miller等人,2016)。类似地,人类连接组项目(van Essen等人,2013)最近完成了超过1000名青年成人的脑成像,具有高空间和时间分辨率,每位参与者的脑扫描时间约为4小时。此外,增强的Nathan Kline研究所Rockland样本(Nooner等人,2012)和剑桥老龄化和神经科学中心(Shafto等人,2014;Taylor等人,2017)提供了跨生命周期(18-87岁)的大型人口样本的横断面研究(n > 700)。通过提供包括大脑成像、认知测量、人口统计学和神经心理学评估在内的丰富数据集,这些研究可以帮助量化认知的发展轨迹以及大脑结构和功能之间的关系。虽然“深度”表型分析和这种前所未有的样本大小为更为稳健地描述微妙的人口变异提供了机会,但每个受试者的丰富测量也带来了挑战。

      现代数据集通常提供的变量数量多于这些变量集的观测值(Bzdok等人,2019,Bzdok和Yeo,2017;Smith和Nichols,2018)。在这种情况下,传统的统计方法通常无法充分利用这些数据集的潜力。例如,即使样本量很大,参与者的数量通常也小于高分辨率脑扫描中采样的脑部位置数量。另一方面,在参与者数量特别多的数据集中,传统的统计方法会识别出高度统计显著的关联,但可能只能解释数据中的一小部分变异(Miller等人,2016;Smith和Nichols,2018)。在这种情况下,旨在充分利用大数据集来揭示大脑、认知、基因和疾病之间重要关系的研究人员需要比许多传统统计工具更适合其数据性质的技术。

      典型相关分析(CCA)是一种在大型数据集中解锁许多变量之间复杂关系的有用工具。CCA的一个关键优势是它可以同时评估两个不同的变量集,而不假定任何特定的优先级或方向性(例如在许多类型的偏最小二乘分析中,参见第4.2节)。例如,CCA允许同时分析大脑测量数据矩阵(例如,一组大脑区域之间的连接性链接)和行为测量数据矩阵(例如,参与者对各种问卷项目的回应)。换句话说,CCA识别了两个高维变量集中公共变异的来源。

      CCA(典型相关分析)是一种在1930年代引入的多变量统计方法(Hotelling, 1936)。然而,CCA比许多其他常见的分析工具在计算上更为昂贵,因此直到最近才在生物医学研究中变得更为流行。此外,容纳两个变量集的能力允许识别描述多对多关系的模式。因此,CCA开启了超越映射一对一关系(例如,皮尔逊相关)或多对一关系(例如,普通多重回归)的技术的解释机会。

      CCA在神经影像数据的早期应用最初集中于其空间信号过滤能力(Cordes等人,2012;Friman等人,2004,2003;2001;Zhuang等人,2017)、分类(Hardoon等人,2007),以及最近集中于将不同成像模态结合在一起的能力(参见Calhoun和Sui,2016;Correa等人,2010a的综述),这些包括功能性MRI和EEG(Sui等人,2014)以及灰质和白质(Lottman等人,2018)。以前的工作使用CCA将多种成像模态带到同一平台,这个过程通常被称为多模态融合(参见Yang等人,2019的综述)。CCA也已应用于基于任务的fMRI数据的组级分析,而不是传统的质量单变量方法,以提高检测神经激活的敏感性(Zhuang等人,2019)。然而,随着最近向丰富表型和大规模队列数据收集的趋势,影像学社区现在越来越认识到CCA为大数据集提供紧凑多变量解决方案的能力。在这种情况下,CCA可以有效地绘制大脑、认知、基因和疾病之间的联系(Calhoun和Sui,2016;Hu等人,2019,2018;Liu和Calhoun,2014;Marquand等人,2017;Smith等人,2015;Tsvetanov等人,2016;Vatansever等人,2017;Wang等人,2018a;Xia等人,2018)。

       我们的概念入门指南描述了CCA如何能够深化对认知神经科学等领域的大型多变量数据集的理解。我们考虑了CCA背后的建模原则,并通过考虑CCA在脑与行为方面的几个最近应用,探讨了这种方法可能有用的情况。接下来,我们考虑了可以从CCA算法的应用中得出哪些类型的科学结论,重点关注了应用此技术的范围和限制。最后,我们为在科学研究中实施CCA提供了一套实用指南。

2.建模理解

      理解CCA(典型相关分析)的一种方法是将其视为主成分分析(PCA)的扩展。这种广泛应用的矩阵分解技术识别了一组潜在维度,作为原始观测集中包含的信息的主要变异成分的线性近似。换句话说,PCA能够将一组相关变量重新表达为较少数量的隐藏变异因子。这些潜在的变异源在原始测量中并不总是直接可观察到,但它们共同解释了实际观测值是如何固有地组织的主要模式。

     PCA和其他矩阵分解方法在人格研究领域得到了频繁的应用。例如,“大五”人格特质描述了一组通过应用PCA于人们描述其他人的持久行为倾向时揭示出的潜在模式所识别的人格特质(Barrick和Mount,1991)。这种方法倾向于产生五个可靠的成分,这些成分解释了通过人格评估收集的数据中大量有意义的变异。像PCA这样的分解方法的优势在于,它可以通过将变量集重新表达为少量维度表示来产生原始数据集的简洁描述。这些通常容易被人类解释(例如内向的概念)。因此,以更紧凑的形式重新表达原始数据的能力具有计算和统计吸引力(因为它减少了变量的数量),同时也可以帮助我们解释问题(就像它通过强调“大五”是人格特质的重要维度一样)。

      虽然与PCA相似,但CCA旨在最大化两组变量之间的线性对应关系。因此,CCA算法寻求描述不同测量集合间共享变异的主导维度。通过这种方式,CCA在描述跨越多个观测层次的观测时特别适用。示例包括绘制以下对应关系:i) 遗传学与行为,ii) 大脑与行为,或 iii) 大脑与遗传学。为了充分理解CCA的这些特质,考虑如何评估高维变量集合之间的关联是很有帮助的。

2.1 数学概念

      典型相关分析(Hotelling, 1936)确定了来自两个测量领域的变量集之间的关系。给定来自相同的n个观测集的维度为p和q的X和Y,第一个CCA模式反映在X中变量的线性组合和Y中变量的另一个线性组合中

以最大化第一个模式的线性关联,即相关性为目标

除了优化U和V之间作为第一个典型模式的对应关系外,还可以继续寻找与第一个典型模式无关的额外线性组合对。这个过程可以继续进行最小值(p; q)次。在这个入门指南中,我们将把a和b称为典型向量,我们将把U和V称为典型变量。典型相关表示典型变量的相关系数ρ(见图1)。

图1. 典型相关分析(CCA)的通用示意图。

(A) 在相同样本的参与者中测量的具有p和q变量的多个数据领域,可以通过CCA进行共分解。该算法试图将数据集重新表达为多对在主体间高度相关的典型变量。左右变量集的潜在嵌入的每一对通常被称为'模式’(Smith等人,2015;Kernbach等人,2018)。
(B) 在每个数据领域中,由典型向量的变量加权和组成的结果典型变量。 
(C) 在双向CCA设置中,每个主体因此可以通过每种模式的两个典型变量简洁地描述,如此处在散点图上所示,它们最大程度地相关。这两个典型变量之间的线性对应关系是典型相关性 - 用于估计CCA模型参数的主要性能指标。

使得:

且:

于是:

我们可以将(1)简化为

(2),同时满足上述约束条件。换句话说,我们定义了基础的变化(即数据点所在的坐标系统):

典型向量(a和b)与典型变量(U和V)之间的关系也可以表达为:

      两个原始变量集(X和Y)与派生的典型变量U和V之间的关系可以理解为以最大化线性相关的方式将左变量集和右变量集从它们原始的测量空间旋转到新空间的最佳方式。因此,CCA的拟合参数描述了坐标系统的旋转:典型向量封装了如何从原始测量坐标系统到达新的潜在空间,典型变量编码了在该新空间中每个数据点的嵌入。这种坐标系统旋转在形式上与奇异值分解(SVD)相关。SVD可能是计算CCA的最常见方法(Healy, 1957)。假设X和Y是居中的,可以通过将SVD应用于相关矩阵

来获得CCA解决方案(有关详细的数学证明,请参见Uurtio等人,2017)。

       从实际应用的角度来看,CCA有三个属性可能对于深入了解在神经科学中越来越可用的变量丰富数据集特别相关:(1)联合信息压缩,(2)多重性和(3)对称性。我们将在下文中考虑这些属性的每一个。

2.2 联合信息压缩

      CCA的一个关键特点是它识别了两组变量之间的对应关系,通常捕获两个不同的观察层次(例如,大脑和行为)。每组变量之间的显著关系以每个领域内的线性组合表示,共同反映了两个领域间的共同变化。与PCA类似,CCA以高维线性表示(即典型变量)的形式重新表达数据。每个得到的典型变量是由原始变量的加权和计算的,由典型向量指示。与PCA类似,CCA旨在通过最大化每组观测的低秩投影之间的线性对应关系来压缩相关数据集中的信息,同时约束无关的隐藏维度(参见下文的多重性)。这意味着典型相关性根据它们的典型变量之间的皮尔逊相关性量化了左右变量集之间的线性对应关系;换句话说,右和左变量集在多大程度上可以被认为是在一个共同的嵌入空间中接近彼此(图1)。因此,典型相关性可以被视为两个变量数组之间成功的联合信息减少的度量,并且因此通常用作可以解释为实现的简约量的CCA的性能度量。与其他多变量建模方法类似,即使在变量集中添加或删除单个变量也可能导致CCA解决方案的较大变化(Hastie等人,2001)。

2.3 对称性

      CCA的另一个重要特点是,两个共同分析的变量集可以交换而不改变解决方案的性质。许多经典的统计方法涉及“独立变量”或“解释变量”,通常表示模型输入(例如,几个问卷回答项),以及“因变量”或“响应变量”,描述模型输出(例如,总的工作记忆表现)。然而,在CCA的上下文中,这些概念失去了它们的意义(Friston等人,2008)。相反,CCA提供的解决方案反映了一个测量系列中单位变化如何与另一组观测中另一个测量系列相关的描述。这些关系对于要共同分析的左侧与右侧矩阵的更改是不变的。这样,CCA的一个重要特点是两个共同分析的变量集可以交换而不改变解决方案的性质。我们称CCA的这个属性为“对称性”。

      通过CCA产生的分析和神经科学解释的对称性与许多其他多变量方法不同,在这些方法中,因变量和自变量在模型估计和领域解释中扮演着不同的角色。例如,线性回归类型的方法解释了单位变化的影响(因变量)响应变量作为(自变量)输入变量的函数。在这种情况下,改变因变量和自变量可以改变任何特定结果的性质。因此,CCA的第二个重要特点是,两组变量之间的共关系以对称的方式确定,并描述了分析的每个数据领域之间的映射。

2.4 多重性

      CCA的第三个重要属性是,该方法可以产生多个模式(即,多对典型变量),每个模式描述变量集中的唯一变化模式。每个CCA模式包含左变量集的线性低秩投影(与该模式相关的一个典型变量)和右变量集的第二个线性低秩投影(与该模式相关的另一个典型变量)。在提取描述观测数据中最大变化的第一个模式(参见上文)后,CCA确定下一对潜在维度,其变化在两个变量集之间不受第一个模式的影响。由于每个新模式都是在观测数据中剩余的变化中找到的,CCA的经典表述优化了模式,使它们彼此相互不相关,这个属性被称为正交性。使用正交性约束CCA模式的使用类似于使用PCA时发生的情况。因此,CCA产生的不同模式按照领域-领域关联中解释的总变化进行排序。在展开的模式在科学上有意义的程度上,解释可以让复杂数据集被认为是由观测数据下的多个重叠描述组成。例如,欧洲的许多遗传变异可以由正交变化方向共同解释,沿着南北轴(即一个变化模式)和西东轴(即另一个变化模式)(Moreno-Estrada等人,2013)。我们将CCA产生许多对典型变量的能力称为“多重性”。

      图1说明了CCA建模和神经科学解释指导的三个核心属性如何使其成为分析现代生物医学数据集的特别有用的技术 - 联合信息压缩,对称性和多重性。首先,CCA可以提供一个简洁地捕获多个变量集中存在的变化的描述。其次,CCA模型是对称的,意味着交换两个变量集对获得的结果没有影响。最后,我们可以估计描述两个变量集之间对应关系的一组模式。因此,CCA建模不试图描述任何单个变量的“真实”效应(参见下文),而是针对数十个或可能数千个变量之间共享的突出相关结构(Breiman和Friedman,1997)。这些属性共同使CCA能够有效地揭示紧凑总结复杂多变量变量集的对称线性关系。

2.5 现代认知神经科学中CCA的示例

      CCA适用于现代神经科学中可用的大数据集,可以通过考虑它如何被用于解决特定问题来说明,这些问题涉及到大脑、认知和疾病之间的关系。在接下来的部分,我们将考虑4个示例,说明CCA如何帮助描述表型测量和诸如功能性大脑活动的神经生物学测量之间的关系。

示例 1

      Smith等人(2015)利用CCA揭示了人类连接组项目(van Essen等人,2013)中大约500名健康参与者的大脑-行为模式的群体共变异。这些研究人员旨在发现整个大脑的功能连接性的特定模式,一方面,是否与另一方面的各种人口统计学和行为的特定集合相关联(参见图2以获取分析流程)。功能性大脑连接性是通过估计在没有任务或刺激的情况下的静息状态功能MRI扫描来测量大脑活动的(Biswal等人,1995)。独立成分分析(ICA; Beckmann等人,2009)被用于从神经活动的波动中提取200个网络节点。接下来,基于200个节点的成对相关计算了功能连接矩阵,以产生一个量化大脑连接性“指纹”中的个体间变异的第一个变量集(Finn等人,2015)。一组丰富的表型测量,包括认知表现和人口统计信息的描述,提供了一个捕获行为中个体间变异的第二个变量集。这两个变量数组被提交给CCA,以了解网络耦合模式的潜在维度如何呈现出与认知处理和生活经验的表型的潜在维度之间的线性对应关系。通过非参数排列方法确定了随后的大脑-行为模式的统计稳健性,其中典型相关是测试统计量。

图 2. Smith等人(2015)的分析流程。
      这些研究人员的目标是发现,一方面,整个大脑的功能连接性的特定模式是否与另一方面的相关人口统计学和行为的特定集合相关联。在评估CCA模型之前,将两个领域的输入变量转换为主成分。通过排列测试确定了显著模式。Smith等人(2015)的发现提供了证据,表明默认模式网络中的功能连接性对于高级认知和智能行为非常重要,并且与积极的生活满意度密切相关。

      Smith和他的同事们识别出了一个统计显著的CCA模式,该模式包括沿着正负轴变化的行为测量;智力、记忆和认知的测量位于模式的正端,而生活方式(如大麻消费)的测量位于模式的负端。表现出最强烈贡献的大脑区域的连贯连接性变化让人想起了默认模式网络(Buckner等人,2008)。值得注意的是,先前的工作已经提供了证据,表明组成默认模式网络的区域与情景构建、复杂的社会推理(如心智理论)以及情景和语义记忆有关(Andrews-Hanna等人,2010;Bzdok等人,2012;Spreng等人,2009)。Smith和他的同事们(Smith等人,2015)的发现提供了证据,表明默认模式网络中的功能连接性对于高级认知和智能行为非常重要,并且与生活满意度有重要的联系。这项研究展示了CCA在联合压缩方面的能力,因为它能够成功地提取包含大脑测量和广泛的人口统计学和生活方式指标的数据集的多变量描述。

示例 2

      CCA的另一个用途是帮助理解神经功能与持续思考模式之间的复杂关系。在实验室和日常生活中,持续的思考往往会从手头的任务转向其他个人相关的特征——这种现象通常被称为“心神游走”(Seli等人,2018)。研究表明,心神游走的状态之间存在复杂的正负关联模式(Mooneyham和Schooler,2013)。这种明显的复杂性提出了心神游走是一个异质而非同质状态的可能性。

      王等人(2018b)通过使用CCA实证地探讨了这个问题,他们通过检查默认模式网络(default mode network, DMN)内的连接性与在实验室记录的持续自我生成认知过程的模式之间的联系来进行研究(见图3)。他们的分析使用了默认模式网络内的功能连接模式作为一组观察,以及在实验室中跨多天记录的自我报告描述模式作为第二组观察(Witten等人,2009)。默认模式网络中的16个区域的连接性和13个关于心神游走体验的自我报告方面被输入到CCA的稀疏版本中(有关CCA的这种变体的更多信息,请参见第4.2节)。该分析发现了两种模式,一种描述了积极习惯性思维的模式,另一种反映了自发的与任务无关的思维,两者都与默认模式网络内的连接性波动的独特模式相关联。为了进一步验证新数据中提取的脑-行为模式,后续分析确认了这些模式与认知方面(如执行控制和创造性地生成信息的能力)具有独特的关联,并且这些模式也独立地区分了幸福感测量。这些数据表明,默认模式网络可以通过多种方式促进持续的思考,每种方式都具有独特的行为关联和底层神经活动组合。通过展示默认模式网络内多种脑-体验关系的证据,作者(2018b)强调了在考虑脑活动和神经体验之间的联系时需要更大的特异性(另请参见Seli等人,2018)。这项研究展示了CCA的多重性属性,因为它能够识别多种不同的思维模式,每种模式都可以基于与其他观察集的关联来进行验证。

图 3. 王等人(2018b)的分析流程。

      利用CCA来探讨不同的持续思维方面是否可以追踪默认模式网络内功能连接模式的不同组成部分的假设。稀疏CCA被用于在对脑-体验数据进行模型拟合的同时执行特征选择。所识别的CCA模式显示了积极习惯性思维和自发的与任务无关的思维的稳健特征组合,与默认模式网络内的连接性波动模式相关联。这两种模式也分别与不同的高级认知特征相关联。

示例 3

      在第三个示例中,夏及其同事(2018,见图 4)使用大约1000名来自费城神经发育队列的受试者的静息态fMRI扫描,将项目级精神病症状映射到大脑网络的大脑连接模式中。由于认识到现有诊断精神病诊断中的高度异质性和共病性,这些研究人员对功能连接和个体症状如何形成精神病理学和大脑网络的相关维度感兴趣(Insel和Cuthbert,2015)。值得注意的是,该研究使用基于中位数绝对偏差的特征选择步骤,首先减少了连接特征空间的维度,然后运行CCA。结果,大约3000个功能边和111个症状项目被联合分析。由于特征数量仍然大于受试者数量,因此使用了稀疏CCA(Witten等人,2009)。CCA家族的这个变体通过最终的CCA模型惩罚了所选特征的数量。基于协变解释和随后的排列测试(Mišić等人,2016),该分析确定了精神病理学和功能性大脑连接的四个相关维度 - 情绪,精神病,恐惧和外化行为。通过将稀疏CCA应用于数据的不同子集的重采样程序,该研究确定了稳定的临床和连接签名,这些签名始终为四种模式做出贡献。得到的维度与现有的临床诊断相对一致,但在很大程度上超越了诊断边界。此外,每个维度都与异常连接的独特模式相关联。然而,所有维度都共同存在网络分离的损失,特别是在执行网络和默认模式网络之间。由于网络分离是网络发展的规范特征,所有维度的网络分离损失表明,共同的神经发育异常可能对广泛的精神症状很重要。利用CCA捕获多个数据集中的共同变异源的能力,这些发现支持了NIMH研究领域标准背后的想法,即大脑功能网络架构中的特定回路级异常可能导致多种精神症状(Cuthbert和Insel,2013;Bzdok和Meyer-Lindenberg,2018)。该研究展示了CCA的灵活使用,以揭示基于整个大脑固有连接指纹的跨诊断、连续症状维度,这些指纹可以在临床神经科学中超越现有的疾病边界。

图 4. 夏等人(2018)的分析流程。

      夏及其同事(2018)对功能连接和个体症状如何形成精神病理学和大脑网络的相关维度感兴趣。该研究在预处理中采取了基于中位数绝对偏差的特征选择步骤,首先减少了功能连接度量的维度。应用了CCA的稀疏变体来提取精神病理学和功能性大脑连接的相关维度模式。基于协变解释和随后的非参数排列统计测试,该分析确定了四个相关维度 - 情绪、精神病、恐惧和外化行为 - 每个维度都与异常大脑连接的独特模式相关联。结果表明,大脑功能网络架构中的特定回路级异常可能导致多种精神症状。

示例 4

      最后一个例子是胡等人(2018)的开创性研究,他们展示了稀疏多重CCA(Witten和Tibshirani,2009)在理解表观遗传学与大脑功能之间联系方面的应用。CCA的多变量特性使其成为检查具有完全不同特征的数据矩阵的常用工具。例如,可以在多个生物学层面上表征表观遗传学,包括单核苷酸多态性(SNPs)、mRNA测序和主要组织的DNA甲基化,或大脑中器官级别的变化。在这种情境下,稀疏多重CCA可以帮助描述三个或更多变量领域之间的典型相关性,使其成为探索遗传学和成像数据的相关工具。为了解决这个问题,胡等人提出了稀疏多重CCA(SMCCA,Witten等人,2009)的自适应重新加权版本。传统的SMCCA可能会忽略较小的成对协变,并且/或受到具有大变异的数据变量的过度影响。为了解决这个问题,作者通过自适应地引入权重系数来适应算法变体,以最小化不公平的组合。当应用于精神分裂症数据时,这种多层次分析将两种遗传测量方法结合在一起,即来自9273个DNA甲基化位点的基因组剖面和来自777365个SNPs位点的遗传剖面,以便与来自静息态fMRI数据的大脑活动共同考虑。使用AAL大脑图谱(Tzourio-Mazoyer等人,2002)将功能神经数据划分为116个解剖区域。

      作者使用5折交叉验证选择模型超参数,并在每个步骤中选择一个子组作为测试样本,使用其余4个子组作为训练样本。通过训练样本和测试样本的相关性之差来确定量化拟合成功的分数,该分数在这个特定的研究中用于评估稀疏参数的选择成功率。接下来,使用基于Meinshausen和Bühlmann的工作(2010)的频率截止值,应用自举法评估最稳定的变量子集(Meinshausen和Bühlmann,2010)。使用这种新方法,作者发现了精神分裂症与过去研究强调的大脑区域和遗传变体之间的关系,例如:(i)fMRI数据中的海马体和梭状回(Kircher和Thienel,2005),(ii)与大脑发育相关的SNPs,包括影响甲基化水平的BSX(Park等人,2007),与大脑退行性疾病基因THR相关的PFTK1(Shibusawa等人,2008),以及与海马体相关的AMIGO2(Laeremans等人,2013),以及(iii)与大脑发育相关的DNA甲基化中的神经管发育途径(Kamburov等人,2013)。胡等人的这项研究突显了CCA在将来自多个不同领域的数据融合到一个连贯模型中以允许分析复杂和异质特征(例如表观遗传学与大脑结构之间的关系)方面的实用性。

如果您对脑影像数据处理等感兴趣,可点击以下链接了解(可添加微信号1996207406318983979082咨询,另思影提供免费文献下载服务,如需要也可添加此微信号入群):

南京:

第九十四届磁共振脑影像基础班(南京,10.8-13)

第三十三届脑影像机器学习班(南京,10.30-11.4)

第十七届影像组学班(南京,11.15-20)
广州:

第九十五届磁共振脑影像基础班(广州,10.10-15)

第四十三届磁共振脑网络数据处理班(广州,10.17-22)


第十五届影像组学班(广州,10.23-28)

第十六届脑网络数据处理提高班(广州,11.1-6)

第九十七届磁共振脑影像基础班(广州,11.8-13)

第三十届磁共振脑影像结构班(广州,11.21-26)
上海:

第十五届脑网络数据处理提高班(上海,10.10-15)

第十四届影像组学班(上海,10.17-22)

第十一届小动物磁共振脑影像数据处理班(上海,10.24-28)

第九十六届磁共振脑影像基础班(上海,10.31-11.5)

第四十四届磁共振脑网络数据处理班(上海,11.8-13)

北京:

第九十三届磁共振脑影像基础班(北京,10.25-30)
第三十二届脑影像机器学习班(北京,11.8-13)

重庆:

第三十六届扩散成像数据处理班(重庆,10.14-19)

第十届扩散磁共振成像提高班(重庆,10.21-26)

第十六届影像组学班(重庆,11.7-12)

数据处理业务介绍:

思影科技功能磁共振(fMRI)数据处理业务

思影科技弥散加权成像(DWI)数据处理

思影科技脑结构磁共振(T1)成像数据处理业务 

思影科技啮齿类动物(大小鼠)神经影像数据处理业务 

思影科技定量磁敏感(QSM)数据处理业务

思影科技影像组学(Radiomics)数据处理业务

思影科技DTI-ALPS数据处理业务

思影数据ASL数据处理业务

思影科技灵长类动物fMRI分析业务 

思影科技脑影像机器学习数据处理业务介绍

思影科技微生物菌群分析业务 

思影科技EEG/ERP数据处理业务 

思影科技近红外脑功能数据处理服务 

思影科技脑电机器学习数据处理业务

思影数据处理服务六:脑磁图(MEG)数据处理

思影科技眼动数据处理服务 

招聘及产品:

思影科技招聘数据处理工程师(北京,上海,南京,重庆)

BIOSEMI脑电系统介绍

目镜式功能磁共振刺激系统介绍

3.CCA的解释和限制

      CCA的建模目标是实现多个矩阵的共同分解。这个目的使得该工具对于处理跨多个调查层面的丰富样本描述的人群观察特别有用。然而,这种分析技术是否更接近于数据的描述性重表达(即,无监督建模)还是应该更容易理解为预测性降维回归的一种形式(即,监督建模,参见Bach和Jordan,2005;Bzdok等人,2018;Breiman和Friedman,1997;Witten等人,2009)仍然是一个持续的争论。两种观点都有合理的论据。监督算法依赖于一个指定的建模目标,该目标将从一组输入变量中预测,而无监督算法旨在在没有与模型估计期间可用的关联基准标签的情况下提取观察中的连贯模式(Hastie等人,2001)。有可能随着其中一个变量集的维数减少以接近大多数线性回归类型方法的单一输出,在这种情况下,CCA可能更类似于更多的监督建模方法。相反,随着双方变量集的不断增大,应用CCA可能更接近无监督建模方法的精神。

      研究人员是否将CCA视为监督或无监督方法对结果的解释和他们选择合格策略以验证模型解决方案都有影响(Bzdok和Ioannidis,2019)。例如,交叉验证是一种通过比较未见数据中的模型派生预测来常用于监督模型评估的技术。然而,在无监督设置中,通常没有明确的优化标准(例如监督线性回归中的低残差平方和),可用于模型选择或模型评估,例如交叉验证方案中常见的(Hastie等人,2001)。然而,交叉验证目前很少用于支持无监督模型解决方案,例如k-means聚类方法或PCA矩阵分解技术,因为在这些情况下通常没有标签可以评估性能(Bzdok,2017;Hastie等人,2001;Pereira等人,2009)。在CCA模型描述数据但没有已知数量可预测的情况下,交叉验证程序可以通过使用从初始样本中观察到的典型向量投影新的、以前未见过的个体数据来评估CCA模型。如果这不可能,另一种验证策略是证明获得的CCA解决方案的典型变量在捕获同一组个体中其他未见测量的变化方面是否有用(例如,Wang等人,2018a)。CCA的另一种验证策略是显示它产生的解决方案在对(已经看到的)个体的随机子集重复分析时是稳健的,这被称为所谓的分半分析(Miller等人,2016;Smith等人,2015)。

      从更正式的角度来看,CCA拟合过程中控制参数估计的优化目标对于监督模型来说是不寻常的,因为这个目标基于皮尔逊相关度指标。大多数线性回归类型的预测模型都有一个优化函数,该函数描述了与基准标签的偏差程度,包括不同的残差平方和损失函数(Casella和Berger,2002;Hastie等人,2001)。此外,CCA中变量集的对称性是将CCA视为无监督分析工具的另一个原因。我们不知道任何现有的监督预测模型在交换了独立变量和依赖变量(如果可能)后会产生相同的模型参数拟合集。总的来说,CCA模型是一种相对独特的方法——“介于两者之间”——它共享了监督和无监督方法的经典属性。

      另一种对统计方法进行分类的方法是基于它们的建模目标:估计、预测或推断(Bzdok和Ioannidis,2019;Efron和Hastie,2016;Hastie和Tibshirani,1990)。模型估计是指通过将参数拟合到手头的数据来调整随机初始化参数的过程;经典线性回归中的beta参数是这些参数的直观示例。由于模型估计通常可以在不将模型应用于未见观测值或不评估效果的基本真实性的情况下执行,因此一些作者最近将这种建模方案称为“反预测”(McElreath,2015;Pearl和Mackenzie,2018)。预测关注的是最大化模型拟合,以优化其对未见数据的预测效果,例如从未来参与者获得的数据点。最后,基于模型拟合的推断通常基于统计零假设检验和相应的方法(Wasserstein和Lazar,2016)。这种从数据中得出严格结论的形式在经典分析范例中特别有用,其中主要目标是对单个输入变量的贡献做出准确的陈述。

       在这种通用建模目标的三重视图背景下,CCA可能最自然地符合估计类别,而不是主要的预测或推断工具。由于其探索性质,CCA通常对于专注于揭示复杂高维空间中简洁原则的应用非常有用,作为手头观测的替代描述。在新数据中识别单个变量的预测值不是CCA底层优化目标的组成部分。实际上,CCA应用通常不主要寻求在每组变量的子集之间建立统计显著的链接。这是因为分析目标针对的是在两个变量数组的整体上发现的相关模式。即使在CCA的背景下基于非参数零假设检验获得了p值,正在发挥作用的特定零假设(通常:左和右变量矩阵不携带相应的信息)实际上是集中在潜在空间相关性的整体稳健性上,如通过变量集之间的典型相关性所测量,并不重视特定的单个测量;更不用说任何特定的从左变量集和右变量集之间的一个测量的链接。因此,使用CCA来确定特定关系应该以谨慎的方式进行。换句话说,当调查者希望对被调查变量集内单个变量的相关性和关系做出强有力的陈述时,CCA不是最佳选择——这是与许多其他模式学习工具共享的属性。

3.1. CCA的限制 

      在考虑了CCA与现有统计技术分类之间的关系后,我们接下来考虑研究人员在考虑是否选择CCA作为给定数据分析问题时可能遇到的一些挑战。我们以流程图的形式总结了研究人员面临的选择(见图5)。与许多统计方法一样,观测值的数量n与变量的数量p之间的关系是考虑CCA是否可能有用的关键方面(Giraud, 2014; Hastie et al., 2015)。普通CCA只能在数据中的观测值数量多于较大变量集的变量数量时才能产生有用的模型拟合(即,n > max(p;q))。具体来说,如果分析中包括的个体数量接近大脑或行为或基因组变量的数量,那么CCA将很难估算出存在于人口中的任何潜在维度(但请参见下面的正则化CCA变体)。在这些情况下,即使CCA达到了一个解决方案,而没有引发错误,得到的典型向量也可能是无意义的(Hastie et al., 2015)。更正式地说,在这种退化的情况下,CCA失去了找到唯一可识别解决方案的通常能力(尽管它是一个非凸优化问题),另一个具有相同数据和CCA实现的实验室也可以获得这种能力(Jordan, 2018)。另外,关于可重复性的重要说明是,随着一个或两个集合中变量数量的增加,由于模型的自由度更高(模型参数的数量更多),所得到的典型相关性往往会增加。一个重要的结果是,从具有不同大小变量集的CCA应用中获得的典型相关性不能直接用于决定哪些获得的CCA模型是“更好”的。CCA解决方案受到参与者样本以及每个集合中变量数量的限制。作为一个谨慎的说明,从训练数据中获得的典型相关效应大小限制了关于手头获得的CCA解决方案将如何在未来的数据或其他参与者上表现的声明。

图5. 一个流程图,说明在考虑将CCA应用于数据集时需要做出的选择。

      同样地,只包含几十个个体或观测值的较小数据集可能难以充分利用CCA等多变量程序的优势。此外,在心理学、神经科学和遗传学等领域,基本真值效应通常较小,而在变量组件的抽样不足的情况下很难检测到这些效应。一种实际的解决办法,可以缓解小数据集中的建模挑战,是在应用CCA之前使用如主成分分析(PCA)或其他方法对每个变量进行预处理(例如,Smith等人,2015),或采用CCA的稀疏变体(见下文)。根据它们最重要的线性变化方向减少变量集可以促进CCA方法,并且随后的解决方案,包括典型变量,可以翻译回并在原始变量空间中解释(Bzdok等人,2016)。这些考虑说明了为什么在许多神经科学研究的背景下,CCA应用长期以来一直不太吸引人,而随着越来越丰富、多模态和开放的数据集的出现,它的吸引力和可行性现在正在稳步增加(Davis等人,2014)。

      第二个限制涉及CCA能够在基础数据中发现和量化的统计关系的范围。作为一个线性模型,经典的CCA对基础关系施加了可加性的假设,以发掘相关的联合变化模式,从而忽略了数据中可能存在的更复杂的变量-变量交互作用。CCA可以容纳任何度量变量,而不严格依赖于正态性。然而,数据中的高斯正态性是可取的,因为CCA确切地操作着参数化这种数据分布的平均值和扩散的差异。在将CCA应用于数据之前,通常的做法是评估变量集的正态性,并可能应用适当的转换,如z评分(通过将均值居中为零和单位扩展缩放为一来对变量进行标准化)或Box-Cox转换(涉及对数和平方根操作的变量标准化)。最后,CCA解决方案发现的关系已经优化,以突显那些低维投影与另一个变量集的低维投影最(线性)耦合的变量。因此,得出的典型模式只提供了一个窗口,通过该窗口可以看到在存在另一个变量集的情况下哪些多变量关系最为重要,而不是识别数据集本身中重要的变量子集。

      该图表总结了研究人员在考虑是否使用CCA分析其数据时面临的一些实际选择。请注意,CCA工作流中的一些选择根据解释目标和科学背景(即,常规与稀疏CCA以及稀疏CCA与概率CCA)而有很大不同。

3.2. 与相关方法和CCA扩展的比较 

       CCA可能是提取两个高维量化测量源之间关系的最通用的统计方法。实际上,CCA可以被视为一种广泛的方法类,它概括了许多来自通用线性模型(GLM; Gelman和Hill,2007)的更专业的方法。实际上,行为科学家常用于参数测试的大多数线性模型(包括ANOVA,MANOVA,多重回归,皮尔逊相关和t检验)都可以被解释为CCA的特殊情况(Knapp,1978; Thompson,2015)。由于这些技术密切相关,评估CCA时,更深入地理解类似方法的机会和挑战通常会很有益。

3.2.1. 相关方法 

     i) 主成分分析(PCA)与CCA有一定的相似之处,尽管PCA执行一个变量集的无监督矩阵分解(Shlens,2014a)。PCA和CCA的一个共同属性是在结构发现过程中施加的正交性约束。因此,两种方法中都假定发现的变化源(即,模式)彼此不相关。一个重要的区别是,有些PCA公式旨在最小化原始变量集与从变化的潜在维度中每个观测的反投影之间的重构误差(Hastie等人,2015)。相反,CCA直接优化嵌入空间中潜在维度之间的对应关系,而不是由低秩瓶颈引起的原始变量中的重构损失。此外,PCA可以用作CCA之前的降维预处理步骤(例如,Smith等人,2015)。

     ii) 类似于PCA和CCA,独立成分分析(ICA)也在可能的高维变量集中提取隐藏的变化维度。虽然CCA关注基于线性协变结构揭示多变量变化源,但ICA可以识别数据中更复杂的非线性关系,这些关系可以捕获超出平均值和扩展差异的统计关系(Shlens,2014b)。与CCA不同的第二个方面是,从ICA获得的潜在维度不是自然地从最高到最低的贡献顺序来减少重构误差,这需要在后面的步骤中计算。CCA和ICA之间的另一个区别是,两种方法都试图识别具有一种不相关性形式的解决方案。如前所述,CCA使用正交性约束来获得不相关的潜在维度;相比之下,ICA优化了新出现的隐藏变化源之间的独立性。在这种情况下,两个变量之间的独立性意味着它们的不相关性,但两个变量之间的线性相关性的缺乏并不确保两个变量之间不存在非线性统计关系。最后,值得一提的是,ICA也可以用作后处理步骤,以进一步检查CCA解决方案中的效果(Miller等人,2016;Sui等人,2010)(参见下文)。

     iii) 偏最小二乘(PLS)回归与CCA相比,比PCA或ICA更相似。这是因为PLS和CCA可以识别两个变量集中的潜在变化维度(McIntosh等人,1996)。PLS的一个关键区别特征是,优化目标是最小化协方差而不是线性相关。然PLS始终被视为和用作监督方法,但是否应将CCA计入监督或无监督家族尚存在争议(见上文)(Hastie等人,2001)。此外,许多PLS和CCA的实现在某种意义上是相似的,它们对要发现的隐藏变化源施加正交性约束。然而,两种方法在优化目标上也存在以下区别:PLS最大化了投影维度与设计响应变量的原始变量的方差。相反,CCA仅在左和右变量集的嵌入空间中运行,以最大化出现的低秩投影之间的相关性,而不直接关联任何原始测量。因此,CCA间接识别了那些随后的典型变量最相关的典型向量。与CCA不同,PLS是尺度变量(依赖于协方差),在转换变量后会导致不同的结果。

      除了考虑替代方法外,CCA模型还有许多重要的扩展,每种扩展都针对特定的分析情况进行了优化。这些不同的模型扩展显示在图5的底部。

3.2.2. 模型扩展

      i. 概率CCA是对传统CCA的一种修改,它将传统CCA激励为生成模型(Bach和Jordan,2005; Klami等人,2013)。这种CCA变体的一个优点是它对数据中期望的变化有更明确的定义,因此在模型拟合后有更多机会产生合成但合理的观测值。另外,由于概率CCA允许将先验知识引入模型规范,这是许多贝叶斯模型的有利方面,因此已经证明,这种方法在小型生物医学数据集中产生了更令人信服的结果,而使用普通CCA处理这些数据集将是具有挑战性的(例如,Fujiwara等人,2009; Huopaniemi等人,2009)。

       ii. 稀疏CCA(SCCA,Witten等人,2009)是一种通过鼓励每个变量集中许多变量的精确零贡献来识别简洁变化源的变体。除了促进CCA解决方案的解释外,施加的L1-范数惩罚项在将CCA应用扩展到更高维变量集时也很有效,其中变量的数量可能超过可用观测值的数量(Hastie等人,2015)。引入稀疏性约束的一个结果是,这个额外引入的假设可能会干扰CCA的正交性约束。在神经科学应用中,生成的CCA模式越稀疏,不同模式的典型变量之间的相关性就越大。另外,重要的是要注意,从第一个模式开始,每个模式解释的变化不会按顺序减少,就像在普通CCA中那样。顺便说一句,其他正则化方案也可能是对传统CCA的有趣扩展。特别是,施加L2-范数惩罚项可以在宽数据设置中使用变量收缩稳定CCA估计,而不具有稀疏性诱导约束的变量选择属性(Witten和Tibshirani,2009)。

      iii. 多集CCA(Multiset CCA, Parra, 2018)或多组学数据融合(Hu等人,2018)扩展了对超过两个数据域的分析。在神经影像学领域,多集CCA常用于主题之间或多个影像表型(例如,fMRI,结构MRI和EEG)之间的盲源分离。多集CCA的优点是在不将数据投影到公共空间的情况下(参见ICA),可以灵活地处理每个数据域中的变异性。多集CCA的稀疏变体也是克服处理大量变量时限制的热门选择。判别CCA或协作回归(Gross和Tibshirani,2015;Luo等人,2016)是多集稀疏CCA(Hu等人,2018;Witten和Tibshirani,2009)的一种形式。在判别CCA中,一个数据域是标签向量。标签有助于识别其他两个域中与标签/表型相关的交叉数据关联,从而创建了CCA的监督版本。

      iv. 核CCA(KCCA;Hardoon等人,2004)是为捕获更复杂的非线性关系而设计的CCA扩展。核是映射函数,它们隐含地在更丰富的特征空间中表示变量集,而无需明确计算映射,这种方法被称为“核技巧”(Hastie等人,2001)。KCCA首先将数据投影到这个丰富的虚拟变量空间,然后在该扩大的输入空间中执行CCA。KCCA的优点是它允许检测数据中复杂的非线性关系。缺点是在原始变量空间中解释变量贡献通常更具挑战性,并且在某些情况下可能是不可能的。此外,KCCA是一种非参数方法;因此,模型拟合的质量与训练集的大小成比例地差。

      v. 深度CCA(DCCA Andrew等人,2013)是CCA的一种变体,它利用了最近在“深度”神经网络算法方面的进展(Jordan和Mitchell,2015;LeCun等人,2015)。许多现代神经网络架构的核心属性是能够学习通过多个嵌套的非线性转换而产生的数据中的表示。类似地,DCCA同时学习两个变量集的两个深度神经网络映射,以最大化它们的(可能高度抽象的)潜在维度的相关性。

4.实际考虑因素 

      在这些概念性的考虑之后,我们接下来考虑CCA工作流的实际实现。可以通过MATLAB(canocorr)、R(cancor或PMA包)和Python机器学习库scikit-learn(sklearn.cross_decomposition.CCA)中的内置库来计算CCA解决方案。在示例中提到的稀疏CCA在R包PMA中实现。这些代码实现为如何部署CCA提供了全面的文档。对于有兴趣阅读有关CCA变体的详细技术比较和讨论的读者,请参阅表1中的文本。

表1. CCA变体的进一步阅读。

4.1 预处理

      通常需要进行一些最基本的数据预处理,就像大多数机器学习方法一样。CCA(典型相关分析)是尺度不变的,标准化数据不应改变结果的典型相关性。这个属性是从皮尔逊相关性继承来的,由两个变量之间的单位变化的程度定义,数据变量的隐式标准化。然而,在执行CCA之前仍推荐对测量集的每个变量进行z-评分,以便于模型估计的数值过程并增强领域的可解释性。为避免异常值偏斜CCA估计,建议应用异常值检测和其他常见的数据清理技术(Gelman和Hill,2007)。存在一些现成的启发式方法来识别不太可能的变量值,例如用相应输入维度的第5和第95百分位数替换极值,这种统计转换称为“缩尾”。在大数据集中,缺失数据是常见的。建议排除具有太多缺失变量的观测值(例如,缺失问卷的整个领域)。或者,当缺失数据的比例较小时,可以用均值或中位数“填充”缺失的变量,或者使用更复杂的数据插补技术。

       除了不合理的极值和缺失值外,通常还需要考虑变量集上可能的潜在干扰影响。在许多神经影像数据分析设置中,去混淆程序是预处理步骤,以减少发现非有意义的变异模式(例如运动)的风险(参见Bzdok等人,2020)。在CCA的上下文中,通常应用于线性回归分析的相同程序也可能是有用的。请注意,去混淆通常作为一个独立的先行步骤执行,因为CCA模型本身没有明确的噪声组件。去混淆通常是通过创建一个回归模型来进行的,该模型捕获原始数据中可以由混淆因素解释的变异。这种回归建模的残差将是新的“清洁”数据,可能的混淆信息已被删除。例如,在神经影像学中,头部运动、年龄、性别和总脑容量经常被认为是许多分析背景下不想要的影响源(Baum等人,2018;Ciric等人,2017;Kernbach等人,2018;Miller等人,2016;Smith等人,2015)。虽然一些先前的研究已经提交了一个变量集以进行干扰消除程序,但在大多数分析场景中,应该在每个变量集上应用相同的去混淆步骤。

4.2 数据降维

      当变量的数量超过参与者的数量时,在执行CCA之前,降维技术可以提供有用的数据压缩。主要技术包括基于统计离散度的特征选择,如均值或中位数绝对偏差,以及矩阵分解方法,如PCA和ICA。在执行CCA之前,将PCA应用于每个矩阵中的各种变量,以将其预处理为一组较小的最具解释维度,可以使该技术应用于较小、计算上更可行的变量集(除了可能有益的去噪效果)。为了解释原始数据中的CCA解决方案,一些作者已经将典型变量与原始数据相关联,以恢复每个CCA模式捕获的与原始变量相关的相关变量关系。在CCA之前首先执行PCA的一个潜在限制是,PCA应用中隐含的假设会延续到限制CCA解决方案中。

      另一个吸引人的分析策略是通过ICA(Miller等人,2016;Sui等人,2010)对CCA解决方案进行后处理。这种分析策略可以克服将PCA压缩数据投影回原始变量空间的一些问题。在CCA拟合完成后,左侧和右侧的随后的典型变量可以跨参与者连接成一个数组(观测次数 x 2 x 模式数量)。然后将ICA应用于聚合的典型模式表达,以恢复嵌入空间中观测值之间变异的独立来源。虽然会产生额外的计算负担,但这种方法可能是有益的,因为CCA只能解开数据中的潜在变异方向,直到随机旋转(Miller等人,2016,第18页)。也就是说,获得的模式之间的正交旋转可能会给出一个等效的有效CCA解决方案(与PCA共享的弱点)。通过后续的ICA步骤,可以进一步消除由获得的典型向量和典型变量嵌入描述的潜在维度(Sui等人,2010,第20页)。超越发现无关的变异来源,ICA后处理在检测对从两个变量集中提取的共同解决方案做出贡献的独立组件方面特别有用。在某些情况下,CCA + ICA混合方法可能会更多地关注两个原始变量集之间的关系。然而,额外应用PCA预处理可能会影响CCA + ICA方法的结果(Sui等人,2010)。

4.3 模型选择 

      CCA允许从观测数据中计算多种模式,这自然引出了如何选择要提取的潜在变异源的最优数量的问题。虽然已经提出了各种策略,但目前还没有明确的共识。如何选择CCA模式的数量的模糊性与选择k-means和其他聚类过程中的簇数量,以及选择PCA、ICA和其他矩阵分解技术中的组件数量的问题密切相关(Eickhoff等人,2015)。

       为了选择一定数量的有用模式,可以使用几种质量指标来量化可以解释的变异,以便理解最优变异源的概念,但没有明确的默认值。由于典型变量代表原始数据的压缩(即,投影)信息,典型模式应与原始数据有关。其他选择包括评估随着模式数量的增加,使用一个域的典型变量来预测或关联原始变量时,重构误差指标的减少(Wang等人,2018b)。在为建模k+1变异源添加另一个模式后,整体数据变异的减少表明k是候选截止点。在这种情境下的一个重要的总体属性是,由于模式受到它们的正交性的约束,计算具有5或50个模式的经典CCA会产生相同的前5个典型模式。

      另一种策略依赖于确定通过非参数排列测试(例如,Kernbach等人,2018; Smith等人,2015)指示的CCA提取的模式中有多少是统计上稳健的。可以在没有左右变量集之间的一致关系的零假设下计算每种模式的典型相关的经验分布 - 在这种情况下,典型相关应围绕机会水平波动。排列过程通过随机打乱两个变量集的行或列来进行,以打破两个变量集在观测值之间的低秩投影之间的任何现有关系(Efron,2012; Nichols和Holmes,2002)。如果两个变量集之间的关系是随机的,所有派生的模式都应该是无意义的。第一个模式可以被视为零假设的最严格衡量标准,因为它提取了零样本中解释的最高方向的变异(例如,Smith等人,2015)。经过多次迭代后,排列数据集中提取的扰动模式用于计算两个变量集之间的关联的机会水平。每个原始典型相关超过95%水平(显着性为p <0.05)或99.9%水平(显着性为p <0.001)的典型模式可以在左右变量集之间没有联系的零假设下被认证为稳健。如果调查者希望为多重比较添加显式校正,则例如可以将p值阈值除以模式数量(即,Bonferroni的方法)或使用错误发现率(FDR)来减少可能的I型错误。因此,此方法为最初获得的每个CCA模式提供一个p值。再次请注意,以这种方式不会对任何单个变量执行统计零假设检验,说明CCA无法对特定的孤立输入变量做出有针对性的陈述。

      此外,已经提出了一个保留框架,以确定在足够大的样本中发现的CCA模式的泛化能力和统计显着性(Ferreira等人,2018; Monteiro等人,2016)。该分析方案首先通过随机将数据分为训练集和保留集来开始。然后基于训练集拟合CCA模型。然后将保留个体的数据投影到先前获得的CCA嵌入中(即,使用预先计算的典型向量在保留数据中获得新的典型变量嵌入)以生成独立的保留相关性。然后,针对遗漏的相关性在测试数据上执行排列测试。该验证框架可用于明确衡量模式泛化性能并为模式获得p值。可能的限制在于需要有一个合理大小的保留集。

      最后,为了明确评估每个单独输入变量对整体建模解决方案的贡献,已经为CCA执行了敏感性分析(Kernbach等人,2018)。通过选择性地从给定的输入变量中删除所有信息(例如,从该相同的大脑区域中得出的功能连接强度),并基于一个变量集的减少数据和另一个变量集的原始数据重复CCA过程,从而隔离了每个变量的影响。这种分析策略在假设下发出了一个扰动的典型变量集,即,逐个地,某个特定的输入维度可能对获得原始典型模式不重要。通过计算原始和扰动典型变量之间的皮尔逊相关系数来量化典型相关性的变化程度。除了变量删除后的这些点估计外,还通过执行自举分析来量化诱导的统计不确定性。通过随机抽取具有替换的个体从原始参与者样本中生成了“摇动”的自举数据集。在这些替代数据集中,以相同的方式拟合和评估了扰动的CCA。这种稳健性评估提供了人口水平的不确定性区间,从而使得能够对我们将来会观察到的数据的变量重要性进行外推。原始典型变量与未经特定变量贡献获得的典型变量之间的高相关性表明,该变量对估计两种数据模态之间的原始CCA对应关系不是至关重要的。这是因为删除给定变量(和任何相关信息)并未对原始CCA性能指标产生强烈的变化。相反,低相关性指向了对推导两个观察水平之间的共变特别相关的变量。这种通用的变量删除方案可以确定单个输入变量的可解释贡献,这些变量在CCA等高度多变量分析工具中起着不成比例的重要作用。

5.结论

      在当代生物医学研究中,预计身体、大脑、认知和基因之间会存在复杂的多变量关系(Bzdok等人,2019年,Bzdok和Ioannidis,2019年)。这些关系很可能会为疾病的原因和其他社会问题提供洞察。CCA提供了一种简单、有效的方法,用于描述两个变量集之间的对应关系,这对于描述神经影像学中的复杂关系可能具有重要意义。随着神经科学和其他生物医学科学中多模态数据集的详细程度和质量的提高,CCA的吸引力可能会增加。CCA已经开始在目前最大的两个脑成像收藏中发挥作用 - 人类连接组计划和英国生物银行。在许多这些应用中,CCA是分析工作流程的核心。鉴于其多功能性,CCA有能力成为更复杂的数据分析管道的核心构建模块(Calhoun和Sui,2016;Correa等人,2010b;Liu和Calhoun,2014),而不是分析本身的目标(Smith等人,2015)。通过这种方式,我们希望本文将有助于鼓励科学家在适当时使用CCA,以量化许多重要人类条件现象的多形态和多方面的关系。

如需原文及补充材料请添加思影科技微信:1996207406318983979082获取,如对思影课程及服务感兴趣也可加此微信号咨询。另思影提供免费文献下载服务,如需要也可添加此微信号入群,原文也会在群里发布,如果我们的解读对您的研究有帮助,请给个转发支持以及右下角点击一下在看,是对思影科技的支持,感谢!

微信扫码或者长按选择识别关注思影
非常感谢转发支持与推荐
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
CCA典型关联分析原理与Python案例
答疑解惑专题(三)——代谢组学数据处理
【1115.】PCA、PLS-DA、OPLS-DA到底啥关系?
干货|浅析代谢组学最常用到的数据分析方法
Nature neuroscience:功能核磁共振成像(fMRI)分析的计算方法
如何理解特征工程?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服