基于深度模型的特征提取用于预测生物图像中的蛋白质亚细胞定位

摘要蛋白质亚细胞定位预测是研究蛋白质功能的重要手段。近年来，随着显微成像领域的重大进展，从生物图像中自动确定蛋白质亚细胞定位（亚细胞定位是指某种蛋白或表达产物在细胞内的具体存在部位。例如在核内、胞质内或者细胞膜上存在。）成为新的研究热点。这一领域的中心主题之一是确定哪些特征适合描述蛋白质图像。现有的特征提取方法通常是手工设计的，只提取一层特征，可能不足以表示复杂的蛋白图像。为此，我们提出了一种基于深度模型的描述子(DMD)（描述子（Descriptor）是刻画特征的一个数据结构，一个描述子的维数可以是多维的。）来提取蛋白质图像的高级特征。具体来说，为了使提取的特征更加一般化，我们首先训练了卷积神经网络(即，AlexNet )

（AlexNet的特点：

①更深的网络结构；

②使用层叠的卷积层，即卷积层+卷积层+池化层来提取图像的特征；

在AlexNet中使用的池化（Pooling）却是可重叠的，也就是说，在池化的时候，每次移动的步长小于池化的窗口长度。AlexNet池化的大小为3×3的正方

形，每次池化移动步长为2，这样就会出现重叠。重叠池化可以避免过拟合，这个策略贡献了0.3%的Top-5错误率。与非重叠方案s=2，z=2相比，输出的维度是相等的，并且能在一定程度上抑制过拟合。

③使用Dropout抑制过拟合；

Dropout是比较常用的抑制过拟合的方法了。引入Dropout主要是为了防止过拟合。在神经网络中Dropout通过修改神经网络本身结构来实现，对于某一层的神经元，通过定义的概率将神经元置为0，这个神经元就不参与前向和后向传播，就如同在网络中被删除了一样，同时保持输入层与输出层神经元的个数不变，然后按照神经网络的学习方法进行参数更新。在下一次迭代中，又重新随机删除一些神经元（置为0），直至训练结束。

Dropout应该算是AlexNet中一个很大的创新，现在神经网络中的必备结构之一。Dropout也可以看成是一种模型组合，每次生成的网络结构都不一样，通过组合多个模型的方式能够有效地减少过拟合，Dropout只需要两倍的训练时间即可实现模型组合（类似取平均）的效果，非常高效。如下图：

④使用数据增强Data Augmentation抑制过拟合；

神经网络由于训练的参数多，表能能力强，所以需要比较多的数据量，不然很容易过拟合。当训练数据有限时，可以通过一些变换从已有的训练数据集中生成一些新的数据，以快速地扩充训练数据。对于图像数据集来说，可以对图像进行一些形变操作：

①翻转 ②随机裁剪 ③平移，颜色光照的变换 ...

AlexNet中对数据做了以下操作：

随机裁剪，对256×256的图片进行随机裁剪到227×227，然后进行水平翻转；测试的时候，对左上、右上、左下、右下、中间分别做了5次裁剪，然后翻转，共10个裁剪，之后对结果求平均；对RGB空间做PCA（主成分分析），然后对主成分做一个（0, 0.1）的高斯扰动，也就是对颜色、光照作变换，结果使错误率又下降了1%。

⑤使用Relu替换之前的sigmoid的作为激活函数；

在最初的感知机模型（感知机学习旨在求出将训练数据集进行线性划分的分类超平面，为此，导入了基于误分类的损失函数，然后利用梯度下降法对损失函数进行极小化，从而求出感知机模型。感知机模型是神经网络和支持向量机的基础。感知机模型如下：

f(x)= sign(w*x+b)

其中，x为输入向量，sign为符号函数，括号里面大于等于0，则其值为1，括号里面小于0，则其值为-1。w为权值向量，b为偏置。求感知机模型即求模型参数w和b。感知机预测，即通过学习得到的感知机模型，对于新的输入实例给出其对应的输出类别1或者-1。）中，输入和输出的关系如下：

只是单纯的线性关系，这样的网络结构有很大的局限性：即使用很多这样结构的网络层叠加，其输出和输入仍然是线性关系，无法处理有非线性关系的输入输出。因此，对每个神经元的输出做个非线性的转换也就是，将上面就加权求和的结果输入到一个非线性函数，也就是激活函数中。这样，由于激活函数的引入，多个网络层的叠加就不再是单纯的线性变换，而是具有更强的表现能力。

ReLU是一个分段线性函数，小于等于0则输出为0；大于0的则恒等输出。

这里有个问题，前面提到，激活函数要用非线性的，是为了使网络结构有更强的表达的能力。那这里使用ReLU本质上却是个线性的分段函数，是怎么进行非线性变换的。

这里把神经网络看着一个巨大的变换矩阵M，其输入为所有训练样本组成的矩阵A，输出为矩阵B。

B = M · A

这里的M是一个线性变换的话，则所有的训练样本A进行了线性变换输出为B。

那么对于ReLU来说，由于其是分段的，0的部分可以看着神经元没有激活，不同的神经元激活或者不激活，其组成的变换矩阵是不一样的。设有两个训练样本a1，a2,其训练时神经网络组成的变换矩阵为M1,M2。由于M1变换对应的神经网络中激活神经元和M2是不一样的，这样M1,M2实际上是两个不同的线性变换。也就是说，每个训练样本使用的线性变换矩阵M是不一样的，在整个训练样本空间来说，其经历的是非线性变换。

简单来说，不同训练样本中的同样的特征，在经过神经网络学习时，流经的神经元是不一样的（激活函数值为0的神经元不会被激活）。这样，最终的输出实际上是输入样本的非线性变换。

⑥多GPU训练；

为提高运行速度和提高网络运行规模，作者采用双GPU的设计模式。并且规定GPU只能在特定的层进行通信交流。其实就是每一个GPU负责一半的运算处理。作者的实验数据表示，two-GPU方案会比只用one-GPU跑半个上面大小网络的方案，在准确度上提高了1.7%的top-1和1.2%的top-5。值得注意的是，虽然one-GPU网络规模只有two-GPU的一半，但其实这两个网络其实并非等价的。

AlexNet图1.png）。通过使用含有数百万个标签的自然图像集，然后使用部分参数转移策略（后面文章有介绍）对自然图像到蛋白质图像的参数进行微调。之后，我们利用Lasso模型（通过正则化降低模型复杂度，以达到可以避免过拟合的效果，可以在损失函数的基础上线性添加一个正则化项，这样就得到了一个新的结构风险函数，如下：

在所有参数平方和前乘以了一个参数，把它叫正则化系数或者惩罚系数。这个惩罚系数是调节模型好坏的关键参数，具体的惩罚程度还需要调节值来达到一个平衡的点，过度的惩罚会让模型出现欠拟合的情况。训练优化算法是一个由两项内容组成的函数：一个是损失项，用于衡量模型与数据的拟合度，另一个是正则化项，用于衡量模型复杂度）从CNN最后一个全连接层(Convolution Neural Network)中选择最显著的特征，并将这些特征用于最终的分类。在蛋白质图像数据集上的实验结果验证了该方法的有效性。

关键词 局部参数转移，亚细胞位置分类，特征提取，深度模型，卷积神经网络

1介绍

蛋白质亚细胞定位对分子细胞生物学、蛋白质组学和系统生物学具有重要意义。蛋白质在核糖体中合成后，必须运输到其自然定位才能正常发挥其功能。因此，找到蛋白质的亚细胞定位是了解其功能的必要步骤[1,2]。

在过去的20年中，随着显微成像领域的重大进展，光学显微镜比传统的测序方法更频繁地用于确定细胞内蛋白质的亚细胞定位[3,4]。这主要是因为生物图像能够更直观地捕捉到细胞中的错误定位模式[5,6]，而这与大多数生物过程的调控密切相关。此外，在生物图像数据快速增长的情况下，用目测法对亚细胞定位是一项费时且昂贵的工作。因此，越来越多的研究团队致力于设计能够自动预测基于图像的蛋白质亚细胞定位的机器学习算法[7,8]。

预测蛋白质亚细胞定位的目的是预测蛋白质图像的定位模式为现有模式之一(如细胞质、细胞核和囊泡)。从机器学习的角度来看，蛋白质亚细胞定位预测可以看作是一个多类分类问题[9 - 11]。（【多类分类问题】对于一张输入图片，需要识别其属于行人、轿车、摩托车或者卡车中的一个类型，就是一个多类分类的问题。用神经网络表示如下：

可以说，神经网络就是由一个个逻辑回归模型连接而成的，它们彼此作为输入和输出。最终输出结果可表示为：

这与之前逻辑回归中的多类分类表示不同，在逻辑回归中，输出y属于类似于{1, 2, 3, 4}中的某个值，而这里输出的是一个向量。因此，神经网络解决多类分类问题的本质是把原分类问题分解为一类对其他类（one-vs-all）的二类分类问题。

神经网络比直接使用Logistic回归的优势在于：如果给定基础特征的数量为100，那么在利用Logistic回归解决复杂分类问题时会遇到特征项爆炸增长，造成过拟合以及运算量过大问题。而对于神经网络，可以通过隐藏层数量和隐藏单元数量来控制假设函数的复杂程度，并且在计算时只计算一次项特征变量。其实本质上来说，神经网络是通过这样一个网络结构隐含地找到了所需要的高次特征项，从而化简了繁重的计算。）通常可以通过两个步骤来解决:1)提取合适的特征来描述蛋白质图像;2)将提取出的特征信息输入一个适当设计的分类器，判断蛋白图像属于哪个细胞腔室(如细胞质、细胞核和囊泡)。在这两个步骤中，特征提取通常对最终的预测性能有很大的影响，因为特征的质量和数量对分类模型的好坏有很大的影响[12-14]。开发预测蛋白质亚细胞定位的有效图像描述符的工作可归纳为两类(即，全局特征和局部特征)。

对于全局特征，它的目的是提取蛋白质图像的分布。在参考文献[15]中，作者提取了Haralick特征（Haralick features是一组纹理描述符。它由(部分)灰值共生矩阵计算得到，主要由一阶和二阶矩、均值、方差和相关描述符组成。由于灰色值的共同出现可以在多个方向上测量，因此所有描述符都是针对四个不同的方向(水平、垂直、对角线)计算的。最后的描述符是一个带有每个方向平均值的向量）来表示蛋白质图像的纹理。具体来说，对于db小波（没查到）从db1到db10的每一个消失时刻，他们都得到了一个836维的特征向量。Li等人利用Haralick、阈值邻接统计和非目标荧光特征（没查到）来预测基于图像的蛋白质模式。此外，Tahir等人的[16]尝试利用不同的纹理元素，其中包含10个统计特征(如能量、对比度、同质性)来表示蛋白质图像的纹理。此外，Newberg等[17]将蛋白图像分为两个不同的部分(例如，全局特征和局部特征)，提取全局DNA特征，推断出蛋白质与细胞核的相对距离，验证了该方法对预测基于图像的蛋白质亚细胞定位有帮助。

在局部特征方面，Nanni等人[18]首先利用不变局部二值模式(LBP)（LBP（Local Binary Pattern，局部二值模式）是一种用来描述图像局部纹理特征的算子；它具有旋转不变性和灰度不变性等显著的优点。它用于纹理特征提取，而且提取的特征是图像的局部的纹理特征。LBP算子计算实例如下：从左上角开始，沿顺时针方向依次与中心像素进行比较，如果大于等于中心像素的取值为1，否则为0.得到一个01序列，我们视为一个二进制数。将二进制数转化为十进制数即可。即得到该窗口中心像素点的LBP值，并用这个值来反映该区域的纹理信息。如下图所示：

基本的LBP算子的数学表述如下：

P,R分别代表领域像素点的个数和领域半径。（i从P-1开始计算。？）

旋转不变LBP算子用圆形邻域代替了正方形邻域允许在半径为 R 的圆形邻域内有任意多个像素点。从而得到了诸如半径为R的圆形区域内含有P个采样点的LBP算子；

从 LBP 的定义可以看出，LBP 算子是灰度不变的，但却不是旋转不变的。图像的旋转就会得到不同的 LBP值。而具有旋转不变性的 LBP 算子，即不断旋转圆形邻域得到一系列初始定义的 LBP值，取其最小值作为该邻域的 LBP 值。

图 2.5 给出了求取旋转不变的 LBP 的过程示意图，图中算子下方的数字表示该算子对应的 LBP值，图中所示的 8 种 LBP模式，经过旋转不变的处理，最终得到的具有旋转不变性的 LBP值为 15。也就是说，图中的 8种 LBP 模式对应的旋转不变的 LBP模式都是00001111。

其数学表达为：

）特征来表示蛋白质图像的局部模式。Yang等人的[19]又增加了LBP特征的两个变体(即，LTP（局部三值模式，即把原来非1即0的情况，改成了1，0，-1的情况。与LBP算子不同的是，由于引入了-1，会出现负数的情况，所以在三值模式下，算子分程一正一负进行编码。由于中心像素作为阈值的存在，使得LTP算子具有更好的光照鲁棒性，能提升其鉴别能力。）

和LQP（局部四值模式，基本思想是针对现有 LBP仅仅使用图像中某一像素点与其圆形邻域的微分信息的不足，在其基础上进一步利用不同圆形邻域之间的微分信息，然后将两种微分信息进行联合，从而得到更具有区分力的特征描述子。

对于图像中某一个像素点，取其两个半径不同的圆形邻域，其半径分别设为和，圆形邻域上 P 个均匀分布的点。当P=8时，两个半径不同的圆形邻域的情况如图所示。

首先，求出中心像素点与圆形邻域之间的差值。同LBP一样，只取符号部分，则圆形邻域上每个坐标点位置处对应的二元取值可以表示为：

然后，将圆形邻域和圆形邻域之间的灰度信息进行比较，以便得到邻域间相关位置处对应的二元取值，结果表示如下：

接着将和联合在一起，形成一种对局部纹理描述更深刻的描述子 LQP ：

从上式中可以看出中心像素点的圆形邻域上每个坐标点取值有四种可能，即 00，01，10，11，如图2所示。图中四种不同颜色表示 4种不同的取值情况。由于该模型圆形邻域上每个坐标处有 4种不同可能的取值情况，因此将这种模型称为局部四值模式（Local Quaternize Pattern，LQP）。）)

来描述蛋白质图像，这将进一步提高分类的准确性。Godil等人[20]提出了一种从蛋白质图像中提取局部特征的视觉词汇方法（查找时用到的论文\基于视觉词汇形状描述的图像表示方法.pdf），分类结果表明该方法可以达到与现有方法相近的性能。Coelho等人利用SURF特征（一种稳健的图像识别和描述算法查找时用到的论文\SURF特征.png）处理基于图像的蛋白质亚细胞定位预测问题，分类性能也很有前途。

虽然取得了很大进展，但这些描述符存在两个共同的局限性。一方面，几乎所有现有的蛋白质描述符都是无监督特征（自学，逐层抽取象），没有考虑类信息(查不到），因此我们无法为接下来的分类任务得出最显著的特征。另一方面，这些手工特征提取方法只能学习相对浅层的蛋白质图像表征。考虑到蛋白质图像模式的复杂性，这些基于浅模型的特征提取方法可能还不够。

为了使我们提出的特征提取方法既能融合监督类信息，又能学习高级描述符，我们建议使用基于CNN的深度模型(即，AlexNet[22])生成蛋白图像的表征。具体来说，为了使提取出来的特征更加通用，我们首先利用含有数百万个标签[22]的自然图像集合训练CNN模型，然后利用部分参数转移策略[23]对自然图像到蛋白质图像的参数进行优化。接下来，我们应用Lasso模型从网络的最后一个全连接层(如FC2)中选择最显著的特征，并应用DECOC模型进行最终预测。实验结果表明，与已有的几种特征学习方法相比，本文提出的特征学习方法具有明显的优越性。我们提出的方法流程图如图1所示。

本文的其余部分组织如下。在第2节中，我们将首先介绍数据集中收集到的蛋白质图像，然后详细说明提出的基于深度模型的特征提取方法。实验结果见第3节和第4节，最后我们在第5节总结了我们的方法。

2材料与方法

2.1数据集

最近，随着基于抗体的技术[24]的发展，研究人员建立了著名的人类蛋白图谱(Human Protein Atlas, HPA)数据库[25,26]，其中包含丰富的蛋白免疫组化(immunohistochemistry, IHC)图像。目前释放的HPA(版本13)含有24028个抗体，涉及46个不同的正常人体组织。示例图像如图2所示，从图中可以看出，示例蛋白图像被列标题标注了关于其亚细胞定位的标签。对于每个蛋白质图像，它由两个不同的部分组成，棕色区域代表蛋白质的定位，紫色区域代表DNA的区域。

在本研究中，我们收集了验证分数较高的蛋白图像，并将其作为我们的基准数据集。基准数据集中的每个蛋白图像都属于六个最常见的亚细胞定位之一，即细胞质、高尔基体、线粒体、囊泡、细胞核和内质网。为了与之前的工作保持一致，我们使用与参考文献[5]中所述的相同的分区策略。表1总结了训练和测试数据集的分布。

2.2基于深度模型的描述符

深度学习模型是能够从原始输入图像中学习高级特征的典型方法。直观地说，相比于现有的手工设计的描述符，使用高层次的特征来描述蛋白质图像可以帮助我们更准确地理解这些生物图像。此外，在现有的蛋白质图像中，并没有考虑到不同细胞间隔之间的差异。进一步添加标签信息来指导特征提取过程，有望获得更好的分类性能。

在所有的深度模型中，深度卷积神经网络被报道在许多自然图像识别任务中具有最先进的性能[23,27]。它们的深层体系结构与监督的特征学习模型相结合，允许对复杂和高层次的特征有良好的选择性，这将有助于提高分类性能。受CNN成功的启发，我们尝试使用经典的基于CNN的网络架构AlexNet[22]来构建深度学习模型。更多关于AlexNet层信息的详细信息在图3的左侧部分。

从图3可以看出，这个7层CNN网络(即AlexNet)可以看作是一个由低到高的特征学习过程。具体来说，前五层是卷积层(即(Conv1-Conv5)，用于从图像(即，角和边)学习局部特征。不同的卷积层与池化层交错（卷积层用来提取特征，池化层用来降维，压缩特征图片，下采样），池化层用于减少卷积层的输出。最后两个完全连接的层(即使用FC1, FC2)将特征结合起来，这些特征是从卷积层中学习到的，通过这些特征我们可以得到最终预测任务的复杂高层表示。

在应用AlexNet训练基于蛋白质图像的深度学习模型之前，一个关键的挑战是，与自然图像相比，可用的标记训练样本相对有限。通常情况下，训练一个包含数千个参数，只有少量蛋白图像的深度模型会导致过拟合问题。为了克服这一困难，更好地表达基于图像的蛋白质，我们使用部分参数转移策略(PPTS)[23]来微调从自然图像到蛋白质图像的参数。具体来说，我们首先使用来自ImageNet的自然图像对AlexNet模型进行预训练。然后，将预先训练好的参数部分转移到蛋白质图像的目标区域。特别地，我们保留了预训练的AlexNet从conv1到conv4的参数，然后使用蛋白质图像来更新高于conv4的参数。这种局部参数转移策略如图3所示。

由于完全连接层可以捕获卷积层的复杂同现统计，因此这种高级特征有助于描述蛋白质图像。对于每个基于图像的蛋白质，我们首先提取一个4096维的特征向量，对应于微调Alex网络的最后一层的每个神经元。然后，为了节省计算时间，避免“维数诅咒”[28,29]，我们采用稀疏特征选择方法Lasso[30]，从与分类任务最相关的4096维特征中选择较少的特征。稀疏特征选择模型一般可以通过以下目标函数求解：

其中表示其行对应于第个蛋白图像的数据矩阵，对应于n个不同蛋白图像的亚细胞定位。式(1)中的用许多零值来激励(在图4的白色矩形中)。对于特征选择，只保留系数非零的特征(图4中红色矩形)。参数是正则化参数，它控制着稀疏的特征选择模型。的较大的值意味着一些功能将会被选择分类任务，反之亦然。

2.3 DECOC多类分类方法

在从深度模型中提取监督的高级特征后，我们需要适当地设计一个分类算法来确定蛋白质图像所属的亚细胞位置。从机器学习的角度来看，它是一个多类分类问题。存在两种方式(如直接方式和间接方式)来处理这种多类分类问题。其中，直接方式旨在直接设计多类分类器，如决策树[31]和神经网络[32]。相反，间接方式将多类分类问题分解为若干个二分类问题，用二分类算法进行求解，然后将这些二分类结果组合在一起进行最终预测。纠错输出编码(error correction output coding, ECOC)（纠错输出编码法不仅能够将多类分类问题转化为多个两类问题，而且利用纠错输出码本身具有纠错能力的特性，可以提高监督学习算法的预测精度。

将多类问题两类化的重要途径是对输出的类别进行编码，即每个类别对应一个长度为n的二进制位串（称为码字），共形成m个码字，这些码字的同一位描述了一个二值函数。学习结束后获得n个二分器，在分类阶段，每个二分器对输入样本产生的输出形成输出向量，然后由决策规则判定输入样本的类别。

纠错输出编码法：将机器学习问题看做数据通信问题，并采用纠错输出码对各类别进行编码，因此在分类过程中能够纠正某些二分器的错误输出，从而提高分类器的预测精度。

在编码理论中，利用汉明距离可以确定分组码的纠错能力，我们也采用汉明距离确定输出码的纠错能力。

纠错输出码矩阵的行数等于监督分类问题的类别数m，列数等于码长n，一个有用的纠错输出码应该具有以下特性：

1.具有一定的纠错能力。

2.码矩阵中无全0列，无全1列。

3.码矩阵中无相同列，无互补列。）[33,34]是处理多类分类问题的一种典型的间接分解方法。它有三个步骤:1)将多类分类问题按照预先定义的码字矩阵分解为一系列二分类问题;2)根据训练数据对这些二分类器进行训练;3)应用集成策略将这些二元分类器的分类结果结合在一起进行最终预测。图5给出了ECOC的主要框架。

在这三个步骤中，码字矩阵的设计是非常重要的。在编码过程中，利用码字矩阵将原多类问题分解为若干个二进制子问题。这里，的第行表示第类的码字，码字矩阵的每一列的元素可以设置为- 1，0，和1。这里，我们使用判别式ECOC (DECOC)编码策略[35]，该编码策略的判据如下式所示：

其中为所有类的所有分区对应的集合，为训练数据矩阵。
互信息准则（互信息，Mutual Information，缩写为MI，表示两个变量X与Y是否有关系，以及关系的强弱）。通过应用这种编码策略，我们可以通过最大化不同类型样本之间的互信息来构造类集的最佳双分区。

3实验结果

3.1实验设置

对于深度模型设置，最初将学习率（学习率(Learning rate)作为监督学习以及深度学习中重要的超参，其决定着目标函数能否收敛到局部最小值以及何时收敛到最小值。合适的学习率能够使目标函数在合适的时间内收敛到局部最小值。）设置为0.005，每3000步依次降低0.95倍。如果最大迭代步数超过30000，则训练结束。正则化项,用于控制特征选择模型的稀疏的套索选择

{0.001, 0.001, 0.001, 0.001, 0.002, 0.002, 0.003, 0.004}。此外，对于DECOC方法中的每个二元分类器，都使用RBF核实现SVM分类器，参数从{0.001, 0.005, 0.01, 0.05, 0.1}进行调整。在这里，我们应用开放软件Caffe[13]来实现CNN模型。使用LibSVM[36]训练SVM分类器。所有程序均在台式计算机配备的单个Nvidia K420 2GB GPU上执行，该GPU具有Intel E5-1603 CPU和32GB内存。

3.2局部参数转移策略(PPTS)的改进

为了评价部分参数转移策略(PPTS)的应用效果，我们对其应用前后的分类精度进行了比较。这里，对于不参考PPTS策略的方法，我们只使用生物蛋白图像作为输入来训练AlexNet。为了公平起见，我们还使用DECOC方法提取最后一个全连接层的特征进行最终预测。分类结果如图6所示。

从图6可以看出，无论选择哪个dropout值，使用PPTS对模型进行预训练都可以显著提升分类性能。这是因为我们提出的部分转移学习方法可以从自然图像领域转移一些知识，这有助于描述蛋白质图像。另外，对于采用PPTS的模型，我们可以看到，当dropout率从0.3增加到0.6时，分类精度增加，当dropout率超过0.6时，分类精度下降。这是因为dropout策略可以在训练阶段将单元从神经网络中去掉，这样可以防止过拟合问题，从而使网络在dropout率增加时表现得更好。但是过高的dropout比率会破坏网络的结构，当dropout值大于0.6时，分类性能会变差。

3.3不同层次特征提取的比较

从图3可以看出，深度AlexNet由两个完全连接的层(即， FC1, FC2)组成来表示输入图像。一个自然的问题是哪一层具有更好的识别能力来捕获输入蛋白图像的特征。在接下来的实验中，我们将分别从FC1和FC2中提取4096个特征，并利用DECOC的分类模型来比较它们的分类性能。实验结果如图7所示。

从图7可以看出，对于控制Lasso特征选择模型稀疏性的不同正则化值，从FC2(最后一层)提取的特征始终比从FC1提取的特征获得更好的分类性能。具体来说，从FC1到FC2的平均增量可以达到14.84%。这种明显的增量是由于低层(即,FC1)中计算的特征通常与局部特征(如边角)比较接近。相反，从较高的层(即，FC2)通常表示高级和类特定的信息，这些信息专门用于完成最终的分类任务。

3.4不同特征提取方法的比较

为了进一步验证我们提出的基于深度模型的特征提取方法的有效性，我们将其与现有的几种用于预测基于图像的蛋白质亚细胞定位的手工设计的描述符进行了比较。为了公平起见，我们也使用DECOC方法进行分类。分类结果如图8所示。

从图8可以看出，我们提出的基于深度模型的特征提取方法可以比这些手工设计的特征获得更高的分类精度。这是因为，一方面，我们只能从这些手工制作的基于特征提取方法中得到一层浅层的特征。相比之下，基于深度模型的特征提取方法可以获得高层次的描述符，这些描述符也与特定的分类任务相关。另一方面，通过应用局部参数转移策略，我们可以利用自然图像中的知识来训练基于蛋白质图像的深度模型，应用该领域知识转移策略可以提高分类性能。

3.5与现有工作的比较

我们还比较了我们提出的方法与现有的两项工作的性能，这两项工作也使用免疫组织化学图像来推断蛋白质的亚细胞定位。具体来说，在参考文献[19]中，作者提取了包括Haralick、LBP、LTP和LQP特征在内的多视图全局和局部特征，然后使用one-vs-one SVM来解决多类分类问题。在参考文献[5]中，作者从蛋白质图像中提取了Haralick、LBP和DNA特征。在采用协同训练策略迭代扩大训练空间后，使用one-vs-all SVM完成分类任务。我们也只给出了使用CNN的结果，没有使用稀疏特征选择方法。分类结果如表2所示。

从表2可以看出，一方面，我们可以获得比其他两种现有方法更好的分类性能。这些结果再次证明，基于深度模型的特征提取方法比手工设计的低层次特征更适合于蛋白质图像的表达。另一方面，与只使用CNN而不进行稀疏特征选择相比，我们的方法获得了更高的精

度，这说明了我们方法中特征选择过程的优越性。

4讨论

4.1不同编码策略的比较

正如我们在2.3节中讨论的，多类分类性能在很大程度上取决于ECOC中码字矩阵的指定。这里，我们将DECOC与另外两种典型的编码方法(即， one-vs-all (OVA)和one-vs-one (OVO)。我们在Eqs(3)、(4)

中分别展示了这两个码字度量。

具体来说，对于OVA码字矩阵(如Eq.(3)所示)，构建了k个不同的二进制分类器，每个分类器学习区分一个类和其他类。对于OVO码字矩阵，它由个用于区分不同类对的二进制分类器组成。我们将上述两种编码方法与我们提出的DECOC方法进行比较，结果如表3所示。从表3可以看出，本研究采用的DECOC方法比其他两种编码策略(例如OVO和OVA)的分类准确率更高。其原因在于，DECOC通过最大化不同类之间的互信息来构造码字矩阵。相反，OVO和OVA的码字矩阵是固定的，它们不使用标签信息来指导码字矩阵的指定。

4.2不同胞室的混淆矩阵

为了进一步评估我们提出的方法的分类性能，我们在表4中记录了不同细胞间隔的混淆矩阵。这里，混淆矩阵的对角线元素表示蛋白图像的数量，其中预测的亚细胞定位等于ground truth（正确标记的数据），而非对角线元素表示错误定位的蛋白图像。混淆矩阵的对角线值越高，表示正确预测的次数越多。

从表4可以看出，虽然不同的细胞间隔的准确率都在40%以上，但很明显，蛋白图像较少的细胞间隔的准确率往往较低(如高尔基体只有13幅蛋白图像，其准确率为46.2%)。此外，我们提出的方法很难区分细胞质和线粒体模式(如预测以细胞质模式为核的36.6%蛋白图像)。这主要是因为这两个胞室都位于细胞[37]的胞内部分，两者的距离较近，在一定程度上可能会造成较高的分类误差。

4.3不同卷积层中间特征的可视化

为了进一步说明基于深度模型的特征的优势，我们对两种不同的亚细胞定位模式(即卷积1、卷积2、…、卷积5)的不同卷积层的中间特征图进行了可视化处理。(即，高尔基和线粒体)。在这里，我们已

经可视化（数据→图表）了每个卷积层的前三个特征图。

从图9可以看出，给定不同定位模式的输入蛋白图像(即，高尔基和线粒体)由前两个卷积层导出的特征图可以很容易地识别出它们的边缘信息。

根据第二隐层对蛋白图像边缘的描述，剩下的三个卷积层(即， conv3, conv4, conv5)可以从蛋白质图像中检测特定的部分。值得注意的是，从conv5中检测到的目标部分与蛋白质区域(即，原始图像的棕色区域），从而帮助我们区分高尔基和线粒体的亚细胞定位模式。这些结果表明，我们提出的深度学习模型所得到的高级特征能够捕获与分类任务相关的区域信息，因此优于传统的浅层特征。

5 结论

在本文中，我们提出并测试了一种基于深度模型的特征提取方法来预测基于图像的蛋白质亚细胞定位。该方法的最大优点是能够学习与特定分类任务相对应的高级特征。此外，我们还采用了部分参数转移策略来优化从自然图像到蛋白质图像的参数。实验结果表明，深度模型是描述复杂蛋白生物图像的一种有前途的方法。

未来仍有许多挑战。例如，我们提出的方法只能从单标记蛋白图像中提取高级描述符。事实上，近20%的人类蛋白定位于两个或两个以上的细胞腔室[38,39]，因此我们将努力在未来扩展我们的深度模型。此外，我们计划将非图像数据添加到我们提出的方法中，因为不同来源的数据可能为预测蛋白质亚细胞定位[40]提供补充信息。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。