开启左侧

基于点的代数连通强度与PCA的肿瘤分类研究

[复制链接]
qikan006 发表于 2018-8-30 20:32:06 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
 
摘要:通过基因的表达水平来判别肿瘤的类别已成为后基因组时代的一个研究热点。本文针对肿瘤分类进行了相关研究,提出了一种新的分类方法。首先利用点的代数连通强度(the Algebraic Connectivity Strength of Point,ACSP)剔除受外界因素影响过大的基因数据并用修正的特征记分准则(Revised Feature Score Criterion, RFSC)判别进行计分排序,选取高计分的作为基因子集;接着运用主成分分析(the principal component analysis, PCA)提取主成分以消除基因间存在的相关性冗余信息,同时将基因子集映射到极低维的特征空间;最后利用支持向量机(the support vector machines, SVM)分类器进行分类。通过几组公开的基因表达谱数据集的实验结果与其他方法的对比分析,验证了该方法是有效的、可行的。
关键字:点的代数连通强度; 特征记分准则; 主成分分析; 支持向量机; 肿瘤
对肿瘤类型的识别与分类研究已经成为后基因组时代生物信息学的研究热点之一。针对传统肿瘤诊断与治疗的不足,如发现时间晚、治疗效果差等,于是人类不断探索新的途径。随着基因微阵列技术的发展[1],使得同时大规模观察基因表达水平成为可能。如果能够从这些基因表达谱数据中挖掘出有用的信息和知识,那么对推动肿瘤学的基础研究和肿瘤的临床诊断和治疗,甚至是研究肿瘤的致病机理都将起到至关重要的作用。
1999年Golub等人[2]首次提出一种以“信噪比”为指标成功地对白血病的两个亚型样本进行分类研究以后,如何解决基因表达谱数据的样本少、维数高和冗余基因多等难题已经吸引了许多学者的注意。2000年,Alizadeh等人[3]通过聚类分析的方法发现了两种淋巴瘤的亚型;与此同时还出现了人工神经网络法[4]、贝叶斯法[5]、支持向量机法[6]。随着解决方案的不断更新完善,能够分析处理的能力也在不断增强。在2002年,Sigh D等人[7]利用“信噪比”为指标,结合K近邻算法对前列腺癌样本进行了分类研究;孔薇等人[8]通过改进稀疏非负矩阵分解技术对乳腺癌基因表达谱数据进行双向聚类从而挖掘与乳腺癌发病密切相关的基因及其生物过程;阮晓钢等人[9]提出一种CLUSTER_S2N的方法对急性白血病的基因表达谱进行分类预测实验。与此同时,近年来多种理论的融合方法也得到快速发展,如使用熵信息处理与支持向量机结合[10]的方法对前列腺癌基因表达数据进行了有效处理;结合了主成分与独立成分分析方法[11]被用于识别胃癌相关差异表达基因以提高结果的准确度和可信度;以及邻接矩阵分解结合主成份分析的方法[12]寻找结肠癌信息基因等。这些方法都取得了一定的效果。
然而这些早期常用的方法是运用某种记分准则对一系列基因进行中重要性打分,以便度量每个基因含有肿瘤信息的多少,从而选取少量的特征基因子集达到降维和去噪的目的,但是这些记分准则是基于类方差和类平均值的,因此易受污染的异常值影响,使之不能客观反映选取的基因的重要性,因此本文采用点的代数连通强度与PCA来对肿瘤基因进行识别和分类。首先通过点的代数连通强度得到基因的客观表达,再通过修订的特征计分准则进行筛选,得到相应的基因子集。最后利用PCA进一步提取基因表达特征,从而对肿瘤基因进行分类。经真实数据实验及其他方法的对比,本文方法的有效性得到了验证。
1 点的代数连通强度
设有一完全图,共有个顶点,记为顶点集,其边集为,边被赋予相应权重,对其任意节点,计算与其相邻个邻接节点的边权重之和,记,,则记为点的代数连通强度(the Algebraic Connectivity Strength of Point,ACSP)[13]。图中点的代数连通强度可以很好的反映图中某点与其他点的关联程度,所得到的信息可以反映图的基本特征信息。
对于每一个基因,构建一个完全图,将该基因在同一类样本中的表达值作为图中的点,则对应一个点集:,其边权重定义如下:
   (1)
其中表示某一类的样本个数,当邻近点的数目,这里是一个参数且。计算:
      (2)
首先,确定最大值
  (3)
然后将与对应的看做中心点。基因在同种类别中表达水平的均值和方差可以通过分析 个相邻的来获得(包括 )。同样原理,基因在不同类别中表达水平的均值和方差也可以用相同方法得到。最后,基因利用修订的特征记分准则[14]进行计分。
  (4)
其中, 值的大小反应了基因对样本数据集中“+”类和“-”类的辨别能力,、和、分别是“+”类和“-”类样本均值和方差。
2  PCA
主成分分析(PCA) [15],作为一种有效的线性数据压缩和降维的工具,其应用越来越广泛[16-18]。其实质是确定原变量()在诸主成分()上的荷载,把原来多个变量划分为少数几个综合指标的一种统计分析方法。假定肿瘤样本经过上述ACSP和RFSC处理后维数降为,即个基因,则以样本为行,基因为列,构成一个阶的数据矩阵。现就PCA给出如下简要描述::
           (5)   
设为原变量指标,()为新变量指标,满足式(6)。
  (6)                        
其中系数的确定原则为:1)与()相互无关;2)是的一切线性组合中方差最大者;是与不相关的的所有线性组合中方差最大者;…;是与都不相关的的所有线性组合中方差最大者。则的计算为:
  (7)                  
新变量指标分别称为原变量指标的第1,第2,…,第主成分。 一般取累计贡献率达80%以上的特征值为所对应的第1、第2、…、第()个主成分。
3.实验
3.1 实验流程
本文实验数据选用三组公开的基因表达谱数据,即白血病、结肠癌和前列腺癌集,其中白血病数据集含有52个样本(24个为急性淋巴性白血病—ALL,28个为急性粒性白血病—AML),每个样本有12564个基因;结肠癌数据集中含有62个样本,其中22个为正常样本,40个为结肠癌样本,每个样本中包含2000个基因;前列腺癌基因表达数据共有102个样本,其中正常样本50个,癌症样本52个,每个样本包含12600条基因(数据来源:http://www.broad.mit.edu/cgi-bin/canc
-er/datasets.cgi)。由于基因表达谱数据普遍为小样本数据,故本文实验方法采用留一法,即每次从数据集中选取一个样本作为待测样本,其余样本作为训练样本进行分类实验,直到数据集中每个样本都被作为待测样本使用过一次为止。
通过上述分析,其实验步骤如下:
1)利用ACSP(经多次试验,选取T=0.8)选取基因在各类中的客观的,更真实的表达值,消去各种外界因素导致的出格点,即突变值或噪声;
2)在第 1 步的基础上,运用RFSC对所有基因进行重要性记分并按降序排列;
3)通过RFSC记分准则选取特征基因子集,基于PCA降维,对该子集进行主成分提取;
4)最后利用SVM分类器对三组公开的基因表达谱数据集进行分类验证并给出分析。
3.2 实验结果与分析
首先以难分类的结肠癌数据集为例进行了实验分析,通过ACSP算法,保留了正常样本类和结肠癌样本类中客观的基因表达值,同时剔除了一些异常值(即出格点)。图1显示了通过ACSP方法后利用RFSC算法获取最高分值的基因在所有样本中的表达水平(No.1168,即基因表达谱数据中列号,行表示样本,列表示基因),与之对比的没有经过ACSP处理的。
图3给出了由不同规模基因子集与不同主成分组合下的白血病数据分类效果,当主成分个数小于7时,其识别率波动较大,随着主成分规模的增加,识别率呈增长和趋稳趋势,同时基因子集规模不断变化,其识别率出现小幅提升并渐趋向稳定,从图3中大致可知,在主分量为7-15个,基因子集规模在200-300之间,本文方法能够获取相对较高且稳定的识别效果。

图 3 白血病数据分类结果
文中还设计了对比试验,将Sigh.D等[7]人以“信噪比”(signal-to-noise, S2N)作提取特征基因指标、阮晓刚等[9]人提出了CLUSTER_S2N方法提取特征基因和Wang N提出的ACSP[13]等方法与本文方法进行比较,分类器采用SVM,核函数为高斯核,本文经多次实验,设置,。结果如表1所示。


对比表1的识别结果,可以发现本文方法在识别精度上具有一定优势,其表明利用本文方法处理白血病、结肠癌和前列腺癌数据时,由于本文方法在对实验数据预处理时,使用点的代数连通强度将受外界影响较大的数据剔除,使得基因表达值更加客观,在获取特征基因子集后,进一步利用传统PCA降维方法将数据样本应映射到低维的特征空间,使得数据可分性加强,而对于公认比较难分类的结肠癌样本,利用本文方法进行试验的正确率也非常可观。
4 结论
利用DNA微阵列数据对肿瘤基因数据进行分类识别是当前生物信息学的研究的主要方向之一。本文提出了基于点的代数连通强度和PCA相结合的方法,经过实验验证了该方法能够有效识别不同肿瘤类型。由于PCA对噪声数据敏感,而ACSP方法能够获取更加客观的表达值并对噪声进行抑制,从而使得PCA降维更加有效,所以本文方法在识别过程中能够得到较高的识别率。
PCA降维属于线性降维,然而基因表达谱数据的高维性使之具有非线性特征,因此基于非线性降维与ACSP方法的结合也将值得进一步研究。
参考文献:
[1] 杨春梅,万柏坤,梁慧嫒等 .DNA微阵列技术及其在生物医学中的应用[J] 国外医学.生物医学工程分册2002,25(5):203-206.
[2] Golub T R, Slonim D K, Tamayo P, etal. Molecular Classification of Cancer: Class Discovery and Class Prediction by Gene Expression Monitoring [J]. Science, 1999, 286(5439): 531-537.
[3] Alizadeh A.A, et al. Distinct Types of Diffuse Large B-cell Lymphoma Identified by Gene Expression Profiling [J]. Nature,2000,403(12):503-511.
[4] J. Khan, J.S. Wei, M. Ringner, et al. Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks.  Nature Medicine,2001,7( 6) : 673- 679.
[5] Haferlach T, Kohlmann A, Wieczorek L, et al. Clinical utility of microarray-based gene expression profiling in the diagnosis and sub classification of leukemia: report from the international microarray innovations in Leukemia study group [J]. Journal of Clinical Oncology, 2010, 28 (15):2529-2537.
[6] 王晶,周旷.基于支持向量机的肿瘤基因识别[J]. 计算机与数字工程,2011,9(39):3-6.
[7] Singh D, Febbo P G, Ross K, et al. Gene expression correlates of clinical prostate cancer behavior [J]. Cancer Cell, 2002, 1(2):203-209.
[8] 孔薇,王娟,牟晓阳. 基于改进稀疏非负矩阵分解方法的乳腺癌微阵列表达数据分析[J]. 安徽医科大学学报, 2013, 48(7):725-729.
[9] 阮晓钢, 晁浩. 肿瘤识别过程中特征基因的选取[J].控制工程,2007,14(4):373-380.
[10] 庄振华, 王年, 李学俊,等. 癌症基因表达数据的熵度量分类方法[J]. 安徽大学学报,2010,34(2):73-76.
[11] 陈战雷, 李博宇, 李益,等. 结合主成分与独立成分分析识别胃癌相关差异表达基因的方法研究[J]. 生物医学工程学杂志, 2013, 30(5):915-918.
[12] 陈乐, 王年, 苏亮亮, 等.基于邻接谱主分量分析的肿瘤分类方法[J].安徽大学学报:自然科学版,2011, 35(4): 86-91.
[13] Wang N, Su L L, Tang J, et al. Informative gene selection using the Algebraic Connectivity Strength of Point and Scoring Criteria[J]. Chinese Science Bulletin, 2013, 58(6): 657-661.
[14] 李颖新, 阮晓钢, 基于支持向量机的肿瘤分类特征基因选取[J]. 计算机研究与发展, 2005, 42(10):1796-1801.

回复

使用道具 举报

 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


0关注

0粉丝

6144论文

排行榜

关注期刊网:微信订阅号

官方微信

手机二维码

投稿邮箱:

bj@shuziqikan.com

主管单位:北京中科育德文化院

主办单位:数字天下(北京)科技有限公司

电话:010-86203157

Email:3273964430@qq.com

Copyright   ©2008-2018  中国数字期刊网Powered by© shuziqikan.com      ( 京ICP备17043958号-1 )