R语言绘图:PCA分析和散点图(5页).doc





《R语言绘图:PCA分析和散点图(5页).doc》由会员分享,可在线阅读,更多相关《R语言绘图:PCA分析和散点图(5页).doc(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-R语言绘图:PCA分析和散点图-第 5 页PCA分析和散点图gaom 今天主要跟大家演示一下简单的PCA分析,并且以散点图的形式将结果展示出来。 首先在进行PCA分析之前,先跟大家稍微讨论下什么是PCA分析。PCA分析又叫主成分分析,其实从字面上来理解我们可以发现它其实是和样品分组相关的。举个简单的例子,我们观察了某种植物的株高、叶片大小、果实大小等等多种性状,并记录每种性状对应的数值。这时候我们想看看根据这些性状信息看看我们观察的样本是否明显的分组现象。每一种性状相当于一个维度。利用PCA分析可以将结果投影到一个低维的向量空间(具体计算就不详述了)。类似的比如我们多个样本的表达谱数据,每个
2、基因在各个样品的表达情况就可以算作一个维度。如果大家对PCA算法感兴趣的话,可以自行百度,在这里就不进行太多的描述了。毕竟今天主要是教大家怎么利用R进行PCA分析和结果展示。 还是第一步,我们先准备好我们用来分析的数据。setwd(C:/Users/gaom/Desktop)#打开文件所在路径,并将文件所在目录作为工作目录data-(file = test_data.txt,header = T,sep = t)#读取数据,并将首行作为列名dim(data)# 1 2999 13head(data)# ID_REF T01 T02 T03 T04 T05 T06# T07 T08 T09 T1
3、0 T11 T12 上述数据为从GEO数据库随意找的基因表达。其中第一列为基因探针号,后续几列则为T01到T12的12个样品对应的表达量数据,每三个样品为一组。因为数据是拼凑的,所以这里不关注探针具体信息了。 准备好数据之后我们就开始进行PCA计算了。其实代码非常简单。pca- prcomp(t(data,-1), scale=T)head(pca$x)# PC1 PC2 PC3 PC4 PC5 PC6# PC7 PC8 PC9 PC10 PC11 PC12summary(pca)# Importance of components:# PC1 PC2 PC3 PC4 PC5 PC6# PC7
4、 PC8 PC9 PC10 PC11# Cumulative Propor# PC12# Proportion of Variance 0.000e+00# Cumulative Proportion 1.000e+00 上述数据中,pca$x就是后面我们画pca图要用的数据。而在summary(pca)中我们看到的Proportion of Variance就是各个主成分的方差占所有方差的比值,即对应的贡献率。而Cumulative Proportion则对应的百分比累积值。从上述结果看这组数据pca结果并不是很好,所以应该肯定会有一些分组的结果不太好。不过我们今天主要是展示结果,就不在意这
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语言 绘图 PCA 分析 散点图

限制150内