乳腺癌基因芯片数据分析.pdf
《乳腺癌基因芯片数据分析.pdf》由会员分享,可在线阅读,更多相关《乳腺癌基因芯片数据分析.pdf(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、复 里亏提(医学版)F u d a n Un i v J Me d s c i 1 6 9 乳腺癌基因芯片数据分析 蒋 定 锋 高 峻 赵耐 青 (复旦大学 公共卫生学院卫生统计 与社会医学教研 室 上海2 0 0 0 3 2)【摘要】目的以乳腺癌病人的表达谱芯片数据为基础,探寻乳腺癌复发的相关基因。方法对标化芯片数据 进行缺失值处理后,分别用单因素 C O X回归模型和综合了聚类及多因素 CO X回归的综合法来筛选兴趣基因,然后通过兴趣基因对病人做样品聚类,以灵敏度、特异度、约登指数和 K a p l a n Me ie r 法评价分类效果,最后结合 文献和蛋白质数据库探寻乳腺癌复发的相关基
2、因。结果综合法筛出的 3 O个 P0,0 1的基因对乳腺癌病人复 发状况的预测效果最佳;单因素 CO X回归筛出的 1 0 2个 P0,0 1的基因的预测效果较差;单因素 C 0 X回归筛 出的 1 5个 P0 0 0 1的基因预测效果最差。结论综合法筛选得到的 3 O个基因可用来评价病人的预后状况,为进一步的生物学研究提供待选基因。【关键词】乳腺癌;基因芯片;聚类分析;C O X回归模型 【中国图书馆分类法分类号】R 7 3 7 9,0 2 1 2,1 M i c r o a r r a y Da t a An a l y s i s f o r Br e a s t Ca n c e r
3、J I ANG D i n g f e n g,G AO J u n,Z H AO Na i q i n g (D e p a r t m e n t o fHe a l t h S ta t i s t i c s a n d S o c i a l Me d i c i n e,S d m o l o fP u b l i c He a l t h,F u d a n U n i v e r s i t y S h a n g h a i 2 0 0 0 3 2,C k i n a)【A b s tr a c t】P u r p o s e T o s t u d y t h e r e
4、la p s e-r e la t e d g e n e s b a s e d o n g e n e e x p r e s s io n p r o f il e s f r o m b r e a s t c a n c e r p a t i e n t s wi t h d i f f e r e n t c l i n i c a l o u t c o me s Me t h o d s F i r s t l y,u n i v a r i a t e C OX r e g r e s s i o n mo d e l wa s u s e d t o a n a l y
5、s i s t h e mi c r o a r r a y d a t a t O s e l e c t t h e p o t e n t i al g e n es S e c o n d l y,a n i n t e g r a t ed me t h od c o mp o s e d o f c l u s t e r and mu l t i v a r i a t e O 0X a n aly s i s wa s a l s o c a r r i ed o u t,Th e n K me a n s c l u s t e r me t h od wa s a p p
6、l i e d t O c l a s s i f y t h e r e l a p se s i t u a t i o n o f p a t i e n t s S e n s i t i v i t y,s p e c i f i c i t y,Yo u d e n S i n d e x and Ka p l a n Me i e r a n a l y s i s we r e u s e d t O e v alu a t e t h e g e n es sel e c t ed b y d i f f e r e n t me t h ods,Re s u l t s T
7、h e 3 0 g e n es(P0 0 1)s e l e c t ed b y t h e i n t e g r a t e d me t h od perfo r me d b e s t wh e n p r e d i c t i n g t h e r e l a p se s i t u a t i o n o f p a t i e n t s,Th e 1 0 2 g e n es(P 0 0 1)b y u n i v a r i a t e C O X a n al y s i s perf o r me d w e l l wh i l e t h e 1 5 g
8、e n es(P0 0 0 1)b y u n i v a r i a t e CO X ana l y s i s perf o r med wo r s t,C o n c l u s i o n s Th e 3 0 g e n es s e l e c t ed b y t h e i n t e gra t ed me t h od,e s p e c i al l y t h e g e n es wh i c h we r e al s o p i c k ed o u t b y t h e o t h e r t wo me t h ods,a r e wo r t h y
9、o f f u r t h e r e x p e ri me n t s t o a&s e s 8 t h e r esu l t S o f mi c r o a r r a y 【K e y w o r d s】b r e a s t c a n c e r;m i c r o a r r a y;c lu s t e r a n al y s is;CO x r e g r e s s io n m ode l 乳腺癌是西方女性的高发肿瘤。在我 国发病率 也逐年升高,尤其在京、津、沪等沿海发达地 区,其中 以上海最高,1 9 9 7年发病率 为 4 9 1 0万,居女性恶 性肿瘤 的
10、首位。目前具有相同症状及病理类型的患者经过相同 治疗后,在预后上存 在极大差别。这说 明当前乳腺 癌的分类标准有待提 高,同时提示病人 内在 的基 因 表达对病人的预后具有重要意义。基因芯片能同时 检测数千个基因的表达,了解病人特异的表达谱,为 通讯作者E ma il:n q z h a o s h mu e d u c n 系统研究乳腺癌预后 的相关基 因提 供 了技术保证,从而成为乳腺癌研究领域的一种常规技术。如何对芯片产生 的海量数据进行分析,以获得 有效 的生物学信息来指导后续研究是乳腺癌研究的 重点和难 点。我们利用 C h r i s t o s 等 j 提供 的数据,综合运用聚类
11、和 C O X 回归模型两 种方法来筛选 乳 腺癌复发的相关基因。为 了克服多重 比较导致假阳 性增大的危险,本研究对 P值进 行 了控制。该芯片 数据包 括 9 9个病 人的乳腺癌样 品的 7 6 5 0个探针,维普资讯 http:/ 1 7 0 复旦学报(医学版)2 0 0 5年 3月,3 2(2)其数据矩阵为 9 97 6 5 0,并且 已知 9 9个病 人的其 他信息如复发与否、复发时间和失访时间等。材 料 和 方 法 缺失值的处理 对缺失少于 1 3的标化探针数 据(即至少有 6 6个病人 有该探 针数 据)共 7 4 7 5个 探针进行缺失值处 理。7 4 7 5个探 针中 4 4
12、 0 4个无 任何缺失,而其 他 3 0 7 1个则有 不 同程 度 的缺 失。将3 0 7 1 个探针分 别作为应变量,4 4 0 4个探 针为待 选 自变量,利用 S AS软件用多元逐步 回归法填充缺 失值,采用前进法,人选标准 a=0 0 0 1,控制模型变 量个数。单因素 C O X回归分析 对 7 4 7 5个探针进行 单因素 C OX 回归分析,乳腺 癌 复发定义 为失效事 件,结果有 1 5个探针的 P0 0 0 1,将对数风险函数 的预测值定义为 Y 1=Z (i=1,2 1 5);同时有 1 0 2个探 针的 P0 0 1,将对数风险 函数 的预测值 定义 Y2,=Z (j-
13、=1,2 1 0 2)。综合法分析 用单 因素 CO X回归分析对 7 4 7 5 个探针进行初筛,乳腺癌复发定义为失效事件,人选 标准 a=0 1,共有 8 1 6个探针入选。对 8 1 6个探针 用层次聚类法 聚类,组间连接 法,P e a r s o n相关 系数 为指标,聚成 2 O类。然后用 多因素 C OX回归模型 对每一类来筛选兴趣探针,采用逐步 回归法,人选标 准 P=0 0 1,移出标准 P=0 0 1 1。结果 2 0类中有 7 类无一个探针符合人选标准,其余 1 3类中共有 3 0 个探针符合标准。将 3 0个探针所在 1 3个类的对数 风险函数预测值定义为 Y 3 女=
14、(k=1,2 1 3)。K Me a n s 聚类 分别 以单因素 C O X 回归分析 得到 的线 性 预 测值 y1 (i=1,2 1 5)、y2,(j _=1,2 1 0 2)和综合法得到 的线性 预测值(是=1,2 1 3)为应变量,用 K Me a n s聚类法对 9 9个病 人 进行聚类,分成 2类。效果评价对 3个聚类结果分别与病人的实际 复发状况比较,计算灵敏度、特异度 和约登指数,然 后以预测分类结果为分组变量;用 Ka p l a n Me i e r 法 对病人的复发时间作生存 分析,评 价不同方 法得 到 的 1 5、1 0 2和3 0 个兴趣探针的分类效果,结合文献
15、报道探寻乳腺癌复发的相关基因。结 果 以 Yl 、Y 2 j 和 y3 女 为 指标 做样 品聚类后,分类 和实际复发情况见表 1 3。由表 1 3可见以 3 女 为指标作分类,其预测效 果最佳、2,次之,y1 最差。表 1 Y 1 为指标聚类后结果 Ta b 1 Cl u s t e r r e s u l t s b y Yl i Th epredi c te dstatusofthe p a ti e nts Th e r e a l s t a t u s o f pa t ie n ts N o t r e l a p s e:Re la p s e:,S r n r 1 l 1 t
16、 P r 1 r 11 ls t P r 2 No t r da p s e:0 Re l a p s e:1 S e n s i t i v i t y(9 5 c o n f i d enc e in t e r v a 1)S p e c i f i c i t y(9 5 c o nfid enc e i n t e r v a 1)Y o u d en Sin d e x 4 3 1 1 5 4 1 9 2 6 4 5 6 2 3 7 9 9 2 6 4 5=0 5 7 8(0 4 2 2 0 7 2 3)4 3 5 4:0 7 9 6(0 6 6 5 0 8 9 4)0 5 7 8
17、+0 7 9 61=0 3 7 4 No t e:C l u s t e r r e s u l ts o f 1 5 p r o b e s t h r o u g h u n i v a r i a t e C O X a n a l y s is(P 0 0 01)表 2 Y 2 为指标聚类后结果 Ta b 2 Cl u s t e r r e s u l t s b y Y2 The predi c t edsta,tus ofthepa ti ents Th e r eal s tat us o f pa t i ents No t r e l a p s e:Re l a p s
18、e:,S r n dust e r1 c l ust e r 2 NO t r d a pae:0 Re l a p s e:1 S u m Sensi t ivit y(9 5 c o n f id e n c e i n t e r v a 1)S p e c i f ic i t y(9 5 c o n f i d e n c e in t e r v a 1)Yo u d e F l S i n d e X 3 8 1 6 5 4 6 3 9 4 5 4 4 5 5 9 9 3 9 5=0 8 6 7(0 7 3 20 9 4 9)3 8 54=0 7 0 4(0 5 6 4 0 8
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 乳腺癌 基因芯片 数据 分析
限制150内