欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    医学专题一乳腺癌数据的处理.docx

    • 资源ID:36947251       资源大小:7.32MB        全文页数:22页
    • 资源格式: DOCX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    医学专题一乳腺癌数据的处理.docx

    科技学院第十一组:刘晶晶 向雄峰 余 涛乳腺癌的判别数学模型摘要本文解决的问题是利用9项指标,综合来判别乳腺肿瘤是良性还是恶性。我们通过初步数据分析,得出各个指标与肿瘤良恶性存在一定的线性关系,于是我们建立了多元线性回归模型。对于问题一,我们先将附录表一中1-60组数据运用MATLAB中回归分析命令regress作初步的回归分析。根据所得的残差及其置信区间图,我们将其中6组离群点予以剔除。然后将余下的54组数据运用Excel作回归分析,由回归统计表中可以得出回归方程中常量和各个系数,由此可以得到判别乳腺癌是良性还是恶性的多元线性回归方程:同时依据得到的回归统计、方差分析、残差分析等数据作出检验,检验,来衡量线性回归的拟合度,以及线性方程中各参数的显著性,发现其回归程度较好,均一致认为所建立的多元线性回归模型的回归效果显著,于是我们认可所得的多元线性回归方程可以依据9项指标来判别乳腺肿瘤是良性还是恶性。最后我们再将表一中61-78组数据回代入上述多元线性回归方程,经由计算分析得出所得的回归方程判别乳腺肿瘤是良性还是恶性的正确率高达100%,预测能力显著,明显可以看出所得到回归方程判别乳腺肿瘤是良性还是恶性方法是合理正确的。至此我们得到了依据9项指标综合判别乳腺肿瘤是良性还是恶性的方法:将待判别病例的9项指标的数据代入回归方程,计算出的估计值,并对其值作四舍五入取整,肿瘤是良性; ,肿瘤是恶性。对于问题二,将附录表二中20组需要判别的病例的数据代入模型一中所得回归方程中计算出的估计值,依据问题一的判别方法判别得出20个病例中第1,4,5,7,10,11,15,19组共8个病例是恶性肿瘤,余下12个病例是良性肿瘤。对于问题三,回归参数表中回归系数的统计量的线性系数显著性值,表征了该系数的显著性水平,也表征了该项因素对于因变量判定的影响程度,我们通过对模型一进行逐步回归分析,剔除模型中那些对因变量作用不显著的自变量,得到最优化的线性回归模型,那些保留下来的自变量,即是区分乳腺肿瘤是“良性”还是“恶性”的主要指标。作逐步回归分析后,最终所得结果为:乳腺肿瘤肿块的厚度、细胞大小的均匀性、细胞形状的均匀性、裸核、正常的核仁、有丝分裂是区分乳腺肿瘤是“良性”还是“恶性”的主要指标,得到最优化的回归模型为:关键词:多元线性回归模型 逐步回归 显著性水平检验221. 问题重述全世界每年约有120万妇女患乳腺癌,50万人死于乳腺癌,乳腺癌已经成为全球女性发病率最高的恶性肿瘤。下面是某医院乳腺肿瘤患者的一组数据见附录一表一,其中前面9个指标分别表示乳腺肿瘤肿块的厚度、细胞大小的均匀性、细胞形状的均匀性、边缘的粘连、单层上皮细胞的大小、裸核、温和的染色质、正常的核仁、有丝分裂,尾数0表示确诊为“良性”,1表示确诊为“恶性”,数据已经归一化为0到10之间的自然数。问题一、根据以上数据,请提出一种或多种判别乳腺肿瘤属于“良性” 还是 “恶性”的方法,并检验你提出的方法的正确性。问题二、现有一组乳腺肿瘤患者的九个指标数据见附录一表二,请你按照你在问题一中提出的方法分别判别属于“良性”还是“恶性”。问题三、试确定哪些指标是区分乳腺肿瘤是“良性”还是“恶性”的主要指标,请采用主要指标建立区分“良性”和“恶性” 乳腺肿瘤的模型,以便用于乳腺肿瘤的辅助诊断时可以减少化验的指标。2. 模型的假设与符号说明2.1模型的假设假设1:题目所给数据是合理、正确的。假设2:假设表中给出化验数据科学可信。确诊病例确诊情况(患病、健康)准确无误。假设3:假设各位被测患者无其他疾病,不会干扰被测数值。假设4:假设医生不会仅仅依靠化验结果对患病情况作出最终判断,化验仅仅作为医生诊断的一种辅助手段,所以化验结果单方面的现实结果可以跟实际有一定程度的偏差。假设5:题目中给出的原始数据有两组无效,将其舍去认为对解题无影响。2.2符号说明乳腺肿瘤肿块的厚度指标;细胞大小的均匀性指标;细胞形状的均匀性指标;边缘的粘连指标;单层上皮细胞的大小指标;裸核指标;温和的染色质指标;正常的核仁指标;有丝分裂指标;诊断结果;诊断结果估计值;回归常数;回归系数;回归常数估计值;回归系数估计值;随机误差项;显著性水平;总变差平方和;残差平方和;回归平方和;被分析数据的组数;第个指标作显著性水平检验;偏回归平方和;3. 问题分析此题研究的是医学上常用几个指标来综合判别乳腺肿瘤是良性还是恶性的数学模型。针对问题一,题目要求我们提出判别方法,依据9项指标的数据,判别肿瘤病例是良性还是恶性。我们根据所提供的已确诊的病例中分析得知,肿瘤病例是良性还是恶性与各项指标呈相应的线性关系,我们初步提出否能通过病例样本中肿瘤病例是良性或恶性与各项指标来建立回归模型,再验证模型正确性后由模型来判别病例。因此,我们先选取其中一部分数据进行研究,待建立模型后,将剩余的数据代入模型检验。针对问题二,题目要求我们利用问题一中提出的方法,对表二中的20个待判别的病例进行判别。我们分别将各元素的含量输入到在问题一建立的模型中,求出对应的值,然后和0、1进行比较,判别出哪些患者的肿瘤是良性,哪些患者的肿瘤是恶性。针对问题三,题目要求我们根据已知数据确定哪些指标是区分乳腺肿瘤是“良性”还是“恶性”的主要指标,并采用主要指标建立区分“良性”和“恶性” 乳腺肿瘤的模型,以便用于乳腺肿瘤的辅助诊断时可以减少化验的指标。我们通过对模型一进行逐步回归分析,剔除模型中那些对因变量作用不显著的自变量,得到最优化模型,那些保留下来的自变量,即是区分乳腺肿瘤是“良性”还是“恶性”的主要指标。4. 数据分析在初步的数据分析下,肿瘤的良恶性与各指标间的关系还无法得到确定,这无疑给以后数学模型的建立和求解带来了不便。对于题目给出的化验结果,在一般情况下,都希望能对它们进行数据的规范化处理。以下9张图是肿瘤良性患者和肿瘤恶性患者各个指标的坐标图,以及存有相关数据的表格,通过这些图我们可以发现,各个指标对应数与乳腺肿瘤是良性还是恶性诊断具有一定的线性对应关系,我们设想,可以用构建线性回归模型的方法来解决此问题。因此我们选择多元统计分析中利用 excel中的回归工具建立回归模型,计算出该线性方程的常量和系数,从而完成模型的初步建立。同时,我们也看到,在图中的一些点的规律性并不明显,因此我们猜测,可以在构建的方程中忽略一些因素的影响,这就为我们提出简化模型提供了思路。回归参数表中回归系数的统计量的值,表征了该系数的显著性水平,也表征了该项因素对于因变量判定的影响程度,以此为衡量的标准来筛选9项相关指标,保留其中的主因项,去除非主因素的干扰,重新构建模型,以达到简化模型和提高精度的目的。5. 问题一的解答针对问题一我们建立了模型一。5.1模型一的建立考虑多元一次线性回归模型,我们从总体中选取1-60号病例作为研究样本,以各项指标为自变量;肿瘤的良恶性为因变量。设多元线性回归模型的一般形式为:(1)其中:因变量,为9个对有显著影响的自变量,是10个待估参数,是随机误差项。5.2模型一的求解对于组实际观察数据,由(1)式得:(2)根据(2)式多元线性回归模型可表示为: (3)令模型的相应矩阵方程表示为: (4)由(4)式解得: (5)且 (6)其中:当时,表示肿瘤为良性;当时,表示肿瘤为恶性。我们将样本数据代入(5)式,利用MATLAB(求解源程序见附录)软件,用matlab对数据进行初步运算,从残差及其置信区间图找出应6组离群点予以剔除,再用Excel中回归命令对剩下的54组数据组进行分析,得到回归统计表,从而得出较为精确的结论,建立起模型。残差及其置信区间图回归统计Multiple R0.952533R Square0.90732Adjusted R Square0.888363标准误差0.168514观测值54方差分析dfSSMSFSignificance F回归分析912.232021.35911347.861358.17E-20残差441.2494630.028397总计5313.48148Coefficients标准误差t StatP-valueLower 95%Upper 95%下限 95.0%上限 95.0%Intercept-0.328580.057305-5.733778.3E-07-0.44407-0.21308-0.44407-0.21308X Variable 10.0607250.0117895.1511365.84E-060.0369660.0844830.0369660.084483X Variable 2-0.082120.027772-2.956890.004982-0.13809-0.02615-0.13809-0.02615X Variable 30.105840.0280613.7718170.000480.0492870.1623920.0492870.162392X Variable 40.0155090.0129921.1936810.238999-0.010680.041693-0.010680.041693X Variable 50.0103070.0179210.5751540.568117-0.025810.046424-0.025810.046424X Variable 60.0420920.0090074.6734762.81E-050.023940.0602440.023940.060244X Variable 70.0016850.0198180.0850040.932644-0.038260.041626-0.038260.041626X Variable 80.0319640.0112922.8306630.0069760.0092060.0547210.0092060.054721X Variable 90.0346810.0206731.6776290.10051-0.006980.076345-0.006980.076345求得各参数的线性回归系数分别为:则多元线性回归方程为: (7)5.3模型一的检验对回归方程进行显著性的检验R检验法 (8)则 (9)R接近于1,说明线性回归拟合效果显著;检验法提出假设: 线性关系不显著 线性关系显著计算检验统计量: , (11)代入数据得: 查分布表表知 因为非常接近1,同时远大于,故拒绝,认为在显著性水平下,与之间存在显著的线性相关关系。模型的准确性检验将表一验证样本的值代入(7)式判别出18个样本的病例情况:病历号616263646566676869结果恶性良性恶性良性恶性恶性良性良性恶性病历号707172737475767778结果良性恶性恶性良性良性良性良性良性良性根据题目中所给的已知信息,可以看出,我们运用所求的判别函数所检验的结果与实际情况几乎不存在的误差,也就是说运用一次线性模型判定的结果可信度很高。6. 问题二的解答运用问题一中所求得的的最优判别函数,我们对附录一中表二中20组病例各项指标对应数据代入模型一中进行判别(用MATLAB求解源程序见附录二),我们将结果整理可制成以下表:表:对20组病例各项指标对应数据的判定结果病例号12345678910结果恶性良性良性恶性恶性良性恶性良性良性恶性病历号11121314151617181920结果恶性良性良性良性恶性良性良性良性恶性良性从上表结果中我们可以得知,运用模型一中的判别方法可以判定附录一中表二中20组病例中第1,4,5,7,10,11,15,19组共8个病例是恶性肿瘤,余下12个病例是良性肿瘤。7. 问题三的解答 我们应用剔除法对模型中的不显著元素逐个进行剔除,最终保留下来的元素就是区分乳腺肿瘤是“良性”还是“恶性”的主要指标。我们知道回归平方和描述了全体自变量对的总影响。为了研究某个的作用,先把从个自变量中扣除下来,只考虑个自变量的影响,作这个自变量的回归平方和,记作,并记 其中,为在中的偏回归平方和,用它来衡量在对的线性回归中的作用大小。由于的自由度为1,且,选统计量算出的值,对给出的显著水平,查出。代入数据得,其中最小为对置信水平,查表得:。所以考虑去掉。同理,将保留下来的项,再代入数据,求得,其中最小为对置信水平,查表得:。所以我们考虑去掉。同理,将保留下来的项,再代入数据,求得,其中最小为对置信水平,查表得:。所以我们考虑去掉。由于保留下来的,对有显著的线性回归作用,因此,它们所对应的指标即为区分乳腺肿瘤是“良性”还是“恶性”的主要指标,它们分别是乳腺肿瘤肿块的厚度、细胞大小的均匀性、细胞形状的均匀性、裸核、正常的核仁、有丝分裂。我们将对应的样本数据代入上式,利用Excel软件,求得各参数项的线性回归系数分别为:最终优化后的模型为: 8. 模型的评价、改进及推广8.1模型评价优点:我们选取部分样本进行研究,通过回归分析建立数学判别模型,并不断进行优化,最终得到拟合优度较高的模型,在判别病例的化验结果来确定就诊人员乳腺肿瘤的良恶性,其准确率达到100%,即该模型的误判率为0。可见,该模型的可操作性很强,效率很高。缺点:由于所给数据太少以致在统计数据时不是很准确,又由于计算机模拟带有一定的随机性,以致得到模型的指标不是很让人满意。8.2模型改进 对于第一问和第三问可以运用MATLAB软件中的回归分析命令和逐步回归命令进行解答更为方便简单。8.3模型推广该模型还可以推广到通过对若干指标的分析判别来与之相关的个体这类实际问题中去,因此我们可以把这个模型应用病虫害的预报,疾病的预测预报,以及红细胞检测,辅助诊断等领域。参考文献1姜启源,谢金星,叶俊,数学模型(第三版) 北京:高等教育出版社,2003.82盛骤,谢世千,潘承毅,概率论与数理统计(第三版)北京:高等教育出版社,2001.123赵静 但琦,数学建模与实验,北京:高等教育出版社,2003.64白厚义,回归设计与多元统计分析,广西:广西科学技术出版社,2003.15宋来忠,王志明,数学建模与实验,北京:科学出版社,20056赵颖,应用数理统计,北京:北京理工大学,2008.5附录附录一表一:80组已确诊乳腺肿瘤患者的数据肿瘤肿块的厚度细胞大小的均匀性细胞形状的均匀性边缘的粘连单层上皮细胞大小裸核温和的染色质正常的核仁有丝分裂良/恶性51112131105445710321031112231106881343710411321311081010871097111111210311021212131102111211150421121211011111131102111212110533323441111112331108751079554174646143114111212110411121311010776410412161112131107321051054411055367710115111213110311121211084512?73111111213110523427361132111121105111212110211121211011312111103111112110107738574312112213110312121211021112121101010108618911621111711054492105611253367751166696?78101043133652161010281073315656101311110101048181011111121212037744948111111212110411321311078724838219581232151533424341110362354102155581087371105568871111066345361181010136391182415154415231610511195522251115355334101111112221109101011083311634152391111112121101042132431014111213110534181049118383498981111121321051312121106102810278101133221721094510610481110641343231112122421011412121105312212110311123311021113121102221117110表二:20组乳腺肿瘤患者九个指标的数据1047228611511121312522221221546641043186733103421111211116558410341111121311111111211855521043110331210761111121311211121111111121111764810109531111211111111111313441051331423538761511321111附录二第一问源程序:求各个回归参数值我们首先应用matlab软件进行多元线性函数的回归分析,根据其中rcoplot(r,rint)的命令找出60组数据中异常点并剔除掉。再用excel中回归命令对剩下的数据组进行分析,从而的出较为精确的结论,初步建立起模型。最后对18组未参加建立模型的原始数据进行回代检验,由此而判断起正确性,以下是我们的具体操作:1。用matlab对数据进行初步运算,找出应剔除的应剔除异常组数y=000001000000101100101100100000100010111111010011111111111101; x1=553648122412518744106710315352131023210652106510131479510510108859519;x2=141811011121131741171351122111171111024541061017118533556102253110;x3=141811012111131561171251131113171211014331051017117836556104355110;x4=15113811111131104116110311411111321181931264141321428631112511;x5=272327222212227622425622212221822261263810824224223108435623210; x6=11024110101111133911110110711711111511111107310111911834588561102328;x7=333339331232435423435723322212732287576738242332347733555423;x8=1217171111114153111141011611111411191655311018118141031694111013;x9=111111115111114111214111111111311111112311211125127111411111; n=60; m=9;X=ones(n,1),x1',x2',x3',x4',x5',x6',x7',x8',x9'b,bint,r,rint,s=regress(y',X); b,bint,s, rcoplot(r,rint) 第二问源程序:对第二问中20组数据进行检验而编写的验证程序x=1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1; 10 5 5 5 8 1 6 1 1 8 10 1 2 1 7 1 1 3 4 5; 4 1 2 4 6 1 5 1 1 5 3 1 1 1 6 1 1 4 2 1; 7 1 2 6 7 1 5 1 1 5 3 1 1 1 4 1 1 4 3 1; 2 1 2 6 3 1 8 1 1 5 1 1 1 1 8 1 1 10 5 3; 2 2 2 4 3 2 4 2 1 2 2 2 2 2 10 2 1 5 3 2; 8 1 1 10 10 1 10 1 1 10 10 1 1 1 10 1 1 1 8 1; 6 3 2 4 3 1 3 3 2 4 7 3 1 1 9 1 1 3 7 1; 1 1 2 3 4 1 4 1 1 3 6 1 1 1 5 1 3 3 6 1; 1 2 1 1 2 1 1 1 1 1 1 1 1 1 3 1 1 1 1 1;b=-0.32858 0.060725 -0.08212 0.10584 0.01551 0.01031 0.04209 0.00168 0.03196 0.03468;for i=1:20 y=b*x(:,i); fprintf('i=%d y=%.4fn',i,round(y);end第三问源程序:在第三问中我们是根据单个指标变量对回归方程的显著性而剔出次要指标因素,从而本程序是根据多元线性回归而编写的:clear;clc;y1=0 0 0 1 0 0 0 0 0; 0 0 1 1 0 0 1 0 1; 1 0 0 1 0 0 0 0 0; 1 0 0 0 1 0 1 1 1; 1 0 1 0 0 1 1 1 1; 1 1 1 1 1 1 1 0 1;S1=0;ev=0.48148;for i=1:6 for j=1:9 m=(y1(i,j)-ev)2; S1=S1+m; endend fprintf('SST=%.4dn',S1); y2=0.148681983 0.069324661 0.118974492 1.285159521 0.284611376 0.072347794 0.101864472 0.004154119 -0.104523738; -0.035176632 -0.01003266 1.024620112 0.706340335 0.086272695 0.087957319 1.107983827 0.209406646 0.96436467; 1.166398093 0.025548031 -0.094216671 0.737138534 -0.066877611 0.146997358 -0.035176632 0.114093683 0.015240964; 1.027852254 -0.017983421 0.131387833 -0.035176632 1.079716202 0.123719502 0.885929381 0.679709746 1.019105172; 1.070259537 -0.061219863 0.798865398 -0.095901296 0.118974492 0.919533106 1.025210061 1.335488806 1.007981748; 0.987958073 0.95072849 1.020822474 0.800482188 0.701668574 0.547435382 0.853686004 -0.05380929 1.046099336; S2=0;eve=0.48148; for i=1:6 for j=1:9 n=(y2(i,j)-ev)2; S2=S2+n; end end fprintf('SSR=%.4fn',S2); fprintf('SSE=%.4fn',S1-S2); S=11.4785 11.9837 11.8280; 12.1916 12.2226 11.6118; 12.2318 12.0045 12.1521;F0=4.0617; for i=1:3 for j=1:3 u=S2-S(i,j); F=44*u/1.2495; if F<F0 D(1,:)=F; fprintf('i=%d,F=%.4fn',3*(i-1)+j,F); else break end end end fprintf('7Ϊ×îСһÏîËù¶ÔÓ¦µÄ±äÁ¿Ö¸±ê±»ÌÞ³ýn'); s1=12.23181332; S3=11.47852968 11.98373906 11.82802738; 12.19155653 12.22262476 11.61179146; 11 12.00448406 12.15209715; for i=1:3 for j=1:3 u=s1-S3(i,j); F=44*u/1.2495; if F<F0 D(1,:)=F; fprintf('i=%d,F=%.4fn',3*(i-1)+j,F); else break; end end end fprintf('5Ϊ×îСһÏîËù¶ÔÓ¦µÄ±äÁ¿Ö¸±ê±»ÌÞ³ýn'); s2=12.21889223; S4=11.32729644 11.9795644

    注意事项

    本文(医学专题一乳腺癌数据的处理.docx)为本站会员(1595****071)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开