统计应用软体StatisticalComputationsandAnalysis000002.ppt
统计应用软体StatisticalComputationsandAnalysis000002 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望課程大剛n n授課對象:大三以上及研究生n n先修科目:生物統計學(或統計學)與試驗設計學n n課程首頁:http:/homepage.ntu.edu.tw/lyliu/compstat/index.htmlhttp:/homepage.ntu.edu.tw/lyliu/compstat/index.htmln n評分標準:(Mostly weekly)homework(40%)(Mostly weekly)homework(40%)Midterm(30%)Midterm(30%)Final project(30%)Final project(30%)授課教師n n劉力瑜劉力瑜 TEL:02-33664792TEL:02-33664792 E-mail:E-mail:lyliuntu.edu.twlyliuntu.edu.tw Office:Office:五號館五號館(生工系館生工系館)二樓二樓 202 202 室室 Office Hour:Monday through Friday 12AM-1PMOffice Hour:Monday through Friday 12AM-1PM注意事項n n指定作業必須在規定日期當天下課前課前繳交,逾期除依校規請假(國立臺灣大學學生請假辦法),一律不予接受,該次作業則以零分計算。n n作業與報告用 LaTEX 打字佔成績之 50%n n兩次最低分的作業將不列入總成績計算相關規定http:/homepage.ntu.edu.tw/lyliu/compstat/syllabus.htmlhttp:/homepage.ntu.edu.tw/lyliu/compstat/syllabus.html上課前的準備n n前往課程網頁下載當天上課之powerpoint檔http:/homepage.ntu.edu.tw/lyliu/compstat/handout.htmlhttp:/homepage.ntu.edu.tw/lyliu/compstat/handout.htmln n隨時查閱課程網站以獲知最新公告訊息 學長姐的建議“我未上過試驗設計,這方面完全不懂,學期後半段上起來很吃力”“很後悔沒有善加利用老師的 office hour”“統計與程式必需要多加練習才會熟練,希望交作業的次數可以多一點”課程內容n nInstallation/Introduction to RInstallation/Introduction to Rn nInstallation/Introduction to Installation/Introduction to LaTeX/cwTeXLaTeX/cwTeXn nWriting Report with LaTeXWriting Report with LaTeXn nBasic Statistical ConceptsBasic Statistical Conceptsn nProbability and DistributionsProbability and Distributionsn nDescriptive Statistics and Descriptive Statistics and GraphicsGraphicsn nHypotheses TestingHypotheses Testingn nTests for Central TendencyTests for Central Tendencyn nTests for DispersionTests for Dispersionn nAnalysis of VarianceAnalysis of Variancen nPost Hoc TestsPost Hoc Testsn nVariable TransformationVariable Transformationn nCompletely Randomized Completely Randomized Design(CRD)Design(CRD)n nRandomized Complete Block Randomized Complete Block Design(RCBD)Design(RCBD)n nLatin Square Design(LSD)Latin Square Design(LSD)n nCross-Over Design Cross-Over Design n nBalanced Incomplete Block Balanced Incomplete Block Design(BIBD)Design(BIBD)n nNonparametric MethodsNonparametric MethodsIntroduction to RWhat is R?n nR 並非專用統計軟體,而是可用來執行統計分析的環境:匯入適當的匯入適當的 package(package(套件套件)應用套件內提供之應用套件內提供之 function(function(函式函式)n nPackages 由許多熱心人士編寫並免費提供學術使用。You can make your own contribution in the future.You can make your own contribution in the future.R的優缺點n n優點:免費軟體免費軟體完善的說明文件與討論區完善的說明文件與討論區漂亮的圖型介面漂亮的圖型介面程式容易根據使用者需求做修改程式容易根據使用者需求做修改n n缺點:並無並無 user friendly user friendly 之使用者介面之使用者介面需詳知函式名稱與程式編寫邏輯需詳知函式名稱與程式編寫邏輯說明文件與討論區使用英文說明文件與討論區使用英文下載與安裝n nStep 1:Step 1:下載下載R R程式程式http:/cran.csie.ntu.edu.tw/bin/windows/base/http:/cran.csie.ntu.edu.tw/bin/windows/base/下載目前最新版本下載目前最新版本 R-2.4.1-win32.exeR-2.4.1-win32.exe執行n nStep 2:Step 2:執行執行 R-2.4.1-win32.exeR-2.4.1-win32.exen n安裝完成後安裝完成後,執行桌面上的截徑執行桌面上的截徑:中文版本如何切換至英文版本?n nStep 1:Step 1:在在R R的截徑上的截徑上按滑鼠右鍵按滑鼠右鍵,選取選取“內容內容”。如何切換至英文版本?n nStep 2:“Step 2:“目標目標”欄位最欄位最後後(雙引號之後雙引號之後)加入加入:LANGUAGE=enLANGUAGE=en再按再按“確定確定”。離開 Rn nMethod 1:File-Exitn nMethod 2:q()n nMethod 3:R 視窗上方 起始套件n n當 R 啟動時,有 7 個常用之 packages 會自動載入:base:base:基本函式基本函式(IO,(IO,敘述統計敘述統計,etc.),etc.)stats:stats:常用統計分析常用統計分析(t.test,anova,etc.)(t.test,anova,etc.)methods:methods:定義定義 classes of objects classes of objectsutils:utils:基本程式編寫工具基本程式編寫工具graphics:graphics:基本繪圖工具基本繪圖工具grDevices:grDevices:基本繪圖介面基本繪圖介面datasets:datasets:數據範例數據範例使用介面 File 檔案匯入已存在的檔案(不開啟編輯視窗)編輯新程式或文件編輯已存在的程式或文件顯示已存在的檔案內容(無法編輯)變更工作環境預設:C:/Program Files/R/R-2.4.1 Example:0302_File_example.r使用介面 Edit 編輯清除工作視窗畫面使用介面 Misc 其它中斷正在執行的工作(ESC)立即顯示結果與否顯示工作環境下的物件;ls()移除工作環境下的物件;rm(list=ls(all=T)使用介面-Packages在目前工作環境中載入套件library(package)設定下載 package 的網站(Taipei,etc.)設定下載 package 的搜尋範圍(cran,etc.)package 網路安裝package 本機安裝(已下載)package 更新(已安裝之package)使用介面 Windows/Helpn nWindows:視窗排列方式n nHelp:Getting help from R?commandcommand and and help(help(commandcommand):查詢特定命令查詢特定命令 (名稱已知且名稱已知且packagepackage已載入已載入)的使用的使用aproposapropos(“keyword keyword”):”):已載入已載入 package package 中中含有含有keywordkeyword字串的所有函數字串的所有函數Search help:Search help:查詢未知名稱的命令查詢未知名稱的命令(package(package未未載入但已安裝載入但已安裝)help.search(help.search(“keyword keyword”)”)search.r-project.orgsearch.r-project.org:廣義搜尋廣義搜尋R ConsoleR 的提示符號:與+n n“”為提示符號為提示符號;當提示符號出現時表示當提示符號出現時表示R R正在待正在待命中命中,可以隨時鍵入下一個命令。當提示符號為可以隨時鍵入下一個命令。當提示符號為“+”時時,表示程式正在執行中,或在等待未完成的表示程式正在執行中,或在等待未完成的指令。例如指令。例如:(1.36+0.7(1.36+0.7+)+)按按“ESC”“ESC”可強制退出未完成的工作。可強制退出未完成的工作。n n可利用鍵盤上下鍵重複輸入指令或做小幅度修改可利用鍵盤上下鍵重複輸入指令或做小幅度修改利用R進行簡單計算 2+31 5 sqrt(3/4)/(1/3-2/pi2)1 6.626513 exp(3.72)1 41.26439 sin(pi);log(10);log2(10);log10(10)指定變數名稱n n名稱=物件 或 名稱 物件 可由英文字母、數字、英文句點可由英文字母、數字、英文句點(.)(.)組成。組成。英文大小寫有所區別英文大小寫有所區別(ab (ab 與與 Ab Ab 可分別代表不可分別代表不同變數同變數)。變數名稱須起始於英文字母。變數名稱須起始於英文字母。有些英文單字具有特殊意義有些英文單字具有特殊意義,不能當做變數名,不能當做變數名稱稱:return,break,if,TRUE,FALSE,(T,F).:return,break,if,TRUE,FALSE,(T,F).R 物件(object)n n單一變數單一變數:變數種類變數種類變數種類變數種類範例範例範例範例數字數字-2,1,0,375,3.14,1.2x10-2,1,0,375,3.14,1.2x105 5 字元或字串字元或字串NTU,good,badNTU,good,bad邏輯邏輯TRUE/FALSE,T/F,0/1TRUE/FALSE,T/F,0/1其它其它NA,NA,函數函數Some Simple Examplesn n單一數值或字元單一數值或字元:x1=3.0 x1=3.0 x2=“NTU”x2=“NTU”x3=TRUE x3=TRUEn n計算結果計算結果:y1=exp(3.72)y1=exp(3.72)y2=y1*3 y2=y1*3n n其它其它:out=lm(yx+z)out=lm(yx+z)y=NA y=NAR 物件(object)n n複合物件複合物件:由數個單一變數組成由數個單一變數組成 向量向量:c():c()所有變數需為同類型或所有變數需為同類型或NANA 若若vectorvector內的變數為數字內的變數為數字,亦可藉由亦可藉由“:”,“seq”“:”,“seq”等產生等產生c(5,7,3,9,NA)c(5,7,3,9,NA)c(1:10)c(1:10)=1,2,3,4,10=1,2,3,4,10seq(0.1,1,0.1)seq(0.1,1,0.1)=0.1,0.2,0.3,1.0=0.1,0.2,0.3,1.0 矩陣矩陣:matrix(x,r,c,):matrix(x,r,c,)所有變數需為同類型或所有變數需為同類型或NANAmatrix(NA,3,5)matrix(NA,3,5)=3x5=3x5矩陣矩陣,每一元素為每一元素為NANAmatrix(1:12,3,4)matrix(1:12,3,4)=3x4=3x4矩陣矩陣,元素為元素為?R 物件(object)n n其它複合物件:listlistdata.framedata.framehigh dimensional arrayhigh dimensional arrayR 函式(function)n nR R是由是由“變數變數”與與“函式函式”組成。前面幾張組成。前面幾張 slide slide 已已用的用的 function:function:c,lm c,lm,seqseq,matrixmatrix,expexp,etc.,etc.n n基本語法基本語法:funcnamefuncname(參數參數)n n查詢查詢functionfunction的使用方法的使用方法:helphelp or or?Example:Example:?lm#help(lm)?lm#help(lm)Help MenuDescriptionDescriptionUsageUsage Arguments ArgumentsDetailsDetailsValueValue References ReferencesSee AlsoSee AlsoExamplesExamplesaproposn napropos(“matrix”)只查閱函式的參數時 args(“matrix”)args(“matrix”)n n參數分為必要與非必要兩種參數分為必要與非必要兩種n n順序不對調時順序不對調時,參數名稱可不給定參數名稱可不給定:matrix(x,3,2)matrix(x,3,2)n n順序對調時參數命稱必須指定順序對調時參數命稱必須指定:matrix(nrow=3,ncol=2,data=x)matrix(nrow=3,ncol=2,data=x)R 函式(function)n n函數也可由使用者自行定義 my.add my.add(1:3)1 4 5 6n n本課程將會陸續介紹生物統計學與試驗設計學常用的函數。常用統計函式n n中央趨勢中央趨勢:mean(x)mean(x)#樣本均值樣本均值 median(x)median(x)#樣本中位數樣本中位數 quantile(x,p)quantile(x,p)#樣本樣本 100p%100p%百分位數百分位數n n變異程度變異程度:range(x)range(x)#最小值與最大值最小值與最大值 var(x)var(x)#樣本變方樣本變方 sd(x)sd(x)#樣本標準差樣本標準差n n兩變數的相關程度兩變數的相關程度:cov(x,y)cov(x,y)#樣本共變方樣本共變方 cor(x,y)cor(x,y)#樣本相關係數樣本相關係數常用統計函式n n常用function列表:“Statistical Computing and Graphics Course Notes”“Statistical Computing and Graphics Course Notes”by by Frank E.Harrell,p 32-39.Frank E.Harrell,p 32-39.http:/cran.us.r-project.org/doc/contrib/Harrell-statcomp-notes.pdfhttp:/cran.us.r-project.org/doc/contrib/Harrell-statcomp-notes.pdf資料輸入:cn n輸入少量資料最簡單的方法:c function.Example:西元 1861 1870 年間重大的科學發現或發明數:3 0 2 0 3 2 3 6 1 2 nod=c(3,0,2,0,3,2,3,6,1,2)nod1 3 0 2 0 3 2 3 6 1 2資料輸入:cn n前述指令指定一組數據給名為 nod 之變數;以“=”或“length(x)length(x)#how many elements#how many elements x2 x2#the 2nd element#the 2nd element x1:5 x1:5#the first 5 elements#the first 5 elements xc(1,2,5)xc(1,2,5)#specific elements#specific elements xx3 xx3#all greater than 3#all greater than 3 xx 2 xx 2 which(x=5)which(x=5)#which indices are equal to 5#which indices are equal to 5 c(x,48,49,51,50,49)c(x,48,49,51,50,49)#append values to x#append values to xExample nod2 nod21 01 0 nod-4 nod-41 3 0 2 3 2 3 6 1 21 3 0 2 3 2 3 6 1 2 nodc(1,2,5)nodc(1,2,5)1 3 0 31 3 0 3 nodnod 1 nodnod 11 3 2 3 2 3 6 21 3 2 3 2 3 6 2 which(nod 1)which(nod 1)1 1 3 5 6 7 8 101 1 3 5 6 7 8 10Matrix operation is similar!y2=matrix(c(1:10),nrow=2,ncol=5)y2=matrix(c(1:10),nrow=2,ncol=5)y22,1 y22,1 y21,y21,y2,4 y2,4 y2,-2 y2,-2 z2=matrix(c(11:25),nrow=3,ncol=5)z2=matrix(c(11:25),nrow=3,ncol=5)rbind(y2,z2)rbind(y2,z2)cbind(y2,z2)#error cbind(y2,z2)#error cbind(t(y2),t(z2)cbind(t(y2),t(z2)變數名稱列指標,行指標Examplen n測量基因 AC002378 表現量 12 次結果如下(on log2 scale)0.66,0.51,1.12,0.83,0.91,0.500.66,0.51,1.12,0.83,0.91,0.500.41,0.57,-0.17,0.50,0.22,0.710.41,0.57,-0.17,0.50,0.22,0.71(1)(1)求最大值與最小值求最大值與最小值(2)(2)計算樣本均值與標準差計算樣本均值與標準差(3)(3)有多少觀測值有多少觀測值 0.5?0.5?Examplen n測量基因 AC002378 表現量 12 次結果如下(on log2 scale)0.66,0.51,1.12,0.66,0.51,1.12,NANA,0.91,0.50,0.91,0.500.41,0.57,-0.17,0.50,0.22,0.710.41,0.57,-0.17,0.50,0.22,0.71(1)(1)求最大值與最小值求最大值與最小值(2)(2)計算樣本均值與標準差計算樣本均值與標準差(3)(3)有多少觀測值有多少觀測值 0.5?0.5?Other Methods to Input Datan n類似c的輸入方式(以空格分格,空行結束):x x x x x x x x my.data=read.csv(“d:/rice.csv”)my.data=read.csv(“d:/rice.csv”)my.data my.dataSummaryn nIntroduction of RIntroduction of R Download and install RDownload and install R R interfaceR interface R as simple calculatorR as simple calculator R objectsR objects R functionsR functions Data inputData inputn n作業一作業一:http:/homepage.ntu.edu.tw/lyliu/compstat/hw1.pdfhttp:/homepage.ntu.edu.tw/lyliu/compstat/hw1.pdf