统计资料整理与描述.docx
统计资料整理与描述授 授課目錄 第 第1章 章導 導 論 第 第2章 章統計資料的整理與描述 第 第3章 章機率導論 第 第4章 章常用的機率分佈與統計分佈 第 第5章 章描樣方法與描樣分佈 第 第6章 章統計估計 第 第7章 章統計檢定 第 第8章 章變異數分析 第 第9章 章相關分析與迴歸模式 第 第10章 章無母數統計檢定 第 第11章 章類別資料分析- 列聯表與卡方檢定探讨自然或社會現象,首先要搜集相關的統計資料。接著對所搜集的資料進行處理描述,並製作統計圖表,以簡潔、有系統的方式,陳示說明資料的主要內容與特性,使之一目了然。藉由統計資料去了解母體的特性( 參數) ,常用代表 集中趨勢的統計量,如樣本的平均值 ; 與 代表離散的統計量,如樣本的變異數 或標準差 。此即敘述統計量。(Measures of Central Tendency-Location) (Measures of Dispersion-Scale) 第 第 2 章統計資料的整理與描述2.1 統計資料的搜集 一般衡量資料的 尺度(Scale) 有四種:(1) 類別尺度(Nominal Scale)- 依資料性質分類並給予特別數值或代號。如女性= 0 、男性= 1 ;合格= 、不合格=× × ;紅色= 1 、黃色= 2 、藍色= 3。此類別表示之數值或記號只區分類別,沒有大小、順序或比率關係。其僅能計算某類別代號出 現的次數或頻率, 其計算平均數則無意義。(2) 順序尺度(Ordinal Scale)- 依資料的重要性、強弱、好壞程度區分,給予大小不等的數值。如小學= 1、 、中學= 2 、大學= 3 、探讨所= 4 ;很便宜= 1 、便宜= 2、 、一般= 3 、貴= 4 、很貴= 5。此類別雖在等第上有好壞、凹凸之分別, 但無從比較差距。(3) 計量尺度(Metric Scale)- 計量尺度是將探讨對象或事物予以數量化,且滿足度量公設;因此又稱等另尺度。其數字大小差異不但有意義且可以比較大小,更可藉數學運算,達到深化分析的目的 。如量測身高、體 重、容量、重量、長度、溫度、時間等資料。(4) 比率尺度(Ratio Scale)- 以某一特定對象為基準,其他現象相對於此一標準的比值。例如,經濟成長率、人口成長率。統計資料若依據 取得 的方式來分:(1) 干脆資料( 或初級資料)- 自行蒐集或委託調查的資料 (2) 間接資料( 或次級資料)- 參考他人蒐集的相關資料 統計資料 蒐集 的方式有:(1) 調查(Survey)- 設計探讨需求的 專業問卷 ,親自或透過調查人員 觀察 ,或當面、電話與郵寄的方式 訪問 。又分 普查資料 與 抽查資料。(2) 實驗(Experiment)- 設定條件和狀 態,對實際的作業過程進行試驗,並記錄其相關現象與數據。 多數的統計資料皆屬於 數值型態 有:(1) 連續型資料- 可度量的數據資料稱為計量資料,其數值可無限細分,又稱此計量資料。如重量( 公斤) 、長度( 公分) 、溫度(。C) 等。(2) 離散型資料- 度測數值是以點計得到的數據,因為其數值間是間斷的,又稱此計數資料。如 如 1 頭牛、2 個人等。2.2 資料處理與展示- 統計圖表 人類辨識影像圖形的实力,一般優於辨識數字與文字。千言萬言的說明敘述,有時反不及圖表的效果。字不如表, 表不如圖 。製作 統計圖表,即以簡潔、有系統的方式,陳示說明資料的主要內容與特性,使之一目了然。常用統計表 (a) 資料次數安排或頻率表,(b) 時間數列表,(c) 會計帳表等。(a) 次數安排或頻率表 (1) 確定所須組數。( 一般不超過10 組為原則) 。 (2) 計算全部數據的全距(Range) 。R = max-min 。並求出組距C = 全距/ 組數 Sturges Formula k( 組數)=1+3.32 log(n) , n= 樣本數 When n= 40k=1+3.32 log(40)= 6.36-7 組數 或依下列原則分組 n 50-100 100-250 250 以上 k 6-10 7-12 10-20(3) 求出各組的組距與組界 (4) 確定各組的頻數 當全距太大的資料常以概括頭尾的方式處理( 第一組在某值以下,最後一組在某值以上)。另過於離散的資料,可依據其出 現的密度選取合適的組距( 如職棒投手之球速) 。常用統計圖 (a) 直方圖- 次數安排或頻率表以圖示之。為 例題:某技術員用車床車制螺絲,要求其直徑為 10mm 。為了了解該的 技術員的加工品質,抽查其加工的 100 個螺據 絲,分別測得其直徑數據 100 個。螺絲直徑數據(100 個)10.24 9.94 10 9.99 9.85 9.94 10.42 10.3 10.36 10.09 10.21 9.79 9.7 10.04 9.98 9.81 10.13 10.21 9.84 9.55 10.01 10.36 9.88 9.22 10.01 9.85 9.61 10.03 10.41 10.12 10.15 9.76 10.57 9.76 10.15 10.11 10.03 10.15 10.21 10.05 9.73 9.82 9.82 10.06 10.42 10.24 10.6 9.58 10.06 9.98 10.12 9.97 10.3 10.12 10.14 10.17 10 10.09 10.11 9.7 9.49 9.97 10.18 9.99 9.89 9.83 9.55 9.87 10.19 10.39 10.27 10.18 10.01 9.77 9.58 10.33 10.15 9.91 9.67 10.1 10.09 10.33 10.06 9.53 9.95 10.39 10.16 9.73 10.15 9.75 9.79 9.94 10.09 9.97 9.91 9.64 9.88 10.02 9.91 9.54 Max. = 10.60 ; Min. = 9.22 ; Range = 1.38 ;k = 7 (n =100) ; 組距 = 1.38/7 = 0.192 0.2為使得全部數據不會落在組界上,並保證最小值9.22 落在第一組內,故取第一組的 組下限等於最小值減去最小量測單位的一半( 即0.01/2 = 0.005) 。則 第一組的 組下限 = 9.22 – 0.005 = 9.125 第一組的 組上限 = 第一組的 組下限+ 組距= 9.215 + 0.2 = 9.415 接著,確定各組的頻數 組 組 別 頻 頻 數 第一組:9.215 9.415 1 其次組:9.415 9.615 8 第三組:9.615 9.815 14 第四組:9.815 10.015 29 第五組:10.015 10.215 32 第六組:10.215 10.415 12 第七組:10.415 10.615 4 最後作直方圖9.20 9.45 9.70 9.95 10.20 10.45 10.700102030脸捣 畖(k=7)Frequency 直方圖可以種方式表示:(1) Frequencyà (2) Cumulative Frequency (3) Percent à (4) Cumulative Percent (3-1) Relative Fequency à (3-2) Cumulative Relative Frequency (5) Densityà (6) Cumulative Density 螺絲直徑落在直方圖的 可能性大小是以其高度表示 ,另由數學應用便利的角度觀之, 各直方的面積表示可能大小 ,由於各組的組距,即直方的寬度是相等的,因此用 直方面積表示與用直方的高度表示是相同的。(b) 散佈圖係對兩組變數之間關係感興趣,組成這兩組變數的對應稱 圖,又稱 XY 散佈圖。範例: 身高 132 149 160 140 138 154 145 151 136 140 體重 重 38 45 58 40 38 53 41 47 34 36 (c) 盒圖或盒鬚圖(Box Plot or Box and Whisker Plot)盒圖中有極小值、極大值、Q 1,Q 2 ,Q 3 。範例:修改後 16.85 16.40 17.21 16.35 16.52 17.04 16.96 17.15 16.59 16.57 修改前17.5 17.63 18.25 18 17.86 17.75 18.22 17.9 17.96 18.15 10 學童身高- 體重散佈圖30405060130 140 150 160身高體重盒圖或盒鬚圖於股票市場之應用-股 股 票箱形圖17.217.117.016.916.816.716.616.516.416.3最高價 收高價 開盤價 最低價 最高價 開盤價 收高價 最低價(d) 柏拉圖法(Pareto’s Diagram) 80/20 法則:80% 的問題是來自 20% 的源頭。問題區分 少數重要項目(Vital Few)、 、 多數輕微項目(Trivial Many) 的分法稱之為柏拉圖原則- 重點的驾驭。Example of Pareto AnalysisThe data in Table 1 has been recorded for peach arriving at Super Market during August. Table 1 Raw data for Pareto Analysis Problem Categories Peaches Lost Bruised( 有受傷的) 100 Undersized( 太小的) 87 Rotten( 腐爛的) 235 Underripe( 未熟的) 9 Wrong Variety( 品種不同的) 7 Wormy( 有蟲的) 3 The Pareto table for the data in Table 1 is shown in Table 2. Rank Category Count Percentage Cum% 1 Rotten( 腐爛的) 235 53.29 53.29 2 Bruised( 有受傷的) 100 22.68 75.97 3 Undersized( 太小的) 87 19.73 95.70 4 Other 19 4.31 100.01RottenBruisedUndersizedOthers235 100871953.3 22.7 19.74.3 53.376.095.7 100.0050100150200250300350400450020406080100DefectCountPercentCum %PercentCountPareto Chart for CATEGORIES 2.3 樣本統計量( 統計量)(Sample Statistic) 統計圖表可便利展示資料,但對於資料的深化分析,其精確度與廣度仍不 足。為了探讨母體的特性( 參數) ,仍須用一些統計量測數,藉以了解母體的特性。常用的統計量測數為代表集中趨勢統計量、代表離散統計量與形狀統計量,來表達母體的安排情形。這些樣本統計量亦稱之樣本的特徵值。2.3.1 集中趨勢統計量集中趨勢統計量是用來衡量全部觀測值聚集的中心位置- 算術平均數、中位數、四分位數、眾數、截尾平均數(a) 算術平均數(Arithmetic Mean) 在一般 未分組有 的原始資料中,有 n 個觀測值,其集合為x 1 , x 2 , , x n|nÎ ÎN ,則其 算術平均數 x =(x 1 + x 2 + + x n )/n = (å å n i =1 x i )/n 對於 分組有 資料,假定資料共有 n 個觀測值分為 m 組,令x i 第 為第 i 組觀測值之組中點,f i 為該組觀測值相對應的次數,å åf i= n 。則其 算術平均數為 x =(x 1 f 1 +x 2 f 2 +x m f m )/n = (å å m i =1 x if i )/n(b) 中位數(Median) 中位數又稱為二分位數,是一種由小至大順序數列的中料 心項。將某筆資料 n 個觀測值由小而大順序排列,則其中間位數的觀測值即為若 中位數。若 n 為奇數,則第(n+1)/2 位數的若 觀測值為中位數。若 n 為偶數,中位數即為第 n/2 位數與第(n/2)+1 位數觀測值的算術平均數。(c) 四分位數(Quartile) 將觀測值由小至大順序數列按位數分為四等分,Q 1 , Q 2, Q 3 為其位數等分點之觀測值。第 第 0 個四分位即是最小值,第1 個四分位(Q 1 ) 是第 25% 的值,第 2 個四分位(Q 2 ) 是第 50%的值( 即中位數) ,第 3 個四分位(Q 3 ) 是第 75% 的值,第 4 個 個位 四分位(Q 1 ) 即是最大值。此概念可以推廣至非常位數(D 1 , D 2 ,D 9 ) 和百分位數(Percentiles, P 1 , P 2 ,P 99 ) 。 (d) 眾數(Mode) 眾數是指統計資料中出現之次數最頻繁的觀測值。(e) 截尾平均數(Trimmed Mean)- 奧運體操評分標準 係考慮算術平均數简单受兩端特別遠離中心位置觀測值的影響,有時不能確切描述觀測值集中趨勢。即截頭去尾的將 方法,將 Q 1 與 以下與 Q 3 算 之上的觀測值解除,再計算 Q 1 與 與 Q 3之間的觀測值的算術平均數。此數為奧林匹克運動會的體操競賽評分標準。2.3.2 離散趨勢統計量離散趨勢統計量是用來測量全部觀測值偏離中心的程度- 全距、四分位 間距、平均絕對偏差、變異數與標準差、變異係數等(a) 全距(Range) Range = Max. –Min.(b) 四分位間距(IQR, Inter-Quartile Range) 四分位間距= Q 3 -Q 1全距很简单受到少數極端觀測值的影響,如原來某班上為 同學體重最重為 85 kg, ,為 最輕為 45 kg, , 則該班同學體重全距為 為 40 kg, ,為 今來了一位轉系生體重為 95 kg, , 則該班同學體重為 全距變為 50 kg。但四分位間距較不简单受少數極端值影響而產生極據變動。(c) 平均絕對偏差(MAD, Mean Absolute Deviation) MAD =å å n i =1 | x i - x |/n(d) 變異數與標準差(Variance and Standard Deviation)有 若有 N 個母體觀測值x 1 , x 2 , , x N ,且母體平均值為m m ,則母體變異數為 s s 2 =å å N i =1(x i -m m) 2 /N , (å å N i =1(x i -m m) 2 :Sum Square) 於 對於 n 個樣本資料 x 1 , x 2 , , x n ,則樣本變異數為 為 S 2 =å å n i =1(x i - x ) 2 /(n-1) , (å å n i =1(x i - x ) 2 :Sum Square)數 樣本變異數 S 2 运用(n-1) 當分母的缘由是,分子中(x i - x )的自由度(DOF, Degree of Freedom) 為(n-1) 的關係。即 n 個項目 目(x 1 - x ),(x n - x ) 中,只要知道其中的(n-1) 項,則剩下的最後一項就 固定了,因為S S(x i - x )= 0 。變異數是取觀測值與母體平均數差之平方和,所以 變異數的單位 與原觀測值所用的 單位不同 。為取一样可將變異數的開平方根,則s s 稱之母體標準差,作為對應之離散量。另為 樣本標準差則相對為 S 。為 對於分組資料,假設資料分為 m 組共有 n 個觀測值,令x i 第 為第 i 組觀測值之組中點,f i 為該組觀測值相對應的次數, å åf i= n 。則樣本變異 數為 S 2 =å å m i =1(x i - x ) 2f i /(n-1) (e) 變異 數係數(CV, Coefficient of Variance ) CV =( 標準差/ 平均值)2.3.3 形狀統計量形狀統計量係用量測一組資料 對稱與否 ,與分佈形狀 峰度之凹凸- 分別為偏態係數與峰態係數。(a) 偏態係數(Skewness) 數 偏 態 係 數 (SK) 是 對 資 料 分 配 偏 往 某 一 方 的 趨 勢(Tendency) 。SK 的值必介於 –3 與 與 3 之間。其定義: SK = 3( x -Median)/s 圖 上圖 SK 0 ;Mean = Median = Mode圖 上圖 SK > > 0 ( 右偏或正偏) ;Mean > > Median > > Mode圖 上圖 SK < < 0 ( 左偏或負偏) ;Mean < < Median< <Mode留意:不論是正態、右偏、左偏 ,Median 永遠在Mean與Mode 中間。(b) 峰態係數(Kurtosis) 峰態係數(K) 是對資料安排峰度(Peakedness) 的程度。其定義:K = å å(x i - x ) 4 /å å(x i - x ) 2 2 -3 K> > 0 高峻峰 K < <0 低闊峰K=0 常態峰 習題一 2.1 私立學校的董事長擔心近年來始终下降的新生報到人數。茲雇用你從事統示 計工作。若要你供应他一個簡單的圖表來表示 1985 年至 1994 年 年 10 年間每年所招生的人數,則下列何種統計圖表最適合? (A) 直方圖 (B) 條圖 (C)圖 圖餅圖 (D)XY 分佈圖 (E) 時間數列走勢圖。2.2 若有一組隨機樣本,每一個樣本點的值都相同,則此組樣本的算術平均數、第三四分位數(Q 3 ) 、中位數、眾數、及變異數敘述何者正確? (A) 均不相同 (B)為 均相同,但變異數不為 0 (C) 均相同,且變異數為 0 。2.3國賓戲院紀錄首映 25 天鐵達尼號影片,午夜場的觀眾人數如下表:19 23 28 36 30 12 37 44 11 44 44 9 33 29 14 30 24 8 9 33 34 21 29 34 13 請(A)以 以 6-15 、16-25 、26-35 、36-45 作為分界,製作次數安排表(B) 繪製直方圖。 2.4試舉出三種用來衡量資料集中趨勢的量值,並列示出他們的計算公式來求算方法。2.5試舉出二種用來衡量資料離散趨勢的量值,並列示他們的計算公式或求算方法。2.6現在有一組樣本是取自貨幣市 場共同基金每年收益狀況,資料如下:6 ,6, ,4 ,8 ,10 ,12 。則其算術平均數、中位數、變異數為何。2.7景文技術學院舉行全校的英文檢定考試,其中財務金融科得到下列成績之次數安排表,試求該科此次英文檢定考試之算術平均數。組限 31-40 41-50 51-60 61-70 71-80 81-90 91-100 次數 4 2 11 73 39 20 1 2.8西北旅行社的嚮導紀錄暑假期間,乘長榮航空客機至夏威夷茂宜島歡樂旅遊的每日出團人數如下:38211742302420193211 2036302043431930 918 17493714153624234119 51583262291713171631 43611420251621404522試求暑假期間每日出團人數(A) 算術平均數(B) 中位數(C) 截尾平均數(D)四 四分位數。2.9由奇異公司生產線上隨機抽樣 30 件產品,測其重量(mg )為:159.2159.2160.7158.4159.5159.1157.7158.6 157.2158.1156.6158.6157.3157.9158.8159.0 158.7159.0159.3158.9158.8159.1158.6158.9158.4159.1159.1159.3159.5157.9試計算(A) 全距(B) 四分位距(C) 算術平均數(D) 變異數。2.10一個道 投資者希望知道 A 股票和 B 股票那種較適合投資,下列是最近二個期 星期 A 和 和 B 股票每股的股票價值,那種股票之股價較為穩定? A 股票:64.5 ,65 ,65.5 ,64.5 ,64.5 ,62.5 ,60 ,58.5 ,60.5 ,60 ,60 ,62 B 股票:198 ,195 ,194 ,195 ,195 ,190 ,189 ,186 ,189 ,185 ,184 ,1852.11以下是 1998 年 年 8 月 月 1 日至 8 日的店頭市場某一個股股票成交量、開盤價、最高價、最低價、收盤價(8 月 月 7 日為星期日) 。日期 成交量 開盤價 最高價 最低價 收盤價 9 月 月 1 日 2104 34 36 32 33 9 月 月 2 日 1459 34 34 31 31 9 月 月 3 日 1648 32 33 30 32 9 月 月 4 日 2314 35 35 34 34 9 月 月 5 日 2215 36 37 37 36 9 月 月 6 日 3648 35 39 35 39 9 月 月 8 日 1262 41 41 40 42 9 月 月 9 日 2773 40 44 39 40 請依照上表的資料繪製股票箱形圖。習題二 1 、裝配零件之生產線,用塞規決定孔徑是否合格,為( 文字/ 屬性/ 屬量) 資料。2 、一群員工對生產線問題提出討 論之集體思索其要因,為( 文字/ 屬性/ 屬量) 資料。3 、下列何者為計量值資料(1) 密度 (2) 布匹之缺點數 (3) 某批產品中有 2 個不合格品 品 (4) 教室內共有 20 個學生。4 、間斷資料連續資料 (1) 、電鍍液的鎳濃度(%)( ) ( ) (2) 、鐵線的強度 ( ) ( ) (3) 、請假人數 ( ) ( ) (4) 、機器故障次數 ( ) ( ) (5) 、膠布的污點數 ( ) ( ) (6) 、MIL –STD –105 抽樣表( ) ( ) (7) 、某工廠每期意外事务 ( ) ( ) (8) 、鋼球直徑 ( ) ( ) (9) 、回 收率 ( ) ( )5 、致遠管理學院舉行全校統計學檢定考試,其中工管系成績的次數安排如下表,試求該系統計學檢定考試之算術平均數。組限 31-40 41-50 51-60 61-70 71-80 81-90 91-100 次數 4 2 11 73 39 20 16、 、為 某技術員用車床車制螺絲,要求其直徑為 10mm 。為了了解該技術員的加工的 品質,抽查其加工的 100 個螺絲,分別測得其直徑數據 100 個。螺絲直徑數據(100 個)10.2 9.9 10 9.9 9.8 9.9 10.4 10.3 10.3 10.0 10.2 9.7 9.7 10.1 9.9 9.8 10.1 10.2 9.8 9.5 10.0 10.6 9.8 9.2 10.1 9.8 9.6 10.0 10.4 10.1 10.2 9.7 10.7 9.7 10.5 10.1 10.3 10.1 10.2 10.0 9.7 9.8 9.8 10.1 10.2 10.2 10.6 9.5 10.0 9.9 10.1 9.9 10.3 10.2 10.4 10.1 10.4 10.0 10.1 9.7 9.5 9.9 10.1 9.9 9.9 9.8 9.5 9.8 10.1 10.3 10.3 10.8 10.0 9.7 9.8 10.3 10.1 9.9 9.6 10.1 10.1 10.3 10.1 9.5 9.5 10.3 10.1 9.7 10.1 9.7 9.8 9.9 10.2 9.9 9.9 9.6 9.8 10.2 9.9 9.5 該 試求該 100 個螺絲 之算術平均數、中位數等、四分位數、眾數、截尾平均數、全距、四分位間距、 變異數與標準差等。7 、不合格品 A 類 類 10 件,B 類 類 3 件,C 類 類 6 件,D 類 類 2 件,E 類 類 4 件,繪製柏拉圖,則於柏拉圖內第三要項之累積不良比率(12) 。8 、不良品 A 類 類 10 件,B 類 類 3 件,C 類 類 6 件,D 類 類 2 件,E 類 類 4 件,B 類在百分比圖中之% 為(80 ) 。9 、同上,扇形圖 A 類之圖心角度(144) 。10 、次數安排表之組中點為 3.5 ,5.5 ,7.5 ,9.5 ,11.5 試求組距( 2 ) 。11 、直方圖向規格上下限伸展時,表示(1) 變異過大 (2) 平均數過小 (3) 平均數過大 大 (4) 變異過小 (5) 平均數過小,變異也變小。12 、直方圖的應用( 是非題) () 可測知製程实力 () 由安排型態可以了解數據之分布 (× ×) 混入不同之二個群體由削壁型之型態可以判斷( 雙峰型態) (× ×) 當分組過多時,直方圖易成為離島型態( 缺齒) () 可計算出產品不良率 13 、 一組數字 1 ,4 ,7 ,9 ,Y 其 其 R 值10 求 求 Y=11 orY = -1 。14 、 23 ,21 ,22 ,20 ,X平均值23 求 求 X=29 。15 、 1 ,3 ,5 ,7 ,9 求樣本變異數及樣 本標準差 8 ,2(2)0.5 。16 、 1cm ,3cm ,5cm ,7cm ,9cm 求樣本變異數及樣本標準差( 含單位值) 10 cm ,10 cm0.5 。17 、 已知抽樣 n=5 數據 平均值 平方和 樣本變異數 樣本標準差 1 ,2 ,3 ,4 ,5 3 10 2 2 0.55 ,6 ,7 ,8 ,9 7 10 2 2 0.510 ,20 ,30 ,40 ,50 30 1000 200 10(2) 0.50.1 ,0.2 ,0.3 ,0.4 ,0.5 3/10 10/100 2/100 (2) 0.5 /10 11 ,12 ,13 ,14 ,15 13 10 2 2 0.518 、連續 4 年員工薪水年增率7% ,8% ,9% ,10% ,四年內平均增加率。(幾 幾何平均) 8.43%=(7*8*9*10)0.5