一、頻數(shù)表的編制與頻數(shù)分布
計量資料有離散型變量和連續(xù)型變量。對離散型變量,可列出變量值及其頻數(shù)如表4.1。若變量值較多時,亦可用組段表示如表4.2。每個組段的起點稱下限,終點稱上限,上限與下限之差稱組距。如表4.2第一組的下限是0,上限是1。第二組的下限是2上限是3,組距都是1。歸組以后,該組的變量值用組段的中值代表,稱組中值。如第一組的組中值為0.5。
表4.1 某市居民1095天中每天意外死亡人數(shù)(1980~82年)
死亡人數(shù) | 天數(shù) |
0 | 807 |
1 | 250 |
2 | 31 |
3 | 5 |
4 | 0 |
5 | 0 |
6 | 0 |
7 | 1 |
8 | 0 |
┆ | ┆ |
15 | 1 |
合 計 | 1095 |
表4.2 204名軋鋼工人白細胞中大單核所占百分比
大單核數(shù)(個/每百白細胞) | 人數(shù) |
0-1 | 24 |
2-3 | 40 |
4-5 | 55 |
6-7 | 37 |
8-9 | 27 |
10-11 | 18 |
12-13 | 1 |
14-15 | 0 |
16-17 | 1 |
18-19 | 0 |
20-21 | 1 |
合計 | 204 |
若是連續(xù)型變量,組段的寫法與離散型變量的略有不同。如表4.3坐高第一組段下限為61,上限為62;第二組段的下限為62,上限為63。因此,上一組段的上限和下一組段的下限值相同。為便于歸組,上限一般不寫出來。如第一組寫成“61-”,意思是凡坐高在61至未離散型變最的數(shù)值較大時,亦可按連續(xù)型變量寫組段,如紅細胞數(shù)(萬/mm3)的組段應寫成400-419,420-439,…,亦可簡化寫成400-,420-,…。這樣由組段和頻數(shù)兩部分組成的表稱為頻數(shù)表。下面用表4.4資料說明頻數(shù)表編制步驟,…
表4.3 某市7歲男童坐高頻數(shù)表
表 4.4 西安市7歲男童102人的坐高,cm
64.4 | 63.8 | 64.5 | 66.8 | 66.5 | 66.3 | 68.3 | 67.2 | 68.0 | 67.9 |
63.2 | 64.6 | 64.8 | 66.2 | 68.0 | 66.7 | 67.4 | 68.6 | 66.8 | 66.9 |
63.2 | 61.1 | 65.0 | 65.0 | 66.4 | 69.1 | 66.8 | 66.4 | 67.5 | 68.1 |
69.7 | 62.5 | 64.3 | 66.3 | 66.6 | 67.8 | 65.9 | 67.9 | 65.9 | 69.8 |
71.1 | 70.1 | 64.9 | 66.1 | 67.3 | 66.8 | 65.0 | 65.7 | 68.4 | 67.6 |
69.5 | 67.5 | 62.4 | 62.6 | 66.5 | 67.2 | 64.5 | 65.7 | 67.0 | 65.1 |
70.0 | 69.6 | 64.7 | 65.8 | 64.2 | 67.3 | 65.0 | 65.0 | 67.2 | 70.2 |
68.0 | 68.2 | 63.2 | 64.6 | 64.2 | 64.5 | 65.9 | 66.6 | 69.2 | 71.2 |
68.3 | 70.8 | 65.3 | 64.2 | 68.0 | 66.7 | 65.6 | 66.8 | 67.9 | 67.6 |
70.4 | 68.4 | 64.3 | 66.0 | 67.3 | 65.6 | 66.0 | 66.9 | 67.4 | 68.5 |
68.3 | 69.7 |
(二)找出原始資料中的最小、最大值 表4.4坐高的最大值為71.2cm,最小值為61.1cm,最大值與最小值之差稱極差為10.1cm。
。ǘ)定組距 先考慮組數(shù)。資料在100例以上的一般分10-15組。若例數(shù)較少,組數(shù)可相應少些;例數(shù)很多,組數(shù)可酌情多些,以能顯示分布的規(guī)律為宜。此例擬分10組。將擬分的組數(shù)除極差(10.1/10≈1)得組距的約數(shù)。再調整到較方便的數(shù)如0.1、0.2、0.5,1、2、5、10、20、50……等。此例取組距為1。
。ㄈ)寫組段 取等于或略小于最小值的整數(shù)為第一組的下限。按組距依次寫出各組段的下限及短橫,見表4.3組段行,注意短橫“-”不能略去。
(四) 劃線記數(shù) 像選舉開票那樣,將變量值逐個歸入相應的組段,如將64.4歸入“64-”組,63.8歸入“63-”組。每歸入一個變量值,在相應的組段內劃一豎線,每逢第五線則作一橫線跨在已劃出的四條豎線上,這樣五線連在一起最后計數(shù)時就很方便了。劃完后將每個組段內的線條數(shù)寫出,再將各組頻數(shù)合計,頻數(shù)表就編好了。
若事先不能確定合適的組數(shù),可先分細些,需要時再將相鄰兩組合并。而分粗了,再要分細,則只得重劃。
表4.4的資料編成頻數(shù)表(見表4.3)后,可看出變量值的分布情況,若繪成直方圖就更直觀。從圖4.1可看到橫坐標約為66.5cm處直方最高,表示變量值圍繞在66.5左右的最多;兩側對稱下降,大于66.5和小于66.5的變量值個數(shù)基本相等。這種類型的分布為對稱分布。第五章介紹的正態(tài)分布是其中最常見的一種。
圖4.1 西安市7歲男童坐高分布
此外,如圖4.2,變量值愈小頻數(shù)愈多圖形呈“L”形,圖4.3的頻數(shù)集中在變量值較小的一邊,右側尾部拖得很長。后兩種屬偏態(tài)分布。這三種頻數(shù)分布都只有一個高峰稱單峰分布。為更準確地說明分布的特征,對形狀相同的分布作出集中位置和離散程度的比較,就需計算頻數(shù)分布的一些特別值。如平均數(shù)、百分位數(shù)、極差、標準差、變異系數(shù)等。
圖4.2 某市1095天中居民意外死亡人數(shù)(1980-1982)
圖 4.3 204名軋鋼工人白細胞中大單核所占百分比
二、眾數(shù)、中位數(shù)、百分位數(shù)的意義及計算法
。ㄒ)眾數(shù) 出現(xiàn)次數(shù)最多的變量值,或頻數(shù)表上頻數(shù)最多組的組中值即為眾數(shù)。如表4.3中坐高的眾數(shù)是66.5cm。這樣僅由觀察所得的眾數(shù)稱為觀察眾數(shù)。同一資料常因所用組距不同和下限取值不同,觀察眾數(shù)稍有出入,故又稱概約眾數(shù),與觀察眾數(shù)相對應的尚有理論眾數(shù)。理論眾數(shù)的算法根據頻數(shù)曲線類型的不同而異,數(shù)學上為與極大值相應的橫坐標。
。ǘ)中位數(shù)及百分位數(shù)
1.中位數(shù) 將n個變量值從小到大排列后,居中的一數(shù)就是中位數(shù),符號為M,有的書上用Md。它將變量值分為兩半,一半比它小,一半比它大。
X1
當n為奇數(shù)時
(4.1)
當n為偶數(shù)時
(4.2)
當資料呈明顯偏態(tài),或有個別的特小、特大值存在時,中位數(shù)的代表性往往比均數(shù)好。例如有5個變量值8、9、9、10、19。其中4個在9左右,但由于受數(shù)值19的影響,均數(shù)為11,不能很好代表中等水平。求中位數(shù)
比較符合實際。
根據頻數(shù)表計算連續(xù)型變量的中位數(shù)可用式(4.3)或式(4.4)
。4.3)
或 。4.4)
式中L、U分別為中位數(shù)所在組的下限及上限,A1為小于L的各組的累計頻數(shù),A2為大于U的各組的累計頻數(shù),fM、i分別為中位數(shù)所在組的頻數(shù)和組距,F(xiàn)用表4.5說明計算步驟如下:
(1)求出中位數(shù)的位置。在頻數(shù)表上,數(shù)據已由小到大排好了。中位數(shù)將頻數(shù)等分為2,因此先計算n/2,得中位數(shù)的位置。
n/2=157/2=78.5
。2)列出頻數(shù)表、計算累計頻數(shù)。列頻數(shù)表時,組段的短橫“-”寫在兩個組段下限之間,其意義仍與寫在右邊的相同,見表4.5第(1)欄。
第(3)欄為累計頻數(shù)。此例自上而下累計到略小于n/2為止得A1=41,表示住院天數(shù)為10天及以下的有41個人。若要知道第78.5人的變量值,就需要從10-15組內再累計(78.5-41=)37.5人。假定該組的49人在10-15天內均勻分布著(見圖4.4),那么只要在10天上再加(78.5-41)/49個組距便是中位數(shù)了。所以
用符號表示見式(4.3)。
若將頻數(shù)自下而上累計到略小于n/2為止,則得A2=67。也得出中位數(shù)在10-15組段內。
圖4.4 中位數(shù)計算示意圖
(3)寫出L或U、fM及i。
。4)代入公式得M。
例4.1 求桿菌痢疾治愈者157名住院天數(shù)的中位數(shù)。
n/2=157/2=78.5
表4.5 桿菌痢疾治愈者的住院天數(shù)
L=10或U=15,fM=49,i=5。
代入公式
桿菌痢疾治愈者住院天數(shù)的中位數(shù)為13.8天。
中位數(shù)既然把頻數(shù)等分為二,所以從另一端算起,用式(4.4)可得到同樣的結果。
此例若計算治愈者平均住院天數(shù)得17.9天。從頻數(shù)表上可看到157名患者中住院天數(shù)少于15天的就有90名,占57.3%,因此中位數(shù)13.8天的代表性優(yōu)于均數(shù)17.9天。
2.百分位數(shù) 中位數(shù)將頻數(shù)等分為二,亦稱二分位數(shù)。若將頻數(shù)等分為四,則稱四分位數(shù),共有三個四分位數(shù),即第一、第二、第三四分位數(shù)。第二四分位數(shù)即中位數(shù)。同理,將頻數(shù)等分為十或一百的分位數(shù)稱十分位數(shù)或百分位數(shù)。其實上述各種分位數(shù)都可用百分位數(shù)表示。百分位數(shù)的符號為Px,X代表第X百分位。例如第一四分位數(shù)、中位數(shù)可分別以P25、P50表示。計算百分位數(shù)的方法與中位數(shù)相似,只是式(4.3)中的n/2以nx/100代替,M以X代替。
。4.5)
式中LX、fx、ix分別為Px所在組的下限、頻數(shù)及組距。A為小于Lx各組的累計頻數(shù)。
例4.2,求例4.1中住院天數(shù)的P90。
(1)計算
。2)累計頻數(shù)自上而下至略小于141.3,見表4.5第(4)欄,得A=135。知P90在30-35組內,因此Lx=30,i=5,fx=7
。3)代入公式
第90百分位數(shù)為34.5天,說明有90%的患者住院天數(shù)在34.5天以下。
三、算術均數(shù)與幾何均數(shù)的意義及計算方法
。ㄒ)算術均數(shù) 簡稱均數(shù)。設觀察了n個變量值X1,X2,……Xa,一般可直接用式(4.6)求樣本均數(shù)X。
式中∑是總和的符號,n是樣本含量即例數(shù)。本書在不會引起誤解的情況下簡寫成
X=1/n∑X (4.6)
例4.318-24歲非心臟疾患死亡的男子心臟重量(g)如下,求心重的均數(shù)。
350 | 320 | 260 | 380 | 270 | 235 | 285 | 300 | 300 | 200 |
275 | 280 | 290 | 310 | 300 | 280 | 300 | 310 | 310 | 320 |
X=1/20(350+320+…+320)=5875/20=293.75g
樣本均數(shù)是總體均數(shù)的估計值,它有兩個特性。(1)∑(X-X)=0,(2)∑(X-X)2為最小,前者讀者
可自證,后者證明如下:
設:a≠X,則a=X±d d>0
∑(X-a)2=∑(X-X±d)2
=∑[(X-X)±d]2
=∑(X-X)2±2d∑(X-X)+Nd2
從第一個特性知∑(X-X)=0,因此2d∑(X-X)=0,
得
∑(X-a)2=∑(X-X)2+Nd2
N是例數(shù),不可能為負,所以Nd2也不會是負數(shù)。
∑(X-a)2>∑(X-X)2,∑(X-X)2為最小。
當用電子計算機處理大量實驗數(shù)據,考慮到有較大舍入誤差時,則先取一較近均數(shù)的常數(shù)c ,然后用式(4.7)計算,可提高均數(shù)的精度。
X=C+1/n×(Xi-C) (4.7)
若每輸入一個變量值后都希望得到均數(shù),那么可用式(4.8)
X=X n-1+1/n×(Xn-Xn-1 (4.8)
例4.4 仍用例4.3資料,已算得前19例心重的X10=292.37,又測得X20=320,求X20。
X20=292.37+1/20×(320-292.37)=293.75g
若相同的變量值個數(shù)較多,或對頻數(shù)表資料求均數(shù)時,可用式(4.9)計算X。
或簡寫為X=1/n∑fX (4.9)
式中K為不同變量值個數(shù),或頻數(shù)表中的組段數(shù)。Xi為第i個不同的變量值或頻數(shù)表上的組中值,fi為第i個變量值的頻數(shù)。
例4.5 計算表4.5菌痢治愈者的平均住院天數(shù)。
X=1/157(3×2.5+38×7.5……+1×77.5)=17.9天
式(4.9)中某變量值的頻數(shù)愈大,則該變量值對X的影響亦愈大。因此,頻數(shù)又稱權數(shù),這樣
計算出來的均數(shù)又叫加權均數(shù)。亦有根據變量值的重要性進行加權,計算加權均數(shù)的。
。ǘ)幾何均數(shù) 設n個變量值X1,X2,……,Xa呈對數(shù)正態(tài)分布,其幾何均數(shù)G為
式中∏為連乘的符號。當變量值較多時,乘積很大,計算不便,常改用下式計算
(4.10)
或 (4.11)
式中符號含義同式(4.6)與式(4.9)。
例4.6 求下表中麻疹病毒特異性IgG熒光抗體的平均滴度。
表4.6 52例麻疹患者恢復期血清麻疹病毒
特異性IgG熒光抗體滴度
IgG滴度倒數(shù) | 例數(shù) |
40 | 3 |
80 | 22 |
160 | 17 |
320 | 9 |
640 | 0 |
1280 | 1 |
G=log-1[1/52×(3log40+22log80+…+log1280)]=129.3
麻疹患者恢復期血清麻疹病毒特異性IgG熒光抗體的平均滴度為1:129。
式(4.10)包含三個步驟,(1)令Xi=logXi,則式(4.10)可寫成;(2)1/n∑Xi
即對數(shù)數(shù)值的均數(shù)X;(3)將X取反對數(shù)即得幾何均數(shù)1og-1X=G。這里不難理解,若將這種資料作對數(shù)變換后,即可用式(4.6)至式(4.9)的各式計算均數(shù),得到結果后再取反對數(shù)即得幾何均數(shù)。讀者可自已驗證。
四、運用平均數(shù)的注意事項
平均數(shù)是描述一群同質變量值集中位置的特征值,用來說明某現(xiàn)象或事物數(shù)量的中等水平。通常用平均數(shù)作為算術均數(shù)、幾何均數(shù)、眾數(shù)、中位數(shù)等的統(tǒng)稱,而以均數(shù)作為算術均數(shù)的簡稱。
1.同質的事物或現(xiàn)象才能求平均數(shù) 我們檢查200名正常人的紅細胞數(shù)(萬/mm3)計算平均數(shù),定出正常值范圍,作為診斷貧血的依據之一。如果正常人中混有貧血患者,那么求出的平均數(shù)既不能說明正常人也不能說明貧血患者,有人把它稱為虛構的平均數(shù),因為它模糊了數(shù)量特征,不能提供分析的依據了。因此計算平均數(shù)以前必須考慮資料的同質性。有人研究某藥物的利尿作用,觀察了二條狗、三頭兔子用藥前后的排尿滴數(shù),曾將狗與兔子的排尿滴數(shù)加在一起求平均數(shù)。由于狗體大,排尿滴數(shù)較兔子的多,得到的平均數(shù)對狗來說似嫌少,而對兔子來說又顯得太多,這是虛構平均數(shù)的又一例。
像狗與兔子,貧血患者與正常人的不同質是顯而易見的。但即使是正常人,性別、年齡、地區(qū)不同,紅細胞數(shù)的均數(shù)也有差異。那么怎樣才算是同質呢?是否同質,要根據研究目的而定。例如研究痢疾患者的平均治愈日數(shù)時,要考慮不同病原菌、不同型別(急性、慢性等)的患者是不同質的。但當研究傳染病的住院日數(shù)時,則不同疾病(痢疾、傷寒、……)是不同質的,而所有痢疾病人,不論由何種病原菌引起,或是何種型別都認為是同質的了。若研究各醫(yī)院的平均住院天數(shù)時,醫(yī)院類型(傳染病院、兒童醫(yī)院、綜合醫(yī)院、……)以及同類醫(yī)院中,科室(內、外、傳染……)設置及床位分配不同等就是不同質的了。不同質的事物就要分組求平均數(shù),以便分析比較。因此科學的平均數(shù)是建立在分組的基礎上的。
2.用組平均數(shù)補充總平均數(shù) 表4.7是某院1983年的治愈者平均住院天數(shù)。總均數(shù)為18天。但從表中可見,它所包含的20類(其他類除外)的疾病中,變態(tài)反應及中毒、小兒科疾病住院天數(shù)最短為9天,而結核病的卻長達60天。住院天數(shù)高于總均數(shù)的有10類,治愈人數(shù)共1358人,占治愈總人數(shù)(其他類除外)的35%。若醫(yī)療質量基本不變,多收結核病人,住院天數(shù)的總均數(shù)無疑會延長;而多收小兒患者,總均數(shù)就會縮短。因此如沒有收容病種的分析,僅從總均數(shù)的延長或縮短來看醫(yī)療質量是不科學的。而對各時期同種疾病的住院天數(shù)進行分析,比較適宜。
表4.7某醫(yī)院1983年各類疾病治愈者的平均住院天數(shù)
病類 | 治愈人數(shù) | 平均住院天數(shù) | 病類 | 治愈人數(shù) | 平均住院天數(shù) |
傳染病寄生蟲病 | 437 | 13 | 外科疾病 | 549 | 18 |
結核病 | 109 | 60 | 外傷 | 383 | 28 |
呼吸系疾病 | 246 | 14 | 腫瘤 | 65 | 34 |
消化系疾病 | 255 | 24 | 眼科疾病 | 112 | 14 |
內分泌疾病 | 41 | 35 | 耳鼻喉科疾病 | 417 | 10 |
循環(huán)系疾病 | 34 | 37 | 口腔科疾病 | 30 | 12 |
血液及造血系統(tǒng)疾病 | 7 | 33 | 皮膚科疾病 | 224 | 22 |
神經系疾病 | 111 | 25 | 婦產科疾病 | 78 | 12 |
變態(tài)反應及中毒 | 43 | 9 | 小兒疾病 | 601 | 9 |
風濕病 | 21 | 10 | 其他 | 35 | 19 |
泌尿系疾病 | 129 | 21 | 合計 | 3927 | 18 |
3.根據資料的分布選用適當?shù)钠骄鶖?shù) 計量資料如是單峰對稱分布,宜用均數(shù),亦可用中位數(shù)。若是偏態(tài)分布則中位數(shù)的代表性常較均數(shù)為好。某些傳染病的潛伏期、抗體滴度、細菌計數(shù)、率或比的變化速度及某些物質濃度等,其頻數(shù)分布明顯偏態(tài),但經對數(shù)代換后近于正態(tài)分布的,如圖4.3資料,應計算幾何均數(shù)以描述其中等水平。