網站首頁
醫(yī)師
藥師
護士
衛(wèi)生資格
高級職稱
住院醫(yī)師
畜牧獸醫(yī)
醫(yī)學考研
醫(yī)學論文
醫(yī)學會議
考試寶典
網校
論壇
招聘
最新更新
網站地圖
您現(xiàn)在的位置: 醫(yī)學全在線 > 理論教學 > 基礎學科 > 醫(yī)學統(tǒng)計學 > 正文:平均數(shù)
    

平均數(shù)

  一、頻數(shù)表的編制與頻數(shù)分布

  計量資料有離散型變量和連續(xù)型變量。對離散型變量,可列出變量值及其頻數(shù)如表4.1。若變量值較多時,亦可用組段表示如表4.2。每個組段的起點稱下限,終點稱上限,上限與下限之差稱組距。如表4.2第一組的下限是0,上限是1。第二組的下限是2上限是3,組距都是1。歸組以后,該組的變量值用組段的中值代表,稱組中值。如第一組的組中值為0.5。

表4.1 某市居民1095天中每天意外死亡人數(shù)(1980~82年)

死亡人數(shù) 天數(shù)
0 807
1 250
2 31
3 5
4 0
5 0
6 0
7 1
8 0
15 1
合 計 1095

表4.2 204名軋鋼工人白細胞中大單核所占百分比

大單核數(shù)(個/每百白細胞) 人數(shù)
0-1 24
2-3 40
4-5 55
6-7 37
8-9 27
10-11 18
12-13 1
14-15 0
16-17 1
18-19 0
20-21 1
合計 204

  若是連續(xù)型變量,組段的寫法與離散型變量的略有不同。如表4.3坐高第一組段下限為61,上限為62;第二組段的下限為62,上限為63。因此,上一組段的上限和下一組段的下限值相同。為便于歸組,上限一般不寫出來。如第一組寫成“61-”,意思是凡坐高在61至未離散型變最的數(shù)值較大時,亦可按連續(xù)型變量寫組段,如紅細胞數(shù)(萬/mm3)的組段應寫成400-419,420-439,…,亦可簡化寫成400-,420-,…。這樣由組段和頻數(shù)兩部分組成的表稱為頻數(shù)表。下面用表4.4資料說明頻數(shù)表編制步驟,…

表4.3 某市7歲男童坐高頻數(shù)表

表 4.4 西安市7歲男童102人的坐高,cm

64.4 63.8 64.5 66.8 66.5 66.3 68.3 67.2 68.0 67.9
63.2 64.6 64.8 66.2 68.0 66.7 67.4 68.6 66.8 66.9
63.2 61.1 65.0 65.0 66.4 69.1 66.8 66.4 67.5 68.1
69.7 62.5 64.3 66.3 66.6 67.8 65.9 67.9 65.9 69.8
71.1 70.1 64.9 66.1 67.3 66.8 65.0 65.7 68.4 67.6
69.5 67.5 62.4 62.6 66.5 67.2 64.5 65.7 67.0 65.1
70.0 69.6 64.7 65.8 64.2 67.3 65.0 65.0 67.2 70.2
68.0 68.2 63.2 64.6 64.2 64.5 65.9 66.6 69.2 71.2
68.3 70.8 65.3 64.2 68.0 66.7 65.6 66.8 67.9 67.6
70.4 68.4 64.3 66.0 67.3 65.6 66.0 66.9 67.4 68.5
68.3 69.7                

  (二)找出原始資料中的最小、最大值 表4.4坐高的最大值為71.2cm,最小值為61.1cm,最大值與最小值之差稱極差為10.1cm。

 。ǘ)定組距 先考慮組數(shù)。資料在100例以上的一般分10-15組。若例數(shù)較少,組數(shù)可相應少些;例數(shù)很多,組數(shù)可酌情多些,以能顯示分布的規(guī)律為宜。此例擬分10組。將擬分的組數(shù)除極差(10.1/10≈1)得組距的約數(shù)。再調整到較方便的數(shù)如0.1、0.2、0.5,1、2、5、10、20、50……等。此例取組距為1。

 。ㄈ)寫組段 取等于或略小于最小值的整數(shù)為第一組的下限。按組距依次寫出各組段的下限及短橫,見表4.3組段行,注意短橫“-”不能略去。

  (四) 劃線記數(shù) 像選舉開票那樣,將變量值逐個歸入相應的組段,如將64.4歸入“64-”組,63.8歸入“63-”組。每歸入一個變量值,在相應的組段內劃一豎線,每逢第五線則作一橫線跨在已劃出的四條豎線上,這樣五線連在一起最后計數(shù)時就很方便了。劃完后將每個組段內的線條數(shù)寫出,再將各組頻數(shù)合計,頻數(shù)表就編好了。

  若事先不能確定合適的組數(shù),可先分細些,需要時再將相鄰兩組合并。而分粗了,再要分細,則只得重劃。

  表4.4的資料編成頻數(shù)表(見表4.3)后,可看出變量值的分布情況,若繪成直方圖就更直觀。從圖4.1可看到橫坐標約為66.5cm處直方最高,表示變量值圍繞在66.5左右的最多;兩側對稱下降,大于66.5和小于66.5的變量值個數(shù)基本相等。這種類型的分布為對稱分布。第五章介紹的正態(tài)分布是其中最常見的一種。

圖4.1 西安市7歲男童坐高分布

  此外,如圖4.2,變量值愈小頻數(shù)愈多圖形呈“L”形,圖4.3的頻數(shù)集中在變量值較小的一邊,右側尾部拖得很長。后兩種屬偏態(tài)分布。這三種頻數(shù)分布都只有一個高峰稱單峰分布。為更準確地說明分布的特征,對形狀相同的分布作出集中位置和離散程度的比較,就需計算頻數(shù)分布的一些特別值。如平均數(shù)、百分位數(shù)、極差、標準差、變異系數(shù)等。

圖4.2 某市1095天中居民意外死亡人數(shù)(1980-1982)

圖 4.3 204名軋鋼工人白細胞中大單核所占百分比

  二、眾數(shù)、中位數(shù)、百分位數(shù)的意義及計算法

 。ㄒ)眾數(shù) 出現(xiàn)次數(shù)最多的變量值,或頻數(shù)表上頻數(shù)最多組的組中值即為眾數(shù)。如表4.3中坐高的眾數(shù)是66.5cm。這樣僅由觀察所得的眾數(shù)稱為觀察眾數(shù)。同一資料常因所用組距不同和下限取值不同,觀察眾數(shù)稍有出入,故又稱概約眾數(shù),與觀察眾數(shù)相對應的尚有理論眾數(shù)。理論眾數(shù)的算法根據頻數(shù)曲線類型的不同而異,數(shù)學上為與極大值相應的橫坐標。

 。ǘ)中位數(shù)及百分位數(shù)

  1.中位數(shù) 將n個變量值從小到大排列后,居中的一數(shù)就是中位數(shù),符號為M,有的書上用Md。它將變量值分為兩半,一半比它小,一半比它大。

  X12<…n-1a

  當n為奇數(shù)時

             (4.1)

  當n為偶數(shù)時

(4.2)

  當資料呈明顯偏態(tài),或有個別的特小、特大值存在時,中位數(shù)的代表性往往比均數(shù)好。例如有5個變量值8、9、9、10、19。其中4個在9左右,但由于受數(shù)值19的影響,均數(shù)為11,不能很好代表中等水平。求中位數(shù)

  比較符合實際。

  根據頻數(shù)表計算連續(xù)型變量的中位數(shù)可用式(4.3)或式(4.4)

 。4.3)

  或        。4.4)

  式中L、U分別為中位數(shù)所在組的下限及上限,A1為小于L的各組的累計頻數(shù),A2為大于U的各組的累計頻數(shù),fM、i分別為中位數(shù)所在組的頻數(shù)和組距,F(xiàn)用表4.5說明計算步驟如下:

  (1)求出中位數(shù)的位置。在頻數(shù)表上,數(shù)據已由小到大排好了。中位數(shù)將頻數(shù)等分為2,因此先計算n/2,得中位數(shù)的位置。

  n/2=157/2=78.5

 。2)列出頻數(shù)表、計算累計頻數(shù)。列頻數(shù)表時,組段的短橫“-”寫在兩個組段下限之間,其意義仍與寫在右邊的相同,見表4.5第(1)欄。

  第(3)欄為累計頻數(shù)。此例自上而下累計到略小于n/2為止得A1=41,表示住院天數(shù)為10天及以下的有41個人。若要知道第78.5人的變量值,就需要從10-15組內再累計(78.5-41=)37.5人。假定該組的49人在10-15天內均勻分布著(見圖4.4),那么只要在10天上再加(78.5-41)/49個組距便是中位數(shù)了。所以

  用符號表示見式(4.3)。

  若將頻數(shù)自下而上累計到略小于n/2為止,則得A2=67。也得出中位數(shù)在10-15組段內。

圖4.4 中位數(shù)計算示意圖

  (3)寫出L或U、fM及i。

 。4)代入公式得M。

  例4.1 求桿菌痢疾治愈者157名住院天數(shù)的中位數(shù)。

  n/2=157/2=78.5

表4.5 桿菌痢疾治愈者的住院天數(shù)

  L=10或U=15,fM=49,i=5。

  代入公式

  桿菌痢疾治愈者住院天數(shù)的中位數(shù)為13.8天。

  中位數(shù)既然把頻數(shù)等分為二,所以從另一端算起,用式(4.4)可得到同樣的結果。

  此例若計算治愈者平均住院天數(shù)得17.9天。從頻數(shù)表上可看到157名患者中住院天數(shù)少于15天的就有90名,占57.3%,因此中位數(shù)13.8天的代表性優(yōu)于均數(shù)17.9天。

  2.百分位數(shù) 中位數(shù)將頻數(shù)等分為二,亦稱二分位數(shù)。若將頻數(shù)等分為四,則稱四分位數(shù),共有三個四分位數(shù),即第一、第二、第三四分位數(shù)。第二四分位數(shù)即中位數(shù)。同理,將頻數(shù)等分為十或一百的分位數(shù)稱十分位數(shù)或百分位數(shù)。其實上述各種分位數(shù)都可用百分位數(shù)表示。百分位數(shù)的符號為Px,X代表第X百分位。例如第一四分位數(shù)、中位數(shù)可分別以P25、P50表示。計算百分位數(shù)的方法與中位數(shù)相似,只是式(4.3)中的n/2以nx/100代替,M以X代替。

       。4.5)

  式中LX、fx、ix分別為Px所在組的下限、頻數(shù)及組距。A為小于Lx各組的累計頻數(shù)。

  例4.2,求例4.1中住院天數(shù)的P90。

  (1)計算  

 。2)累計頻數(shù)自上而下至略小于141.3,見表4.5第(4)欄,得A=135。知P90在30-35組內,因此Lx=30,i=5,fx=7

 。3)代入公式

  第90百分位數(shù)為34.5天,說明有90%的患者住院天數(shù)在34.5天以下。

  三、算術均數(shù)與幾何均數(shù)的意義及計算方法

 。ㄒ)算術均數(shù) 簡稱均數(shù)。設觀察了n個變量值X1,X2,……Xa,一般可直接用式(4.6)求樣本均數(shù)X。

  式中∑是總和的符號,n是樣本含量即例數(shù)。本書在不會引起誤解的情況下簡寫成

  X=1/n∑X (4.6)

  例4.318-24歲非心臟疾患死亡的男子心臟重量(g)如下,求心重的均數(shù)。

350 320 260 380 270 235 285 300 300 200
275 280 290 310 300 280 300 310 310 320

  X=1/20(350+320+…+320)=5875/20=293.75g

  樣本均數(shù)是總體均數(shù)的估計值,它有兩個特性。(1)∑(X-X)=0,(2)∑(X-X)2為最小,前者讀者

  可自證,后者證明如下:

  設:a≠X,則a=X±d d>0

  ∑(X-a)2=∑(X-X±d)2

        =∑[(X-X)±d]2

    =∑(X-X)2±2d∑(X-X)+Nd2

  從第一個特性知∑(X-X)=0,因此2d∑(X-X)=0,

  得

  ∑(X-a)2=∑(X-X)2+Nd2

   N是例數(shù),不可能為負,所以Nd2也不會是負數(shù)。

  ∑(X-a)2>∑(X-X)2,∑(X-X)2為最小。

  當用電子計算機處理大量實驗數(shù)據,考慮到有較大舍入誤差時,則先取一較近均數(shù)的常數(shù)c ,然后用式(4.7)計算,可提高均數(shù)的精度。

  X=C+1/n×(Xi-C)           (4.7)

  若每輸入一個變量值后都希望得到均數(shù),那么可用式(4.8)

  X=X n-1+1/n×(Xn-Xn-1        (4.8)

  例4.4 仍用例4.3資料,已算得前19例心重的X10=292.37,又測得X20=320,求X20。

  X20=292.37+1/20×(320-292.37)=293.75g

  若相同的變量值個數(shù)較多,或對頻數(shù)表資料求均數(shù)時,可用式(4.9)計算X。

    或簡寫為X=1/n∑fX (4.9)

  式中K為不同變量值個數(shù),或頻數(shù)表中的組段數(shù)。Xi為第i個不同的變量值或頻數(shù)表上的組中值,fi為第i個變量值的頻數(shù)。

  例4.5 計算表4.5菌痢治愈者的平均住院天數(shù)。

  X=1/157(3×2.5+38×7.5……+1×77.5)=17.9天

  式(4.9)中某變量值的頻數(shù)愈大,則該變量值對X的影響亦愈大。因此,頻數(shù)又稱權數(shù),這樣

  計算出來的均數(shù)又叫加權均數(shù)。亦有根據變量值的重要性進行加權,計算加權均數(shù)的。

 。ǘ)幾何均數(shù) 設n個變量值X1,X2,……,Xa呈對數(shù)正態(tài)分布,其幾何均數(shù)G為

  式中∏為連乘的符號。當變量值較多時,乘積很大,計算不便,常改用下式計算

 (4.10)

  或        (4.11)

  式中符號含義同式(4.6)與式(4.9)。

  例4.6 求下表中麻疹病毒特異性IgG熒光抗體的平均滴度。

表4.6 52例麻疹患者恢復期血清麻疹病毒
特異性IgG熒光抗體滴度

IgG滴度倒數(shù) 例數(shù)
40 3
80 22
160 17
320 9
640 0
1280 1

  G=log-1[1/52×(3log40+22log80+…+log1280)]=129.3

  麻疹患者恢復期血清麻疹病毒特異性IgG熒光抗體的平均滴度為1:129。

  式(4.10)包含三個步驟,(1)令Xi=logXi,則式(4.10)可寫成;(2)1/n∑Xi

  即對數(shù)數(shù)值的均數(shù)X;(3)將X取反對數(shù)即得幾何均數(shù)1og-1X=G。這里不難理解,若將這種資料作對數(shù)變換后,即可用式(4.6)至式(4.9)的各式計算均數(shù),得到結果后再取反對數(shù)即得幾何均數(shù)。讀者可自已驗證。

  四、運用平均數(shù)的注意事項

  平均數(shù)是描述一群同質變量值集中位置的特征值,用來說明某現(xiàn)象或事物數(shù)量的中等水平。通常用平均數(shù)作為算術均數(shù)、幾何均數(shù)、眾數(shù)、中位數(shù)等的統(tǒng)稱,而以均數(shù)作為算術均數(shù)的簡稱。

  1.同質的事物或現(xiàn)象才能求平均數(shù) 我們檢查200名正常人的紅細胞數(shù)(萬/mm3)計算平均數(shù),定出正常值范圍,作為診斷貧血的依據之一。如果正常人中混有貧血患者,那么求出的平均數(shù)既不能說明正常人也不能說明貧血患者,有人把它稱為虛構的平均數(shù),因為它模糊了數(shù)量特征,不能提供分析的依據了。因此計算平均數(shù)以前必須考慮資料的同質性。有人研究某藥物的利尿作用,觀察了二條狗、三頭子用藥前后的排尿滴數(shù),曾將狗與兔子的排尿滴數(shù)加在一起求平均數(shù)。由于狗體大,排尿滴數(shù)較兔子的多,得到的平均數(shù)對狗來說似嫌少,而對兔子來說又顯得太多,這是虛構平均數(shù)的又一例。

  像狗與兔子,貧血患者與正常人的不同質是顯而易見的。但即使是正常人,性別、年齡、地區(qū)不同,紅細胞數(shù)的均數(shù)也有差異。那么怎樣才算是同質呢?是否同質,要根據研究目的而定。例如研究痢疾患者的平均治愈日數(shù)時,要考慮不同病原菌、不同型別(急性、慢性等)的患者是不同質的。但當研究傳染病的住院日數(shù)時,則不同疾病(痢疾、傷寒、……)是不同質的,而所有痢疾病人,不論由何種病原菌引起,或是何種型別都認為是同質的了。若研究各醫(yī)院的平均住院天數(shù)時,醫(yī)院類型(傳染病院、兒童醫(yī)院、綜合醫(yī)院、……)以及同類醫(yī)院中,科室(內、外、傳染……)設置及床位分配不同等就是不同質的了。不同質的事物就要分組求平均數(shù),以便分析比較。因此科學的平均數(shù)是建立在分組的基礎上的。

  2.用組平均數(shù)補充總平均數(shù) 表4.7是某院1983年的治愈者平均住院天數(shù)。總均數(shù)為18天。但從表中可見,它所包含的20類(其他類除外)的疾病中,變態(tài)反應及中毒、小兒科疾病住院天數(shù)最短為9天,而結核病的卻長達60天。住院天數(shù)高于總均數(shù)的有10類,治愈人數(shù)共1358人,占治愈總人數(shù)(其他類除外)的35%。若醫(yī)療質量基本不變,多收結核病人,住院天數(shù)的總均數(shù)無疑會延長;而多收小兒患者,總均數(shù)就會縮短。因此如沒有收容病種的分析,僅從總均數(shù)的延長或縮短來看醫(yī)療質量是不科學的。而對各時期同種疾病的住院天數(shù)進行分析,比較適宜。

表4.7某醫(yī)院1983年各類疾病治愈者的平均住院天數(shù)

病類 治愈人數(shù) 平均住院天數(shù) 病類 治愈人數(shù) 平均住院天數(shù)
傳染病寄生蟲病 437 13 外科疾病 549 18
結核病 109 60 外傷 383 28
呼吸系疾病 246 14 腫瘤 65 34
消化系疾病 255 24 眼科疾病 112 14
內分泌疾病 41 35 耳鼻喉科疾病 417 10
循環(huán)系疾病 34 37 口腔科疾病 30 12
血液及造血系統(tǒng)疾病 7 33 皮膚科疾病 224 22
神經系疾病 111 25 婦產科疾病 78 12
變態(tài)反應及中毒 43 9 小兒疾病 601 9
風濕病 21 10 其他 35 19
泌尿系疾病 129 21 合計 3927 18

  3.根據資料的分布選用適當?shù)钠骄鶖?shù) 計量資料如是單峰對稱分布,宜用均數(shù),亦可用中位數(shù)。若是偏態(tài)分布則中位數(shù)的代表性常較均數(shù)為好。某些傳染病的潛伏期、抗體滴度、細菌計數(shù)、率或比的變化速度及某些物質濃度等,其頻數(shù)分布明顯偏態(tài),但經對數(shù)代換后近于正態(tài)分布的,如圖4.3資料,應計算幾何均數(shù)以描述其中等水平。

關于我們 - 聯(lián)系我們 -版權申明 -誠聘英才 - 網站地圖 - 醫(yī)學論壇 - 醫(yī)學博客 - 網絡課程 - 幫助
醫(yī)學全在線 版權所有© CopyRight 2006-2026, MED126.COM, All Rights Reserved
浙ICP備12017320號
百度大聯(lián)盟認證綠色會員可信網站 中網驗證