有三種方法可供選擇:算術(shù)平均值、中位數(shù)和眾數(shù)(本章介紹的是算術(shù)平均值,下一章講介紹中位數(shù)與眾數(shù))。如果是從樣本中得到的測(cè)量值,即為統(tǒng)計(jì)量。如果是從總體中得到的測(cè)量值,即為參數(shù)。(為了區(qū)別樣本值和總體值的不同,羅馬字符用于表示樣本統(tǒng)計(jì)量,而希臘字符用于表示總體參數(shù))。
算術(shù)平均值:平均值可以通過(guò)對(duì)各個(gè)不同的數(shù)值的計(jì)算得出來(lái),即用各個(gè)數(shù)的和除以數(shù)值的個(gè)數(shù)可以得到答案。
對(duì)于一組簡(jiǎn)單的樣本數(shù)據(jù)X1,X2,X3,…,Xn,樣本的算術(shù)均值可以這樣表示:
為了更好的理解樣本均值的概念,不妨和個(gè)人生活常識(shí)結(jié)合起來(lái)考慮。很多人會(huì)困惑,為什么早上準(zhǔn)備去工作的這段時(shí)間總是比期望的要長(zhǎng)一些,但是很少有人真正的測(cè)量過(guò)他們?cè)缟蠈?shí)際所花費(fèi)在準(zhǔn)備階段的時(shí)間。假定你把從起床到離開家的這段時(shí)間以分鐘來(lái)計(jì)時(shí)(四舍五入到最接近的分鐘數(shù))。你連續(xù)的在10個(gè)工作日測(cè)量,得到如下數(shù)據(jù):
為了要算出時(shí)間均值,首先要得出所有數(shù)值的和是多少,39+29+43+52+39+44+40+31+44+35=396。然后將其值3%除以個(gè)數(shù)10,得到39.6,這就是所求的時(shí)間均值。
雖然時(shí)間的均值是39.6,但這并不意味著在一個(gè)單獨(dú)的樣本里,值也正好是39.6。而它只是表達(dá)出樣本值的集中趨勢(shì)的屬性而已,均值的計(jì)算也是基于所有樣本值而得到的。
注意:當(dāng)使用算術(shù)平均值的時(shí)候,由于計(jì)算基于每個(gè)具體的數(shù)據(jù)的值,均值會(huì)被某個(gè)極端的特殊的值影響。當(dāng)出現(xiàn)這種情況時(shí),均值就無(wú)法正確反映數(shù)據(jù)的真實(shí)情況。因此,在這種有特殊值的情況下,均值就不是反映數(shù)據(jù)集合的集中趨勢(shì)的最佳方法。
為了驗(yàn)證極端值對(duì)數(shù)據(jù)的集中趨勢(shì)的影響,我們假定把上例中的時(shí)間的最大值52換成98,則均值可以這樣算出:
大家可以發(fā)現(xiàn)一個(gè)極端值可以讓均值變化的如此之大。和原先的數(shù)據(jù)相比,我們發(fā)現(xiàn)前例的均值是處在所有數(shù)據(jù)值之間的,而后例中的均值則比除了一個(gè)極端值以外其他9個(gè)值都要大。因此,均值對(duì)于表示數(shù)據(jù)的集中趨勢(shì)并不是一個(gè)非常好的方法。