第三講 統(tǒng)計(jì)的基本概念與計(jì)算
學(xué)習(xí)目標(biāo)
1掌握總體、個(gè)體、樣本及統(tǒng)計(jì)量的概念
2熟悉數(shù)據(jù)的整理方法
3掌握樣本均值、中位數(shù)的概念與計(jì)算
4掌握樣本極差、方差、標(biāo)準(zhǔn)差的概念與計(jì)算
一、 總體和樣本
定義 1 從全部對(duì)象中按一定方式抽取一部分對(duì)象的過程叫抽樣。
要進(jìn)行抽樣的原因:
1. 違背研究的本來目的。
2. 客觀上對(duì)全部對(duì)象進(jìn)行觀測或檢驗(yàn)是根本不可能的。
3. 對(duì)全部對(duì)象進(jìn)行檢測需要的成本很高,或者所需時(shí)間很長,或者兩者兼而有之。
4. 雖然根據(jù)抽樣調(diào)查的數(shù)據(jù)來推斷整體的情況必定帶來誤差,但在很多情況下,誤差可以容忍。
定義 2 在統(tǒng)計(jì)學(xué)中,所考察對(duì)象的全體稱為總體,而把組成總體的每個(gè)基本元素稱為個(gè)體。
為了研究的方便,把所關(guān)心個(gè)體的某個(gè)數(shù)量指標(biāo)稱為個(gè)體,而相應(yīng)的個(gè)體的集合稱為總體,一般用隨機(jī)變量X表示總體。
直觀意義:
例如,一批燈泡是總體,其中的每個(gè)燈泡是個(gè)體;一個(gè)城市的人口是總體,這個(gè)城市的每個(gè)人是個(gè)體。
抽樣的意義
人們從總體中抽取樣本是為了認(rèn)識(shí)總體。即從樣本推斷總體,如推斷總體是什么分布?總體均值為多少?總體的標(biāo)準(zhǔn)差是多少?為了使此種統(tǒng)計(jì)推斷有所依據(jù),推斷結(jié)果有效,由樣本獲得對(duì)總體的正確認(rèn)識(shí),需要對(duì)抽樣方法有一定的要求。
如為了了解女性所占的比例,不能專門到坦克部隊(duì)去取樣,也不能專門到紡織廠去取樣,而應(yīng)當(dāng)進(jìn)行隨機(jī)抽樣。直觀地講就是抽樣時(shí),每個(gè)個(gè)體被抽到的可能性相同。
設(shè)抽取個(gè)體的次數(shù)為 ,用 表示第i次試驗(yàn)相應(yīng)的隨機(jī)變量,則共有n個(gè)隨機(jī)變量,他們組成一個(gè)n維的隨機(jī)向量 ,一般把這個(gè)隨機(jī)向量 稱作總體X的樣本容量為n的樣本,而把對(duì)應(yīng)的抽樣結(jié)果稱作樣本值,記為 。
定義 3記總體為X,總體的分布函數(shù)為 ,一個(gè)樣本容量為 的樣本 如果滿足以下兩個(gè)條件,則稱為簡單隨機(jī)樣本:
(1) 隨機(jī)性。 與 具有相同的分布函數(shù) (2) 獨(dú)立性。 相互獨(dú)立。
以后,我們把簡單隨機(jī)樣本簡稱為樣本。
類似地,獲得簡單隨機(jī)樣本的抽樣方法稱為簡單隨機(jī)抽樣。
在實(shí)際抽樣時(shí),也應(yīng)按此要求從總體中進(jìn)行抽樣。這樣獲得的樣本能夠很好地反映實(shí)際總體的狀態(tài)。兩個(gè)不同的總體,若是按隨機(jī)性和獨(dú)立性要求進(jìn)行抽樣,則機(jī)會(huì)大的地方(概率密度值大〉被抽到樣本的個(gè)體就多;而機(jī)會(huì)少的地方(概率密度值小),被抽到樣本的個(gè)體就少。分布愈分散,樣本也就分散;分布愈集中,樣本也相對(duì)集中。
抽樣切忌受到干擾,特別是人為干擾。某些人為的傾向性會(huì)使所得樣本不是簡單隨機(jī)樣本,從而使最后的統(tǒng)計(jì)推斷失效。
統(tǒng)計(jì)學(xué)主要的任務(wù)
簡單地說,總體就是一個(gè)分布,不同總體有不同分布。統(tǒng)計(jì)學(xué)主要的任務(wù)就是:
l 研究總體是什么分布?
l 這個(gè)總體(分布)的均值、方差(或標(biāo)準(zhǔn)差)各是多少?
例1 對(duì)某產(chǎn)品僅考察其合格與否,并記合格品為0,不合格品為1‘
分析:
總體={該產(chǎn)品的全體}={由0或1組成的一堆數(shù)}
若記l在總體中所占比例為P,則該總體可用如下二項(xiàng)分布b(1,P)(n=l的二項(xiàng)分布)表示:
X01
P1-PP
例2有兩個(gè)工廠生產(chǎn)同一產(chǎn)品,甲廠的不合格品率P=0.01,乙廠的不合格品率P=0.08,甲乙兩廠所生產(chǎn)的產(chǎn)品(即兩個(gè)總體)分別用如下兩個(gè)分布描述:
X甲01
P0.990.01
X乙01
P0.920.08
例3考察某橡膠件的抗張強(qiáng)度。它可用0到∞上的一個(gè)實(shí)數(shù)表示,這時(shí)總體可用區(qū)間[0,∞]上的一個(gè)概率分布表示。國內(nèi)外橡膠業(yè)對(duì)其抗張強(qiáng)度有較多研究,認(rèn)為橡膠件的抗張強(qiáng)度服從正態(tài)分布 ,該總體常稱為正態(tài)總體。
例4例如某型號(hào)電視機(jī)的壽命全體所構(gòu)成的總體就是一個(gè)偏態(tài)分布。
又如兩個(gè)不同的正態(tài)總體混合也可以產(chǎn)生一個(gè)偏態(tài)總體。如將兩位不同的操作工(或在不同機(jī)器上,或用不同原料,或不同轉(zhuǎn)速等)生產(chǎn)的同一種零件混在一起,其質(zhì)量特性常呈偏態(tài)分布,應(yīng)該重視考察偏態(tài)分布產(chǎn)生的原因。
分析:用非對(duì)稱分布(即偏態(tài)分布)描述的總體也是常見的。
二、 統(tǒng)計(jì)量與抽樣分布
樣本來自總體,因此樣本中包含了有關(guān)總體的豐富的信息,但是這些信息是零散的,為了把這些零散的信息集中起來反映總體的特征,我們?nèi)〉脴颖局螅⒉皇侵苯永脴颖具M(jìn)行推斷,而需要對(duì)樣本進(jìn)行一番“加工”和“提煉”,把樣本中所包含的有關(guān)信息盡可能地集中起來,種有效的辦法就是針對(duì)不同的問題,構(gòu)造出樣本的某種函數(shù),這就是統(tǒng)計(jì)量。不同的函數(shù)可以反映總體的不同的特征。
1統(tǒng)計(jì)量
把不含未知參數(shù)的樣本函數(shù)稱為統(tǒng)計(jì)量。一個(gè)統(tǒng)計(jì)量也是一個(gè)隨機(jī)變量。
定義4:設(shè)(X1,X2,…,Xn)為取自總體X的一個(gè)樣本,g(X1,X2,…,Xn)為一個(gè)連續(xù)函數(shù),如果這個(gè)函數(shù)中不包含任何未知參數(shù),則稱g(X1,X2,…,Xn)為一個(gè)統(tǒng)計(jì)量。
例如,設(shè)X~N(m ,s 2),其中m 已知,s 2未知,(X1,X2,…,Xn)為取自X的樣本,則 是統(tǒng)計(jì)量, ---不是統(tǒng)計(jì)量。
統(tǒng)計(jì)量是樣本的函數(shù),因而統(tǒng)計(jì)量是隨機(jī)變量。
由統(tǒng)計(jì)量進(jìn)行推斷,便可獲得對(duì)總體的認(rèn)識(shí),統(tǒng)計(jì)推斷是數(shù)理統(tǒng)計(jì)的核心內(nèi)容。
2抽樣分布
統(tǒng)計(jì)量的分布稱為抽樣分布。
例:從均值為 ,方差為 的總體中抽得一個(gè)樣本量為n的樣本 ,其中 與 均未知。
在此情形, 是統(tǒng)計(jì)量;而 , 都
不是統(tǒng)計(jì)量,因?yàn)楹笳甙?, 等未知參數(shù)。
3常用統(tǒng)計(jì)量
常用統(tǒng)計(jì)量可分為兩類,一類是用來描述樣本的中心位置,另一類用來描述樣本的分散程度。為此先介紹有序樣本的概念,再引入幾個(gè)常用統(tǒng)計(jì)量。
有序樣本
設(shè) 是從總體X中隨機(jī)抽取的樣本,樣本量為n,將它們的觀測值從小到大排列為: ,這便是有序樣本。其中 是樣本中的最小觀測值, 是樣本中的觀測值。
例 從某種合金強(qiáng)度總體中隨機(jī)抽取樣本量為5的樣本,記為 ,樣本觀測值為:140,150,155,130,145
解析:將它們從小到大排序后為:130,140,145,150,155,這便是有序樣本,其中最小的觀測值為 =30,的觀測值為 =155。
(1)描述樣本的中心位置的統(tǒng)計(jì)量
總體中每一個(gè)個(gè)體的取值盡管是有差異的,但是總有一個(gè)中心位置,如樣本均值、樣本中位數(shù)等。描述樣本中心位置的統(tǒng)計(jì)量反映了總體的中心位置,常用的有以下幾種:
①樣本均值
樣本觀測值有大有小,樣本均值大致處于樣本的中間位置,它可以反映總體分布的均值。
例 上例數(shù)據(jù): ,樣本觀測值為:140,150,155,130,145。
樣本均值為 =(140+150+155+130+145)/5=144。
對(duì)分組數(shù)據(jù),樣本均值的近似值為
其中 是分組數(shù), 是第 組的組中值, 是第 組的頻數(shù), 。
例 下表是經(jīng)過整理的分組數(shù)據(jù)表,結(jié)出了110個(gè)電子元件的失效時(shí)間:
分組區(qū)間[0,400][400,800)[800,1200)[1200,1600)[1600, 2000)[2000,2400)
組中值xi2006001000140018002200
頻數(shù)ni628372397
解析:
平均失效時(shí)間近似為:
= 1170.9
②樣本中位數(shù)
中位數(shù)有時(shí)也記為Me。
當(dāng)n為奇數(shù)
, 當(dāng)n為偶數(shù)
例 現(xiàn)有一組數(shù)據(jù)(已經(jīng)排序):2,3,4,4,5,5,5,5,6,6,7,7,8,
解析:
共有13個(gè)數(shù)據(jù),處于中間位置的是第7個(gè)數(shù)據(jù),樣本中位數(shù)即為 。
(3)描述樣本數(shù)據(jù)分散程度的統(tǒng)計(jì)量
總體中各個(gè)個(gè)體的取值總是有差別的,因此樣本的觀測值也是有差異的,這種差異有大有小,反映樣本數(shù)據(jù)的分散程度的統(tǒng)計(jì)量實(shí)際上反映了總體取值的分散程度,常用的有如下幾種:
①樣本極差:
例 數(shù)據(jù)為 ,樣本觀測值為:140,150,155,130,145,那么將它們從小到大排序后為:130,140,145,150,155
解析:最小值為130,值為155,因此樣本極差R=155-130=25
②樣本方差:
同樣,對(duì)分組數(shù)據(jù)來講,樣本方差的近似值為:
例 數(shù)據(jù)為 ,樣本觀測值為:140,150,155,130,145
解析:
上式有兩個(gè)簡化的計(jì)算公式:
樣本極差的計(jì)算十分簡便,但對(duì)樣本中的信息利用得也較少,而樣本方差就能充分利用樣本中的信息,因此在實(shí)際中樣本方差比樣本極差用得更廣。
③樣本標(biāo)準(zhǔn)差:
在上例中 。
樣本標(biāo)準(zhǔn)差的意義:
樣本方差盡管對(duì)數(shù)據(jù)的利用是充分的,但是方差的量綱(即數(shù)據(jù)的單位)是原始量綱的平方,例如樣本觀測值是長度,單位是“毫米”,而方差的單位是“平方毫米”,單位不同就不便于比較,而采用樣本標(biāo)準(zhǔn)差就消除了單位的差異。
四 樣本數(shù)據(jù)的整理
從總體x中獲得的樣本是總體的一個(gè)縮影,具有豐富信息的數(shù)據(jù),我們需要對(duì)數(shù)據(jù)進(jìn)行加工,將有用的信息提取出來,以便對(duì)總體有所了解。
對(duì)數(shù)據(jù)加工有兩種方法:
一是計(jì)算統(tǒng)計(jì)量,二是利用圖形與表格。上面提到的便是常用的統(tǒng)計(jì)量,它具有概括性,但不夠形象,下面給出對(duì)效據(jù)進(jìn)行整理的表格與圖形描述。
下面我們結(jié)合一個(gè)例子來敘述對(duì)計(jì)量數(shù)據(jù)結(jié)出頻數(shù)頻率分布表的步驟。
|
例 食品廠用自動(dòng)裝罐機(jī)生產(chǎn)罐頭食品,由于工藝的限制,每個(gè)罐頭的實(shí)際重量有所波動(dòng),現(xiàn)從一批罐頭中隨機(jī)抽取100個(gè)稱其凈重,數(shù)據(jù)如下:
342 352 346 344 343 339 336 342 347 340 340 350 347 336 341
349 346 348 342 346 347 346 346 345 344 350 348 352 340 356
339 348 338 342 347 347 344 343 349 341 348 341 340 347 342
337 344 340 344 346 342 344 345 338 351 348 345 339 343 345
346 344 344 344 343 345 345 350 353 345 352 350 345 343 347
354 350 343 350 344 351 348 352 344 345 349 332 343 340 346
342 335 349 348 344 347 341 346 341 342
對(duì)這一樣本數(shù)據(jù)進(jìn)行整理。
解析:
步驟如下
①首先從給出的數(shù)據(jù)中找出其值 與最小值 ,并計(jì)算極差R= 一 。
在本例中 =356, =332,從而R=356-332=24
②根據(jù)樣本量n決定分組數(shù)k和每一組的組距h。
作頻數(shù)頻率分布表的目的是要顯示出數(shù)據(jù)中所隱藏的規(guī)律!因此分組數(shù)不能太少,也不宜太多。通??梢岳孟卤磉M(jìn)行選擇。
直方圖分組組數(shù)選用表
樣本量n推薦組數(shù)
50—1006—10
101—2507—12
250以上10—20
每一組的區(qū)間長度可以相同也可以不同,而區(qū)間長度相同的情況用得比較多。在區(qū)間長度相同時(shí),當(dāng)組數(shù)確定后,區(qū)間長度(即組距)可以用下式計(jì)算:
通常取為最小測量單位的整數(shù)倍。
在本例中,n=100的,取k=9,在等距分組時(shí),組距可以取為 。
③決定各組的區(qū)間端點(diǎn): ˉ
通常要求 。
必要時(shí)還可以計(jì)算各組的組中值 。
在本例中取 ,便可以逐一計(jì)算每一個(gè)組的組限,具體的值列下表。
④用唱票的方法統(tǒng)計(jì)樣本落在每一個(gè)區(qū)間中的個(gè)數(shù)(稱為頻數(shù)),記為 ,并計(jì)算每個(gè)區(qū)間
對(duì)應(yīng)的頻率 ,列出頻數(shù)頻率分布表。
本例的頻數(shù)頻率分布表見表。
頻數(shù)頻率分布表
組號(hào)區(qū) 間組中值頻數(shù)頻 率
1(331.5,334.5 33310.01
2(334.5,337.5 33640.04
3(337.5,340.5 339170.17
4(340.5,343.5 342270.27
5(343.5,346.5 34530 0.30
6(346.5,349.5 348 120.12
7(349.5,352.5 35170.07
8(352.5,355.5 354100.01
9(355.5,358.5 357100.01
合 計(jì) 100 1.00
可見,絕大多數(shù),罐頭凈重集中在337.5—352.5之間,特別是大量集中在340.5—349.5之間,而特別重的和特別輕的所占的比例很少。
用上表的數(shù)據(jù)可以畫出直方圖。
統(tǒng)計(jì)在線作業(yè)
1. 下表是一個(gè)分組樣本,其樣本均值 近似為( )。
分組區(qū)間(35,45](45,55](55,65](65,75]
頻數(shù)3872
A. 50 B. 54 C. 62 D. 64
答案: B
解析:四個(gè)分組區(qū)間的組中值分別為40,50,60,70。樣本均值
2. 某小型企業(yè)有員工共25人,他們的月薪如下:
月薪(元)人數(shù)月薪(元)人數(shù)
15000115004
10000112001
8000210008
300048004
該企業(yè)員工月薪中位數(shù)為( )元。
A. 3000 B. 1500 C. 1200 D. 1000
答案:C
解析:把25人月薪從小到大排序,第13人的月薪1200元即為中位數(shù)
3.調(diào)查100個(gè)家庭中擁有電視機(jī)臺(tái)數(shù)的頻數(shù)如下:
臺(tái)數(shù)0123
家庭數(shù)351397
則平均每個(gè)家庭擁有電視機(jī)的臺(tái)數(shù)為( )臺(tái)。
A. 3.5 B. 1.41 C. 1.20 D. 1.65
答案:A
解析:平均每個(gè)家庭擁有電視機(jī)的臺(tái)數(shù)= 4. 設(shè)10個(gè)數(shù)據(jù)的均值 為9.26,如今又得第11個(gè)數(shù)據(jù)9.92,則此11個(gè)數(shù)據(jù)的均值 =
( )。
A. 9.23 B..9.32 C.9.74 D.9.59
答案:A
解析:11個(gè)數(shù)據(jù)的均值 5. 樣本 減去100的得 。兩個(gè)樣本均值 與 間有如下關(guān)系: ,考察這兩個(gè)樣本的樣本方差 與 ,則有( )。
A. = +100 B.. C. D. 答案:D
解析: = 6. 測得某批電阻中五個(gè)電阻的阻值分別為8.1,7.9,8.0,8.1,8.2,則下列敘述正確的
有( )。
A. 樣本極差為0.3 B. 樣本中位數(shù)為8.1
C. 樣本均值為8.06 D. 樣本標(biāo)準(zhǔn)差為0.013
答案:A、B、C
解析:將數(shù)據(jù)按從小到大的順序排序后有:7.9,8.0,8.1,8.1,8.2,所以樣本極差為8.2-7.9=0.3,樣本中位數(shù)位于第3個(gè)位置,為8.1,樣本均值是(8.1+7.9+8.0+8.1+8.2)/5=8.06,樣本標(biāo)準(zhǔn)差為
學(xué)習(xí)目標(biāo)
1掌握總體、個(gè)體、樣本及統(tǒng)計(jì)量的概念
2熟悉數(shù)據(jù)的整理方法
3掌握樣本均值、中位數(shù)的概念與計(jì)算
4掌握樣本極差、方差、標(biāo)準(zhǔn)差的概念與計(jì)算
一、 總體和樣本
定義 1 從全部對(duì)象中按一定方式抽取一部分對(duì)象的過程叫抽樣。
要進(jìn)行抽樣的原因:
1. 違背研究的本來目的。
2. 客觀上對(duì)全部對(duì)象進(jìn)行觀測或檢驗(yàn)是根本不可能的。
3. 對(duì)全部對(duì)象進(jìn)行檢測需要的成本很高,或者所需時(shí)間很長,或者兩者兼而有之。
4. 雖然根據(jù)抽樣調(diào)查的數(shù)據(jù)來推斷整體的情況必定帶來誤差,但在很多情況下,誤差可以容忍。
定義 2 在統(tǒng)計(jì)學(xué)中,所考察對(duì)象的全體稱為總體,而把組成總體的每個(gè)基本元素稱為個(gè)體。
為了研究的方便,把所關(guān)心個(gè)體的某個(gè)數(shù)量指標(biāo)稱為個(gè)體,而相應(yīng)的個(gè)體的集合稱為總體,一般用隨機(jī)變量X表示總體。
直觀意義:
例如,一批燈泡是總體,其中的每個(gè)燈泡是個(gè)體;一個(gè)城市的人口是總體,這個(gè)城市的每個(gè)人是個(gè)體。
抽樣的意義
人們從總體中抽取樣本是為了認(rèn)識(shí)總體。即從樣本推斷總體,如推斷總體是什么分布?總體均值為多少?總體的標(biāo)準(zhǔn)差是多少?為了使此種統(tǒng)計(jì)推斷有所依據(jù),推斷結(jié)果有效,由樣本獲得對(duì)總體的正確認(rèn)識(shí),需要對(duì)抽樣方法有一定的要求。
如為了了解女性所占的比例,不能專門到坦克部隊(duì)去取樣,也不能專門到紡織廠去取樣,而應(yīng)當(dāng)進(jìn)行隨機(jī)抽樣。直觀地講就是抽樣時(shí),每個(gè)個(gè)體被抽到的可能性相同。
設(shè)抽取個(gè)體的次數(shù)為 ,用 表示第i次試驗(yàn)相應(yīng)的隨機(jī)變量,則共有n個(gè)隨機(jī)變量,他們組成一個(gè)n維的隨機(jī)向量 ,一般把這個(gè)隨機(jī)向量 稱作總體X的樣本容量為n的樣本,而把對(duì)應(yīng)的抽樣結(jié)果稱作樣本值,記為 。
定義 3記總體為X,總體的分布函數(shù)為 ,一個(gè)樣本容量為 的樣本 如果滿足以下兩個(gè)條件,則稱為簡單隨機(jī)樣本:
(1) 隨機(jī)性。 與 具有相同的分布函數(shù) (2) 獨(dú)立性。 相互獨(dú)立。
以后,我們把簡單隨機(jī)樣本簡稱為樣本。
類似地,獲得簡單隨機(jī)樣本的抽樣方法稱為簡單隨機(jī)抽樣。
在實(shí)際抽樣時(shí),也應(yīng)按此要求從總體中進(jìn)行抽樣。這樣獲得的樣本能夠很好地反映實(shí)際總體的狀態(tài)。兩個(gè)不同的總體,若是按隨機(jī)性和獨(dú)立性要求進(jìn)行抽樣,則機(jī)會(huì)大的地方(概率密度值大〉被抽到樣本的個(gè)體就多;而機(jī)會(huì)少的地方(概率密度值小),被抽到樣本的個(gè)體就少。分布愈分散,樣本也就分散;分布愈集中,樣本也相對(duì)集中。
抽樣切忌受到干擾,特別是人為干擾。某些人為的傾向性會(huì)使所得樣本不是簡單隨機(jī)樣本,從而使最后的統(tǒng)計(jì)推斷失效。
統(tǒng)計(jì)學(xué)主要的任務(wù)
簡單地說,總體就是一個(gè)分布,不同總體有不同分布。統(tǒng)計(jì)學(xué)主要的任務(wù)就是:
l 研究總體是什么分布?
l 這個(gè)總體(分布)的均值、方差(或標(biāo)準(zhǔn)差)各是多少?
例1 對(duì)某產(chǎn)品僅考察其合格與否,并記合格品為0,不合格品為1‘
分析:
總體={該產(chǎn)品的全體}={由0或1組成的一堆數(shù)}
若記l在總體中所占比例為P,則該總體可用如下二項(xiàng)分布b(1,P)(n=l的二項(xiàng)分布)表示:
X01
P1-PP
例2有兩個(gè)工廠生產(chǎn)同一產(chǎn)品,甲廠的不合格品率P=0.01,乙廠的不合格品率P=0.08,甲乙兩廠所生產(chǎn)的產(chǎn)品(即兩個(gè)總體)分別用如下兩個(gè)分布描述:
X甲01
P0.990.01
X乙01
P0.920.08
例3考察某橡膠件的抗張強(qiáng)度。它可用0到∞上的一個(gè)實(shí)數(shù)表示,這時(shí)總體可用區(qū)間[0,∞]上的一個(gè)概率分布表示。國內(nèi)外橡膠業(yè)對(duì)其抗張強(qiáng)度有較多研究,認(rèn)為橡膠件的抗張強(qiáng)度服從正態(tài)分布 ,該總體常稱為正態(tài)總體。
例4例如某型號(hào)電視機(jī)的壽命全體所構(gòu)成的總體就是一個(gè)偏態(tài)分布。
又如兩個(gè)不同的正態(tài)總體混合也可以產(chǎn)生一個(gè)偏態(tài)總體。如將兩位不同的操作工(或在不同機(jī)器上,或用不同原料,或不同轉(zhuǎn)速等)生產(chǎn)的同一種零件混在一起,其質(zhì)量特性常呈偏態(tài)分布,應(yīng)該重視考察偏態(tài)分布產(chǎn)生的原因。
分析:用非對(duì)稱分布(即偏態(tài)分布)描述的總體也是常見的。
二、 統(tǒng)計(jì)量與抽樣分布
樣本來自總體,因此樣本中包含了有關(guān)總體的豐富的信息,但是這些信息是零散的,為了把這些零散的信息集中起來反映總體的特征,我們?nèi)〉脴颖局螅⒉皇侵苯永脴颖具M(jìn)行推斷,而需要對(duì)樣本進(jìn)行一番“加工”和“提煉”,把樣本中所包含的有關(guān)信息盡可能地集中起來,種有效的辦法就是針對(duì)不同的問題,構(gòu)造出樣本的某種函數(shù),這就是統(tǒng)計(jì)量。不同的函數(shù)可以反映總體的不同的特征。
1統(tǒng)計(jì)量
把不含未知參數(shù)的樣本函數(shù)稱為統(tǒng)計(jì)量。一個(gè)統(tǒng)計(jì)量也是一個(gè)隨機(jī)變量。
定義4:設(shè)(X1,X2,…,Xn)為取自總體X的一個(gè)樣本,g(X1,X2,…,Xn)為一個(gè)連續(xù)函數(shù),如果這個(gè)函數(shù)中不包含任何未知參數(shù),則稱g(X1,X2,…,Xn)為一個(gè)統(tǒng)計(jì)量。
例如,設(shè)X~N(m ,s 2),其中m 已知,s 2未知,(X1,X2,…,Xn)為取自X的樣本,則 是統(tǒng)計(jì)量, ---不是統(tǒng)計(jì)量。
統(tǒng)計(jì)量是樣本的函數(shù),因而統(tǒng)計(jì)量是隨機(jī)變量。
由統(tǒng)計(jì)量進(jìn)行推斷,便可獲得對(duì)總體的認(rèn)識(shí),統(tǒng)計(jì)推斷是數(shù)理統(tǒng)計(jì)的核心內(nèi)容。
2抽樣分布
統(tǒng)計(jì)量的分布稱為抽樣分布。
例:從均值為 ,方差為 的總體中抽得一個(gè)樣本量為n的樣本 ,其中 與 均未知。
在此情形, 是統(tǒng)計(jì)量;而 , 都
不是統(tǒng)計(jì)量,因?yàn)楹笳甙?, 等未知參數(shù)。
3常用統(tǒng)計(jì)量
常用統(tǒng)計(jì)量可分為兩類,一類是用來描述樣本的中心位置,另一類用來描述樣本的分散程度。為此先介紹有序樣本的概念,再引入幾個(gè)常用統(tǒng)計(jì)量。
有序樣本
設(shè) 是從總體X中隨機(jī)抽取的樣本,樣本量為n,將它們的觀測值從小到大排列為: ,這便是有序樣本。其中 是樣本中的最小觀測值, 是樣本中的觀測值。
例 從某種合金強(qiáng)度總體中隨機(jī)抽取樣本量為5的樣本,記為 ,樣本觀測值為:140,150,155,130,145
解析:將它們從小到大排序后為:130,140,145,150,155,這便是有序樣本,其中最小的觀測值為 =30,的觀測值為 =155。
(1)描述樣本的中心位置的統(tǒng)計(jì)量
總體中每一個(gè)個(gè)體的取值盡管是有差異的,但是總有一個(gè)中心位置,如樣本均值、樣本中位數(shù)等。描述樣本中心位置的統(tǒng)計(jì)量反映了總體的中心位置,常用的有以下幾種:
①樣本均值
樣本觀測值有大有小,樣本均值大致處于樣本的中間位置,它可以反映總體分布的均值。
例 上例數(shù)據(jù): ,樣本觀測值為:140,150,155,130,145。
樣本均值為 =(140+150+155+130+145)/5=144。
對(duì)分組數(shù)據(jù),樣本均值的近似值為
其中 是分組數(shù), 是第 組的組中值, 是第 組的頻數(shù), 。
例 下表是經(jīng)過整理的分組數(shù)據(jù)表,結(jié)出了110個(gè)電子元件的失效時(shí)間:
分組區(qū)間[0,400][400,800)[800,1200)[1200,1600)[1600, 2000)[2000,2400)
組中值xi2006001000140018002200
頻數(shù)ni628372397
解析:
平均失效時(shí)間近似為:
= 1170.9
②樣本中位數(shù)
中位數(shù)有時(shí)也記為Me。
當(dāng)n為奇數(shù)
, 當(dāng)n為偶數(shù)
例 現(xiàn)有一組數(shù)據(jù)(已經(jīng)排序):2,3,4,4,5,5,5,5,6,6,7,7,8,
解析:
共有13個(gè)數(shù)據(jù),處于中間位置的是第7個(gè)數(shù)據(jù),樣本中位數(shù)即為 。
(3)描述樣本數(shù)據(jù)分散程度的統(tǒng)計(jì)量
總體中各個(gè)個(gè)體的取值總是有差別的,因此樣本的觀測值也是有差異的,這種差異有大有小,反映樣本數(shù)據(jù)的分散程度的統(tǒng)計(jì)量實(shí)際上反映了總體取值的分散程度,常用的有如下幾種:
①樣本極差:
例 數(shù)據(jù)為 ,樣本觀測值為:140,150,155,130,145,那么將它們從小到大排序后為:130,140,145,150,155
解析:最小值為130,值為155,因此樣本極差R=155-130=25
②樣本方差:
同樣,對(duì)分組數(shù)據(jù)來講,樣本方差的近似值為:
例 數(shù)據(jù)為 ,樣本觀測值為:140,150,155,130,145
解析:
上式有兩個(gè)簡化的計(jì)算公式:
樣本極差的計(jì)算十分簡便,但對(duì)樣本中的信息利用得也較少,而樣本方差就能充分利用樣本中的信息,因此在實(shí)際中樣本方差比樣本極差用得更廣。
③樣本標(biāo)準(zhǔn)差:
在上例中 。
樣本標(biāo)準(zhǔn)差的意義:
樣本方差盡管對(duì)數(shù)據(jù)的利用是充分的,但是方差的量綱(即數(shù)據(jù)的單位)是原始量綱的平方,例如樣本觀測值是長度,單位是“毫米”,而方差的單位是“平方毫米”,單位不同就不便于比較,而采用樣本標(biāo)準(zhǔn)差就消除了單位的差異。
四 樣本數(shù)據(jù)的整理
從總體x中獲得的樣本是總體的一個(gè)縮影,具有豐富信息的數(shù)據(jù),我們需要對(duì)數(shù)據(jù)進(jìn)行加工,將有用的信息提取出來,以便對(duì)總體有所了解。
對(duì)數(shù)據(jù)加工有兩種方法:
一是計(jì)算統(tǒng)計(jì)量,二是利用圖形與表格。上面提到的便是常用的統(tǒng)計(jì)量,它具有概括性,但不夠形象,下面給出對(duì)效據(jù)進(jìn)行整理的表格與圖形描述。
下面我們結(jié)合一個(gè)例子來敘述對(duì)計(jì)量數(shù)據(jù)結(jié)出頻數(shù)頻率分布表的步驟。
|
例 食品廠用自動(dòng)裝罐機(jī)生產(chǎn)罐頭食品,由于工藝的限制,每個(gè)罐頭的實(shí)際重量有所波動(dòng),現(xiàn)從一批罐頭中隨機(jī)抽取100個(gè)稱其凈重,數(shù)據(jù)如下:
342 352 346 344 343 339 336 342 347 340 340 350 347 336 341
349 346 348 342 346 347 346 346 345 344 350 348 352 340 356
339 348 338 342 347 347 344 343 349 341 348 341 340 347 342
337 344 340 344 346 342 344 345 338 351 348 345 339 343 345
346 344 344 344 343 345 345 350 353 345 352 350 345 343 347
354 350 343 350 344 351 348 352 344 345 349 332 343 340 346
342 335 349 348 344 347 341 346 341 342
對(duì)這一樣本數(shù)據(jù)進(jìn)行整理。
解析:
步驟如下
①首先從給出的數(shù)據(jù)中找出其值 與最小值 ,并計(jì)算極差R= 一 。
在本例中 =356, =332,從而R=356-332=24
②根據(jù)樣本量n決定分組數(shù)k和每一組的組距h。
作頻數(shù)頻率分布表的目的是要顯示出數(shù)據(jù)中所隱藏的規(guī)律!因此分組數(shù)不能太少,也不宜太多。通??梢岳孟卤磉M(jìn)行選擇。
直方圖分組組數(shù)選用表
樣本量n推薦組數(shù)
50—1006—10
101—2507—12
250以上10—20
每一組的區(qū)間長度可以相同也可以不同,而區(qū)間長度相同的情況用得比較多。在區(qū)間長度相同時(shí),當(dāng)組數(shù)確定后,區(qū)間長度(即組距)可以用下式計(jì)算:
通常取為最小測量單位的整數(shù)倍。
在本例中,n=100的,取k=9,在等距分組時(shí),組距可以取為 。
③決定各組的區(qū)間端點(diǎn): ˉ
通常要求 。
必要時(shí)還可以計(jì)算各組的組中值 。
在本例中取 ,便可以逐一計(jì)算每一個(gè)組的組限,具體的值列下表。
④用唱票的方法統(tǒng)計(jì)樣本落在每一個(gè)區(qū)間中的個(gè)數(shù)(稱為頻數(shù)),記為 ,并計(jì)算每個(gè)區(qū)間
對(duì)應(yīng)的頻率 ,列出頻數(shù)頻率分布表。
本例的頻數(shù)頻率分布表見表。
頻數(shù)頻率分布表
組號(hào)區(qū) 間組中值頻數(shù)頻 率
1(331.5,334.5 33310.01
2(334.5,337.5 33640.04
3(337.5,340.5 339170.17
4(340.5,343.5 342270.27
5(343.5,346.5 34530 0.30
6(346.5,349.5 348 120.12
7(349.5,352.5 35170.07
8(352.5,355.5 354100.01
9(355.5,358.5 357100.01
合 計(jì) 100 1.00
可見,絕大多數(shù),罐頭凈重集中在337.5—352.5之間,特別是大量集中在340.5—349.5之間,而特別重的和特別輕的所占的比例很少。
用上表的數(shù)據(jù)可以畫出直方圖。
統(tǒng)計(jì)在線作業(yè)
1. 下表是一個(gè)分組樣本,其樣本均值 近似為( )。
分組區(qū)間(35,45](45,55](55,65](65,75]
頻數(shù)3872
A. 50 B. 54 C. 62 D. 64
答案: B
解析:四個(gè)分組區(qū)間的組中值分別為40,50,60,70。樣本均值
2. 某小型企業(yè)有員工共25人,他們的月薪如下:
月薪(元)人數(shù)月薪(元)人數(shù)
15000115004
10000112001
8000210008
300048004
該企業(yè)員工月薪中位數(shù)為( )元。
A. 3000 B. 1500 C. 1200 D. 1000
答案:C
解析:把25人月薪從小到大排序,第13人的月薪1200元即為中位數(shù)
3.調(diào)查100個(gè)家庭中擁有電視機(jī)臺(tái)數(shù)的頻數(shù)如下:
臺(tái)數(shù)0123
家庭數(shù)351397
則平均每個(gè)家庭擁有電視機(jī)的臺(tái)數(shù)為( )臺(tái)。
A. 3.5 B. 1.41 C. 1.20 D. 1.65
答案:A
解析:平均每個(gè)家庭擁有電視機(jī)的臺(tái)數(shù)= 4. 設(shè)10個(gè)數(shù)據(jù)的均值 為9.26,如今又得第11個(gè)數(shù)據(jù)9.92,則此11個(gè)數(shù)據(jù)的均值 =
( )。
A. 9.23 B..9.32 C.9.74 D.9.59
答案:A
解析:11個(gè)數(shù)據(jù)的均值 5. 樣本 減去100的得 。兩個(gè)樣本均值 與 間有如下關(guān)系: ,考察這兩個(gè)樣本的樣本方差 與 ,則有( )。
A. = +100 B.. C. D. 答案:D
解析: = 6. 測得某批電阻中五個(gè)電阻的阻值分別為8.1,7.9,8.0,8.1,8.2,則下列敘述正確的
有( )。
A. 樣本極差為0.3 B. 樣本中位數(shù)為8.1
C. 樣本均值為8.06 D. 樣本標(biāo)準(zhǔn)差為0.013
答案:A、B、C
解析:將數(shù)據(jù)按從小到大的順序排序后有:7.9,8.0,8.1,8.1,8.2,所以樣本極差為8.2-7.9=0.3,樣本中位數(shù)位于第3個(gè)位置,為8.1,樣本均值是(8.1+7.9+8.0+8.1+8.2)/5=8.06,樣本標(biāo)準(zhǔn)差為

