第四部分 統計
一、統計與統計數據
(一) 統計的含義
統計一詞包含三種含義:統計工作;統計數據;統計學
(二) 統計數據的計量尺度
定類尺度(最粗略、計量層次最低)、定序尺度(反映等級差、順序差)、定距尺度(確切的數據反映量的差異)、定比尺度(相對數或平均數)。
(三) 類型
1.統計數據的類型:分類數據;順序數據;數值型數據(通常我們處理的大多為數值型數據),其中分類數據和順序數據是定性數據或品質數據;數值型數據是定量數據或數量數據。
對不同類型的數據應采用不同的統計方法來處理和分析。品質數據可計算各組的頻數或頻率,而數值型數據可以采取更多計算方法。
2.變量及其類型:統計中把說明現象某種特征的概念稱為變量,變量的具體表現為變量值,統計數據就是統計變量的具體表現。
可分為:分類變量、順序變量、數值型變量。
數值型變量又分為:離散變量和連續(xù)變量。
(四) 統計指標及其類型
分類:總量指標(絕對數形式)、相對指標和平均指標
總量指標按其所反映的時間狀況不同可分為時期指標和時點指標。
相對數的形式有比例和比率兩種。
(五) 統計數據的來源
主要來源于兩種渠道:直接來源,稱第一手或直接的統計數據;間接來源,稱第二手或間接的統計數據。
1.直接來源
方式:普查、抽樣調查、統計報表
(1)普查:為某一特定目的而專門組織的一次性全面調查。
普查的特點:通常是一次性的或周期性的;一般需要規(guī)定統一的標準調查時間;數據一般比較準確,規(guī)范化程度也較高;使用范圍比較狹窄。
普查的適用范圍:它主要用于收集處于某一時點狀態(tài)上的社會經濟現象的數量。
(2)抽樣調查(實際中應用最廣泛的一種調查方式和方法)
特點:經濟性;實效性強;適應面廣;準確性高
(3)統計報表
統計報表是按照國家有關法規(guī)的規(guī)定,自上而下的統一布置、自下而上的逐級提供基本統計數據的一種調查方式。統計報表要以一定的原始數據為基礎,按照統一的表式、統一的指標、統一的報送時間和報送程序進行填報。
類型:全面報表和非全面報表
其他方式:重點調查和典型調查。
重點調查是從調查對象的全部單位中選擇少數重點單位進行調查。其中重點單位是指在所要調查的數量特征上占有較大比重的單位。
典型調查是從調查對象的全部單位中選擇一個或幾個有代表性的單位進行全面深入的調查。
2.間接來源:公開的出版物、未公開的內部調查等。
(六) 統計數據的質量
1. 統計數據的誤差、誤差的來源
誤差來源主要有:登記性誤差(從理論上講可以消除)和代表性誤差(通常無法消除,但可以事先進行控制或計算)。
2. 統計數據的質量要求及檢查
精度、準確性、關聯性、及時性、一致性、最低成本
二、統計數據的整理和顯示
(一) 品質數據的整理與顯示
1. 分類數據的整理與顯示
(1)頻數與頻數分布(頻數分布表),比例(一個總體中各個部分的數量占總體數量的比重),百分比(比例乘以100),比率(各個不同類別的數量的比值)
把數據的各個類別及其相應的頻數全部列出來就是頻數分布或稱次數分布,將其用表格的形式表現出來就是頻數分布表。
(2)分類數據的圖示:條形圖和圓形圖
2.順序數據的整理與顯示
除了可以用分類數據的整理及圖示方法外,還有累積頻數和累計頻率。
(1)累積頻數:將各類別的頻數逐級累加起來,一種方法是從類別順序的開始一方向類別順序的最后一方累加頻數,向上累積;另一種方法是從類別順序的最后一方向類別
順序的開始一方累加頻數,向下累積。
累計頻率:將各類別的百分比逐級累加起來。
(2)圖示:累計頻數或頻率分布圖
(二) 數值型數據的整理與顯示
1. 數據的分組
方法:單變量分組(離散變量且變量值較少)和組距分組(連續(xù)變量或變量值教多)
組距分組的步驟:
(1)確定分組組數,經驗公式:K= 1+ log10N / log102;
(2)對原始資料進行排序;
(3)求極差:觀察值減去最小觀察值。
(4)確定各組組距:組距=極差/組數=某組的上限值-該組的下限值
(5)確定組限:組中值=(上限+下限)/ 2
a. 第一組的下限值應比最小的觀察值小,最后一組的上限值應比的觀察值大。
b. 不要使用開口組
c. 組限值應能被5除盡,且一般使用整數。
(6)確定各組觀察值出現的頻數:組距分組遵循“不重不漏”的原則;分組時“上組限不在內”以防止重復。
(7)制作頻數分布表
2. 數值型數據的圖示:直方圖、折線圖
直方圖與條形圖的區(qū)別:前者用面積而后者用條形的長度來表示各類別頻數的多少,前者高度與寬度均有意義,前者的各矩形通常是連續(xù)排列而后者通常是分開排列。
(三) 統計表
1.統計表的構成
基本結構:表頭、行標題、列標題和數字資料
2.統計表的設計
設計要求:科學、實用、簡練、美觀
(1) 要合理安排統計表的結構;
(2) 表頭一般應包括表號、總標題和表中數據的單位等內容;
(3) 表中的上下兩條橫線一般用粗線,中間的其他線要用細線,這樣使人看起來清楚、醒目;
(4) 在使用統計表時,必要時可在表的下方加上注釋,特別要注意注明資料的來源,以示對他人勞動成果的尊重,并備讀者查閱使用。
三、數據特征的測度(分布的集中趨勢、分布的離散程度、分布的偏態(tài)和峰度)
(一) 集中趨勢的測度
集中趨勢的測度,主要包括:位置平均數(眾數、中位數)和數值平均數(算術平均數、幾何平均數)
1. 眾數:一組數據中出現次數最多的變量值;它是一個位置代表值,特點是不受數據中極端值的影響,抗干擾性強。
2. 中位數:是一組數據按一定順序排序后,處于中間位置上的數值。
中位數位置=(N+1)/2
當數值個數為奇數時,取中間位置的數;當數值個數為偶數時,取中間位置兩個數的均值。
它將全部數據等分成兩部分,也是一個位置代表值,其特點是不受極端值的影響
3. 算術平均數:也稱均值,是全部數據的算術平均。它是集中趨勢的最主要測度值。
(1) 簡單算術平均數:等于所有數值相加之和 / 數值個數
(2) 加權算術平均數:(各組組中值*各組頻數) / 頻數之和
均值是一組數據的重心所在,是數據誤差相互抵消后的必然結果,反映出事物必然性的數量特征。其缺點是容易受極端值的影響。
4. 幾何平均數:將一組中n個數據連乘后再開n次方。是適用于特殊數據的一種平均數,主要用于計算比率或速度的平均。實踐中,主要用于計算社會經濟現象的平均發(fā)展速度
(二) 離散程度的測度
1.極差:總體或分布中的標志值與最小的標志值之差,又稱全距。
R=Xmax-Xmin
反映的是分布的變異范圍或離散幅度,計算簡單,運用方便,缺點是不能反映其間的變量分布情況,同時易受極端值的影響。
2.標準差和方差
標準差:各變量與其均值離差平方和的平均數的平方根。
方差就是標準差的平方。
例:一組5個數據, 1、2、3、4、5,求其標準差。
解:先求均值等于(1+2+3+4+5)/ 5 =3;
再求離差,分別為:(1-3)=-2,(2-3)=-1,(3-3)=0,(4-3)=1,(5-3)=2.
離差平方,分別為:4,1,0,1,4.離差平方和等于4+1+0+1+4=10
離差平方和的平均數:10/5=2,所以方差為2
把2開平方,即得標準差。
標準差和方差是應用最廣泛的統計離散程度的測度方法。
極差、標準差和方差都是反映數據分散程度的絕對值,離散系數是測量數據離散程度的相對指標。
3. 離散系數:通常就標準差來計算,也稱標準差系數。一組數據的標準差與其相應的算術平均數之比,是測度數據離散程度的相對指標,其作用主要是用于比較不同組別數據的離散程度。
上例中,離散系數等于2的平方根除以3.
四、時間序列
(一) 時間序列及其分類
時間序列分為:絕對數時間序列、相對數時間序列和平均數時間序列。
絕對數時間序列又可分為時期序列和時點序列。
(二) 時間序列的水平分析
1. 發(fā)展水平:時間序列中對應于具體時間的指標數值。
2. 平均發(fā)展水平:序時平均數或動態(tài)平均數,是對時間序列中各時期發(fā)展水平計算的平均數。
計算方法:
(1)絕對數時間序列序時平均數的計算:
a. 時期序列,把各時期數據相加除以時期數即可。
b. 時點序列,若是逐日登記的連續(xù)時點,則用簡單算術平均法;若不是逐日登記,則用加權算術平均法。對于間斷時點,若間隔時間相等,則先求各個時間間隔內的平均數,再對這些平均數進行簡單算術平均;若間隔時間不等,則用加權算術平均。
(2)相對數或平均數時間序列序時平均數的計算:先分別求出分子指標和分母指標時間序列的序時平均數,然后再進行對比。
3.增長量與平均增長量
(1)增長量:時間序列中的報告期水平與基期水平之差,用于描述現象在觀察期內增長的絕對數量。按照采用基期的不同,分為逐期增長量、累積增長量。
逐期增長量是報告期水平與前一時期水平之差,表示本期比前一時期增長的絕對數量;
累計增長量是報告期水平與某一固定時期水平之差,說明報告期與某一固定時期相比增長的絕對數量。
整個觀察期內各逐期增長量之和等于最末期的累積增長量。
(2)平均增長量:時間序列中逐期增長量的序時平均數。
(三) 時間序列的速度分析
1.發(fā)展速度與增長速度
(1)發(fā)展速度:報告期發(fā)展水平與基期發(fā)展水平之比,用于描述現象在觀察期內的發(fā)展變化程度
定基發(fā)展速度等于相應時期內各環(huán)比發(fā)展速度的連乘。
兩個相鄰時期定基發(fā)展速度的比率等于相應時期的環(huán)比發(fā)展速度。
(2)增長速度:也稱增長率,是增長量與基期水平之比,用于描述現象的相對增長程度。
按照采用基期的不同,增長速度可分為定基增長速度與環(huán)比增長速度,兩者之間沒有直接的換算關系,在由環(huán)比增長速度推算定基增長速度時,可先將各環(huán)比增長速度加1后連乘,再將結果減1,即得定基增長速度。
2.平均發(fā)展速度與平均增長速度
平均發(fā)展速度:各個時期環(huán)比發(fā)展速度的平均數,用于描述現象在整個觀察期內平均發(fā)展變化的程度
平均增長速度(平均增長率):用于描述現象在整個觀察期內平均增長變化的程度,它通常用平均發(fā)展速度減1來求得。
3.速度的分析與應用
增長1%絕對值:表示每增長一個百分點而增加的絕對數量。等于逐期增長量/環(huán)比增長速度。
一、統計與統計數據
(一) 統計的含義
統計一詞包含三種含義:統計工作;統計數據;統計學
(二) 統計數據的計量尺度
定類尺度(最粗略、計量層次最低)、定序尺度(反映等級差、順序差)、定距尺度(確切的數據反映量的差異)、定比尺度(相對數或平均數)。
(三) 類型
1.統計數據的類型:分類數據;順序數據;數值型數據(通常我們處理的大多為數值型數據),其中分類數據和順序數據是定性數據或品質數據;數值型數據是定量數據或數量數據。
對不同類型的數據應采用不同的統計方法來處理和分析。品質數據可計算各組的頻數或頻率,而數值型數據可以采取更多計算方法。
2.變量及其類型:統計中把說明現象某種特征的概念稱為變量,變量的具體表現為變量值,統計數據就是統計變量的具體表現。
可分為:分類變量、順序變量、數值型變量。
數值型變量又分為:離散變量和連續(xù)變量。
(四) 統計指標及其類型
分類:總量指標(絕對數形式)、相對指標和平均指標
總量指標按其所反映的時間狀況不同可分為時期指標和時點指標。
相對數的形式有比例和比率兩種。
(五) 統計數據的來源
主要來源于兩種渠道:直接來源,稱第一手或直接的統計數據;間接來源,稱第二手或間接的統計數據。
1.直接來源
方式:普查、抽樣調查、統計報表
(1)普查:為某一特定目的而專門組織的一次性全面調查。
普查的特點:通常是一次性的或周期性的;一般需要規(guī)定統一的標準調查時間;數據一般比較準確,規(guī)范化程度也較高;使用范圍比較狹窄。
普查的適用范圍:它主要用于收集處于某一時點狀態(tài)上的社會經濟現象的數量。
(2)抽樣調查(實際中應用最廣泛的一種調查方式和方法)
特點:經濟性;實效性強;適應面廣;準確性高
(3)統計報表
統計報表是按照國家有關法規(guī)的規(guī)定,自上而下的統一布置、自下而上的逐級提供基本統計數據的一種調查方式。統計報表要以一定的原始數據為基礎,按照統一的表式、統一的指標、統一的報送時間和報送程序進行填報。
類型:全面報表和非全面報表
其他方式:重點調查和典型調查。
重點調查是從調查對象的全部單位中選擇少數重點單位進行調查。其中重點單位是指在所要調查的數量特征上占有較大比重的單位。
典型調查是從調查對象的全部單位中選擇一個或幾個有代表性的單位進行全面深入的調查。
2.間接來源:公開的出版物、未公開的內部調查等。
(六) 統計數據的質量
1. 統計數據的誤差、誤差的來源
誤差來源主要有:登記性誤差(從理論上講可以消除)和代表性誤差(通常無法消除,但可以事先進行控制或計算)。
2. 統計數據的質量要求及檢查
精度、準確性、關聯性、及時性、一致性、最低成本
二、統計數據的整理和顯示
(一) 品質數據的整理與顯示
1. 分類數據的整理與顯示
(1)頻數與頻數分布(頻數分布表),比例(一個總體中各個部分的數量占總體數量的比重),百分比(比例乘以100),比率(各個不同類別的數量的比值)
把數據的各個類別及其相應的頻數全部列出來就是頻數分布或稱次數分布,將其用表格的形式表現出來就是頻數分布表。
(2)分類數據的圖示:條形圖和圓形圖
2.順序數據的整理與顯示
除了可以用分類數據的整理及圖示方法外,還有累積頻數和累計頻率。
(1)累積頻數:將各類別的頻數逐級累加起來,一種方法是從類別順序的開始一方向類別順序的最后一方累加頻數,向上累積;另一種方法是從類別順序的最后一方向類別
順序的開始一方累加頻數,向下累積。
累計頻率:將各類別的百分比逐級累加起來。
(2)圖示:累計頻數或頻率分布圖
(二) 數值型數據的整理與顯示
1. 數據的分組
方法:單變量分組(離散變量且變量值較少)和組距分組(連續(xù)變量或變量值教多)
組距分組的步驟:
(1)確定分組組數,經驗公式:K= 1+ log10N / log102;
(2)對原始資料進行排序;
(3)求極差:觀察值減去最小觀察值。
(4)確定各組組距:組距=極差/組數=某組的上限值-該組的下限值
(5)確定組限:組中值=(上限+下限)/ 2
a. 第一組的下限值應比最小的觀察值小,最后一組的上限值應比的觀察值大。
b. 不要使用開口組
c. 組限值應能被5除盡,且一般使用整數。
(6)確定各組觀察值出現的頻數:組距分組遵循“不重不漏”的原則;分組時“上組限不在內”以防止重復。
(7)制作頻數分布表
2. 數值型數據的圖示:直方圖、折線圖
直方圖與條形圖的區(qū)別:前者用面積而后者用條形的長度來表示各類別頻數的多少,前者高度與寬度均有意義,前者的各矩形通常是連續(xù)排列而后者通常是分開排列。
(三) 統計表
1.統計表的構成
基本結構:表頭、行標題、列標題和數字資料
2.統計表的設計
設計要求:科學、實用、簡練、美觀
(1) 要合理安排統計表的結構;
(2) 表頭一般應包括表號、總標題和表中數據的單位等內容;
(3) 表中的上下兩條橫線一般用粗線,中間的其他線要用細線,這樣使人看起來清楚、醒目;
(4) 在使用統計表時,必要時可在表的下方加上注釋,特別要注意注明資料的來源,以示對他人勞動成果的尊重,并備讀者查閱使用。
三、數據特征的測度(分布的集中趨勢、分布的離散程度、分布的偏態(tài)和峰度)
(一) 集中趨勢的測度
集中趨勢的測度,主要包括:位置平均數(眾數、中位數)和數值平均數(算術平均數、幾何平均數)
1. 眾數:一組數據中出現次數最多的變量值;它是一個位置代表值,特點是不受數據中極端值的影響,抗干擾性強。
2. 中位數:是一組數據按一定順序排序后,處于中間位置上的數值。
中位數位置=(N+1)/2
當數值個數為奇數時,取中間位置的數;當數值個數為偶數時,取中間位置兩個數的均值。
它將全部數據等分成兩部分,也是一個位置代表值,其特點是不受極端值的影響
3. 算術平均數:也稱均值,是全部數據的算術平均。它是集中趨勢的最主要測度值。
(1) 簡單算術平均數:等于所有數值相加之和 / 數值個數
(2) 加權算術平均數:(各組組中值*各組頻數) / 頻數之和
均值是一組數據的重心所在,是數據誤差相互抵消后的必然結果,反映出事物必然性的數量特征。其缺點是容易受極端值的影響。
4. 幾何平均數:將一組中n個數據連乘后再開n次方。是適用于特殊數據的一種平均數,主要用于計算比率或速度的平均。實踐中,主要用于計算社會經濟現象的平均發(fā)展速度
(二) 離散程度的測度
1.極差:總體或分布中的標志值與最小的標志值之差,又稱全距。
R=Xmax-Xmin
反映的是分布的變異范圍或離散幅度,計算簡單,運用方便,缺點是不能反映其間的變量分布情況,同時易受極端值的影響。
2.標準差和方差
標準差:各變量與其均值離差平方和的平均數的平方根。
方差就是標準差的平方。
例:一組5個數據, 1、2、3、4、5,求其標準差。
解:先求均值等于(1+2+3+4+5)/ 5 =3;
再求離差,分別為:(1-3)=-2,(2-3)=-1,(3-3)=0,(4-3)=1,(5-3)=2.
離差平方,分別為:4,1,0,1,4.離差平方和等于4+1+0+1+4=10
離差平方和的平均數:10/5=2,所以方差為2
把2開平方,即得標準差。
標準差和方差是應用最廣泛的統計離散程度的測度方法。
極差、標準差和方差都是反映數據分散程度的絕對值,離散系數是測量數據離散程度的相對指標。
3. 離散系數:通常就標準差來計算,也稱標準差系數。一組數據的標準差與其相應的算術平均數之比,是測度數據離散程度的相對指標,其作用主要是用于比較不同組別數據的離散程度。
上例中,離散系數等于2的平方根除以3.
四、時間序列
(一) 時間序列及其分類
時間序列分為:絕對數時間序列、相對數時間序列和平均數時間序列。
絕對數時間序列又可分為時期序列和時點序列。
(二) 時間序列的水平分析
1. 發(fā)展水平:時間序列中對應于具體時間的指標數值。
2. 平均發(fā)展水平:序時平均數或動態(tài)平均數,是對時間序列中各時期發(fā)展水平計算的平均數。
計算方法:
(1)絕對數時間序列序時平均數的計算:
a. 時期序列,把各時期數據相加除以時期數即可。
b. 時點序列,若是逐日登記的連續(xù)時點,則用簡單算術平均法;若不是逐日登記,則用加權算術平均法。對于間斷時點,若間隔時間相等,則先求各個時間間隔內的平均數,再對這些平均數進行簡單算術平均;若間隔時間不等,則用加權算術平均。
(2)相對數或平均數時間序列序時平均數的計算:先分別求出分子指標和分母指標時間序列的序時平均數,然后再進行對比。
3.增長量與平均增長量
(1)增長量:時間序列中的報告期水平與基期水平之差,用于描述現象在觀察期內增長的絕對數量。按照采用基期的不同,分為逐期增長量、累積增長量。
逐期增長量是報告期水平與前一時期水平之差,表示本期比前一時期增長的絕對數量;
累計增長量是報告期水平與某一固定時期水平之差,說明報告期與某一固定時期相比增長的絕對數量。
整個觀察期內各逐期增長量之和等于最末期的累積增長量。
(2)平均增長量:時間序列中逐期增長量的序時平均數。
(三) 時間序列的速度分析
1.發(fā)展速度與增長速度
(1)發(fā)展速度:報告期發(fā)展水平與基期發(fā)展水平之比,用于描述現象在觀察期內的發(fā)展變化程度
定基發(fā)展速度等于相應時期內各環(huán)比發(fā)展速度的連乘。
兩個相鄰時期定基發(fā)展速度的比率等于相應時期的環(huán)比發(fā)展速度。
(2)增長速度:也稱增長率,是增長量與基期水平之比,用于描述現象的相對增長程度。
按照采用基期的不同,增長速度可分為定基增長速度與環(huán)比增長速度,兩者之間沒有直接的換算關系,在由環(huán)比增長速度推算定基增長速度時,可先將各環(huán)比增長速度加1后連乘,再將結果減1,即得定基增長速度。
2.平均發(fā)展速度與平均增長速度
平均發(fā)展速度:各個時期環(huán)比發(fā)展速度的平均數,用于描述現象在整個觀察期內平均發(fā)展變化的程度
平均增長速度(平均增長率):用于描述現象在整個觀察期內平均增長變化的程度,它通常用平均發(fā)展速度減1來求得。
3.速度的分析與應用
增長1%絕對值:表示每增長一個百分點而增加的絕對數量。等于逐期增長量/環(huán)比增長速度。