統(tǒng)計數據的整理和顯示
1.分類數據的整理與顯示
指標:頻數與頻數分布,比例,百分比,比率
頻數分布表:把數據的各個類別及其相應的頻數全部列出來就是頻數分布或稱次數分布,將其用表格的形式表現(xiàn)出來就是頻數分布表。
比例是一個總體中各個部分的數量占總體數量的比重
百分比是將比例乘以100而得出
比率是各個不同類別的數量的比值,分母通常取1或100
圖示
主要用條形圖和圓形圖
單選(2004年試題):根據第五次全國人口普查的結果,我國男性占總人口的51.63%,女性占總人口的48.37%,那么人口的性別比為()
A, 100:106.74
B, 93.67:100
C, 106.74:100
D, 100:93.67
答案:C
多選(2004年試題):2001年底,我國共有博物館1458個,其中綜合性博物館769個,歷史類博物館521個,藝術類博物館57個,自然科技類博物館19個,其他類型博物館92個。這一構成應通過繪制()來顯示。
A, 條形圖
B, 累積頻數分布圖
C, 圓形圖
D, 直方圖
E, 折線圖
答案:AC
2.順序數據的整理與顯示
除了可以用分類數據的整理及圖示方法外,還有累積頻數和累計頻率。
累積頻數:將各類別的頻數逐級累加起來,一種方法是從類別順序的開始一方向類別順序的最后一方累加頻數;另一種方法是從類別順序的最后一方向類別順序的開始一方累加頻數
累計頻率:將各類別的百分比逐級累加起來
3.數值型數據的整理與顯示
組距分組的步驟:
(1)確定分組組數,經驗公式:K= 1+ log10N / log102;
(2)對原始資料進行排序;
(3)求極差:觀察值減去最小觀察值。
(4)確定各組組距:組距=極差/組數=某組的上限值-該組的下限值
(5)確定組限:組中值=(上限+下限)/ 2
(6)確定各組觀察值出現(xiàn)的頻數:組距分組遵循“不重不漏”的原則;分組時“上組限不在內”以防止重復。
(7)制作頻數分布表
直方圖與條形圖的區(qū)別:前者用面積而后者用條形的長度來表示各類別頻數的多少,前者高度與寬度均有意義,前者的各矩形通常是連續(xù)排列而后者通常是分開排列。
4統(tǒng)計表
基本結構:表頭、行標題、列標題和數字資料
設計要求:科學、實用、簡練、美觀
要合理安排統(tǒng)計表的結構;表頭一般應包括表號、總標題和表中數據的單位等內容;表中的上下兩條橫線一般用粗線,中間的其他線要用細線,這樣使人看起來清楚、醒目;在使用統(tǒng)計表時,必要時可在表的下方加上注釋,特別要注意注明資料的來源,以示對他人勞動成果的尊重,并備讀者查閱使用
多選(2004年試題):通常情況下,設計統(tǒng)計表要求()
A, 沒有數字的單元格應空白
B, 左右兩邊應封口
C, 表中數據一般是右對齊
D, 列標題之間一般用豎線隔開
E, 行標題之間不必用橫線隔開
答案:CDE
(三)數據特征的測度
1.集中趨勢的測度
眾數:一組數據中出現(xiàn)次數最多的變量值;它是一個位置代表值,特點是不受數據中極端值的影響。眾數不僅適用于品質數據,也適用于數值型數據。
中位數:是一組數據按一定順序排序后,處于中間位置上的數值。當數值個數為奇數時,取中間位置的數;當數值個數為偶數時,取中間位置兩個數的均值。
它將全部數據等分成兩部分,也是一個位置代表值,其特點是不受極端值的影響,在研究收入分配時很有用。
中位數主要用于順序數據,也適用于數值型數據,但不適用于分類數據。
算術平均數:也稱均值,是全部數據的算術平均。它是集中趨勢的最主要測度值。
簡單均值:等于所有數值相加之和 / 數值個數;加權均值:(各組組中值*各組頻數) / 頻數之和。
均值是一組數據的重心所在,是數據誤差相互抵消后的必然結果,反映出事物必然性的數量特征。其缺點是容易受極端值的影響
幾何平均數:將一組中n個數據連乘后再開n次方。是適用于特殊數據的一種平均數,主要用于計算比率或速度的平均。實踐中,主要用于計算社會經濟現(xiàn)象的平均發(fā)展速度
單選(2005年試題)
下列集中趨勢測度值中,適用于品質數據的是( )。
A.眾數
B.簡單算術平均數
C.標準差
D.加權算術平均數
答案:A
單選(2004年試題):以下屬于位置平均數的是()
A, 幾何平均數
B, 算術平均數
C, 眾數
D, 極差
答案:C
單選(2004年試題):2003年,某市下轄六個縣的棉花種植面積按規(guī)模由小到大依次為800公頃、900公頃、1100公頃、1400公頃、1500公頃、3000公頃,這六個縣棉花種植面積的中位數是()公頃。
A, 1450
B, 1250
C, 1100
D, 1400
答案:B
解析:變量值一共有6個,偶數個,中位數為最中間兩個數的平均數,即第三和第四個數的平均數,為1/2*(1100+1400)= 1250。
2.離散程度的測度
標準差:各變量與其均值離差平方和的平均數的平方根,它是數測量數據離散程度的最主要方法,也是實際中應用最廣泛的離散程度測度值。在對社會經濟現(xiàn)象進行分析是主要使用標準差。
例:一組5個數據, 1、2、3、4、5,求其標準差。
解:先求均值等于(1+2+3+4+5)/ 5 =3;
再求離差,分別為:(1-3)=-2,(2-3)=-1,(3-3)=0,(4-3)=1,(5-3)=2。
離差平方,分別為:4,1,0,1,4。離差平方和等于4+1+0+1+4=10
離差平方和的平均數:10/5=2,所以方差為2
把2開平方,即得標準差。
離散系數:一組數據的標準差與其相應的均值之比,是測度數據離散程度的相對指標,其作用主要是用于比較不同組別數據的離散程度。
上例中,離散系數等于2的平方根除以3。
單選(2004年試題):如果兩組數據是以不同計量單位來表示的,則比較其離散程度的測度值是()
A, 離散系數
B, 標準差
C, 方差
D, 極差
答案:A
單選(2004年試題):某學校學生的平均年齡為20歲,標準差為3歲;該校教師的平均年齡為38歲,標準差為3歲。比較該校學生年齡和教師年齡的離散程度,則()
A, 學生年齡和教師年齡的離散程度相同
B, 教師年齡的離散程度大一些
C, 教師年齡的離散程度是學生年齡離散程度的1.9倍
D, 學生年齡的離散程度大一些
答案:D
解析:比較不同組別數據的離散程度應該用離散系數。學生年齡的離散系數為(3/20),教師年齡的離散系數為(3/38),學生年齡的離散系數要大一些。
1.分類數據的整理與顯示
指標:頻數與頻數分布,比例,百分比,比率
頻數分布表:把數據的各個類別及其相應的頻數全部列出來就是頻數分布或稱次數分布,將其用表格的形式表現(xiàn)出來就是頻數分布表。
比例是一個總體中各個部分的數量占總體數量的比重
百分比是將比例乘以100而得出
比率是各個不同類別的數量的比值,分母通常取1或100
圖示
主要用條形圖和圓形圖
單選(2004年試題):根據第五次全國人口普查的結果,我國男性占總人口的51.63%,女性占總人口的48.37%,那么人口的性別比為()
A, 100:106.74
B, 93.67:100
C, 106.74:100
D, 100:93.67
答案:C
多選(2004年試題):2001年底,我國共有博物館1458個,其中綜合性博物館769個,歷史類博物館521個,藝術類博物館57個,自然科技類博物館19個,其他類型博物館92個。這一構成應通過繪制()來顯示。
A, 條形圖
B, 累積頻數分布圖
C, 圓形圖
D, 直方圖
E, 折線圖
答案:AC
2.順序數據的整理與顯示
除了可以用分類數據的整理及圖示方法外,還有累積頻數和累計頻率。
累積頻數:將各類別的頻數逐級累加起來,一種方法是從類別順序的開始一方向類別順序的最后一方累加頻數;另一種方法是從類別順序的最后一方向類別順序的開始一方累加頻數
累計頻率:將各類別的百分比逐級累加起來
3.數值型數據的整理與顯示
組距分組的步驟:
(1)確定分組組數,經驗公式:K= 1+ log10N / log102;
(2)對原始資料進行排序;
(3)求極差:觀察值減去最小觀察值。
(4)確定各組組距:組距=極差/組數=某組的上限值-該組的下限值
(5)確定組限:組中值=(上限+下限)/ 2
(6)確定各組觀察值出現(xiàn)的頻數:組距分組遵循“不重不漏”的原則;分組時“上組限不在內”以防止重復。
(7)制作頻數分布表
直方圖與條形圖的區(qū)別:前者用面積而后者用條形的長度來表示各類別頻數的多少,前者高度與寬度均有意義,前者的各矩形通常是連續(xù)排列而后者通常是分開排列。
4統(tǒng)計表
基本結構:表頭、行標題、列標題和數字資料
設計要求:科學、實用、簡練、美觀
要合理安排統(tǒng)計表的結構;表頭一般應包括表號、總標題和表中數據的單位等內容;表中的上下兩條橫線一般用粗線,中間的其他線要用細線,這樣使人看起來清楚、醒目;在使用統(tǒng)計表時,必要時可在表的下方加上注釋,特別要注意注明資料的來源,以示對他人勞動成果的尊重,并備讀者查閱使用
多選(2004年試題):通常情況下,設計統(tǒng)計表要求()
A, 沒有數字的單元格應空白
B, 左右兩邊應封口
C, 表中數據一般是右對齊
D, 列標題之間一般用豎線隔開
E, 行標題之間不必用橫線隔開
答案:CDE
(三)數據特征的測度
1.集中趨勢的測度
眾數:一組數據中出現(xiàn)次數最多的變量值;它是一個位置代表值,特點是不受數據中極端值的影響。眾數不僅適用于品質數據,也適用于數值型數據。
中位數:是一組數據按一定順序排序后,處于中間位置上的數值。當數值個數為奇數時,取中間位置的數;當數值個數為偶數時,取中間位置兩個數的均值。
它將全部數據等分成兩部分,也是一個位置代表值,其特點是不受極端值的影響,在研究收入分配時很有用。
中位數主要用于順序數據,也適用于數值型數據,但不適用于分類數據。
算術平均數:也稱均值,是全部數據的算術平均。它是集中趨勢的最主要測度值。
簡單均值:等于所有數值相加之和 / 數值個數;加權均值:(各組組中值*各組頻數) / 頻數之和。
均值是一組數據的重心所在,是數據誤差相互抵消后的必然結果,反映出事物必然性的數量特征。其缺點是容易受極端值的影響
幾何平均數:將一組中n個數據連乘后再開n次方。是適用于特殊數據的一種平均數,主要用于計算比率或速度的平均。實踐中,主要用于計算社會經濟現(xiàn)象的平均發(fā)展速度
單選(2005年試題)
下列集中趨勢測度值中,適用于品質數據的是( )。
A.眾數
B.簡單算術平均數
C.標準差
D.加權算術平均數
答案:A
單選(2004年試題):以下屬于位置平均數的是()
A, 幾何平均數
B, 算術平均數
C, 眾數
D, 極差
答案:C
單選(2004年試題):2003年,某市下轄六個縣的棉花種植面積按規(guī)模由小到大依次為800公頃、900公頃、1100公頃、1400公頃、1500公頃、3000公頃,這六個縣棉花種植面積的中位數是()公頃。
A, 1450
B, 1250
C, 1100
D, 1400
答案:B
解析:變量值一共有6個,偶數個,中位數為最中間兩個數的平均數,即第三和第四個數的平均數,為1/2*(1100+1400)= 1250。
2.離散程度的測度
標準差:各變量與其均值離差平方和的平均數的平方根,它是數測量數據離散程度的最主要方法,也是實際中應用最廣泛的離散程度測度值。在對社會經濟現(xiàn)象進行分析是主要使用標準差。
例:一組5個數據, 1、2、3、4、5,求其標準差。
解:先求均值等于(1+2+3+4+5)/ 5 =3;
再求離差,分別為:(1-3)=-2,(2-3)=-1,(3-3)=0,(4-3)=1,(5-3)=2。
離差平方,分別為:4,1,0,1,4。離差平方和等于4+1+0+1+4=10
離差平方和的平均數:10/5=2,所以方差為2
把2開平方,即得標準差。
離散系數:一組數據的標準差與其相應的均值之比,是測度數據離散程度的相對指標,其作用主要是用于比較不同組別數據的離散程度。
上例中,離散系數等于2的平方根除以3。
單選(2004年試題):如果兩組數據是以不同計量單位來表示的,則比較其離散程度的測度值是()
A, 離散系數
B, 標準差
C, 方差
D, 極差
答案:A
單選(2004年試題):某學校學生的平均年齡為20歲,標準差為3歲;該校教師的平均年齡為38歲,標準差為3歲。比較該校學生年齡和教師年齡的離散程度,則()
A, 學生年齡和教師年齡的離散程度相同
B, 教師年齡的離散程度大一些
C, 教師年齡的離散程度是學生年齡離散程度的1.9倍
D, 學生年齡的離散程度大一些
答案:D
解析:比較不同組別數據的離散程度應該用離散系數。學生年齡的離散系數為(3/20),教師年齡的離散系數為(3/38),學生年齡的離散系數要大一些。