第二章 心理測驗的編制
第一節(jié) 心理測驗的對象、目的及目標(biāo)
1. 在編制測驗前首先要明確測量的對象:也就是該測驗編成后要用于哪些團體。其包括三個重要的維度,即年齡、教育水平和文化背景。
2. 測驗的目的:一般來說;顯示和預(yù)測。由此我們可以分為兩類測驗:顯示性測驗和預(yù)測性測驗。(1)顯示性測驗:是指測驗題目和所要測量的心理特征相似的測驗。有些觀察法、行為評估法也都是顯示性測驗,題目取自一個很明確的總體的測驗即是樣本測驗,題目取自一個全開發(fā)的總體的測驗即是標(biāo)記測驗。(2)預(yù)測性測驗:指預(yù)測一些沒被測量的行為的測驗。
心理測驗的目標(biāo)是指編制的測驗是測什么的,即用來測量什么樣的心理變量或行為特征。(1)工作分析:對于選拔和預(yù)測功用的預(yù)測性測驗,主要任務(wù)是對所預(yù)測的行為活動作具體分析,我們稱之為任務(wù)分析或工作分析。(2)對特定概念下定義:如果測驗是為了測量某種特殊的心理品質(zhì)或特點,那么測驗編制者就必須給所要測量的心理或行為特質(zhì)下定義,然后必須發(fā)現(xiàn)該特質(zhì)所包含的維量將通過什么行為表現(xiàn)出來或怎樣進行測量。(3)確定測驗的具體內(nèi)容:如果測驗是描述性的顯示測驗,它的目標(biāo)分析的主要任務(wù)則是確定顯示的內(nèi)容和技能,從中取樣。
第二節(jié) 測題的編寫技術(shù)
1. 搜集有關(guān)資料:題目的有關(guān)來源 (1)已出版的標(biāo)準(zhǔn)測驗 (2)理論和專家的經(jīng)驗(3)臨床觀察和記錄
2. 命題的原則及編寫要領(lǐng):1、命題的原則(理解): ⑴內(nèi)容方面。首先,要求題目的內(nèi)容符合測驗的目的;其次,內(nèi)容取樣要有代表性;第三,題目間內(nèi)容相互獨立,互不牽連。 ⑵文字方面。使用語言要準(zhǔn)確,語句要簡明扼要,一句話說明一個概念,盡量少使用雙重否定句。⑶理解方面。題目應(yīng)有確切的答案,題目的內(nèi)容不要超出受測團體的知識水平和理解能力,題目格式要容易理解。 ⑷社會敏感性方面。應(yīng)盡量避開社會敏感性問題,如涉及社會禁忌或個人隱私的題目不應(yīng)使用。
菲利普對于涉及社會敏感性問題,怎樣鼓勵被試作出真實回答的策略: ◇1命題時假定被試具有某種行為,、使他不得不在確實沒有該行為時才否定,可避免否定過多的傾向?!?命題時假定規(guī)范不一致?!?指出該行為是常見的,雖然是違規(guī)的。2、測題的編制要求:對心理測驗的題目進行分類的標(biāo)準(zhǔn)很多,常見的分類是根據(jù)對被試的要求不同來分,可以分為兩大類:提供型選擇型題目。提供型題目要求被試給出正確答案,如論文題、簡答題、填充題等;選擇型題目要求被試在有限的幾個答案中選擇正確的答案,如選擇題、是否題、匹配題等。選擇題我們比較熟悉,它由兩部分分構(gòu)成:提干和選擇。題干就是呈現(xiàn)一個問題的情景,一般由直接問句或不完全的陳述問或不完全的陳述句構(gòu)成。選項就是問題的多種可能答案,,常常是包括一個正確答案,若干(一般是1—5個)錯誤答案,其中錯誤的答案叫“誘答”。
第三節(jié) 測驗的編排和組織
一、測題的編排
1、測驗編排的一般原則:⑴測題的難度排列易逐步上升。⑵盡可能將同類型的測題組合在一起。⑶各種類型測題本身的特點。
2.兩種常見的試題排列方式:(1)并列直進式:整個測驗按試題材料的性質(zhì)歸為若干分測驗,在同一分測驗的試題依其難度由容易到難排列。(2) 混合螺旋式:先將各類試題依難度分成若干不同層次,再將不同性質(zhì)的試題加以組合,作交叉式排列,難度則漸次升進。
第三章 測驗的信度
第一節(jié) 信度的概念
1.信度是指同一被試在不同時間內(nèi)用同一測驗(或用另一套相等的測驗)重復(fù)測量,所得結(jié)果的一致程度。信度只受隨機誤差的影響,隨機誤差越大,信度越低。
信度理論定義:傳統(tǒng)的信度理論認(rèn)為,每一個測驗的實得分?jǐn)?shù)(X)總是由真實分?jǐn)?shù)(T)和誤差(E),兩個部份構(gòu)成的,公式為:
X=T+E
討論一組測驗分?jǐn)?shù)的特性時,可用方差導(dǎo)標(biāo)具體分?jǐn)?shù),公式:
(測驗實得分?jǐn)?shù)的方差)= (測驗真分?jǐn)?shù)的方差)+ (測驗誤差的方差)
操作定義:一組測量分?jǐn)?shù)的真分?jǐn)?shù)方差與總方差(實得分?jǐn)?shù)的方差)的比率,或者是真實分?jǐn)?shù)方差占總方差的的百分比。計算公式:
由于真實分?jǐn)?shù)的方差是無法統(tǒng)計的,因此公式3-3可轉(zhuǎn)化為:
在(書上)圖3-1下面的話看一看。
2、信度的指標(biāo)
(1)信度系數(shù):大部分情況下,信度是信度系數(shù)為指標(biāo),它是一種相關(guān)系數(shù)。理論上說就是真分?jǐn)?shù)方差與實得分?jǐn)?shù)的方差的比值,公式是:
(2) 測量標(biāo)準(zhǔn)誤:信度系數(shù)表示一組測量的實得分?jǐn)?shù)與真分?jǐn)?shù)的符合程度,但并沒有直接支出個人測量分?jǐn)?shù)的變異量。
測量的標(biāo)準(zhǔn)誤與信度之間呈反比關(guān)系:標(biāo)準(zhǔn)誤越小,信度越;標(biāo)準(zhǔn)誤越大,信度越低。
3、信度與測驗分?jǐn)?shù)的解釋:(1)解釋真實分?jǐn)?shù)與實得分?jǐn)?shù)的相關(guān):信度系數(shù)可以解釋為總的方差中有多少比例是由真實分?jǐn)?shù)的方差決定的,也就是測驗的總變異中真分?jǐn)?shù)造成的變異占百分之幾。(2)比較信度可以接受的水平:一個測驗究竟信度多高才適合,才讓人滿意呢?當(dāng)然,最理想的情況是 =1.00,但實際上辦不到。一般原則是:當(dāng) <0.70時,測驗不能用于對個人作出評價或預(yù)測,而且不能作團體比較;當(dāng)0.70≤ <0.85時,可用于團體比較;當(dāng) ≥0.85時,才能用來鑒別或預(yù)測個人成績或作為。(3)解釋個人分?jǐn)?shù)的意義:從信度可以解釋個人分?jǐn)?shù)的意義,這是測量標(biāo)準(zhǔn)誤的應(yīng)用。它有兩個作用:一是估計真實分?jǐn)?shù)的范圍;二是了解實得分?jǐn)?shù)再測時可能的變化情形。看書公式3-8.(4)比較不同測驗分?jǐn)?shù)的差異:測量標(biāo)準(zhǔn)誤和測驗信度在評價兩個不同測驗的分?jǐn)?shù)是否有明顯差異時也非常重要。這種比較包括兩個人不同分?jǐn)?shù)的差別和同一被試在兩個測驗上的差別。
第二節(jié) 信度的類型及估計方法
1、 重測信度:又稱穩(wěn)定性系數(shù)。他的計算方法是采用重測法,即使用同一測驗,在同樣條件下對同一組被試前后施測兩次測驗,求兩次得分間的相關(guān)系數(shù)。
最適宜的時距隨測驗的目的、性質(zhì)和被試的特點而異,一般是兩周到四周較宜,間隔時間不超過六個月。
重測信度的前提假設(shè)是:⑴所測量的特性必須是穩(wěn)定的;⑵每個人對前一次反應(yīng)的遺忘程度相同;⑶在時間間隔中沒有學(xué)習(xí)另外的與測驗有關(guān)的東西。
2、 復(fù)本信度:又稱等值性系數(shù)。它是以兩個等值但題目不同的測驗(復(fù)本)來測量同一群體,然后求得被試在兩個測驗上得分的相關(guān)系數(shù),這個相關(guān)系數(shù)就代表了復(fù)本信度的高低。
復(fù)本信度的高低關(guān)鍵取決于復(fù)本測驗的選擇,因而是題目取樣問題。
同重測信度一樣,復(fù)本信度也要考慮兩個復(fù)本實施時間間隔。如果兩個復(fù)本幾乎是在同一時間內(nèi)施測的,相關(guān)系數(shù)反映的才是不同復(fù)本的關(guān)系,而不摻有時間的影響。如果兩個復(fù)本的施測相隔一段時間,則稱穩(wěn)定與等值系數(shù)。穩(wěn)定與等值系數(shù)既考慮了測驗在時間上的穩(wěn)定性,也考慮了不同題目樣本反應(yīng)的一致性,因而是更為嚴(yán)格的信度考察方法,也是應(yīng)用較為廣泛的方法。
內(nèi)部一致性信度包括:分半信度和同質(zhì)性信度。(1)分半信度:指采用分辦法估計所得的信度系數(shù)。這種方法估計信度系數(shù)只需一種測驗形式,實施一次測驗。通常是在測驗實施后將測驗按奇、偶數(shù)分為等值的兩半,并分別計算每位被試在兩半測驗上的得分,求出這兩半分?jǐn)?shù)的相關(guān)系數(shù)?!?常見的是將測題按其序列號的奇偶分半,這種分法的前提是:測題并非隨機排列,而是按某種順序(如難度)排列;如果隨機排列的題目,則必須是所有題目平等的(要么難度相等,要么性質(zhì)一樣);如果測驗有多個分量表,應(yīng)該在分量表內(nèi)部排好順序,再把各分量表分兩半組合起來求相關(guān)?!?常用的修正公式是:斯皮爾曼-布朗公式:
3、 斯皮爾曼-布朗公式為經(jīng)驗公式,他的假設(shè)條件是兩半測驗分?jǐn)?shù)的變異數(shù)相等,但實際資料有時未必完全符合這一條件。當(dāng)假設(shè)不成立時,可采用:弗朗那根公式或盧倫公式中的任一一個。(公式見書3-12、3-13)
同質(zhì)性信度:指測驗內(nèi)部所有題目間的一致性。當(dāng)各個測題的得分有較高的正相關(guān)時,不論題目的內(nèi)容和形式如何,測驗即為同質(zhì)的;若所有題目看起來好像測量的是同一特質(zhì),但相關(guān)很低或為負(fù)相關(guān)時,測驗即為異質(zhì)的。此外,對于一些復(fù)雜的、異質(zhì)的心理學(xué)變量,采用單一的同質(zhì)性測驗是不行的,因而常常采用若干相對異質(zhì)的分測驗,并使每個分測驗內(nèi)容具有同質(zhì)性,這樣每個分測驗就能用來預(yù)測異質(zhì)效標(biāo)的某一方面。同質(zhì)性信度的公式主要有:庫德-理查遜公式:常用的是K-R20公式,在個各測題難度相同或近似的情況
下,還可采用計算更為簡便的K-R21公式。
克倫巴赫α系數(shù)(這幾個公式在書上好好看看)
4、 評分者信度:用于測量不同評分者之間所產(chǎn)生的誤差。為了衡量評分者之間的信度高低,可隨機抽取若干份測驗卷,由兩位評分者按評分標(biāo)準(zhǔn)分別給分,然后再根據(jù)美分測驗卷的兩個分?jǐn)?shù)計算相關(guān),即得評分者信度。一般要求在成對的受過訓(xùn)練的評分者之間平均一致性達(dá)0.90以上,才認(rèn)為評分是客觀的。
第三節(jié) 影響信度的因素
1、 樣本的特征:(1)樣本團體分?jǐn)?shù)分布的影響:任何相關(guān)關(guān)系都是受到團體中分?jǐn)?shù)分布的影響,當(dāng)分布范圍增大時,其信度估計就較高;當(dāng)分布范圍減小時,相關(guān)系數(shù)隨之下降,信度值則較低。(2)樣本團體異質(zhì)性的影響:若獲得信度的取樣團體較為異質(zhì)的話,往往會高估測驗的信度,相反則會低估測驗的信度。樣本團體平均能力水平的影響:對于不同水平的團體,題目具有不同的難度,每個題目在難度上的微小差異累計起來便會影響信度。
2、 測驗的長度:在一個測驗中增加同質(zhì)的題目,可以使信度提高。①測驗越長,測驗的測題取樣或內(nèi)容取樣越有代表性;②測驗越長,被試的猜測因素影響越小。
3、 測驗的難度:如果一個測驗對某團體而言太容易,會使所得分?jǐn)?shù)都集中在高分端;當(dāng)題目太困難時,得分就會集中在低分端。兩種情況均會使信度樣本的分?jǐn)?shù)范圍變窄,從而使測驗變得不夠可靠。
4、 測驗的時間間隔:以再測法或復(fù)本法求信度,兩次測驗相隔時間越短,其信度系數(shù)越大;間隔時間越久,其它變因介入的可能性越大,受外界的影響越大,信度系數(shù)便越低。
第四章 測驗的效度
第一節(jié) 效度的概念
1、 效度是指所測量的與所要測量的心理特點之間符合的程度,或者簡單地說是指一個心理測驗的準(zhǔn)確性。效度是科學(xué)測量工具最重要的必備條件。(1)一組測驗分?jǐn)?shù)的總方差等于真實方差與誤差方差之和,而真實方差又可分為兩部分,即有關(guān)的方差和無關(guān)的但穩(wěn)定的方差,后者也就是所謂系統(tǒng)誤差帶來的方差 (公式4-2)。
2、 信度和效度的關(guān)系(1)信度是效度的必要而非充分條件:從方差分配公式: 可以看出, 增大,即效度高,信度的真方差( )必然大,故信度必然高。當(dāng)信度高時,即 降低時, 是否增加還要看 是否增減,因此效度不一定就高。效度高必然信度高,而信度高并不一定保證效度高,說明信度高只是效度高的必然條件,并不是效度高的充分條件。(2)效度是受信度制約的
3、 效度的性質(zhì):(1)a效度具有相對性:在評鑒測驗的效度時,必須考慮其目的與功能。只有所測的結(jié)果符合該測驗的目,才能認(rèn)為它是個有效的測量工具。(2)效度具有連續(xù)性。測驗效度通常用相關(guān)系數(shù)表示,它只有程度上的不同,而沒有“全有”或“全無”的區(qū)別。因此,我們評價一個測驗時,不應(yīng)該說“有效”或“無效”,而應(yīng)該用效度較高或效度較低來評價。
第二節(jié) 效度的類型與估計方法
一、效度的類型及評估方法
1、內(nèi)容效度:指的是測驗題目對有關(guān)內(nèi)容或行為取樣的適用性,從而確定測驗是否是所欲測量的行為領(lǐng)域的代表性取樣。(名詞解釋)
(1)想編制有較高內(nèi)容效度的心理測驗:○1要對所測量的心理特性有個明確的概念,并劃定出哪些行為與這心理特性有關(guān),又比較密切。○2測驗題目應(yīng)是所界定的內(nèi)容范圍的代表性取樣。
(2)需要說明的是,要求內(nèi)容效度的測驗,并不一定要求測驗為同質(zhì)的。
2、內(nèi)容效度的評估方法:(1)專家判斷法:為了確定一個測驗是否有內(nèi)容效度,最常用的方法是請有關(guān)專家對測驗題目與原定內(nèi)容的符合性作出判斷,看測驗的題目是否代表規(guī)定的內(nèi)容。如果專家認(rèn)為測驗題目代表了所測內(nèi)容,測驗就是有內(nèi)容效度。由于這種估計效度的方法,是一個邏輯分析的過程,所以內(nèi)容效度有時也可稱為“邏輯效度”。(2)統(tǒng)計分析法:計算兩個評分者之間評定的一致性,雖然考察的是評分者的判斷信度,但由于來自兩個獨立的評判者,因此符合程度越高越能反映測驗的內(nèi)容效度。克倫巴赫提出,內(nèi)容效度可由一組被試在獨立取得自同樣內(nèi)容范圍的兩個測驗復(fù)本上得分之相關(guān)來作數(shù)量的估計。再測法也可用于內(nèi)容效度的評估。(3)經(jīng)驗推測法:通過實踐來檢驗效度。如果是隨著年齡的增加而增加,就可以推測該測驗有內(nèi)容效度。
3、內(nèi)容效度與表面效度的關(guān)系:經(jīng)?;煜?。表面效度是由外行對測驗作表面上的檢查確定的,它不反映測驗實際測量的東西,只是指測驗表面上看來好像是所要測的東西;內(nèi)容效度是由夠資格的判斷者(專家)詳盡地、系統(tǒng)地對測驗作評價建立的。雖然二者都是根據(jù)測驗內(nèi)容作出的主觀判斷,但判斷的標(biāo)準(zhǔn)不同。前者只考慮題目與測量目的之間的明顯的、直接的關(guān)系,后者則考慮到題目與測量目的和內(nèi)容總體之間邏輯的微妙關(guān)系。如果測驗內(nèi)容看起來與測量目標(biāo)和要作的決定不相干,就會使被試產(chǎn)生不配合、馬馬馬乎乎、應(yīng)付了事等反應(yīng),而影響測驗的效度。相反,典型行為測驗卻要求較低的表面效度。如果被試很容易從測驗題目看出測驗的目的,就可能產(chǎn)生反應(yīng)偏差(如掩飾等)。
二、構(gòu)想效度
1、構(gòu)想效度:1954年提出,有人翻譯為構(gòu)思效度,也有叫結(jié)構(gòu)效度。它是指測驗?zāi)軌驕y量到理論上的構(gòu)想和特質(zhì)的程度,即測驗的結(jié)果是否能證實或解釋某一理論的假設(shè)、術(shù)語或構(gòu)想,解釋的程度如何。
2、構(gòu)想效度的估計方法:(1)對測驗本身的分析:對測驗本身的分析:測驗的內(nèi)容效度可以作為構(gòu)思效度的證據(jù);測驗的同質(zhì)性指標(biāo)可以推斷測驗是測量單一特質(zhì)還是測量多種特質(zhì),從而為評估測驗構(gòu)思效度提供證據(jù);分析被試對題目的反應(yīng)特點也可以作為構(gòu)思效度的證據(jù)。(2)測驗間的相互比較:相容效度是構(gòu)思效度的一個證據(jù)。區(qū)分效度是構(gòu)思效度的又一個證據(jù),一個有效的測驗不僅應(yīng)與其他測量同一構(gòu)思的測驗有關(guān),而且還必須與測量不同構(gòu)思的測驗無相關(guān);因素分析法也是建立構(gòu)思效度的常用方法,通過對一組測驗進行因素分析,可以找到影響測驗分?jǐn)?shù)的共同因素,這種因素可能就是我們要測量的心理特質(zhì)(構(gòu)思)。(3)效標(biāo)效度的研究證明:一個測驗若效標(biāo)度理想,那么該測驗所預(yù)測的效標(biāo)的性質(zhì)和種類就可以作為分析測驗構(gòu)思效度的指標(biāo),另一種證實構(gòu)思效度的方法是心理特質(zhì)的發(fā)展變化。實驗法和觀察法證實:觀察實驗前和實驗后分?jǐn)?shù)的差異是驗證構(gòu)思效度的方法。
三、效標(biāo)效度
1、效標(biāo)效度:又稱實證效度,反映的是測驗預(yù)測個體在某種情境下行為表現(xiàn)的有效性程度。被預(yù)測的行為是檢驗效度的標(biāo)準(zhǔn),簡稱效標(biāo)。由于這種效度是看測驗對效標(biāo)預(yù)測如何,所以叫效標(biāo)效度。這種效度需在實踐中檢驗,所以又稱為實證效標(biāo)。
分類:根據(jù)效標(biāo)資料是否與測驗分?jǐn)?shù)同時獲得,又可分為同時效度和預(yù)測效度兩類。同時效度即測驗所得分?jǐn)?shù)可與效標(biāo)同時驗證,通常與心理特征的評估及診斷有關(guān)。預(yù)測效度的效標(biāo)資料需要一段時間才可搜集到,通常用于選拔、分組。因為效標(biāo)資料在考試以后相隔一段時間才能獲得,所以高考的效標(biāo)是一種預(yù)測效標(biāo)。同時效標(biāo)和預(yù)測效標(biāo)意義上的差異,不是來源于時間,而是來自測驗的目的。前者與用來診斷現(xiàn)狀的測驗有關(guān),后者與預(yù)測將來結(jié)果的測驗有關(guān)。
一個好的效標(biāo)必須具備以下條件:
○1必須能地反映測驗的目標(biāo),即效標(biāo)測量本身必須有效;
○2效標(biāo)必須具有較高的信度,穩(wěn)定可靠,不隨時間等因素變化;
○3效標(biāo)可以客觀地加以測量,可用數(shù)據(jù)或等級來表示;
○4效標(biāo)的測量的方法很簡單,省時省力,經(jīng)濟實用。
2、效標(biāo)和效標(biāo)測量:效標(biāo),即衡量測驗有效性的參照標(biāo)準(zhǔn),指的是可以直接而且獨立測量的我們感興趣的行為。我們感興趣的行為,就是要預(yù)測的行為,這是一個總的觀念,故必須以可操作的測量來確定才有實際意義。因此有必要把效標(biāo)細(xì)分為兩個層次,其一是理論水平的“觀念效標(biāo)”, 其二是操作定義水平的“效標(biāo)測量”。
3、常用的效標(biāo)包括:○1學(xué)業(yè)成就:如在校成績、學(xué)歷、有關(guān)的獎勵和榮譽、教師對學(xué)生智力的評定等,常作為智力測驗的效標(biāo),也可作為某些多重能力傾向測驗和人格測驗的效標(biāo)。○2實際工作表現(xiàn):是最滿意的效標(biāo)測量,為一般智力測驗、人格測驗和一些能力傾向測驗的效標(biāo);○3特殊訓(xùn)練成績○4精神病診斷;○5等級評定:是觀察者根據(jù)測驗欲測量的心理特質(zhì)在被試身上的表現(xiàn)而作出的一種個人判斷;○6效標(biāo)團體的比較:即找出兩個在效標(biāo)表現(xiàn)上有差別的團體,比較他們在測驗分?jǐn)?shù)上的差別;○7先前有效的測驗:一個新測驗與先前有效的測驗的相關(guān)也經(jīng)常作為效度檢驗的證據(jù)。(簡答)
第一節(jié) 心理測驗的對象、目的及目標(biāo)
1. 在編制測驗前首先要明確測量的對象:也就是該測驗編成后要用于哪些團體。其包括三個重要的維度,即年齡、教育水平和文化背景。
2. 測驗的目的:一般來說;顯示和預(yù)測。由此我們可以分為兩類測驗:顯示性測驗和預(yù)測性測驗。(1)顯示性測驗:是指測驗題目和所要測量的心理特征相似的測驗。有些觀察法、行為評估法也都是顯示性測驗,題目取自一個很明確的總體的測驗即是樣本測驗,題目取自一個全開發(fā)的總體的測驗即是標(biāo)記測驗。(2)預(yù)測性測驗:指預(yù)測一些沒被測量的行為的測驗。
心理測驗的目標(biāo)是指編制的測驗是測什么的,即用來測量什么樣的心理變量或行為特征。(1)工作分析:對于選拔和預(yù)測功用的預(yù)測性測驗,主要任務(wù)是對所預(yù)測的行為活動作具體分析,我們稱之為任務(wù)分析或工作分析。(2)對特定概念下定義:如果測驗是為了測量某種特殊的心理品質(zhì)或特點,那么測驗編制者就必須給所要測量的心理或行為特質(zhì)下定義,然后必須發(fā)現(xiàn)該特質(zhì)所包含的維量將通過什么行為表現(xiàn)出來或怎樣進行測量。(3)確定測驗的具體內(nèi)容:如果測驗是描述性的顯示測驗,它的目標(biāo)分析的主要任務(wù)則是確定顯示的內(nèi)容和技能,從中取樣。
第二節(jié) 測題的編寫技術(shù)
1. 搜集有關(guān)資料:題目的有關(guān)來源 (1)已出版的標(biāo)準(zhǔn)測驗 (2)理論和專家的經(jīng)驗(3)臨床觀察和記錄
2. 命題的原則及編寫要領(lǐng):1、命題的原則(理解): ⑴內(nèi)容方面。首先,要求題目的內(nèi)容符合測驗的目的;其次,內(nèi)容取樣要有代表性;第三,題目間內(nèi)容相互獨立,互不牽連。 ⑵文字方面。使用語言要準(zhǔn)確,語句要簡明扼要,一句話說明一個概念,盡量少使用雙重否定句。⑶理解方面。題目應(yīng)有確切的答案,題目的內(nèi)容不要超出受測團體的知識水平和理解能力,題目格式要容易理解。 ⑷社會敏感性方面。應(yīng)盡量避開社會敏感性問題,如涉及社會禁忌或個人隱私的題目不應(yīng)使用。
菲利普對于涉及社會敏感性問題,怎樣鼓勵被試作出真實回答的策略: ◇1命題時假定被試具有某種行為,、使他不得不在確實沒有該行為時才否定,可避免否定過多的傾向?!?命題時假定規(guī)范不一致?!?指出該行為是常見的,雖然是違規(guī)的。2、測題的編制要求:對心理測驗的題目進行分類的標(biāo)準(zhǔn)很多,常見的分類是根據(jù)對被試的要求不同來分,可以分為兩大類:提供型選擇型題目。提供型題目要求被試給出正確答案,如論文題、簡答題、填充題等;選擇型題目要求被試在有限的幾個答案中選擇正確的答案,如選擇題、是否題、匹配題等。選擇題我們比較熟悉,它由兩部分分構(gòu)成:提干和選擇。題干就是呈現(xiàn)一個問題的情景,一般由直接問句或不完全的陳述問或不完全的陳述句構(gòu)成。選項就是問題的多種可能答案,,常常是包括一個正確答案,若干(一般是1—5個)錯誤答案,其中錯誤的答案叫“誘答”。
第三節(jié) 測驗的編排和組織
一、測題的編排
1、測驗編排的一般原則:⑴測題的難度排列易逐步上升。⑵盡可能將同類型的測題組合在一起。⑶各種類型測題本身的特點。
2.兩種常見的試題排列方式:(1)并列直進式:整個測驗按試題材料的性質(zhì)歸為若干分測驗,在同一分測驗的試題依其難度由容易到難排列。(2) 混合螺旋式:先將各類試題依難度分成若干不同層次,再將不同性質(zhì)的試題加以組合,作交叉式排列,難度則漸次升進。
第三章 測驗的信度
第一節(jié) 信度的概念
1.信度是指同一被試在不同時間內(nèi)用同一測驗(或用另一套相等的測驗)重復(fù)測量,所得結(jié)果的一致程度。信度只受隨機誤差的影響,隨機誤差越大,信度越低。
信度理論定義:傳統(tǒng)的信度理論認(rèn)為,每一個測驗的實得分?jǐn)?shù)(X)總是由真實分?jǐn)?shù)(T)和誤差(E),兩個部份構(gòu)成的,公式為:
X=T+E
討論一組測驗分?jǐn)?shù)的特性時,可用方差導(dǎo)標(biāo)具體分?jǐn)?shù),公式:
(測驗實得分?jǐn)?shù)的方差)= (測驗真分?jǐn)?shù)的方差)+ (測驗誤差的方差)
操作定義:一組測量分?jǐn)?shù)的真分?jǐn)?shù)方差與總方差(實得分?jǐn)?shù)的方差)的比率,或者是真實分?jǐn)?shù)方差占總方差的的百分比。計算公式:
由于真實分?jǐn)?shù)的方差是無法統(tǒng)計的,因此公式3-3可轉(zhuǎn)化為:
在(書上)圖3-1下面的話看一看。
2、信度的指標(biāo)
(1)信度系數(shù):大部分情況下,信度是信度系數(shù)為指標(biāo),它是一種相關(guān)系數(shù)。理論上說就是真分?jǐn)?shù)方差與實得分?jǐn)?shù)的方差的比值,公式是:
(2) 測量標(biāo)準(zhǔn)誤:信度系數(shù)表示一組測量的實得分?jǐn)?shù)與真分?jǐn)?shù)的符合程度,但并沒有直接支出個人測量分?jǐn)?shù)的變異量。
測量的標(biāo)準(zhǔn)誤與信度之間呈反比關(guān)系:標(biāo)準(zhǔn)誤越小,信度越;標(biāo)準(zhǔn)誤越大,信度越低。
3、信度與測驗分?jǐn)?shù)的解釋:(1)解釋真實分?jǐn)?shù)與實得分?jǐn)?shù)的相關(guān):信度系數(shù)可以解釋為總的方差中有多少比例是由真實分?jǐn)?shù)的方差決定的,也就是測驗的總變異中真分?jǐn)?shù)造成的變異占百分之幾。(2)比較信度可以接受的水平:一個測驗究竟信度多高才適合,才讓人滿意呢?當(dāng)然,最理想的情況是 =1.00,但實際上辦不到。一般原則是:當(dāng) <0.70時,測驗不能用于對個人作出評價或預(yù)測,而且不能作團體比較;當(dāng)0.70≤ <0.85時,可用于團體比較;當(dāng) ≥0.85時,才能用來鑒別或預(yù)測個人成績或作為。(3)解釋個人分?jǐn)?shù)的意義:從信度可以解釋個人分?jǐn)?shù)的意義,這是測量標(biāo)準(zhǔn)誤的應(yīng)用。它有兩個作用:一是估計真實分?jǐn)?shù)的范圍;二是了解實得分?jǐn)?shù)再測時可能的變化情形。看書公式3-8.(4)比較不同測驗分?jǐn)?shù)的差異:測量標(biāo)準(zhǔn)誤和測驗信度在評價兩個不同測驗的分?jǐn)?shù)是否有明顯差異時也非常重要。這種比較包括兩個人不同分?jǐn)?shù)的差別和同一被試在兩個測驗上的差別。
第二節(jié) 信度的類型及估計方法
1、 重測信度:又稱穩(wěn)定性系數(shù)。他的計算方法是采用重測法,即使用同一測驗,在同樣條件下對同一組被試前后施測兩次測驗,求兩次得分間的相關(guān)系數(shù)。
最適宜的時距隨測驗的目的、性質(zhì)和被試的特點而異,一般是兩周到四周較宜,間隔時間不超過六個月。
重測信度的前提假設(shè)是:⑴所測量的特性必須是穩(wěn)定的;⑵每個人對前一次反應(yīng)的遺忘程度相同;⑶在時間間隔中沒有學(xué)習(xí)另外的與測驗有關(guān)的東西。
2、 復(fù)本信度:又稱等值性系數(shù)。它是以兩個等值但題目不同的測驗(復(fù)本)來測量同一群體,然后求得被試在兩個測驗上得分的相關(guān)系數(shù),這個相關(guān)系數(shù)就代表了復(fù)本信度的高低。
復(fù)本信度的高低關(guān)鍵取決于復(fù)本測驗的選擇,因而是題目取樣問題。
同重測信度一樣,復(fù)本信度也要考慮兩個復(fù)本實施時間間隔。如果兩個復(fù)本幾乎是在同一時間內(nèi)施測的,相關(guān)系數(shù)反映的才是不同復(fù)本的關(guān)系,而不摻有時間的影響。如果兩個復(fù)本的施測相隔一段時間,則稱穩(wěn)定與等值系數(shù)。穩(wěn)定與等值系數(shù)既考慮了測驗在時間上的穩(wěn)定性,也考慮了不同題目樣本反應(yīng)的一致性,因而是更為嚴(yán)格的信度考察方法,也是應(yīng)用較為廣泛的方法。
內(nèi)部一致性信度包括:分半信度和同質(zhì)性信度。(1)分半信度:指采用分辦法估計所得的信度系數(shù)。這種方法估計信度系數(shù)只需一種測驗形式,實施一次測驗。通常是在測驗實施后將測驗按奇、偶數(shù)分為等值的兩半,并分別計算每位被試在兩半測驗上的得分,求出這兩半分?jǐn)?shù)的相關(guān)系數(shù)?!?常見的是將測題按其序列號的奇偶分半,這種分法的前提是:測題并非隨機排列,而是按某種順序(如難度)排列;如果隨機排列的題目,則必須是所有題目平等的(要么難度相等,要么性質(zhì)一樣);如果測驗有多個分量表,應(yīng)該在分量表內(nèi)部排好順序,再把各分量表分兩半組合起來求相關(guān)?!?常用的修正公式是:斯皮爾曼-布朗公式:
3、 斯皮爾曼-布朗公式為經(jīng)驗公式,他的假設(shè)條件是兩半測驗分?jǐn)?shù)的變異數(shù)相等,但實際資料有時未必完全符合這一條件。當(dāng)假設(shè)不成立時,可采用:弗朗那根公式或盧倫公式中的任一一個。(公式見書3-12、3-13)
同質(zhì)性信度:指測驗內(nèi)部所有題目間的一致性。當(dāng)各個測題的得分有較高的正相關(guān)時,不論題目的內(nèi)容和形式如何,測驗即為同質(zhì)的;若所有題目看起來好像測量的是同一特質(zhì),但相關(guān)很低或為負(fù)相關(guān)時,測驗即為異質(zhì)的。此外,對于一些復(fù)雜的、異質(zhì)的心理學(xué)變量,采用單一的同質(zhì)性測驗是不行的,因而常常采用若干相對異質(zhì)的分測驗,并使每個分測驗內(nèi)容具有同質(zhì)性,這樣每個分測驗就能用來預(yù)測異質(zhì)效標(biāo)的某一方面。同質(zhì)性信度的公式主要有:庫德-理查遜公式:常用的是K-R20公式,在個各測題難度相同或近似的情況
下,還可采用計算更為簡便的K-R21公式。
克倫巴赫α系數(shù)(這幾個公式在書上好好看看)
4、 評分者信度:用于測量不同評分者之間所產(chǎn)生的誤差。為了衡量評分者之間的信度高低,可隨機抽取若干份測驗卷,由兩位評分者按評分標(biāo)準(zhǔn)分別給分,然后再根據(jù)美分測驗卷的兩個分?jǐn)?shù)計算相關(guān),即得評分者信度。一般要求在成對的受過訓(xùn)練的評分者之間平均一致性達(dá)0.90以上,才認(rèn)為評分是客觀的。
第三節(jié) 影響信度的因素
1、 樣本的特征:(1)樣本團體分?jǐn)?shù)分布的影響:任何相關(guān)關(guān)系都是受到團體中分?jǐn)?shù)分布的影響,當(dāng)分布范圍增大時,其信度估計就較高;當(dāng)分布范圍減小時,相關(guān)系數(shù)隨之下降,信度值則較低。(2)樣本團體異質(zhì)性的影響:若獲得信度的取樣團體較為異質(zhì)的話,往往會高估測驗的信度,相反則會低估測驗的信度。樣本團體平均能力水平的影響:對于不同水平的團體,題目具有不同的難度,每個題目在難度上的微小差異累計起來便會影響信度。
2、 測驗的長度:在一個測驗中增加同質(zhì)的題目,可以使信度提高。①測驗越長,測驗的測題取樣或內(nèi)容取樣越有代表性;②測驗越長,被試的猜測因素影響越小。
3、 測驗的難度:如果一個測驗對某團體而言太容易,會使所得分?jǐn)?shù)都集中在高分端;當(dāng)題目太困難時,得分就會集中在低分端。兩種情況均會使信度樣本的分?jǐn)?shù)范圍變窄,從而使測驗變得不夠可靠。
4、 測驗的時間間隔:以再測法或復(fù)本法求信度,兩次測驗相隔時間越短,其信度系數(shù)越大;間隔時間越久,其它變因介入的可能性越大,受外界的影響越大,信度系數(shù)便越低。
第四章 測驗的效度
第一節(jié) 效度的概念
1、 效度是指所測量的與所要測量的心理特點之間符合的程度,或者簡單地說是指一個心理測驗的準(zhǔn)確性。效度是科學(xué)測量工具最重要的必備條件。(1)一組測驗分?jǐn)?shù)的總方差等于真實方差與誤差方差之和,而真實方差又可分為兩部分,即有關(guān)的方差和無關(guān)的但穩(wěn)定的方差,后者也就是所謂系統(tǒng)誤差帶來的方差 (公式4-2)。
2、 信度和效度的關(guān)系(1)信度是效度的必要而非充分條件:從方差分配公式: 可以看出, 增大,即效度高,信度的真方差( )必然大,故信度必然高。當(dāng)信度高時,即 降低時, 是否增加還要看 是否增減,因此效度不一定就高。效度高必然信度高,而信度高并不一定保證效度高,說明信度高只是效度高的必然條件,并不是效度高的充分條件。(2)效度是受信度制約的
3、 效度的性質(zhì):(1)a效度具有相對性:在評鑒測驗的效度時,必須考慮其目的與功能。只有所測的結(jié)果符合該測驗的目,才能認(rèn)為它是個有效的測量工具。(2)效度具有連續(xù)性。測驗效度通常用相關(guān)系數(shù)表示,它只有程度上的不同,而沒有“全有”或“全無”的區(qū)別。因此,我們評價一個測驗時,不應(yīng)該說“有效”或“無效”,而應(yīng)該用效度較高或效度較低來評價。
第二節(jié) 效度的類型與估計方法
一、效度的類型及評估方法
1、內(nèi)容效度:指的是測驗題目對有關(guān)內(nèi)容或行為取樣的適用性,從而確定測驗是否是所欲測量的行為領(lǐng)域的代表性取樣。(名詞解釋)
(1)想編制有較高內(nèi)容效度的心理測驗:○1要對所測量的心理特性有個明確的概念,并劃定出哪些行為與這心理特性有關(guān),又比較密切。○2測驗題目應(yīng)是所界定的內(nèi)容范圍的代表性取樣。
(2)需要說明的是,要求內(nèi)容效度的測驗,并不一定要求測驗為同質(zhì)的。
2、內(nèi)容效度的評估方法:(1)專家判斷法:為了確定一個測驗是否有內(nèi)容效度,最常用的方法是請有關(guān)專家對測驗題目與原定內(nèi)容的符合性作出判斷,看測驗的題目是否代表規(guī)定的內(nèi)容。如果專家認(rèn)為測驗題目代表了所測內(nèi)容,測驗就是有內(nèi)容效度。由于這種估計效度的方法,是一個邏輯分析的過程,所以內(nèi)容效度有時也可稱為“邏輯效度”。(2)統(tǒng)計分析法:計算兩個評分者之間評定的一致性,雖然考察的是評分者的判斷信度,但由于來自兩個獨立的評判者,因此符合程度越高越能反映測驗的內(nèi)容效度。克倫巴赫提出,內(nèi)容效度可由一組被試在獨立取得自同樣內(nèi)容范圍的兩個測驗復(fù)本上得分之相關(guān)來作數(shù)量的估計。再測法也可用于內(nèi)容效度的評估。(3)經(jīng)驗推測法:通過實踐來檢驗效度。如果是隨著年齡的增加而增加,就可以推測該測驗有內(nèi)容效度。
3、內(nèi)容效度與表面效度的關(guān)系:經(jīng)?;煜?。表面效度是由外行對測驗作表面上的檢查確定的,它不反映測驗實際測量的東西,只是指測驗表面上看來好像是所要測的東西;內(nèi)容效度是由夠資格的判斷者(專家)詳盡地、系統(tǒng)地對測驗作評價建立的。雖然二者都是根據(jù)測驗內(nèi)容作出的主觀判斷,但判斷的標(biāo)準(zhǔn)不同。前者只考慮題目與測量目的之間的明顯的、直接的關(guān)系,后者則考慮到題目與測量目的和內(nèi)容總體之間邏輯的微妙關(guān)系。如果測驗內(nèi)容看起來與測量目標(biāo)和要作的決定不相干,就會使被試產(chǎn)生不配合、馬馬馬乎乎、應(yīng)付了事等反應(yīng),而影響測驗的效度。相反,典型行為測驗卻要求較低的表面效度。如果被試很容易從測驗題目看出測驗的目的,就可能產(chǎn)生反應(yīng)偏差(如掩飾等)。
二、構(gòu)想效度
1、構(gòu)想效度:1954年提出,有人翻譯為構(gòu)思效度,也有叫結(jié)構(gòu)效度。它是指測驗?zāi)軌驕y量到理論上的構(gòu)想和特質(zhì)的程度,即測驗的結(jié)果是否能證實或解釋某一理論的假設(shè)、術(shù)語或構(gòu)想,解釋的程度如何。
2、構(gòu)想效度的估計方法:(1)對測驗本身的分析:對測驗本身的分析:測驗的內(nèi)容效度可以作為構(gòu)思效度的證據(jù);測驗的同質(zhì)性指標(biāo)可以推斷測驗是測量單一特質(zhì)還是測量多種特質(zhì),從而為評估測驗構(gòu)思效度提供證據(jù);分析被試對題目的反應(yīng)特點也可以作為構(gòu)思效度的證據(jù)。(2)測驗間的相互比較:相容效度是構(gòu)思效度的一個證據(jù)。區(qū)分效度是構(gòu)思效度的又一個證據(jù),一個有效的測驗不僅應(yīng)與其他測量同一構(gòu)思的測驗有關(guān),而且還必須與測量不同構(gòu)思的測驗無相關(guān);因素分析法也是建立構(gòu)思效度的常用方法,通過對一組測驗進行因素分析,可以找到影響測驗分?jǐn)?shù)的共同因素,這種因素可能就是我們要測量的心理特質(zhì)(構(gòu)思)。(3)效標(biāo)效度的研究證明:一個測驗若效標(biāo)度理想,那么該測驗所預(yù)測的效標(biāo)的性質(zhì)和種類就可以作為分析測驗構(gòu)思效度的指標(biāo),另一種證實構(gòu)思效度的方法是心理特質(zhì)的發(fā)展變化。實驗法和觀察法證實:觀察實驗前和實驗后分?jǐn)?shù)的差異是驗證構(gòu)思效度的方法。
三、效標(biāo)效度
1、效標(biāo)效度:又稱實證效度,反映的是測驗預(yù)測個體在某種情境下行為表現(xiàn)的有效性程度。被預(yù)測的行為是檢驗效度的標(biāo)準(zhǔn),簡稱效標(biāo)。由于這種效度是看測驗對效標(biāo)預(yù)測如何,所以叫效標(biāo)效度。這種效度需在實踐中檢驗,所以又稱為實證效標(biāo)。
分類:根據(jù)效標(biāo)資料是否與測驗分?jǐn)?shù)同時獲得,又可分為同時效度和預(yù)測效度兩類。同時效度即測驗所得分?jǐn)?shù)可與效標(biāo)同時驗證,通常與心理特征的評估及診斷有關(guān)。預(yù)測效度的效標(biāo)資料需要一段時間才可搜集到,通常用于選拔、分組。因為效標(biāo)資料在考試以后相隔一段時間才能獲得,所以高考的效標(biāo)是一種預(yù)測效標(biāo)。同時效標(biāo)和預(yù)測效標(biāo)意義上的差異,不是來源于時間,而是來自測驗的目的。前者與用來診斷現(xiàn)狀的測驗有關(guān),后者與預(yù)測將來結(jié)果的測驗有關(guān)。
一個好的效標(biāo)必須具備以下條件:
○1必須能地反映測驗的目標(biāo),即效標(biāo)測量本身必須有效;
○2效標(biāo)必須具有較高的信度,穩(wěn)定可靠,不隨時間等因素變化;
○3效標(biāo)可以客觀地加以測量,可用數(shù)據(jù)或等級來表示;
○4效標(biāo)的測量的方法很簡單,省時省力,經(jīng)濟實用。
2、效標(biāo)和效標(biāo)測量:效標(biāo),即衡量測驗有效性的參照標(biāo)準(zhǔn),指的是可以直接而且獨立測量的我們感興趣的行為。我們感興趣的行為,就是要預(yù)測的行為,這是一個總的觀念,故必須以可操作的測量來確定才有實際意義。因此有必要把效標(biāo)細(xì)分為兩個層次,其一是理論水平的“觀念效標(biāo)”, 其二是操作定義水平的“效標(biāo)測量”。
3、常用的效標(biāo)包括:○1學(xué)業(yè)成就:如在校成績、學(xué)歷、有關(guān)的獎勵和榮譽、教師對學(xué)生智力的評定等,常作為智力測驗的效標(biāo),也可作為某些多重能力傾向測驗和人格測驗的效標(biāo)。○2實際工作表現(xiàn):是最滿意的效標(biāo)測量,為一般智力測驗、人格測驗和一些能力傾向測驗的效標(biāo);○3特殊訓(xùn)練成績○4精神病診斷;○5等級評定:是觀察者根據(jù)測驗欲測量的心理特質(zhì)在被試身上的表現(xiàn)而作出的一種個人判斷;○6效標(biāo)團體的比較:即找出兩個在效標(biāo)表現(xiàn)上有差別的團體,比較他們在測驗分?jǐn)?shù)上的差別;○7先前有效的測驗:一個新測驗與先前有效的測驗的相關(guān)也經(jīng)常作為效度檢驗的證據(jù)。(簡答)