07年4月北大版“心理測量”串講資料（2）

字號：小 中 大

第二章心理測驗的編制
    第一節(jié) 心理測驗的對象、目的及目標(biāo)
    1. 在編制測驗前首先要明確測量的對象：也就是該測驗編成后要用于哪些團體。其包括三個重要的維度，即年齡、教育水平和文化背景。
    2. 測驗的目的：一般來說；顯示和預(yù)測。由此我們可以分為兩類測驗：顯示性測驗和預(yù)測性測驗。（1）顯示性測驗：是指測驗題目和所要測量的心理特征相似的測驗。有些觀察法、行為評估法也都是顯示性測驗，題目取自一個很明確的總體的測驗即是樣本測驗，題目取自一個全開發(fā)的總體的測驗即是標(biāo)記測驗。（2）預(yù)測性測驗：指預(yù)測一些沒被測量的行為的測驗。
    心理測驗的目標(biāo)是指編制的測驗是測什么的，即用來測量什么樣的心理變量或行為特征。（1）工作分析：對于選拔和預(yù)測功用的預(yù)測性測驗，主要任務(wù)是對所預(yù)測的行為活動作具體分析，我們稱之為任務(wù)分析或工作分析。（2）對特定概念下定義：如果測驗是為了測量某種特殊的心理品質(zhì)或特點，那么測驗編制者就必須給所要測量的心理或行為特質(zhì)下定義，然后必須發(fā)現(xiàn)該特質(zhì)所包含的維量將通過什么行為表現(xiàn)出來或怎樣進行測量。（3）確定測驗的具體內(nèi)容：如果測驗是描述性的顯示測驗，它的目標(biāo)分析的主要任務(wù)則是確定顯示的內(nèi)容和技能，從中取樣。
    第二節(jié) 測題的編寫技術(shù)
    1. 搜集有關(guān)資料：題目的有關(guān)來源（1）已出版的標(biāo)準(zhǔn)測驗（2）理論和專家的經(jīng)驗（3）臨床觀察和記錄
    2. 命題的原則及編寫要領(lǐng)：1、命題的原則（理解）： ⑴內(nèi)容方面。首先，要求題目的內(nèi)容符合測驗的目的；其次，內(nèi)容取樣要有代表性；第三，題目間內(nèi)容相互獨立，互不牽連。 ⑵文字方面。使用語言要準(zhǔn)確，語句要簡明扼要，一句話說明一個概念，盡量少使用雙重否定句。⑶理解方面。題目應(yīng)有確切的答案，題目的內(nèi)容不要超出受測團體的知識水平和理解能力，題目格式要容易理解。 ⑷社會敏感性方面。應(yīng)盡量避開社會敏感性問題，如涉及社會禁忌或個人隱私的題目不應(yīng)使用。
    菲利普對于涉及社會敏感性問題，怎樣鼓勵被試作出真實回答的策略： ◇1命題時假定被試具有某種行為，、使他不得不在確實沒有該行為時才否定，可避免否定過多的傾向?！?命題時假定規(guī)范不一致?！?指出該行為是常見的，雖然是違規(guī)的。2、測題的編制要求：對心理測驗的題目進行分類的標(biāo)準(zhǔn)很多，常見的分類是根據(jù)對被試的要求不同來分，可以分為兩大類：提供型選擇型題目。提供型題目要求被試給出正確答案，如論文題、簡答題、填充題等；選擇型題目要求被試在有限的幾個答案中選擇正確的答案，如選擇題、是否題、匹配題等。選擇題我們比較熟悉，它由兩部分分構(gòu)成：提干和選擇。題干就是呈現(xiàn)一個問題的情景，一般由直接問句或不完全的陳述問或不完全的陳述句構(gòu)成。選項就是問題的多種可能答案，，常常是包括一個正確答案，若干（一般是1—5個）錯誤答案，其中錯誤的答案叫“誘答”。
    第三節(jié) 測驗的編排和組織
    一、測題的編排
    1、測驗編排的一般原則：⑴測題的難度排列易逐步上升。⑵盡可能將同類型的測題組合在一起。⑶各種類型測題本身的特點。
    2.兩種常見的試題排列方式：（1）并列直進式：整個測驗按試題材料的性質(zhì)歸為若干分測驗，在同一分測驗的試題依其難度由容易到難排列。（2）混合螺旋式：先將各類試題依難度分成若干不同層次，再將不同性質(zhì)的試題加以組合，作交叉式排列，難度則漸次升進。
    第三章　測驗的信度
    第一節(jié)　信度的概念
    1.信度是指同一被試在不同時間內(nèi)用同一測驗（或用另一套相等的測驗）重復(fù)測量，所得結(jié)果的一致程度。信度只受隨機誤差的影響，隨機誤差越大，信度越低。
    信度理論定義：傳統(tǒng)的信度理論認(rèn)為，每一個測驗的實得分?jǐn)?shù)（X）總是由真實分?jǐn)?shù)（T）和誤差（E），兩個部份構(gòu)成的，公式為：
    X=T+E
    討論一組測驗分?jǐn)?shù)的特性時，可用方差導(dǎo)標(biāo)具體分?jǐn)?shù)，公式：
    （測驗實得分?jǐn)?shù)的方差）＝（測驗真分?jǐn)?shù)的方差）＋（測驗誤差的方差）
    操作定義：一組測量分?jǐn)?shù)的真分?jǐn)?shù)方差與總方差（實得分?jǐn)?shù)的方差）的比率，或者是真實分?jǐn)?shù)方差占總方差的的百分比。計算公式：
    由于真實分?jǐn)?shù)的方差是無法統(tǒng)計的，因此公式3-3可轉(zhuǎn)化為：
    在（書上）圖3-1下面的話看一看。
    2、信度的指標(biāo)
    （1）信度系數(shù)：大部分情況下，信度是信度系數(shù)為指標(biāo)，它是一種相關(guān)系數(shù)。理論上說就是真分?jǐn)?shù)方差與實得分?jǐn)?shù)的方差的比值，公式是：
    （2）測量標(biāo)準(zhǔn)誤：信度系數(shù)表示一組測量的實得分?jǐn)?shù)與真分?jǐn)?shù)的符合程度，但并沒有直接支出個人測量分?jǐn)?shù)的變異量。
    測量的標(biāo)準(zhǔn)誤與信度之間呈反比關(guān)系：標(biāo)準(zhǔn)誤越小，信度越；標(biāo)準(zhǔn)誤越大，信度越低。
    3、信度與測驗分?jǐn)?shù)的解釋：（1）解釋真實分?jǐn)?shù)與實得分?jǐn)?shù)的相關(guān)：信度系數(shù)可以解釋為總的方差中有多少比例是由真實分?jǐn)?shù)的方差決定的，也就是測驗的總變異中真分?jǐn)?shù)造成的變異占百分之幾。（2）比較信度可以接受的水平：一個測驗究竟信度多高才適合，才讓人滿意呢？當(dāng)然，最理想的情況是 =1.00，但實際上辦不到。一般原則是：當(dāng) <0.70時，測驗不能用于對個人作出評價或預(yù)測，而且不能作團體比較；當(dāng)0.70≤ <0.85時，可用于團體比較；當(dāng) ≥0.85時，才能用來鑒別或預(yù)測個人成績或作為。（3）解釋個人分?jǐn)?shù)的意義：從信度可以解釋個人分?jǐn)?shù)的意義，這是測量標(biāo)準(zhǔn)誤的應(yīng)用。它有兩個作用：一是估計真實分?jǐn)?shù)的范圍；二是了解實得分?jǐn)?shù)再測時可能的變化情形。看書公式3-8.（4）比較不同測驗分?jǐn)?shù)的差異：測量標(biāo)準(zhǔn)誤和測驗信度在評價兩個不同測驗的分?jǐn)?shù)是否有明顯差異時也非常重要。這種比較包括兩個人不同分?jǐn)?shù)的差別和同一被試在兩個測驗上的差別。
    第二節(jié) 信度的類型及估計方法
    1、重測信度：又稱穩(wěn)定性系數(shù)。他的計算方法是采用重測法，即使用同一測驗，在同樣條件下對同一組被試前后施測兩次測驗，求兩次得分間的相關(guān)系數(shù)。
    最適宜的時距隨測驗的目的、性質(zhì)和被試的特點而異，一般是兩周到四周較宜，間隔時間不超過六個月。
    重測信度的前提假設(shè)是：⑴所測量的特性必須是穩(wěn)定的；⑵每個人對前一次反應(yīng)的遺忘程度相同；⑶在時間間隔中沒有學(xué)習(xí)另外的與測驗有關(guān)的東西。
    2、復(fù)本信度：又稱等值性系數(shù)。它是以兩個等值但題目不同的測驗（復(fù)本）來測量同一群體，然后求得被試在兩個測驗上得分的相關(guān)系數(shù)，這個相關(guān)系數(shù)就代表了復(fù)本信度的高低。
    復(fù)本信度的高低關(guān)鍵取決于復(fù)本測驗的選擇，因而是題目取樣問題。
    同重測信度一樣，復(fù)本信度也要考慮兩個復(fù)本實施時間間隔。如果兩個復(fù)本幾乎是在同一時間內(nèi)施測的，相關(guān)系數(shù)反映的才是不同復(fù)本的關(guān)系，而不摻有時間的影響。如果兩個復(fù)本的施測相隔一段時間，則稱穩(wěn)定與等值系數(shù)。穩(wěn)定與等值系數(shù)既考慮了測驗在時間上的穩(wěn)定性，也考慮了不同題目樣本反應(yīng)的一致性，因而是更為嚴(yán)格的信度考察方法，也是應(yīng)用較為廣泛的方法。
    內(nèi)部一致性信度包括：分半信度和同質(zhì)性信度。（1）分半信度：指采用分辦法估計所得的信度系數(shù)。這種方法估計信度系數(shù)只需一種測驗形式，實施一次測驗。通常是在測驗實施后將測驗按奇、偶數(shù)分為等值的兩半，并分別計算每位被試在兩半測驗上的得分，求出這兩半分?jǐn)?shù)的相關(guān)系數(shù)?！?常見的是將測題按其序列號的奇偶分半，這種分法的前提是：測題并非隨機排列，而是按某種順序（如難度）排列；如果隨機排列的題目，則必須是所有題目平等的（要么難度相等，要么性質(zhì)一樣）；如果測驗有多個分量表，應(yīng)該在分量表內(nèi)部排好順序，再把各分量表分兩半組合起來求相關(guān)?！?常用的修正公式是：斯皮爾曼－布朗公式：
    3、斯皮爾曼－布朗公式為經(jīng)驗公式，他的假設(shè)條件是兩半測驗分?jǐn)?shù)的變異數(shù)相等，但實際資料有時未必完全符合這一條件。當(dāng)假設(shè)不成立時，可采用：弗朗那根公式或盧倫公式中的任一一個。（公式見書3-12、3-13）
    同質(zhì)性信度：指測驗內(nèi)部所有題目間的一致性。當(dāng)各個測題的得分有較高的正相關(guān)時，不論題目的內(nèi)容和形式如何，測驗即為同質(zhì)的；若所有題目看起來好像測量的是同一特質(zhì)，但相關(guān)很低或為負(fù)相關(guān)時，測驗即為異質(zhì)的。此外，對于一些復(fù)雜的、異質(zhì)的心理學(xué)變量，采用單一的同質(zhì)性測驗是不行的，因而常常采用若干相對異質(zhì)的分測驗，并使每個分測驗內(nèi)容具有同質(zhì)性，這樣每個分測驗就能用來預(yù)測異質(zhì)效標(biāo)的某一方面。同質(zhì)性信度的公式主要有：庫德-理查遜公式：常用的是K-R20公式，在個各測題難度相同或近似的情況
    下，還可采用計算更為簡便的K-R21公式。
    克倫巴赫α系數(shù)（這幾個公式在書上好好看看）
    4、評分者信度：用于測量不同評分者之間所產(chǎn)生的誤差。為了衡量評分者之間的信度高低，可隨機抽取若干份測驗卷，由兩位評分者按評分標(biāo)準(zhǔn)分別給分，然后再根據(jù)美分測驗卷的兩個分?jǐn)?shù)計算相關(guān)，即得評分者信度。一般要求在成對的受過訓(xùn)練的評分者之間平均一致性達(dá)0.90以上，才認(rèn)為評分是客觀的。
    第三節(jié) 影響信度的因素
    1、樣本的特征：（1）樣本團體分?jǐn)?shù)分布的影響：任何相關(guān)關(guān)系都是受到團體中分?jǐn)?shù)分布的影響，當(dāng)分布范圍增大時，其信度估計就較高；當(dāng)分布范圍減小時，相關(guān)系數(shù)隨之下降，信度值則較低。（2）樣本團體異質(zhì)性的影響：若獲得信度的取樣團體較為異質(zhì)的話，往往會高估測驗的信度，相反則會低估測驗的信度。樣本團體平均能力水平的影響：對于不同水平的團體，題目具有不同的難度，每個題目在難度上的微小差異累計起來便會影響信度。
    2、測驗的長度：在一個測驗中增加同質(zhì)的題目，可以使信度提高。①測驗越長，測驗的測題取樣或內(nèi)容取樣越有代表性；②測驗越長，被試的猜測因素影響越小。
    3、測驗的難度：如果一個測驗對某團體而言太容易，會使所得分?jǐn)?shù)都集中在高分端；當(dāng)題目太困難時，得分就會集中在低分端。兩種情況均會使信度樣本的分?jǐn)?shù)范圍變窄，從而使測驗變得不夠可靠。
    4、測驗的時間間隔：以再測法或復(fù)本法求信度，兩次測驗相隔時間越短，其信度系數(shù)越大；間隔時間越久，其它變因介入的可能性越大，受外界的影響越大，信度系數(shù)便越低。
    第四章測驗的效度
    第一節(jié) 效度的概念
    1、效度是指所測量的與所要測量的心理特點之間符合的程度，或者簡單地說是指一個心理測驗的準(zhǔn)確性。效度是科學(xué)測量工具最重要的必備條件。（1）一組測驗分?jǐn)?shù)的總方差等于真實方差與誤差方差之和，而真實方差又可分為兩部分，即有關(guān)的方差和無關(guān)的但穩(wěn)定的方差，后者也就是所謂系統(tǒng)誤差帶來的方差（公式4-2）。
    2、信度和效度的關(guān)系（1）信度是效度的必要而非充分條件：從方差分配公式：可以看出，增大，即效度高，信度的真方差（）必然大，故信度必然高。當(dāng)信度高時，即降低時，是否增加還要看是否增減，因此效度不一定就高。效度高必然信度高，而信度高并不一定保證效度高，說明信度高只是效度高的必然條件，并不是效度高的充分條件。（2）效度是受信度制約的
    3、效度的性質(zhì)：（1）a效度具有相對性：在評鑒測驗的效度時，必須考慮其目的與功能。只有所測的結(jié)果符合該測驗的目，才能認(rèn)為它是個有效的測量工具。（2）效度具有連續(xù)性。測驗效度通常用相關(guān)系數(shù)表示，它只有程度上的不同，而沒有“全有”或“全無”的區(qū)別。因此，我們評價一個測驗時，不應(yīng)該說“有效”或“無效”，而應(yīng)該用效度較高或效度較低來評價。
    第二節(jié) 效度的類型與估計方法
    一、效度的類型及評估方法
    1、內(nèi)容效度：指的是測驗題目對有關(guān)內(nèi)容或行為取樣的適用性，從而確定測驗是否是所欲測量的行為領(lǐng)域的代表性取樣。（名詞解釋）
    （1）想編制有較高內(nèi)容效度的心理測驗：○1要對所測量的心理特性有個明確的概念，并劃定出哪些行為與這心理特性有關(guān)，又比較密切。○2測驗題目應(yīng)是所界定的內(nèi)容范圍的代表性取樣。
    （2）需要說明的是，要求內(nèi)容效度的測驗，并不一定要求測驗為同質(zhì)的。
    2、內(nèi)容效度的評估方法：（1）專家判斷法：為了確定一個測驗是否有內(nèi)容效度，最常用的方法是請有關(guān)專家對測驗題目與原定內(nèi)容的符合性作出判斷，看測驗的題目是否代表規(guī)定的內(nèi)容。如果專家認(rèn)為測驗題目代表了所測內(nèi)容，測驗就是有內(nèi)容效度。由于這種估計效度的方法，是一個邏輯分析的過程，所以內(nèi)容效度有時也可稱為“邏輯效度”。（2）統(tǒng)計分析法：計算兩個評分者之間評定的一致性，雖然考察的是評分者的判斷信度，但由于來自兩個獨立的評判者，因此符合程度越高越能反映測驗的內(nèi)容效度。克倫巴赫提出，內(nèi)容效度可由一組被試在獨立取得自同樣內(nèi)容范圍的兩個測驗復(fù)本上得分之相關(guān)來作數(shù)量的估計。再測法也可用于內(nèi)容效度的評估。（3）經(jīng)驗推測法：通過實踐來檢驗效度。如果是隨著年齡的增加而增加，就可以推測該測驗有內(nèi)容效度。
    3、內(nèi)容效度與表面效度的關(guān)系：經(jīng)?；煜?。表面效度是由外行對測驗作表面上的檢查確定的，它不反映測驗實際測量的東西，只是指測驗表面上看來好像是所要測的東西；內(nèi)容效度是由夠資格的判斷者（專家）詳盡地、系統(tǒng)地對測驗作評價建立的。雖然二者都是根據(jù)測驗內(nèi)容作出的主觀判斷，但判斷的標(biāo)準(zhǔn)不同。前者只考慮題目與測量目的之間的明顯的、直接的關(guān)系，后者則考慮到題目與測量目的和內(nèi)容總體之間邏輯的微妙關(guān)系。如果測驗內(nèi)容看起來與測量目標(biāo)和要作的決定不相干，就會使被試產(chǎn)生不配合、馬馬馬乎乎、應(yīng)付了事等反應(yīng)，而影響測驗的效度。相反，典型行為測驗卻要求較低的表面效度。如果被試很容易從測驗題目看出測驗的目的，就可能產(chǎn)生反應(yīng)偏差（如掩飾等）。
    二、構(gòu)想效度
    1、構(gòu)想效度：1954年提出，有人翻譯為構(gòu)思效度，也有叫結(jié)構(gòu)效度。它是指測驗?zāi)軌驕y量到理論上的構(gòu)想和特質(zhì)的程度，即測驗的結(jié)果是否能證實或解釋某一理論的假設(shè)、術(shù)語或構(gòu)想，解釋的程度如何。
    2、構(gòu)想效度的估計方法：（1）對測驗本身的分析：對測驗本身的分析：測驗的內(nèi)容效度可以作為構(gòu)思效度的證據(jù)；測驗的同質(zhì)性指標(biāo)可以推斷測驗是測量單一特質(zhì)還是測量多種特質(zhì)，從而為評估測驗構(gòu)思效度提供證據(jù)；分析被試對題目的反應(yīng)特點也可以作為構(gòu)思效度的證據(jù)。（2）測驗間的相互比較：相容效度是構(gòu)思效度的一個證據(jù)。區(qū)分效度是構(gòu)思效度的又一個證據(jù)，一個有效的測驗不僅應(yīng)與其他測量同一構(gòu)思的測驗有關(guān)，而且還必須與測量不同構(gòu)思的測驗無相關(guān)；因素分析法也是建立構(gòu)思效度的常用方法，通過對一組測驗進行因素分析，可以找到影響測驗分?jǐn)?shù)的共同因素，這種因素可能就是我們要測量的心理特質(zhì)（構(gòu)思）。（3）效標(biāo)效度的研究證明：一個測驗若效標(biāo)度理想，那么該測驗所預(yù)測的效標(biāo)的性質(zhì)和種類就可以作為分析測驗構(gòu)思效度的指標(biāo)，另一種證實構(gòu)思效度的方法是心理特質(zhì)的發(fā)展變化。實驗法和觀察法證實：觀察實驗前和實驗后分?jǐn)?shù)的差異是驗證構(gòu)思效度的方法。
    三、效標(biāo)效度
    1、效標(biāo)效度：又稱實證效度，反映的是測驗預(yù)測個體在某種情境下行為表現(xiàn)的有效性程度。被預(yù)測的行為是檢驗效度的標(biāo)準(zhǔn)，簡稱效標(biāo)。由于這種效度是看測驗對效標(biāo)預(yù)測如何，所以叫效標(biāo)效度。這種效度需在實踐中檢驗，所以又稱為實證效標(biāo)。
    分類：根據(jù)效標(biāo)資料是否與測驗分?jǐn)?shù)同時獲得，又可分為同時效度和預(yù)測效度兩類。同時效度即測驗所得分?jǐn)?shù)可與效標(biāo)同時驗證，通常與心理特征的評估及診斷有關(guān)。預(yù)測效度的效標(biāo)資料需要一段時間才可搜集到，通常用于選拔、分組。因為效標(biāo)資料在考試以后相隔一段時間才能獲得，所以高考的效標(biāo)是一種預(yù)測效標(biāo)。同時效標(biāo)和預(yù)測效標(biāo)意義上的差異，不是來源于時間，而是來自測驗的目的。前者與用來診斷現(xiàn)狀的測驗有關(guān)，后者與預(yù)測將來結(jié)果的測驗有關(guān)。
    一個好的效標(biāo)必須具備以下條件：
    ○1必須能地反映測驗的目標(biāo)，即效標(biāo)測量本身必須有效；
    ○2效標(biāo)必須具有較高的信度，穩(wěn)定可靠，不隨時間等因素變化；
    ○3效標(biāo)可以客觀地加以測量，可用數(shù)據(jù)或等級來表示；
    ○4效標(biāo)的測量的方法很簡單，省時省力，經(jīng)濟實用。
    2、效標(biāo)和效標(biāo)測量：效標(biāo)，即衡量測驗有效性的參照標(biāo)準(zhǔn)，指的是可以直接而且獨立測量的我們感興趣的行為。我們感興趣的行為，就是要預(yù)測的行為，這是一個總的觀念，故必須以可操作的測量來確定才有實際意義。因此有必要把效標(biāo)細(xì)分為兩個層次，其一是理論水平的“觀念效標(biāo)”，其二是操作定義水平的“效標(biāo)測量”。
    3、常用的效標(biāo)包括：○1學(xué)業(yè)成就：如在校成績、學(xué)歷、有關(guān)的獎勵和榮譽、教師對學(xué)生智力的評定等，常作為智力測驗的效標(biāo)，也可作為某些多重能力傾向測驗和人格測驗的效標(biāo)。○2實際工作表現(xiàn)：是最滿意的效標(biāo)測量，為一般智力測驗、人格測驗和一些能力傾向測驗的效標(biāo)；○3特殊訓(xùn)練成績○4精神病診斷；○5等級評定：是觀察者根據(jù)測驗欲測量的心理特質(zhì)在被試身上的表現(xiàn)而作出的一種個人判斷；○6效標(biāo)團體的比較：即找出兩個在效標(biāo)表現(xiàn)上有差別的團體，比較他們在測驗分?jǐn)?shù)上的差別；○7先前有效的測驗：一個新測驗與先前有效的測驗的相關(guān)也經(jīng)常作為效度檢驗的證據(jù)。（簡答）

07年4月北大版“心理測量”串講資料（2）

字號： 小 中 大

字號：小中大