北京大學心理測量串講筆記（三）

字號：小 中 大

第5章信度
    1、信度是指：測量結果的可靠性和一致性。因為心理測驗通常測量人的行為，行為會由于各種各樣的原因，因時、因事、因地而產生變動，這些因素有些是偶然的，有些是固有的，人在完成心理測驗時的行為也會受上述因素的影響，從而使測驗結果與真實結果不完全一致，所以我們要用信度來衡量測驗的可靠性和一致性。
    2、信度的操作化定義：
    （1）誤差理論認為：一個人的測驗分數(shù)X是由真實分數(shù)（T）和誤差（E）兩部分構成的，公式是X = T + E.
    （2）因此信度就被定義為：一組測量分數(shù)的真實方差與實得方差的比，或者是指真實方差占總方差的百分比。公式為：rxx = 1－SE 2／SX 2
    （3）根據(jù)統(tǒng)計學理論，真實方差與實得方差的比是一個相關系數(shù)的平方，所以我們把這種相關系數(shù)的平方叫做信度系數(shù)。
    （4）計算公式為：rxx = ST2／SX2
    3、由于誤差的來源信度的可分為：這種分類是基于信度的傳統(tǒng)定義-真分數(shù)理論。
    （1）重測信度：考慮的誤差來源是時間取樣。
    （2）復本信度：考慮的誤差來源是內容取樣。
    （3）分半信度：它考慮的誤差來源也是內容取樣，它與復本信度的差別是：分半信度考查一個測驗內容的兩半題目測量的是否是同一個心理特點行為。
    （4）同質性信度（內部一致性系數(shù)）：考慮的是測驗內容是否異質。
    （5）評分者信度：考慮的誤差來源是評分者間的差別。
    4、信度的表示方法：
    （1）信度系數(shù)和信度指數(shù)：
    1信度系數(shù)：rxx = rx2T = S2T／S2
    2信度指數(shù)：rXT = ST／SX
    （2）測量標準誤：SE = SX 1－rxx
    5、信度的意義：
    （1）信度系數(shù)可以解釋為樣本測驗分數(shù)的總方差中有多少比例是真分數(shù)方差，也就是測驗的總變異中真分數(shù)造成的變異占百分之幾。它直接告訴我們測量的誤差有多大。
    （2）測量的標準誤可以告訴我們有多大可能性真實分數(shù)在某一分數(shù)范圍內，并且可以預測實得分數(shù)再測時可能的變化情況。
    6、信度的作用：
    （1）解釋預測個人分數(shù)的意義。
    （2）解釋真實分數(shù)與實得分數(shù)間的關系，明確告訴我們測驗誤差大小。
    （3）新編的測驗信度應高于原有的同類測驗或相似測驗。
    （4）下結論說某測驗比較可靠，必須是依據(jù)情境的，經多次證實的。
    （5）它是確定測驗好壞的一個指標。一般的原則是：
    1當rxx＜0.70時，測驗不能用于對個人作出評價或預測，而且不能做團體間比較。
    2當0.70≤rxx＜0.85時，可用于團體比較。
    3當rxx≥0.85時，才可以用來鑒別或預測個人成績或作用
    7、重測信度：有時也叫穩(wěn)定性，主要針對時間變量。
    （1）重測信度采集數(shù)據(jù)得方法是：對同一組被試間隔一定的時間重復測試一次。
    （4）重測信度的計算方法是積差相關法，因而rxx就是皮爾遜的積差相關系數(shù)。
    （7）重測信度的時間間隔選擇依測驗性質和目的而定，如果測驗是用于長期預測，則測量間隔長一些。對兒童的智力測驗一般是兩周到四周為宜。對成年人，間隔可到半年，很少超過6個月。
    （13）使用重測信度應注意：不是所有測驗都可以計算重測信度。并且重測信度只是反映了隨機誤差的影響，而不是反映被試心理特點的長期變化。
    8、復本信度：又叫等值性系數(shù)。
    （1）數(shù)據(jù)采集方法是：給被試施測兩個內容等值但題目不同的測驗，求兩組數(shù)值的相關。計算方法常見的也是積差相關法。
    （2）復本信度的高低反映了兩個互為復本的測驗等價的程度，而不是反映一個測驗本身受隨機誤差影響的大小。復本信度的高低關鍵取決于復本測驗的選擇，因而施題目取樣問題，或者說是測驗的內容取樣問題。
    （3）復本信度優(yōu)于重測信度的地方是：避免了重測帶來的記憶效應和練習效應；可用于長期追蹤研究前后測量；減少了作弊的可能性。
    （4）復本信度的缺點：有些測驗的復本很難找到；有些測驗因正遷移效應使測驗性質改變；如測量的內容很容易受練習的影響，復本信度也無法清除這種練習效應。
    （5）重測復本信度，即再不同的時間里施測兩個等值的測驗（復本），得到的相關就是重測復本信度，也叫穩(wěn)定等值系數(shù)。它比單一的重測信度或復本信度都要嚴格、全面一些。
    9、斯皮爾曼-布朗公式：rnn = nrtt／1 +（n－13、1）rtt，14、rnn是校正以后的相關系數(shù)，15、rtt是實得的相關系數(shù)，16、n為rnn對應的測驗長度與rtt對應的測驗長度之比。分半時，17、n = N／（N／2）= 2（N為測驗全長），18、所以分半法信度的校正公式是：rxx = 2 rnn／1 + rhh其中rhh為兩半測驗的相關系數(shù)。
    （1）盧倫公式：rxx = 1－Sd2／Sx2其中Sd2是兩半測驗分數(shù)之差的方差，Sx2為總方差。
    （2）從理論上分析，分半信度反映的實際上是兩半測驗能夠測量相同內容或心理特點的程度。
    10、內部一致性信度（同質性信度）：同質性是指測驗的所有題目間性質的一致性，即測的是同一種心理特質或行為。同質性是測量單一特質的必要條件。這里講的同質性是指測驗題目得分反映的心理特質一致，同質性的判別標準是：題目間呈高正相關，如果相關很低或是呈負相關，則題目為異質。
    （1）庫德和里查德森提出的K-R20公式只適合預測題目是二分法計分的。克倫巴赫α系數(shù)適合于非二分法計分的測驗的內部一致性信度估計法。
    （2）從同質性信度的含義我們不難看出，分半信度是求測驗兩半之間的一致性或同質性，而同質性是求所有題目間的一致性。因此分半信度實際上是同質性信度的一種，可以作為測驗同質性評價的粗略估計指標。因為可以根據(jù)測驗得分來推論或驗證某種概念或理論構思，因此同質性信度也是一種構思效度，或叫結構效度，它實際上介于信度與效度之間。
    11、評分者信度：有些心理測驗的得分不是根據(jù)客觀的計分系統(tǒng)計分的，是由評分者來給被試打分，因此，這樣的測驗的可靠性如何取決于評分者評分的一致性和穩(wěn)定性如何。
    評分者信度因評分者人數(shù)不同而估計方法不一樣。如果是兩個評分者，獨立對被試的反應評分，則可以用積差相關來計算，或用斯皮爾曼等級相關法計算。如果評分者在三人以上，而且是等級評分，則可以用“肯德爾和諧系數(shù)”（W）來求評分者信度。
    12、以測量標準誤表示信度的好處是：
    （1）信度的單位與測驗分數(shù)的單位相同，因此解釋個人分數(shù)時非常直接，能直接指出允許測驗分數(shù)變化的范圍。
    （2）測驗同質與否并不影響測量標準誤的大小。測量標準誤的不足之處時：無法比較不同測驗間的信度高低。比較不同測驗的信度用信度系數(shù)（rxx）解釋個人分數(shù)時用測量標準誤（SE）。
    13、常見的影響信度的因素有：樣本特征、測驗的長度、測驗的難度、測量的時間間隔等。
    14、我們做信度考驗時，常常選取一個與常模樣本性質相同的樣本施測，根據(jù)被試得分求出信度系數(shù)。
    （1）樣本團體得分分布的影響：求信度的樣本團體得分分布如果比較窄小的話信度就低。
    （2）樣本團體異質性的影響：樣本團體異質的話，測驗分數(shù)的分布就比同質樣本的要廣，分數(shù)的離差就大，樣本的方差就大，信度就高。實際上，高信度可能是假性高信度，是由樣本團體的異質造成的。但如果常?？傮w要求各種各樣的人，則異質的信度樣本求得的信度就是真信度。這時，相反的情況就需要校正信度。
    （3）樣本團體平均能力水平的影響。由于信度也會因樣本間團體平均能力水平的不同而不同，因此在求信度時，一定要注意信度樣本與常?？傮w間是否一致。
    15、測驗的長度：在其他條件均等的情況下，測驗越長，信度越高。原因在于：
    （1）測驗越長，即題目越多，測驗的內容取樣就越有可能有代表性。
    （2）測驗越長，被試的猜測因素影響就越小。
    16、測驗的難度：難度對信度的影響之存在于某些測驗中，如智力測驗、成就測驗、能力傾向測驗、教育測驗等。測驗的難度對信度有間接影響，因為如果測驗過難，被試的得分會集中在低分區(qū)。過于容易，分數(shù)則集中在高分區(qū)。兩種情況都使信度樣本的得分范圍變窄，變異量降低，從而低估測驗信度。
    17、測驗的時間間隔：這一因素之對重測信度和不同時測量時的復本信度有影響，對其余的信度來說不存在時間間隔問題。
    第6章效度
    1、效度是指：測驗能測量到所要測量的對象的程度。這一定義包含著兩層含義：測驗測量什么？測驗對測量目標的測量精確度和真實性是多少？
    2、效度的公式為：rxy = SV2／SX2它是與測量目標有關的真實分數(shù)方差與總方差的比率。其中rxy是常用的效度表示法；SV2是“有關的真實方差”，也就是由測驗所要測量的心理變量引起的方差，也叫有效方差；SX2是總方差。
    3、信度和效度的差別是：兩者所涉及的誤差不同：信度僅考慮偶然的隨機誤差占測驗總變異的比例，效度則還包括與測驗無關的但穩(wěn)定的測量誤差。
    （1）信度是效度的必要而非充分條件。
    （2）效度是受信度制約的。
    4、效度的性質：效度的真實含義是指測驗結果的效度，也就是測驗結果的準確程度。
    （1）效度具有相對性。
    （2）效度具有連續(xù)性。測驗的有效性只有程度上的差別。
    （3）效度也不是直接就可以測量到的，它是從已有的證據(jù)推理而來的。
    5、效度的種類：內容效度、構思效度和效標關聯(lián)效度。
    6、效標關聯(lián)效度是指：測驗總分數(shù)與外在標20、準（效標）之間的相關程度，反映的是用測驗預測個體在某種情境下行為的表現(xiàn)如何的有效性程度。由于外在標準成了考察測驗有效性的參照標準，因此簡稱為效標。
    7、阿斯丁把效標分為兩個層次：一是理論描述水平的“觀念效標”，二是操作定義水平的“效標測量”。
    （1）觀念效標是效標的理論定義，效標測量是效標的操作定義，效標測量必須能真正反映觀念效標。
    （2）效標測量的一個重要特征是客觀性。為此因做到：
    1避免偏見影響效標測量，特別是以等級評定為效標4測量時，評分者的主觀偏見會有很大影響。
    2防止效標污染，即指個人的效標因評定者知道個體的測驗分數(shù)（也叫預測源分數(shù)）而受到影響。
    8、常用的效標：學業(yè)成就、臨床診斷、實際工作表現(xiàn)、特殊訓練成績、效標團體比較、先前有效的測驗、等級評定。
    9、同時效度：它的效標資料是和測驗分數(shù)差不多同時搜集的。一般情況下，它可以代替預測效度。
    10、預測效度的效標是經過一段時間以后才獲得的，預測效度反映的是從測驗分數(shù)預測任何效標情境或一段時間后被試的行為表現(xiàn)的程度。
    11、構思效度就是：心理測驗對某一理論概念或特質測量的程度。因此，研究構思效度就是要搞清楚：測驗測量的是什么構思（概念或特質）？測驗分數(shù)的變異中有多少來自于測驗的理論構思？構思效度是沒有單一指標的，它是由各方面證據(jù)累積起來作出評價的。
    12、確定構思效度的基本步驟：建立理論框架、根據(jù)理論框架推演出有關測驗成績的假設、用邏輯或實證的方法來證明假設。
    13、確定構思效度的方法：測驗內部的方法、測驗間的方法、效標效度的研究、實驗和觀察法驗證。
    （1）測驗內方法：這類方法是通過研究測驗內部結構來界定理論構思，從而為構思效度提供證據(jù)。
    （2）確定方法是：分析測驗的內容效度和測驗的內部一致性分析。測驗的內部一致性可以由分半信度、α系數(shù)、KR20或KR21等指標來衡量，它們考察的是測驗題目是否同質，分測驗與總測驗是否一致或同質，這些都可以證明測驗所測量的構思是否合理，因而構成了證實構思效度高低的證據(jù)。
    （3）有時分析被試對題目的反應特點也可以作為構思效度的證據(jù)。
    （4）測驗間的方法：通過分析幾個測驗間的相關關系，找出其共同之處，進行推斷這些測驗測量的特質是什么，也可以確定這些測驗構思效度如何。最簡單的方法是計算兩種測驗之間得分的相關。區(qū)分效度是構思效度的又一個證據(jù)。因素分析法也是建立構思效度的常用方法。
    （5）實驗法和觀察法證實：觀察實驗前和實驗后分數(shù)的差異也是驗證構思效度的方法之一。
    14、內容效度是指：測驗題目對有關內容或行為總體取樣的適當性程度。因為這種效度主要是考察測驗的內容，因此叫內容效度。
    （1）要想使測驗的內容效度高，必須又兩個條件：內容的范圍或行為總體必須界定名確；測驗題目應該是所界定的內容范圍的代表性樣本。
    （2）內容效度的確定方法：專家判斷、經驗判斷、統(tǒng)計分析法。
    15、表面效度是指：一個測驗看起來好象是測量所要測的東西的程度。換句話說，當那些未經過訓練的被試或測驗應用者認為某測驗是有效的測驗時，該測驗就有表面效度。
    16、效度的指標是指：效標關聯(lián)效度和構思效度的的指標。效度指標一般有：效度系數(shù)、統(tǒng)計推斷參數(shù)、預期表等。
    17、效度系數(shù)：它是最常用的效度指標，尤其是效標關聯(lián)效度。它是以皮爾遜積差相關系數(shù)來表示的。效度系數(shù)的實際意義常以決定性系數(shù)來表示，表達式是rx2y，效度系數(shù)的平方就是決定性系數(shù)，測驗正確預測或解釋的效標的方差占總方差的比例。
    18、效度的其他指標：一些描述不同團體的差異的統(tǒng)計指標（參數(shù)）也可以作為效度的指標，比如：t考驗、F考驗、重疊百分比等。
    19、效度的影響因素：測驗本身的因素、測驗施測的樣本的性質、效標的性質等。
    （1）對于測驗本身因素又可分為：測驗題目的質量、測驗的長度、測驗實施中的干擾、被試的因素等。
    （2）樣本的性質：
    1影響之一是：不同的團體對同一測驗的反應可能會不一樣，因被試的背景不同，對測驗的題目可能采取完全不同的方法來回答。
    2、響之二是：同一個測驗，效度團體的性質不同，效度也會有很大差別。效度團體的性質包括年齡、性別、教育程度、智力水平、動機、職業(yè)等有關的特點，1這些性質特點使測驗對不同的團體具有不同的預測能力。故稱為干涉變量。
    3影響之三是：樣本團體的異質性。其他條件相同的時候，樣本同質性越高，效度越低。

北京大學心理測量串講筆記（三）

字號： 小 中 大

字號：小中大