2005年10月“人事測量”串講資料(北大心理系)(二)

字號:

4.匹配題。匹配題可以說是選擇題的一種變式。匹配題一般包括多個反應項和多個刺激項,用反應項來匹配刺激項。匹配題有完全匹配和不完全匹配兩種形式。
    優(yōu)點:匹配題容易編制,而且可以在短時間內測量大量相關聯(lián)的材料,覆蓋面較廣。缺點:它一般只能測量簡單記憶的事實材料或概念關系,并且要求編制的選項必須是同質的。
    ☆◆對編制匹配題的一些建議:①刺激項目和反應項目應該分成兩列,通常反應項安排在右邊;②配對數目不可過多或過少,好使用不完全匹配,使反應項數目多于刺激項數目,并且好不限制每個反應項被選擇的次數,這樣可以降低猜測的概率;③匹配題的反應項與刺激項,其性質必須相近;④應對匹配方法、匹配的依據加以明確的規(guī)定和說明,同時說明反應項可以被選擇的次數;⑤同一組的反應項與刺激項好印在同一頁紙上,以免造成答題時間的浪費;⑥反應項與刺激項應以不同形式的序號加以標識,以免混淆。
    5.填充題?!睢艟幹铺畛漕}時應注意:①好采用問句形式;②使用直接問句的形式,可避免產生對題意的誤解;③如果是填空形式,填充處不可太多。過多空白會使題意不明確;④每題好只有一個答案,答案好簡短而具體,有利于評分。
    6.操作性測量形式。在很多情況下,操作的方法和過程是重要的測量目標,而這是紙筆測驗無法測量的,這時可以采用操作性測量形式◎。操作性測試題通常分為著重過程和著重結果兩種形式。
    操作性測試有多種不同的分類方法,按測試情境的真實性程度可分:①紙筆的操作性測試:雖用紙筆但偏重于模擬情境下知識的應用,如編制某項操作計劃、步驟、注意事項等,如公文筐測驗;②模擬操作測試:強調正確的程序,被試需要在模擬情境下完成與真實活動相同的動作,如駕駛員的考核等;③工作樣本操作測試:其真實性高,但是是在有控制的條件下去完成的。如司機在標準場地內的考核。
    設計操作性測試題的主要原則有:①明確所要測量的目標,并將其操作化。即要進行工作分析,辯認出操作中重要的因素,找出具有代表性的工作樣本。②要建立作業(yè)標準,規(guī)定通過此項作業(yè)的低標準。③選擇合適的真實性程度。通常情況下,真實性程度越高,模擬的代價越大。④指示語簡單明確,讓被試知道要干什么和在什么條件下去做。⑤有明確的計分方法。
    ◎作品量表:一般包括一系列按順序排列的不同作業(yè)程度、水平、質量的標準樣本,評分時參照這些標準樣本對被試結果進行評分。
    7.面試。缺點:①面試的考核缺乏心理測量學的嚴格性,易受考官的個人偏見或歧視的影響;②由于面試既要看應試者對問題回答的內容、質量,還要看整個面試過程中的行為表現(xiàn),如情緒緊張度、應變能力等,更加大了面試記分的難度。面試效果的好壞往往取決于面試考官。面試應注意:①面試考官必須對面試主題有充分的了解,對于所要求的反應有清晰的認識;②用于描述或評定被試反應的詞語,必須具體化,避免模糊不清的陳述。
    第三節(jié)題目的編排
    ◇題目選擇和編排過程包括定性的邏輯分析和根據預測的結果進行的定量分析。
    一、題目的選擇
    1.◇對題目進行初步選擇的主要依據是:題目本身的性質、對預期測量目標的可測量程度。
    2.☆題目選擇的步驟包括:⑴檢查題目是否符合細目表中某一單元格內的要求。⑵根據細目表對各部分所要求的比例選擇適當數量的測試題,使測量工具盡量覆蓋整個細目表的內容。⑶檢查題目是否敘述明確清楚,是否提供了額外線索。⑷檢查題目十分適合將要施測的對象和施測的條件。⑸檢查題目的難度是否恰當。一般來說,難度為0.50較為合適。⑹檢查所選擇的題目是否彼此獨立,沒有重疊,即回答某一問題所需的知識與能否回答其他問題無關。
    二、題目的編排
    ◇題目編排的原則包括:⑴將測量相同因素的測試題排列在一起。⑵盡可能地將同一類型的測試題組合在一起。⑶難度測驗的題目應按由易到難排列。這樣可以鼓舞被試的士氣,避免某些被試一開始就因較多題目回答不出而失去信心。⑷對于人格測驗,應盡量避免將測量同一特質的題目編排在一起,防止被試猜測出題目所要測查的因素。
    三、測試題的預測試和分析
    ◎預備測試題:測試題編排完成并不意味著這項測量工具的編制就此完成。前面對題目的選取只是依靠編寫者的主觀經驗,題目的效果如何還需要進行定量的客觀分析。這時的測試題還只能叫做預備測試題,還需要獲取被試對這些題目的反應的材料,為進一步篩選題目和為編排測量工具提供客觀依據。
    ◎預測試:必須將預備測試題對一定規(guī)模的小樣本被試進行施測,獲得數據以進行校驗、修訂。這一過程稱為測試題的預測試。
    ◎題目分析:測驗數據收集上來之后,應該利用這些數據對題目進行分析,刪除不好的題目或對題目進行修改,這個過程稱為題目分析。具體內容包括對題目的項目分析和對測驗信度、效度指標的檢查。
    對測試題的預測試應注意以下問題:⑴預測試對象必須和將來正式測試的對象相似;⑵預測試的實施過程與情境應力求與將來正式測量工具實施時的情境相似;⑶預測試的時限可稍寬些,好使每個被試都能將題目答完,以便搜集充分的反應資料,使統(tǒng)計分析的結果更為可靠;⑷在預測試過程中,應將被試的各種反映情況隨時加以記錄。如,記錄在不同時限內一般被試所完成的題目數、題意不清之處、被試的態(tài)度等,以便在在修改測驗時作為參考。
    預測試完成后,可以根據預測結果進行題目分析,對每個題目的具體分析稱為項目分析,主要是指根據題目的難度、區(qū)分度、備選答案的合適度等數量指標來對題目進行分析。
    第五章人事測量的實施與計分
    第一節(jié)實施測量操作的要領與誤差控制
    人事測量實施的基本要求是,使所有的應試者都在相同的條件下表現(xiàn)出自己的真正行為。
    一、測量的操作程序
    1.標準化指示語。在施測過程中應該使用統(tǒng)一的指示語?!蛑甘菊Z是在測量實施時說明測量進行方式以及如何回答問題的指導性語言。指示語通常有兩種:一種是對被試的,另一種是給主試的。前者應該力求清晰和簡單,向被試說明應該做什么,即如何對題目作出反應。
    2.測驗時限。大多數典型作為測驗是不受時間限制的,如人格測驗。大多數測驗既要考慮反應得速度,也要考察解決有較大難度題目的能力,在能力和成就測驗中所使用的時限,以大約90%的被試能在規(guī)定時間內完成測驗為標準。
    3.測驗的環(huán)境條件。
    二、主試的職責
    1.◎主試:也稱考官或主考人,是控制測試進程的主要人員。主試的經驗如何往往會對測驗的結果產生影響。
    ◇☆主試應做以下工作:⑴測驗前的準備工作。①預告測驗;②熟悉測驗指示語;③準備測驗材料;④熟悉測驗的具體程序;⑤確保
    滿意合適的測驗環(huán)境。⑵測驗中主試的職責。測驗中主試的職責是按照指示語的要求實施測驗,在被試詢問指示語意義時,作進一步澄清,但注意不要作任何暗示。在測驗時,主試還要注意不要講與測驗無關的話,并能夠對測驗中的特殊情況作出靈活的解決。⑶建立協(xié)調關系。協(xié)調關系指的是主試和被試之間一種友好的、合作的、能促使被試大限度地做好測驗的一種關系。建立協(xié)調關系就是要求促使被試盡可能地對測驗感興趣,遵從指示語,認真合作地進行應試。主試都應該采取熱情、友好并且客觀的態(tài)度,這是建立協(xié)調關系的前提。
    三、測量實施過程中可能導致誤差的各種影響因素:
    1.主試對測量結果的影響。☆測量結果往往會受到主試的各方面因素的影響:⑴主試的人格特點。主試的不同特點對測驗的實施及測驗的評分等各環(huán)節(jié)都有影響。⑵主試的期望。羅森塔爾效應:在有些情況下,實驗者所獲得的資料及實驗結果會受其本身期望的影響,這種現(xiàn)象稱為羅森塔爾效應,又稱做實驗者期望誤差。
    2.☆被試特點對測量結果的影響:⑴測驗的技巧與練習因素?!蚓毩曅河胁簧傺芯堪l(fā)現(xiàn),應試者參加相同或重復的測驗,會由于練習效應而使測驗成績提高。⑵焦慮和動機因素。①應試動機;②測驗焦慮?!蚪箲]是一種不愉快的、表現(xiàn)為焦急、恐懼和緊張的情緒體驗,它主要是由于對可能出現(xiàn)的結果的擔心或對應付這一結果的能力的擔心而造成。大多數人都在測驗前和測驗中感到焦慮,故又稱測驗焦慮或考試焦慮。⑶反應定勢。◎反應定勢也成為反應的方式或反應風格,簡單地說,就是每個人回答問題的習慣方式?!钣绊憸y量結果的反應定勢主要有以下幾種:①求“快”與求“精確”的反應定勢。②偏好正面敘述的反應定勢,又成為肯定反應定勢,克倫巴赫發(fā)現(xiàn)。③偏好特殊位置的反應定勢。吉爾福特認為,被試如果完全不知道選擇題的正確答案,則不會以完全隨機的方式來決定該選擇哪一個選項,而有偏好某一個位置的選項的傾向,而有些測驗編制者也存在偏好某個位置的反應定勢,這些現(xiàn)象稱為位置定勢。④偏好較長選項的反應定勢。⑤猜測的反應定勢。
    四、猜測的校正
    1.★猜測修正的公式:S=R-W/(n-1),其中,S是正確分數;R為被試答對的題目數;W為被試答錯的題目數;n為選項數目。
    2.☆猜測修正的優(yōu)缺點。優(yōu)點:⑴修正公式可避免減低測驗的信度。⑵修正公式可以反映被試真正的能力和水平。⑶使用修正公式對那些不能答完全部試題的被試來說比較公平。
    缺點:⑴公式假設不成立,因為被試答錯試題,并非完全瞎猜。⑵猜測修正無實質作用。⑶未采用猜測修正對信度并無重大影響。⑷完全不許猜測與實際生活不符。
    第二節(jié)實施測量計分的要領與誤差控制
    檢驗客觀與否,可以以兩個或兩個以上受過訓練的合格評分者所評結果之間的一致性作為指標。一般情況下,受過訓練的評分者之間的平均一致性達到90%以上,我們就認為計分是客觀的。
    一、計分的一般程序
    1.◆☆計分的基本步驟:⑴記錄反應。及時和清楚地記錄被試的反應。⑵檢索標準答案。標準答案有時又稱計分鍵。⑶反應和標準答案的比較。
    2.◇問答題的主要缺點是評分不夠客觀,也就是說問答題的計分經常受到評分者的情感、態(tài)度的影響。問答題中常見的誤差有:寬容定勢和暈輪效應。
    3.◎寬容定勢:指主試的計分過于寬松,即使沒有回答出題目所要求的答案,評分者也給予較高的分數。
    4.◎暈輪效應:指給予被試某道題較高分數僅僅是由于被試在另外一些試題上獲得了高分,也就是說對被試的一般印象影響到具體某個問題的評價。
    5.◎整體計分:就是評分者根據總體印象給答案評一個總分。整體計分在實際中應用較為普遍。
    6.◎分析計分:是給問答題的不同部分分派不同的權數,按照各部分的要求對答案中所包括的信息和技能評分,后將各部分的權數和得分組合起來得到該問答題的分數。
    比較整體計分和分析計分?(回答上面的名詞,再加以說明)
    7.◇客觀題的一個主要優(yōu)點就是計分簡單、客觀。
    8.不同的反應依據主試認為的重要性不同也可以給予不同的權數,我們還可以根據被試回答問題時的確定程度給予不同的權數,這叫做“信心權數”◎。
    第六章人事測量結果的解釋
    人事測量的解釋不同于測量實施本身,它們是測量中兩個不同的、相對獨立的成分。測量的解釋是一個相當復雜的系統(tǒng)程序。
    第一節(jié)解釋的概念:為什么測量的實施與解釋相分離
    1.◎原始分數:是通過將應試者的反應與標準答案相比較而直接獲得的,其本身并不具有多大的實用意義,而只是一個理論上的過渡值。
    2.人事測量的目的在于評價和比較應試者各方面的素質和特點。
    3.標準分:原始分數通過與常模的比較,可以轉換成等值的導出分數,叫做標準分。
    4.常模參照解釋:由測量的原始分數通過與常模的對照得到可供比較的導出分數的過程,就是測驗分數的解釋形式之一,稱為測量分數的常模參照解釋。
    5.效標參照解釋:測量分數的另一種解釋方式是參照效標的分數解釋,即效標參照解釋,它是依據外在效標作為標準來對應試者的分數進行解釋。
    6.☆常模參照解釋與效標參照解釋的區(qū)別在于:常模參照解釋是將應試者的成績與同類群體的其他人(常模樣本)的成績進行比較,而效標參照解釋是將應試者成績與外在效標(如二級技工的標準)進行比較。
    第二節(jié)常模與基于常模的解釋
    一、如何選擇常模樣本
    1.確定常模樣本的過程包括:確定一般總體、確定目標總體、確定常模樣本這三個步驟。
    測驗性質的不同,文化教育水平不同,性別的不同,都可能影響常模。
    2.◆☆在確定和選擇常模樣本時應注意以下要求:⑴常模樣本的構成必須明確。一個測驗可能有許多常模樣本。在選取常模樣本時,首先要保證常模樣本的所有成員是同質◇的,可以相互比較。另外,要在測驗手冊中對常模樣本進行明確的說明,包括常模樣本的構成和特性等。⑵常模樣本必須是所測群體的代表性樣本。⑶樣本大小要適當?!簟畛D颖敬笮。慈哟笮。┯梢韵氯矫鏇Q定:①常模樣本大小決定于總體的規(guī)模??傮w規(guī)模小,如只有幾十個人,則常模樣本應包括所有總體成員。如果總體數目大,相應的樣本也應較大,一般低不應少于30個或100個。②常模樣本大小決定于總體性質??傮w性質越復雜,越需要較大數量的樣本。③常模樣本大小決定于施測結果?!髽颖敬笮∵m當的關鍵是樣本要有代表性。⑷注意常模的時效性。常模必須定期修訂。
    3.◎取樣是指從目標人群中選擇有代表性的樣本的過程。從統(tǒng)計角度看,取樣的方法有隨機抽樣和非隨機抽樣兩種。
    4.☆在確定常模時,常用的取樣方法有:⑴簡單隨機抽樣;⑵系統(tǒng)抽樣。具體方法:假設總體數目為N,若要選擇K分之一的被試作為樣本,則可以把所有的人N分為N/K組,每個組選一個人,則剛好組成1/K的樣本?;蛘甙阉械娜藦?到N按序編號,把所有編號是K的倍數的人抽取出來,即可組成所需樣本。需注意的是:在進行系統(tǒng)抽樣時,分組和從組中抽取,或者是編號,都必須是隨機的。⑶分組抽樣;在總體數目較大,無法編號,并且總體成員又具有多樣性的情況下,可以先將群體分為一定的小組,再從小組內隨機抽樣。⑷分層抽樣。在確定常模樣本時,常用的是分層抽樣方法。它是先將目標群體的某一種變量(如年齡)分成若干層次,如R個層次,再從各層次中隨機抽取若干個案。各層次的個案總和即為樣本個案數目。分層抽樣分為兩種方法:①分層比例抽樣法:如果各層抽取的個案數目ni是根據各層的個案數目Ni占總體數目N的比例而決定的。ni=Ni/N×n.②分層非比例抽樣:有些層次的重要性大于其他層次,這時應該采用非比例抽樣方法。
    二、常模的類型及解釋
    1.◇常用的常摸有發(fā)展常模、百分位常模和標準分數常模。
    2.百分位常模包括百分等級、四分位數和十分位數。百分等級的計算關鍵在于確定在常模樣本中分數低于某一特別分數的人數比例,這可以分為兩種情況:一種情況是對沒有分組資料的數據分布求百分等級,公式為:PR=100-100×(R-0.5)/N,其中R為排名順序,N為總人數。另一種情況是對有分組資料的數據求百分等級。公式:PR=100/N[(x-l)fp/h+cf],其中,x為任意原始分數;l為該原始分數所在組的精確下限;fp為該分數所在組的次數;cf為l以下的累積次數;h為組距。
    在分數量表上,相對于某一百分等級的分數點叫百分點或百分位數。
    3.◇常見的標準分數有:z分數、Z分數、離差智商(IQ)、T分數、標準九分等。由原始分數轉換的標準分數,又分為線性轉換和非線性轉換兩種。
    4.z分數為典型的線性轉換的標準分數,它是指以標準差為單位所表示的原始分數與平均數的差距。
    5.◎正態(tài)化的標準分數:當原始分數不呈正態(tài)分布時,也可以進行面積轉化,而使分數轉成為正態(tài)分布。由這種方式所得到的分數就叫正態(tài)化的標準分數。為了使分數正態(tài)化,必須有某種依據能假定所測特性的分數事實上應該是呈正態(tài)分布的。
    ◎正態(tài)化過程:先將原始分數轉化為百分等級,再將百分等級轉化為正態(tài)分布上相應的離均值,并可以表示為任何平均數和標準差。
    6.T分數:一詞早是由麥柯爾1939年提出以紀念推孟和桑代克的,不過當時僅用于12歲兒童的團體,是根據某一特殊常模樣本而不是在一般意義上定義的?,F(xiàn)在有人用T分數來表示任何正態(tài)化與非正態(tài)化的轉化標準系統(tǒng),只要其平均數為50,標準差為10即可。
    7.標準九分:是另一較知名的標準分數系統(tǒng),其量表是一個9
    三、常模的表示方法
    1.常摸表示的方法主要有兩種:轉化表和剖析圖。簡單而且基本的表示常模的方法就是轉化表,也叫◎常模表,它由原始分數表、相對應的導出分數表和對常模樣本的具體描述等三個要素組成?!罡鶕D化表進行解釋時,須注意:常模轉化表總是特異性的,即一個轉化表總是來自特定的常模樣本的,這種轉化表只能表示被試在常模樣本內的相對等級,若要依此作出某種結論或預測,需要進一步的信度和效度的依據。
    2.◎剖析圖是測驗分數的轉換關系用圖形表示出來的一種模式圖。使用剖析圖作解釋,要求各個分測驗所使用的常模樣本必須相同,否則各分測分數之間無法比較?!钜⒁獾囊粋€問題是:使用剖析圖容易夸大各個分測驗間分數的差異。為避免這個問題,有些剖析圖注明了多少距離代表兩分數間差異顯著,使用者可以依此很快地確定某對分數間是否存在差異。另一種方法是將被試分數用一段范圍表示,假如范圍不重疊,表明分數間有顯著差異存在。
    第三節(jié)效標與基于效標的解釋
    ◇效標參照測驗關心的是應試者是否達到了某種標準或效標。參照效標的分數解釋分為內容參照分數的解釋及結果參照分數的解釋兩種類型。
    一、內容參照分數的解釋
    1.內容參照分數的測量目的是確定應試者對某個確定材料內容或技能的掌握和熟悉程度的分數。
    ☆編制內容參照測量表的關鍵是預先制定一個判斷應試者是否已掌握某種內容或技能的熟練程度的標準。這種標準可以通過掌握分數和正確百分數來表示。掌握分數,簡單的掌握分數的標準是定一個判別應試者是否通過或掌握的低分數正確百分數,表明被試在測驗中答對題目的比例。
    二、結果參照分數的解釋
    ◎結果參照分數:是將效標材料直接結合到測驗結果的解釋過程而進行評價的分數。預測性測驗往往適合用結果參照分數進行解釋。
    第七章人事測量的關鍵技術:信度
    第一節(jié)人事測量的可靠性—信度
    一、信度的定義
    1.◇信度主要是指測量結果的可靠性或一致性。
    2.系統(tǒng)誤差:量具本身有誤差,這種誤差是必然的,但卻是有規(guī)律的。隨機誤差:每測量都可能有操作上的差異,或者由于不可預見的外界因素的影響,從而造成誤差,這些誤差也是難免的,但卻是毫無規(guī)律的。
    二、信度的作用
    1.◎信度系數:信度高低的指標通常以相關系數表示,稱為信度系數。信度系數一般是同一樣本所得的兩組資料的相關,在理論上表示為實得分數與真實分數相關的平方。rxx=rxr2=ST2/SX2,其中rxr=ST/SX有時也稱為信度指數,它是真實分數標準差與實得分數標準差的比率。信度系數的分布是從0.00~1.00的正數范圍。
    2.◇一般來說,當rxx<0.70時,不能用測驗對個人作評價,也不能在團體間作比較;當rxx>0.70時,可用于團體間比較;rxx>0.85時,可用于鑒別個人。rxx指信度。
    第二節(jié)如何評估人事測量的信度
    一、重測信度
    1.◎重測信度又稱為穩(wěn)定性系數,它的計量方法是采用重測法:用同一測驗,在不同時間對同一群體施測兩次,這兩次測量分數的相關系數即為重測系數。
    重測信度所考察的誤差來源是時間的變化所帶來的隨機影響。在評估重測信度時,必須注意重測間隔的時間。對于人格測驗,重測間隔在兩周到6個月之間比較合適。
    ☆在進行重測信度的評估時,還應注意以下兩個重要問題:⑴重測信度一般只反映由隨機因素導致的變化,而不反映被試行為的長久變化。⑵不同的行為受隨機誤差影響不同。
    二、復本信度
    1.◎復本信度又稱等值性系數,它是以兩個測驗復本來測量同一群體,然后求得應試者在這兩個測驗上得分的相關系數。復本信度的高低反映了這兩個測驗復本在內容上的等值性程度。兩個等值的測驗互為復本。
    2.◇計算復本信度的主要目的在于考察兩個測驗復本的題目取樣或內容取樣是否等值。復本信度也考慮兩個復本實施的時間間隔。
    3.☆復本信度的主要優(yōu)點在于:⑴能夠避免重測信度的一些問題,如記憶效果、練習效應等;⑵適用于進行長期追蹤研究或調查某些干涉變量對測驗成績影響;⑶減少了輔導或作弊的可能性?!顝捅拘哦鹊木窒扌栽谟冢孩湃绻麥y量的行為易受練習的影響,則復本信度只能減少而不能消除這種影響;⑵有些測驗的性質會由于重復而發(fā)生改變;⑶有些測驗很難找到合適的復本。
    三、內部一致性信度
    1.◎內部一致性信度系數主要反映的是測驗內部題目之間的關系,考察測驗的各個題目是否測量了相同的內容或特質。內部一致性信度又分為分半信度和同質性信度。
    2.分半信度系數是通過將測驗分成兩半,計算這兩半測驗之間的相關性而獲得的信度系數。測驗愈長,信度系數愈高。同質性信度是指測驗內部的各題目在多大程度上考察了同一內容。同質性信度低時,即使各個測試題看起來似乎是測量同一特質,但測驗實際上是異質的,即測驗測量了不止一種特質。同質性分析與項目分析中的內部一致性分析相類似。
    四、評分者信度
    1.◎評分者信度:是指不同評分者對同樣對象進行評定時的一致性。簡單的估計方法就是隨機抽取若干份答卷,由兩個獨立的評分者打分,再求每份答卷兩個評判分數的相關系數。這種相關系數的計算可以用積差相關方法,也可以采用斯皮爾曼等級相關方法。
    2.如果評分者在三人以上,而且又采用等級記分時,就需要用肯德爾和諧系數來求評分者信度。
    3.信度估計方法及其與測驗復本和施測次數的關系:
    所需次數
    所需復本數
    分半信度,同質性信度
    復本信度(連續(xù)施測)
    重測信度
    重測復本信度
    4.各種信度系數相應的誤差來源(這里都是隨機誤差):
    信度系數類型
    誤差方差來源
    重測信度
    復本信度(連續(xù)施測)
    重測復本信度
    分半信度
    同質性信度
    評分者信度
    時間取樣
    內容取樣
    時間取樣和內容取樣
    內容取樣
    內容的異質性
    評分者間差異
    第三節(jié)影響信度的因素
    對測驗的信度造成影響的因素主要有:樣本團體的性質、測驗的長度、測驗難度。
    一、樣本團體的性質對信度的影響主要有以下三個方面:⑴樣本團體的分數分布。分數分布越廣,信度系數就相對越高,分數分布越窄,信度系數就會越低。⑵樣本團體的異質性。信度系數還會受到樣本團體異質性的影響。一般來說,取樣團體的異質性越大,信度系數就相對越高。⑶不同團體間能力水平的差異。
    二、測驗長度對信度的影響:信度還會受測驗長度的影響。一般來說,測驗越長,信度值越高。一方面,測驗越長,題目取樣或內容取樣就越充分,結果就越可靠。另一方面,較長的測驗也不容易受到猜測的影響。
    三、測驗的難度。只有當測驗的難度水平能夠使測驗分數分布范圍大時,測驗的信度才會比較理想。測驗的長度和難度會共同起作用。
    第八章人事測量的關鍵技術:效度
    第一節(jié)人事測量的有效性
    一、◇測量的效度就是指測量的有效性,即能測量到所要測量的目標的程度。
    二、◎效度的理論定義:從測量理論角度講,效度可以定義為:與測量目標有關的真實分數方差與總分方差的比率?!坝嘘P真實分數方差”是由測驗所要測量的目標變量所產生的方差。效度的定義用公式可以表示為:rXY=SV2/SX2,其中rXY為測驗效度;SV2為有效方差;SX2為總方差。
    二、★☆信度和效度的關系:信度主要是指測量結果的可靠性或一致性。效度指測量的有效性,即能測量到所要測量的目標的程度。差別在于:考慮的誤差不同。①信度考慮的是隨機誤差的影響;②效度的誤差則還包括對測驗目的來說無關的變量所引起的系統(tǒng)誤差。誤差方差低(即信度高)并不保證效度就一定高;但效度高的話,信度必然要高。信度是效度的必要條件。
    三、效度的性質。效度是連續(xù)性的,效度高低只是程度上的差別,它不是“全有”或“全無”的變量。我們應避免評價某一測驗的結果為“有效”或“無效”,而應區(qū)分效度較高或較低。
    第二節(jié)如何評估人事測量的效度
    根據評估效度方法的不同,效度可以分為內容效度、構想效度和效標關聯(lián)效度這三類。
    一、內容效度
     1.◎內容效度:是檢查測驗內容是否是所欲測量的行為領域的代表性取樣的指標。例如,成就測驗往往采用內容效度的評估方法。
     2.☆內容效度分析時要注意兩方面的問題:⑴應避免將測驗取樣的行為領域過于泛化。⑵要注意測驗分數種無關因素的影響。
    3.內容效度的確定一般沒有可用的數量化指標,只能靠推理和判斷來進行評估。◇◆較好的內容效度依賴于兩個條件:⑴測驗內容范圍明確。⑵測驗內容的取樣有代表性。
    4.內容效度適合于評估教育和職業(yè)成就測驗?!笮藚⒄諟y驗應用的基本條件是具備足夠的內容效度。
    二、效標關聯(lián)效度
    1.◎效標關聯(lián)效度:又稱為效標效度,反映的是測驗分數與外在標準(效標)的相關程度,即測驗分數對個體的效標行為表現(xiàn)進行預測的有效性程度。
    2.◇效標是考察測驗效用的外在參照標準。
    3.◎預測效度的效標資料往往是測量結束后隔一段時間才獲得,它反映的是由測驗分數對任一段時間間隔后被試行為表現(xiàn)的預測程度。預測效度適用于那些對人員進行選拔、分類和安置的人事測驗,這些測驗需要對應試者將來的工作績效進行可靠的預測。
    4.◇同時效度的效標材料可以和測驗分數差不多同時搜集。
    5.要測量效標,就必須把效標行為轉化為某種可以操作的測量指標,以便進行比較。這種操作的測量指標就稱為效標測量◎。效標的概念可以細分為觀念效標(即效標的實質概念內容)和效標測量(效標的具體度量方法)。
    6.◇效標污染是指由于評定者知道測驗分數而影響個人的效標成績的情形。
    7.常用的效標包括:學術成就、特殊訓練成績、實際工作表現(xiàn)、團體對照、等級評定、先前有效的測驗。
    8.評定可以作為任何測驗的效標,尤其適合人格測驗。
    三、構想效度
    ◎構想效度:是指測驗能夠測量到理論上的構想或特質的程度。所謂構想通常指一些抽象的、假設性的概念或特質,如智力、創(chuàng)造力、言語流暢性、焦慮等。