2011年2月28日 星期一
如何評估心理測驗的好壞?
所有心理測驗有著幾種共同特性,我們可透過這些特性來定義測驗。
心理測驗是種測量的工具,具有三種特性:
1.心理測驗是行為的樣本(a sample of behavior)。
2.此樣本是在標準化情境(standardized condition)下取樣獲得的。
3.設有計分規則或從行為樣本中取得量化(數字化)資訊的規則。
一、行為樣本
每個心理測驗都要求受測者做某些事。此受測者的行為是用來測量某種特定的屬性(如:內向)或者預測某種特定的結果(如:職業訓練課程的效果)。因此,那些無須受測者做出外顯行為(如:X光照射),或那些伴隨著測量時的個人行為(如:壓力心電圖),不能算是心理測驗。
在心理測量中使用行為樣本(behavior samples)有數種意涵。第一,心理測驗不是對所有可以用來定義或測量該屬性之行為的窮盡測量。舉例而言,假設我們要發展測驗來測量寫作能力,一種策略就是蒐集並評定該受測者所寫過的任何東西,從學期報告到送洗衣服的清單等。這種方法將會非常精確,但並不實際。心理測驗是透過系統性對行為加以抽樣,試圖逼近這種窮盡的程序。在這種情況下,寫作測驗可能包括一系列的短文、信件、備忘錄等。
使用行為樣本來測量心理變項的第二個意涵是:測驗的品質會受到該樣本代表性的影響。例如,我們可以在駕駛考試裡,要求考生一直沿著賽車跑道開車。這種考試的確對於開車行為進行了某部分的取樣,但卻遺漏了其他部分,例如停車、按標誌開車、塞車時如何因應等,故這項考試並不是很好的測驗。測驗中所引發的行為也必須反映出測驗情境外的真實行為,例如在失火的房子裡考學術性向測驗,其作答反應顯然無法反映出考生的學術性向。同樣的,要求考生以不尋常或新奇型態作答的測驗,可能不如那些日常生活中常見問題的測驗有效。
打個比方來說,假如老師要知道學生有沒有讀課本一到十章,讀多少?只考一題第三章中的題目,跟每一章出一題來考學生,當然是後者比較能準確地知道學生讀了多少。這也是準確的心理測驗,題目通常比較多的原因。
二、標準化
心理測驗是在標準化(standardization)情境下所蒐集到的行為樣本。學業評量測驗(Scholastic Assessment Tests, SAT)可以說是標準化的好例子,每年有數以千計的高中學生接受該測驗,監考人員在測驗開始時,向每位考生朗讀詳細的指導語,每一部份的測驗都詳細計時;而且測驗手冊包含詳盡的指導,舉凡適當的座位型態、光線、緊急事件的處理辦法及常見問題的答覆等,測驗手冊都寫得非常詳細,以確保每次SAT考試的實質情境都一樣。
測驗的施測情境顯然會影響受測者的行為。在安靜且光線充足的房間裡作答智力測驗或人格量表的情形,可能和在棒球場中(決賽又逢延長)的作答情形有所不同。在一般的教室情境中,考生的表現通常會比在炎熱且吵雜的體育館中來得好。因此,測驗情境的標準化是心理測驗的重要特性之一。
現實中,我們無法讓所有的心理測驗都達到同樣的標準化程度。很多紙筆測驗也許可以達到高度的標準化,不過也有不少無法達到。例如,一年舉辦數次,並在少數幾個特定的地點施測,且由單一的測驗機構負責(如研究所學科入學考試:Graduate Record Examination Subject Tests)的測驗,可能會比再數以百計的人事機構,由各類的心理學家、人事主管或辦事員來施測的職業紙筆測驗,來得更標準化。標準化得最大困難可能來自個別口語施測的測驗,例如魏氏成人智力量表(Wechsler Adult Intelligence Scale, WAIS-III)是最佳的個別智力測驗之一,由心理學家以口語來施測。受測者面對一位友善且平靜的主試者時,其作答反應可能跟面對具有威脅性或脾氣壞的主試者時有所不同。
個別施測的測驗很難標準化,因為主試者就是測驗的一部份,同一份測驗由不同的主試者來負責施測,將多少會引發不同的行為,但是透過專門的訓練,可以達到某種程度的標準化。堅持標準化的施測過程,可以降低外在因素的干擾,例如施測情境的物理因素、主試者的特性,或受測者對於測驗指令的困惑。
三、計分規則
測驗的目的在於測量或量化地描述受測者的屬性。定義心理測驗的最後一個特性,就是量化受測者在測驗反應行為的計分規則或程序。這些規則必須足夠周延和明確定義,使得不同的評分者對於相同的反應會做出相似(如果不同的話)的計分。對於課堂考試而言,這些計分規則可能非常簡單且定義明確:每答對一題,可以得到某個既定的分數,測驗總分就是將各題分數加總。對於其他種類的測驗而言,計分規則可能就不是那樣簡單和定義清楚。
大部分能夠大量生產的標準化測驗,是以客觀計分為其特色。所謂客觀(objective)在此指的是兩位評分者採用相同的計分規則,相同的作答反應必定會得到相同的計分。因此,兩位老師評定同一份選擇題考卷,一定會得到相同的總分。另一方面,很多心理測驗是以主觀計分為其特色。主觀(subjective)計分仰賴評分者的主觀判斷,因此無法詳細描述其過程,也就無法自動(電腦)計分,老師對於申論題的閱卷歷程就是典型的例子。值得注意的是,主觀計分並不必然就隱含不精確或不可信,而僅僅是代表著主觀的判斷已經融為測驗計分中的一部份。
不同測驗在計分規則的準確度和詳細度上有很大的不同。對於選擇題,我們可以在事前就指定哪些選項該得某種分數;而對於非結構化的測驗,例如羅夏克墨漬測驗(Rorchach inkblot test,該測驗要求受測者解釋模稜兩可的抽象圖形),我們只能大致的描述計分規則,不大可能得到精準和客觀的計分規則。同理,課堂上的申論題閱卷也是如此,可以設立一般性的計分準則,但通常很難去描述精確的評分規則。因此,兩位接受類似訓練的心理學家來閱讀相同羅夏克墨漬測驗的作答反應,或兩位老師對於相同的短文,通常不會以相同的方式來計分。不過,大多數的心理測驗都會盡量使得兩位評分者在面對相同作答反應時,給出類似的分數。如果無法達到這種目標(評分者的一致性),就不能成為一個令人滿意的心理測驗。
評分規則或程序,不管是通則或內隱,對於心理測驗都有莫大的重要性。假如人格測驗的計分規則完全由主試者來自行評斷,此時受測者將其測驗結果交由三位不同的心理學家來評分,很可能得到三份完全不同的分數。此時,測驗分數所反映的大概是什麼樣的人來評分,而不是什麼樣的人來作答,因為測驗分數跟受測者無關,當然也就無法認為該測驗可以測量受測者的某種穩定特質或屬性。(《心理測驗Psychological Testing: Principles and Applications (6th Edition)》頁5)
心理測驗的目的在於指派數字(測驗分數)給個體,使得這些人的某種屬性,可以忠實地被該數字的某些屬性給反映出來。使用建構良好的測驗,比其他可用的方法更能幫助人們做出更好的決策。在此,我們接著要問:(1)如何判斷測驗是好的?(2)測驗是否比其他測量工具或決策技術更好?例如,你參加了某種智力測驗,你何以知道這個測驗測得的是跟智力有關的面向呢?更重要的是,你如何知道這個測驗比別的測驗、面談或其他測量方法更為有效?
如同其他所有的測量工具,心理測驗不是完美無缺的。將數字分派給個人,並不可能總是能夠正確無誤地反映出這些人的屬性。例如張三在某個空間能力測驗的得分比李四高,但事實上他的空間能力可能等於、或甚至低於李四。某些測驗會比其他測驗更能夠有效測量某種特定的屬性,因此,假涉有兩個測驗,一個是由專業發展,且測驗長度為200題的閱讀測驗,另一個是刊登某超市的小報上,且總題數才5題的閱讀測驗,如果張三在這兩個測驗的得分都高於李四,我們會認為,第一個測驗會讓我們比較有信心去宣稱:張三是個較佳的閱讀者。
心理測驗學的主要問題之一,就是在判定「該測驗是否對某屬性提供了適當測量」。換句話說,去探討「測驗的分數是否能真正反映出被測者的屬性」,以及「測驗是否滿足測量的基本定義」,對於判定該測驗是否有成功地達成任務來說,是相當關鍵的。評估心理測驗是否為測量工具,主要著重在兩項議題上:測驗分數的信度(reliability),以及根據測驗分數對個人所做出之推論的效度(validity)。
一、信度
在評估測驗是否為測量工具時,測驗分數的穩定性是非常重要的。當一個人接受同一測驗的兩個版本,或是在兩個或多個不同的時間點做同一份測驗時,能產生一致分數的測驗才算是可靠的測驗。信度的重要性,可以透過檢視不可靠之測驗的分數來加以說明。假設張三、李四、王五在星期一作了一份字彙測驗,分數分別是49、86、52,星期三再做一次時,分數卻分別變成94、38、38。
不管從哪一個角度來看,這個測驗並沒有測量到這三人的任何一種屬性。我們可以放心地假設:這三位學生的語文能力,不可能在週一到週三之間就產生劇烈的變化。週一的測驗結果顯示李四表現最傑出,而王五的表現只比張三好一點。但週三的結果卻顯示張三表現最傑出,而李四則和王五同分。換句話說,測驗分數和被測屬性間並沒有一致的關係。如果測驗中含有非常專門的詞彙(如週一的測驗包含棒球的字彙,週三測驗則包含歷史的字彙),就可能會產生這樣的分數結果。值得注意的是,這個測驗的分數甚至無法判斷高下,因為李四和王五兩人語文能力可能相差甚大,但卻在週三的測驗中得到相同分數。
因此,信度是良好測量的第一個條件,要對某個屬性提供適當的測量,測驗起碼必須能使用一致的方式來分派分數。……
你量身高時,如果身高計早上量是180公分,下午量是160公分,這個身高計就是沒有信度,簡單來說,就是不準、壞掉了。在廟裡抽籤、抽塔羅牌,都沒有信度可言。
二、效度
測驗是用來對人們進行推論。例如,張三在空間能力測驗上的得分比李四高,我們可以推論張三比李四擁有更高的空間能力。這些推論的有效程度(或是正確性)是心理測驗學的重要焦點。
利用測驗分數可以作出的推論,可分為兩種:(1)對於被測屬性的推論,(2)影響對被測者所作出之決定的推論。
下面是一個對被測屬性進行推論的例子:測驗分數可以用來推論某個人比別人聰明、較外向,或有較好的法文能力等。這類推論的效度可稱作測量效度(validity of measurement)。評估測量效度的中心問題是:測驗是否適切地測量到它原本企圖要測量的。因此,有效的智力測驗就是:聰明的人能比不聰明的人一致地得到較高的測驗分數。
測驗不僅用來測量某種特定屬性,也用來做決定。利用測驗分數來當作申請進入大學的許可決策,代表著第二種推論——推論測驗分數高的人較有可能在大學中成功。因此評估測驗用以決策的效度,是相當重要的。決策效度(validity for decisions)是測驗效度的第二個面向。那些能夠用來幫助對個人做出精確決策的測驗,便說明了這類效度。……
假如你想知道甲乙丙三人的身高,卻拿出很準的體重計來量,這就是有信度(體重數字準確),沒效度(你無法從體重數字去準確知道身高數字)。你知道甲乙丙的體重大小順序,但無法正確得知高矮順序。星座、紫微斗數、生命密碼、身份證字號之類的算命便是缺乏效度。
信度理論提供一系列的程序,來判斷測驗是否可以對個人提供一致性的分數。完全不可靠(不一致)的測驗,是不可能測量到任何屬性的。一個可靠的測驗測量著某種屬性,但是信度理論並沒提供任何機制來判斷這個測驗究竟測量到什麼。因此,要完全瞭解測驗到底在測量什麼屬性,就必須檢視測驗的效度。檢視測驗信度和效度,就可以幫助我們判斷測驗是否適切地測量到被測者的某種屬性。(《心理測驗Psychological Testing: Principles and Applications (6th Edition)》頁91)
相關文章:
免費又準確的心理測驗網站
是科學?還是偽科學?
我是懷疑論者,不是鐵齒
存活者偏差(survivorship bias)與騙術
合格的民調應該要公布哪些資料?
為什麼網路民調跟部落格blog上的意見調查不能輕信?
數字可以怎樣「詐」我們
多15%總分?還是少15%總分?——當基測指考可以吹冷氣
訂閱:
張貼留言 (Atom)
0 意見:
張貼留言