信度

来源:www.uuuwell.com

   

信度系指測驗結果的一致性、穩定性及可靠性,一般多以內部一致性來加以表示該測驗信度的高低。信度係數愈高即表示該測驗的結果愈一致、穩定與可靠。系統誤差對信度沒什麼影響,因為系統誤差總是以相同的方式影響測量值的,因此不會造成不一致性。反之,隨機誤差可能導致不致性,從而降低信度。信度可以定義為隨機誤差R影響測量值的程度。如果R=0,就認為測量是完全可信的,信度最高。

定義

  信度主要是指測量結果的可靠性、一致性和穩定性,即測驗結果是否反映了被測者的穩定的、一貫性的真實特徵。和信度相關的一個概念是效度,信度是效度的前提條件。   信度只受隨機誤差的影響,隨機誤差越大,信度越低。因此,信度

信度

可以視為測試結果受隨機誤差影響的程度。系統誤差產生恆定效應,不影響信度。   每一個測試的實得分數(X)總是由真實分數(T)和誤差(E)兩部分構成的,用公式表示如下:   X=T+E   如果我們討論一組測驗分數的特性時,可用方差代表具體分數,得到公式:   S^2(x)=S^2(t)+S^2(e)   公式中,S^2(x)是實得分數的方差,S^2(t)是真分數的方差,S^2(e)是誤差的方差   在測量理論中,信度被定義為:一組測量分數的真分數方差與中方差(實得方差)的比率。即:   r(xx)=S^2(t)/S^2(x)   由於真實分數的方差是無法統計的,因此轉化為:   r(xx)=S^2(x)-S^2(e)/S^2(x)   =1-S^2(e)/S^2(x)   因此,信度也可以看做是總方差中非測量誤差的方差所占的比例

指標

信度係數與信度指數

  大部分情況下,信度是以信度係數為指標,它是一種相關係數。常常是同一被試樣本所得到的兩組資料的相關,理論上說就是真分數方差與實得分數方差的比值,公式為:   r(xx)=r^2(xt)=S^2(t)/S^2(x)    公式中r^2(xt)是真分數標準差與實得分數標準差的比值,稱作信度指數,公式為:   r(xt)=S(t)/S(x)   可見信度指數的平方就是信度係數。

測量標準誤

  信度係數僅表示一組測量的實得分數與真分數的符合程度,但並沒有直接指出個人測驗分數的變異量。我們可以用一組被試兩次測量結果來代替對同一個人的反覆施測,於是有了信度的另一個指標,公式為:   SE=S(x)√1-r(xx)   公式中SE為測量的標準誤,S(x)是所得分數的標準差,r(xx)為測驗的信度係數,從公式我們可以看出測量的標準誤與信度之間有互為消長的關係:信度越高,標準誤越小,信度越低,標準誤越大。

影響因素

樣本特徵

  1、樣本團體異質性的影響   2、樣本團體的平均能力水平的影響

測量長度

  一般來說,在一個測試中增加同質的題目,可以使信度提高。需注意的是,增加測驗長度的效果應當遵循報酬遞減原則。通過斯皮爾

信度

曼-布朗公式的導出公式可以計算出最少應增加的題目:   K=r(kk)*(1-r(xx))/r(xx)*(r(kk)-1)   K為改變后的長度與原長度之比,r(xx)為原測試的信度,r(kk)為測驗長度是原來的K倍時的信度估計。   由於信度與測驗長度有關,當一個測驗有幾個分測驗時,分測驗的分數與合成分數相比不如合成分數可靠。

測驗難度

  理論上說,只有測驗難度為50%時,才能使測驗分數分佈範圍最大,求得的信度也最高。事實上,難度為0.50只適合於簡答型題目,對於選擇題目由於猜測因素,難度值應當提高,洛德提出在學習成績中,為了保證其可靠性,各類選擇題的理想平均難度為:五擇一測,0.70;四擇一測,0.74;三擇一測,0.77;是非題。0.85   在實際情況下,如果某個測驗適用範圍廣,其難度水平通常適用於中等能力水平的被試,而對較高水平的被試和較低水平的被試可能較易或較難,使得分數分佈範圍縮小,信度水平降低,因此一個標準化的測驗,應根據不同能力水平的報告測驗的難度,以作為選擇測驗的參考

時間間隔

  時間間隔只對重測信度和不同時測量時的複本信度有影響,對其餘的信度來說,不存在時間間隔問題。   注:我們對一套問卷的信度檢驗值(一般是指克隆巴赫阿爾法信度係數)有時會出現過低的情況,可能的原因有:   1、試卷本身設計不合理,不是圍繞一個主題或是有矛盾的題目。如果試卷中有題目讓完全相同的人選擇不同的答案,試卷的信度會降低。   2、題目區分度過低,特別指有對錯之分的題目。如果一道題正確率或錯誤率達到90%,可以從新審視題目設計是否合理。區分度過低的題目中真實偏差的成分較少,隨機偏差的成分相對較多,試卷的信度會降低。

信度

3、無關變數XX信度檢驗。除了重測信度,其他信度檢驗方法都只考慮有序變數,無序變數,如出身城市,喜好顏色等,如果我們沒有對城市或顏色排序的話,帶入信度檢驗意義難明,可能會導致試卷的信度降低。   4、題目選項反序。對有序變數,如果變數值之間序的意義相反,會降低甚至得出負的信度。比如檢驗老師對學生評分的信度,如果一個老師的評分以10分為最高分,1分最低,另一個以1分最高,10分最低。如果不經處理帶入信度計算,信度會降低。

評估方法

重測信度

  又稱為穩定性係數,它的計量方法是採用重測法:用同一測驗,在不同時間對同一群體施測兩次,這兩次測量分數的相關係數即為重測係數。   重測信度所考察的誤差來源是時間的變化所帶來的隨機影響。在評估重測信度時,必須注意重測間隔的時間。對於人格測驗,重測間隔在兩周到6個月之間比較合適。   在進行重測信度的評估時,還應注意以下兩個重要問題:⑴重測信度一般只反映由隨機因素導致的變化,而不反映被試行為的長久變化。⑵不同的行為受隨機誤差影響不同。

複本信度

  是以兩個測驗複本來測量同一群體,然後求得應試者在這兩個測驗上得分的相關係數。複本信度的高低反映了這兩個測驗複本在內容上的等值性程度。兩個等值的測驗互為複本。   計算複本信度的主要目的在於考察兩個測驗複本的題目取樣或內容取樣是否等值。複本信度也考慮兩個複本實施的時間間隔。   複本信度的主要優點在於:⑴能夠避免重測信度的一些問題,如記憶效果、練習效應等;⑵適用於進行長期追蹤研究或調查某些干涉變數對測驗成績影響;⑶減少了輔導或作弊的可能性。☆複本信度的局限性在於:⑴如果測量的行為易受練習的影響,則複本信度只能減少而不能消除這種影響;⑵有些測驗的性質會由於重複而發生改變;⑶有些測驗很難找到合適的複本。

內部一致性信度

  主要反映的是測驗內部題目之間的

信度

關係,考察測驗的各個題目是否測量了相同的內容或特質。內部一致性信度又分為分半信度和同質性信度。   1、分半信度係數是通過將測驗分成兩半,計算這兩半測驗之間的相關性而獲得的信度係數。測驗愈長,信度係數愈高。修正公式是斯皮爾曼-布朗公式。斯皮爾曼-布朗公式為校正分半信度的經驗公式,它的假設是兩半測驗分數的變異數相等。當假設不成立時,可以採用弗朗那根(Flanagan)公式或盧倫(kulon)公式之一,直接求得測驗的信度係數。   2、同質性信度是指測驗內部的各題目在多大程度上考察了同一內容。同質性信度低時,即使各個測試題看起來似乎是測量同一特質,但測驗實際上是異質的,即測驗測量了不止一種特質。同質性分析與項目分析中的內部一致性分析相類似。幾個計算同質性信度的公式:(1)庫德-理查遜公式(2)克倫巴赫α係數。對於一些複雜的、異質的心理學變數,採用單一的同質性測驗是不行的,因而常常採用若幹個相對異質的分測驗。

評分者信度

  是指不同評分者對同樣對象進行評定時的一致性。最簡單的估計方法就是隨機抽取若干份答卷,由兩個獨立的評分者打分,再求每份答卷兩個評判分數的相關係數。這種相關係數的計算可以用積差相關方法,也可以採用斯皮爾曼等級相關方法。

效度和信度

  效度和信度的關係可以用測量值的構成公式O=T S R來理解。如果測量是完全有效的,即0=T,S=0,R=0,此時測量必然是完全可信的,若量表的信度不足,它也不可能完全有效,因為有O=T R。如果量表是完全可信的,可以達到完全有效,也可能達不到,因為有可能存在導致誤差,雖然缺管信度必然缺乏效度,但信度的大小並不能體現效度的大小。信度是效度的必要條件,但不是充分條件。從理論的角度來看,量應具有足夠的效度和信度;從實踐的觀點來看,一個好的量表還應該具有實用性。實用性指量表的經濟性、便利性和可解釋性。

信度與測驗分數的解釋

一、解釋真實分數與實得分數的相關

  信度係數可以解釋為總的方差中有多少比例是由真實分數的方差決定的,也就是測驗的總變異中真分數造成的變異占百分之幾。

二、確定信度可以接受的水平

  當rxx﹤.70時,測驗不能用於對個人作出評價或預測,而且不能做團體比較;當.70≤rxx<.85時,可用於團體比較;當rxx≥.85時,才能用來鑒別或預測個人成就或作為。

三、解釋個人分數的意義

  作用:其一是估計真實分數的範圍;其二是了解實得分數再測時可能的變化情形。   例:在一個智力測驗中,某個被試的iQ為100,這是否反映了他的真實水平?如果再測一次,他的分數將改變多少?X―1.96SE<XT≤X+1.96SE   已知該智力測驗的標準差為15,信度係數為.84,則其iq的測量標準誤和可能範圍為:   SE=   IQ=100±1.966=100±11.76≈88~112

四、比較不同測驗分數的差異

  例;某被試在韋氏成人智力測驗言語智商為102,操作智商為110。已知兩個分數都是以100為平均數,15為標準差的標準分數。假設言語測驗和操作測驗的分半信度分別為0.87和0.88。問其操作智商是否顯著高於言語智商呢?   首先計算出差異分數的標準誤:   在統計上,經常要求兩個分數的差異程度達到0.05的顯著水平,才能承認不是誤差的影響。因此,將差異標準誤(7.5)乘以1.96,結果為14.7,這表明個體在韋氏測驗兩半得分的差異高於大約15分,才能達到0.05顯著水平。上述被試的差異分數110-102=8是不顯著的。

測試信度

綜述

  測試信度也叫測試的可靠性,指的是測試結果是否穩定可靠。也就是說,測試的成績是不是反映了受試者的實際語言水平。例如,如果同一套測試在對同一測試對象(即受試者本身沒有變化)進行的數次測試中,受試者的分數忽高忽低的話,則說明該測試缺乏信度。測試的信度與測試的效度有著密切的關係。一般說來,只有信度較高的測試才能有較高的效度,但效度較高不能保證信度也一定較高。測試的信度主要涉及到試題本身的可靠性和評分的可靠性這兩個方面。試題本身是否可靠主要取決於試題的範圍、數量、試題的區分度等因素;評分是否可靠則要看評分標準是否客觀和準確。   測試的信度通常用一種相關係數(即兩個數之間的比例關係)來表示,相關係數越大,信度則越高。當係數為1.00時,說明測試的可靠性達到最高程度;而係數是0.00時,則測試的可靠性降到最低程度。在一般情況下,係數不會高到1.00,也不會降到0.00,而是在兩者之間。對信度指數的要求因測試類別的不同而不同,人們通常對標準化測試的信度係數要求在0.90以上,例如「托福」的信度大致為0.95,而課堂測試的信度係數則以0.70-0.80之間為可接受性係數。測試信度的計算方法有很多種,以下僅介紹三種易於操作的方法:

重測法

  用同一套試卷在兩個不同時間內來測試同一批受試者,這樣便獲得兩組分數,然後計算出兩組分數的相關係數。當然,在兩次測試中,學生第二次的測試成績理應比第一次的要高,因為在第二次測試時學生已經有了進步而且臨場經驗也更豐富了。但是若該試題是比較可靠的,每個學生在兩次測試中的排名次序應該是基本不變的。

交替形式法

  對同一批受試者使用試題類型完全相同,難易程度相當,但具體題目不同的兩套對等試卷先後進行兩次測試,然後計算出兩次得分的相關係數。

對半法

  測試只進行一次,但將整份試卷的題目按單、雙數分成兩組來分別計分,算出兩組分數的相關係數,然後再用Spearman-Brown的公式計算整份試卷的信度係數。具體計算步驟是:將兩組分數的相關係數乘以2,再除以1加兩組分數的相關係數。