Национален регистър на психологически тестове
Национален тестов комитет на Дружеството на психолозите в България
Национален тестов комитетКритерииРегистър на тестоветеРегистър на квалифицираните професионалисти
Мисия и роля
Как да използвам този сайт?
За нас
Контакти
Ресурси
Полезни връзки
Ресурси

ОТНОСНО ИНТЕРПРЕТАЦИЯТА НА РАВНИЩЕТО НА ВЪТРЕШНА СЪГЛАСУВАНОСТ НА ТЕСТОВЕТЕ, ОЦЕНЕНА С ПОМОЩНА НА КОЕФИЦИЕНТА АЛФА НА КРОНБАХ

 

Представянето и оценката на тестовете, предлагани за публикация на сайта на Националния тестов регистър, изискват съобразяването с различни критерии, отнасящи се до валидност, надеждност, норми, налична документация и други характеристики. Между множеството процедури, по които се оценяват тестовете, вътрешната съгласуваност на айтемите е един от най-популярните показатели. Именно върху този проблем искаме да привлечем вниманието на авторите и потребителите на тестове.

Въпросът, предмет на обсъждане е: необходимо ли е при оценката на вътрешната съгласуваност на тестовете да се дефинират универсални, „абсолютни” критерии и като следствие – всички тестове, които не изпълняват дадено изискване за вътрешна съгласуваност (напр. алфа на Кронбах ≥0,70), задължително да се определят като неадекватни (и като следствие – негодни за употреба)? В изложението по-долу се излагат аргументи, които не се съгласуват с подобна теза.

Значението на коефициента на вътрешна съгласуваност алфа на Кронбах е важно, но не трябва да се надценява. То зависи от природата на конструкта, който оценява съответната скала. Ако е конструктът е хомогенен, висока алфа може да се постигне със сравнително малък брой айтеми, докато ако конструктът е хетерогенен, ще е необходима по-дълга скала или да се задоволим с по-ниска консистентност. Консистентността е в основата на валидността, защото на практика не може да се постигне валидност, която да надвишава консистентността на скалата, но същевременно прекалено високата консистентност може да повлияе негативно на валидността.

Стойността на алфа е функция на два основни фактора: средното равнище на интеркорелации на айтемите и дължината на теста. Ако първият директно е свързан с идеята за вътрешна съгласуваност (на емпиричните индикатори, оценяващи дадения конструкт), броят на признаците е нерелевантен (Clark & Watson, 1995). От тази гледна точка средното равнище на интеркорелации е по-полезен индекс на вътрешната съгласуваност в сравнение с алфа (Clark & Watson, 1995) и изследователят трябва да се стреми не към самоцелно повишаване на коефициента чрез удължаване на скàлата, а към постигане на по-силни интеркорелации на включените в нея признаци.

Прекалено силните корелации между айтемите (водещи до висока алфа) обаче са индикатор за припокриване в тяхното съдържание и пораждат т.нар. „парадокс на отслабване” (attenuation paradox) – стесняване на съдържанието на оценяваната променлива за сметка на конструктната валидност (подобни тестове се обозначават също така и като „прекалено специфични“ или „силно фокусирани“). На практика висока алфа лесно може да се постигне чрез използване на малък брой почти идентични формулировки, като много високи стойности на алфа при кратки скали пораждат проблеми с конструктната валидност.

Пример (Clark & Watson, 1995): Да предположим, че изследователят използва следните три айтема (въпросите не са преведени, за да се възпроизведе оригиналната идея на авторите): „I often feel uncomfortable at parties.”, „Large social gatherings make me uneasy.“ и „I usually feel anxious at big social events.“ Тъй като почти всеки човек би отговорил по един и същ (позитивен или негативен) начин и на трите айтема, заедно те не биха увеличили съществено получената информация, в сравнение с отделния въпрос (въпреки високото си равнище на вътрешна съгласуваност). Затова, скалата би била по-информативна и, следователно и по-валидна мярка на конструкта, ако съдържа по-диференцирани айтеми, корелиращи само умерено помежду си (Clark &Watson, 1995, p. 316).

От тази гледна точка ориентировъчно се препоръчва средно равнище на интеркорелации в интервала 0,15–0,50, но диапазонът зависи от природата на оценяваната променлива: при оценката на конструкт с широко съдържание оптимален е интервалът 0,15–0,20, а при конструкт с тясно съдържание: 0,40–0,50 (Clark&Watson, 1995).

Средното равнище на интеркорелациите на свой ред зависи от: (а) характера на конструкта: едномерен срещу многомерен; (б) типа на скалата на отговори; (в) степента на хетерогенност на извадката и др. (Goodwin & Goodwin, 1999). Подобни характеристики трябва да се имат предвид, когато се оценяват коефициентите на вътрешна съгласуваност. Със специални групи от респонденти, например малки деца, коефициенти на надеждност, които са значително по-ниски от 0,70, могат да се окажат максимално възможните (Goodwin & Goodwin, 1999, p. 415). Затова „Няма свещено равнище на приемливо или неприемливо равнище на алфа: в някои случаи, мерките с ниски равнища все пак могат да бъдат много полезни”. (Schmitt, 1999, p. 353; вж. там и за допълнителни статистически аргументи в подкрепа на подобно твърдение).

Освен това, според стандартите за адаптиране на чуждоезикови тестове оригиналният тест трябва да се адаптира като се възпроизведат всички негови психометрични особености, включително и коефициентите на вътрешна съгласуваност. Така например консистентността на оригиналните скали на MMPI-2 и NEO PI-R е между 0,70 и 0,80. В българската адаптация тези коефициенти трябва да се възпроизведат, а не да се подобрят, тъй като това води до промяна в конструктите, които те оценяват

Необходимо е също така да се прави разлика между скала и фасет. Фасетът е субскала на основата скала, която се използва, за да се постигне по-голяма специфичност на интерпретацията на резултатите по основната скала.

 

Относно изискването за минимално равнище на алфа от 0,70.

То присъства в съвременните учебници по психометрия и психологическо тестиране, като е формулирано първоначално в работата на Дж. Нънали (Nunnaly, 1978, цит. по Goodwin & Goodwin, 1999, p. 414), но „думите на Нънали едва ли трябва да се разбират като дефиниращи абсолютно правило“ (Goodwin & Goodwin, 1999, p. 415), тъй като е необходимо да се отчитат посочените по-горе фактори, влияещи върху стойностите на вътрешна съгласуваност.

 

ПОЗИЦИЯ НА НТК ПРИ ОЦЕНКАТА И РЕГИСТРАЦИЯТА НА ТЕСТОВЕ: налице са съществени аргументи против формулиране на „универсална“, безусловна долна граница на приемливо равнище на вътрешна съгласуваност, чието неизпълнение автоматично да характеризира теста като неадекватен. Напротив, равнището на вътрешна съгласуваност трябва да се оценява конкретно за всеки тест, в контекста на измервания конструкт, предназначението на теста, характера на извадката, хомогенността, „трудността“ и броя на айтемите, формата на скалата за отговори и т.н. Затова механичното прилагане на универсални критерии потенциално води до неправилна оценка.

Като пример ще разгледаме популярния въпросник на Р. Гудман „Силни страни и трудности“ (R. Goodman, Strengths & Difficulties Questionnaire [SDQ]) – полезен скринингов инструмент, адаптиран и валидизиран, включително в клинични извадки, в широк междукултурен контекст (вж. www.sdqinfo.org). Какви обаче са данните за вътрешната съгласуваност на подобен широко използван и признат инструмент? Общият показател за трудности (20 айтема) се формира от 4 скали, всяка от които се оценява от по 5 айтема: Емоционални симптоми, Поведенчески проблеми, Хиперактивност и Проблеми с връстниците. Без да се обременява изложението с конкретните изследвания (част от тях са достъпни и в интернет), стойностите на алфа за общия показател в преобладаващата част от случаите са над 0,70. Картината обаче съществено се различава по отношение на вътрешната съгласуваност на равнище компоненти: в този случай подчертано преобладават стойности на алфа под 0,70, като са налице данни за вътрешна съгласуваност под 0,60, а в отделни случаи – и под 0,50. С други думи в значителен брой изследвания равнището на вътрешна съгласуваност на компонентите на SDQ не изпълнява изискването за резултат ≥0,70 (и за това има обективни причини, свързани със спецификата на оценяваните конструкти, броят на айтемите и т.н.). Означава ли това, че компонентите на SDQ трябва да се оценяват като неадекватни от психометрична гледна точка, като по този начин се дискредитира и въпросникът като цяло? Отговорът очевидно е отрицателен.

Примерът с SDQ илюстрира тезата, че даден „универсален“ критерий за долна граница на вътрешна съгласуваност не трябва да се прилага безусловно, без да се отчита спецификата на дадения тест. “Политиката“ на НТК се основава именно подобен принцип: предварително дефинираните граници на вътрешна съгласуваност да служат като основание само за най-обща ориентация, но задача на рецензията и основаното на нея експертно заключение е конкретна оценка на спецификата на измервания конструкт, предназначението на теста, характера на извадката, хомогенността, „трудността“, броя на айтемите и т.н.

В тази връзка трябва да се посочи, че съгласно модела на EFPA (Version 4.2.6), критериите не са абсолютни, те са условни и в стандартите се казва, че тестовите комитети трябва да ги използват като общи насоки. Защо е така? Например коефициентът на интелигентност от WISC-IV действително се използва за основа на диагностични решения и затова неговата консистентност трябва да е над 0,85. Но да се използва същият стандарт за субскала на WIS/SVP, която е от само три айтема и се използва единствено с описателна цел, е неоправдано.

В заключение: рецензирането на даден тест при включването му в Националния регистър не се основава на механично приписване на определен брой „звезди“, в съответствие с предварително дефинирани критерии. Рецензията предполага оценка на конкретния тест, за което информацията за него в Националния регистър очевидно е недостатъчна. За тази цел е необходимо детайлно запознаване със самия тест, и преди всичко – с ръководството за неговото използване (а в някои случай – и с първичната база от данни). Затова, по отношение на даден тест по-нискитестойности на вътрешна съгласуваност могат да бъдат оценени като приемливи, но за други инструменти –като неудовлетворителни.

Надяваме се да сме били полезни на всички – автори и потребители на тестове – в разбирането на политиката, мисията и функциите на НТК.

Новини