Главное затруднение вызывает оценка сложности задания. Согласно модели Раша, сложность оценивается экспериментально, следовательно, имеет статистический характер. Кроме того, возникает необходимость установить: 1) минимально необходимое число заданий для каждого уровня сложности, 2) необходимое число уровней сложности, 3) достоверность различий оценок сложности заданий, принадлежащих разным уровням.
Эти проблемы решены в работе Ф. М. Юсупова [5], который предложил вероятностную модель прогнозирования параметров теста «уровня». Расчеты показывают, что в тестовом задании целесообразно брать от 6 до 10 вариантов ответа, чтобы минимизировать вероятность случайного решения.
Число заданий в тесте уровня не должно быть слишком велико для того, чтобы значения показателей сложности соседних по уровню сложности заданий надежно различались. Кроме того, нужно учесть, что правильный ответ может быть выбран испытуемым случайно.
При 6 вариантах ответа в каждом тестовом задании количество заданий не может быть более 6-7 (см. табл. 3).
Модель, предложенная Ф. М. Юсуповым, позволяет спрогнозировать минимальный объем выборки, достаточной для стандартизации теста.
Соответствующая модель для расчета параметров теста с эквивалентными по трудности заданиями (тест «скорость») предложена в работе В. Н. Дружинина [6].
Эмпирически проверка теста интеллекта на валидность и надежность – процедура стандартная и хорошо отражена в методических руководствах [1].
Главное, что следует заметить: все разработанные тесты рассматривают интеллект как некоторую непрерывную величину (по аналогии с ростом или весом), которой люди характеризуются в разной степени.
Подразумевается, что, как большинство биологических и социальных параметров, интеллект характеризуется нормальным распределением людей вдоль оси континуума.
Можно предположить, что существующие тесты интеллекта, включающие в себя задания разной сложности, захватывают разные участки этого континуума. Парадоксально, что это не отражается на характеристиках распределения людей по результатам тестирования! Возможно, к этому приводит искусственный подбор заданий и процедура нормализации шкалы.
Число баллов в каждом тесте интеллекта имеет верхнюю и нижнюю границы, а не простирается в бесконечность, следовательно, уместно говорить лишь о квазинормальности любого распределения людей по отношению к шкале тестового балла.
При подсчете баллов во всех тестах используется кумулятивная аддитивная модель: суммируются баллы, набранные за выполнение каждого отдельного задания, несмотря на их (заданий) содержательную разнородность.
На первый взгляд пользоваться гипотезой о прямой зависимости вероятности решения задачи от уровня способности, с определенными оговорками, можно лишь для тестов с эквивалентными по трудности заданиями. В тестах «уровня» более целесообразно было бы применять шкалу трудности, измеряя способность самым сложным заданием, которое решил испытуемый. Однако решение зависит от массы случайных факторов, начиная с угадывания и кончая индивидуальной интерпретацией тестовой задачи испытуемым.
На примере теста Равена мой аспирант Ф. М. Юсупов проверил, в какой мере валидны различные модели подсчета тестовых баллов:
1) традиционный, применявшийся в тесте балльный показатель,
2) сумма рангов сложности решенных заданий,
3) количество правильно выполненных заданий (оценка трудности заданий не учитывалась),
4) сумма показателей сложности решенных задач (сложность определялась отношением числа решивших задачу к общему числу испытуемых).
Время работы испытуемых с тестом не ограничивалось. Результаты исследования показали, что наихудшей дифференцирующей способностью обладает показатель, не учитывающий трудности задания, что естественно, поскольку мы имеем дело с тестом уровня. Наилучшая дифференцирующая способность у модифицированного показателя трудности [5]. Показатель, учитывающий сложность в рангах, и традиционный показатель заняли второе и третье место.