Книга белый пароход читать онлайн
Сюжет Основа повести разворачивается вокруг мальчика, живущего среди чужих ему людей, где единственным родным (как по...
Что, несомненно, должен знать и уметь делать каждый грамотный пользователь теста – это понимать, что такое тестовые нормы и как ими пользоваться.
Первоначальный суммарный балл, подсчитанный с помощью ключа, не является показателем, который можно диагностически интерпретировать. Его называют в тестологии “сырым тестовым баллом”. Применение тестовых норм в профессионально организованной психодиагностике основывается на переводе тестовых баллов из “сырой” шкалы в “стандартную”. Эта процедура называется “стандартизацией тестового балла”.
Пусть мы провели тест из 20 заданий и испытуемый дал 12 правильных ответов. Можно ли при этом сказать, что способность у испытуемого выражена лучше или хуже, чем в среднем? Нет. Для такого вывода нужно сравнить балл 12 со средним баллом по представительной выборке испытуемых.
Выборка, на которой определяются статистические тестовые нормы, называется выборкой стандартизации . Ее численность, как правило, не меньше 200 человек. Столько людей должно принять участие в психометрическом эксперименте по определению тестовых норм – в эксперименте по стандартизации теста.
Если после стандартизации теста выясняется, к примеру, что среднее арифметическое по сырой шкале теста равно 14, то оказывается балл 12 – это не лучше, а хуже среднего (хотя испытуемый и справился больше чем с половиной заданий). Просто в данном случае тест содержит слишком простые задания, несколько отклоняясь по этому параметру от оптимальной трудности.
Простейшая линейная стандартизация тестового балла производится по формуле
|
Х – сырой балл по тесту;
– средний балл по выборке стандартизации,
Sх – стандартное отклонение по выборке стандартизации.
После получения стандартного балла Z можно перевести тестовый балл в любую стандартную тестовую шкалу, принятую в психодиагностике. Например, перевод в шкалу IQ производится по формуле
Напомним, что в шкале IQ центр равен 100, а отклонение – 15.
Если перевод требуется в так называемую шкалу “стенов” (от англ. “ standart ten” – стандартная десятка), то формула пересчета из шкалы Z выглядит так:
Sten = Z..2 +5,5,
так как в шкале стенов центр равен 5,5, а отклонение равно 2.
Обобщенная формула перевода сырого балла в заданную стандартную шкалу имеет вид:
Y = S s ×Z+M, (7)
где Y – стандартный балл, по произвольной шкале, с центром М и отклонением Ss.
Для серьезных профессиональных тестов вместо описанной здесь простейшей линейной стандартизации используется более сложная процедура нелинейной нормализации (форсированный переход к нормальному распределению). В результате этой, более точной процедуры разработчики снабжают пользователей теста так называемой конверсионной таблицей для перевода сырых баллов в стандартные баллы по заданной шкале. В ней приводится полный перечень соответствий между интервалами сырой шкалы и стандартной.
Ниже приведен пример того, как может выглядеть конверсионная таблица для некоторого теста арифметических вычислений из 30 заданий. Простейшая процедура подсчета баллов (за правильный ответ – 1 очко, за ошибку –0) дает нам сырую шкалу от 0 до 30.
Таблица 1
Пример фрагмента конверсионной таблицы
для перевода сырых баллов в стены
Сырой балл |
||||||||
Как пользовались таблицей? Если испытуемый показал 5 сырых очков (решил только 5 заданий), то ему ставится минимальный стандартный балл 1. Если испытуемый решил 25 заданий, то получает балл 9.
После того, как балл по тесту стандартизирован, можно выносить диагностическое заключение. Общее правило здесь таково: если стандартный балл Y превышает единицу “верхней” (или “высокой”) группы M+Ss, то данному испытуемому приписывается повышенное значение измеренного психического свойства. Например, про ученика говорят, что он является определенно более дисциплинированным, чем средний ученик в российской школе (или московской, или иркутской – в зависимости от того, на какой выборке стандартизации получены нормы). Если же стандартный балл Y ниже границы “нижней” (“низкой”) группы M-Ss, то о данном испытуемом формулируется заключение, соответствующее низкому полюсу измеряемого свойства. Если стандартный тестовый балл Y заключен в пределах центрального интервала (M-Ss, M+Ss), то про испытуемого говорят, что у него измеренное свойство выражено в средней степени – как у большинства людей.
На шкале стенов граница “верхней” группы равна 7,5, а “нижней” – 3,5, то есть при получении 8 стенов и больше испытуемый зачисляется в “верхнюю” группу, а при получении 3 стенов и меньше – в “нижнюю”.
Если мы имеем дело с биполярным (двухполюсным) психическим свойством, например, “гибкость – ригидность”, то для “высокой” группы формулируется заключение как для “гибких” людей, а для “низкой” группы – как для ригидных людей. Соответственно средняя группа из центрального интервала признается нейтральной, неполяризованной по данному тестовому параметру.
Любые тестовые заключения при использовании статистических тестовых норм являются относительными. Они зависят от той выборки, на которой производилась стандартизация теста. То, насколько выборка стандартизации позволяет применять тест на широкой популяции, называется репрезентативностью тестовых норм. Репрезентативность – третье важнейшее психометрическое свойство теста. Понимание смысла этого требования к тесту помогает правильно учитывать ограничения в сфере его применения.
Например, если тест проходил стандартизацию на студентах, то перед его применением на школьниках следует вначале произвести рестандартизацию , то есть снова собрать тестовые нормы на представительной выборке, сформированной именно из школьников. В противном случае диагностические выводы, произведенные по неадекватным тестовым нормам, будут неточны и неверны.
Проверка репрезентативности тестовых норм осуществляется с помощью анализа так называемого распределения частот тестовых баллов. Одним из простейших методов является проверка нормальности этого распределения. Более сложный и универсальный подход предполагает сравнение двух распределений, построенных для двух случайных половин выборки стандартизации. Если эти два распределения оказываются практически тождественными, то можно говорить о репрезентативности тестовых норм.
Введение понятия репрезентативности позволяет нам дать более строгое определение того, что такое стандартизация теста. О стандартизации теста в строгом смысле можно говорить, когда задана полная таблица соответствия сырой шкалы и стандартной шкалы и содержание этой таблицы обосновано статистической структурой распределения тестовых баллов на выборке стандартизации.
Кроме статистических тестовых норм в современных тестах часто используются критериальные нормы . Они особенно важны для сферы образования. Действительно, что дает нам знание о том, что Петров выполнил тест лучше среднего испытуемого, если средний испытуемый тоже не справился с большинством заданий? Мы прогнозируем, что подавляюще большинство испытуемых без специального дополнительного обучения не смогут показать требуемого уровня эффективности в будущей деятельности.
При построении так называемого “теста по критерию” шкала сырых тестовых баллов калибруется особыми реперными точками, которые соответствуют уровням рассчитанной вероятности достижения какого-то критерия (заданной эффективности деятельности). Например, если оператор АЭС был точен в 45 из 48 процентов заданий, то это может еще и не соответствовать требуемому уровню критериальной “надежности оператора” (в данном случае “надежность” – измеряемое свойство), а вот если он был точен в 47 из 48 заданий, то это может считаться достаточным уровнем “надежности”. Таким образом, при построении диагностических заключений по критериальным тестам мы интересуемся не степенью отклонения балла от центра шкалы, а достижением или недостижением какого-то критического уровня на шкале.
Лекция 16. Шкалирование результатов тестирования.
1.Задачи шкалирования.
2.Построение шкал.
3.Виды шкал в образовании.
4.Шкалирование результатов тестирования на основе теории IRT .
5.Шкалирование в критериально-ориентированном тестировании.
1. Задачи шкалирования.
Для чего и когда следует использовать процедуру шкалирования. Для обоснованного сопоставления результатов учащихся между собой тестовые баллы в соответствии с рядом критериев и норм (число правильно выпаженных заданий при дихотомической оценке результатов выполнения каждого задания, сумма оценок по отдельным заданиям при политомической, или взвешенной, оценке) переводятся в производные показатели при помощи процедуры, которая получила название шкалирования.
Таким образом, процесс шкалирования состоит в преобразовании сырых баллов в производные показатели, обеспечивающие адекватную интерпретацию и сравнение результатов выполнения педагогических тестов .
Современная трактовка процесса шкалирования. Процесс шкалирования включает в себя различные процедуры. В простейшем случае под шкалированием понимается отображение сырых баллов на готовую шкалу, производимое по "определенным правилам.
Перевод сырых баллов в производные показатели и их размещение на готовой шкале не могут повысить надежность и валид ность данных по тесту.
В современной литературе по теории педагогических измерений встречается расширенное понимание процедуры шкалирования, в которую включают конструирование шкалы по определенным правилам и последующее преобразование исходных эмпирических данных для помещения их на данную шкалу. Таким образом, согласно расширенной трактовке, шкалирование включает ряд последовательных этапов, охватывающих все компоненты педагогических измерений, и имеет связь с качеством результатов.
2. Построения шкал для педагогических измерений
Этапы Шкалирования . При трактовке процесса шкалирования в расширенном варианте можно выделить четыре основных этапа построения измерительных шкал в образовании для ситуации бланкового тестирования и обобщенного случая измерений:
Этап 1 - определение цели измерения, выбор конструкта, размерности и содержательной области, адекватно описывающей конструкт.
Этап 2- разработка заданий и экспертное обоснование их качества, экспертное оценивание адекватности содержания заданий конструкту, определение первоначальной длины теста.
Этап 3 - апробация, эмпирический анализ качества теста, чистка и коррекция измерителя для повышения надежности и валидности шкалы, проверка размерности пространства измерений или доказательство одномерности теста,
Этап 4 - подтверждение качества шкалы и анализ возможности ее использования для представления результатов учащихся по тесту.
Последний этап начинается с построения устойчивой шкалы, выбранной в соответствии с целями измерения и подходом к созданию теста. При последующем использовании теста сырые баллы учеников отображаются на готовой шкале, Особую важность на данном этапе имеет процедура выравнивания результатов педагогических измерений, полученных учащимися по разным вариантам теста.
Необходимость выравнивания может быть не совсем понятна педагогу-практику, поскольку е школе принято выдавать существенно различающиеся но трудности варианты контрольных работ, а затем присваивать одинаковые оценочные эквиваленты разным, зачастую несопоставимым, результатам учащихся. В практике педагогических измерений утвердилась другая норма сравнения и интерпретации результатов испытуемых, основанная на выравнивании, которое представляет собой статистический метод преобразования оценок испытуемых по различным вариантам для обеспечения их сопоставимости.
3. Виды шкал в образовании
Общие цели шкалирования. Процесс шкалирования реализует разные цели в зависимости от подхода, выбранного к разработке теста. При нормативно-ориентированном подходе шкалированные показатели позволяют уточнить место, занимаемое результатом испытуемого относительно норм, или сравнить результаты испытуемых, установив место результата каждого учащегося по отношению к результатам остальных учащихся, выполнявших этот тест
При критериально-ориентированном подходе шкалированный балл показывает процент освоенного содержания и место результата учащегося в сравнении с критериальным баллом. Перечисленным целям отвечают разные шкалы, которые можно построить по результатам выполнения теста.
Шкала перцентильных рангов . Перцентильный (процентильный) ранг для каждого балла определяется процентом испытуемых, которые выполнили столько же или меньше заданий теста. Например, если 30 % учащихся выполнили верно по 20 заданий теста и получили за каждое из них по одному баллу, то сырой балл «20» соответствует 30-му перцентилю. Таким образом, перцентиль показывает относительное положение испытуемого в выборке учащихся, которая выполняла тест. Чем ниже перцентильный ранг результата испытуемого, тем хуже его результаты по сравнению с другими тестируемыми группы.
Перцентили выше 50-го представляют результаты выше среднего по выборке, а перцентили ниже 50-го - ниже среднего, если в качестве средней нормы выступает медиана, которой соответствует 50-й перцентиль. Для 25-го и 75-го перцентилей существуют специальные названия: 1-й и 3-й квартили соответственно. Они отсекают нижнюю и верхнюю четверть распределения тестовых баллов, поэтому их выделение удобно для сравнения результатов данного тестировании с распределениями результатов по другим тестам.
Бели шкала перцентилей построена на выборке стандартизации, то, используя ее, легко определить ранг каждого учащегося, выполнявшего в другое время тот же тест. Для этого достаточно подсчитать его сырой балл и по готовой таблице соответствия найти соответствующий перцентиль. Первичный балл, который ниже любого результата в выборке стандартизации, будет иметь нулевой перцентильный ранг. Результат, превышающий любой другой в выборке, получит перцентильный ранг 100. Конечно, оба эти результата не говорят о нулевом или абсолютном результате выполнения теста. Перцентили не следует путать с обычными про-< центными показателями, которые при дихотомическом оценивании результатов выполнения отдельных заданий представляют собой выраженную в процентах долю правильно выполненных заданий теста. В отличие от обычных процентов перцентиль является производным показателем, который оценивается в единицах процента испытуемых.
Перцентили имеют несомненные достоинства - они удобны в подсчете и просты в интерпретации. Помимо достоинств перцентильные ранги имеют два существенных недостатка. Во-первых, они являются значениями порядковой шкалы, так как показывают относительное положение каждого индивида в нормативной выборке, а не определяют величину истинного различия между результатами отдельных испытуемых группы. Во-вторых, перцентили не только не отражают, но даже искажают реальные различия в результатах выполнения теста. Это связано с особенностями распределения перцентилей, имеющего прямоугольный характер. В этой связи небольшие отклонения от среднего в центре распределения наблюдаемых баллов будут значительно увеличены перцентилями, в то время как относительно большие отклонения на краях кривой нормального распределения будут сжаты.
Стандартные показатели. Z -шкала. При выборе метода шкалирования часто обращаются к стандартным показателям, указывающим отличие индивидуального результата испытуемого от среднего балла повыборке в единицах стандартного отклонения. Эти показатели используются для установления места первичного балла каждого испытуемого в сравнении с результатами других на основе подсчета нормированных отклонений и называются z -оценками. Результат отображения z -оценок на числовую ось образует Z -шкалу.
Для перевода в Z -шкалу сырой балл i -го испытуемого преобразуется по формуле
где X i - сырой балл i -го испытуемого; X - среднее значение индивидуальных баллов N испытуемых группы; S x - стандартное отклонение. Поскольку среднее значение X вычитается из каждого исходного значения X i , то новое среднее в Z -шкале - z - будет равно нулю, а стандартное отклонение благодаря нормированию будет равно единице.
Если величина разности X i - X , стоящей в числителе дроби, больше 0, то результат i -го испытуемого выше среднего по тесту. В противном случае индивидуальный балл i -го испытуемого ниже среднего. В силу линейного характера преобразований при получении г-оценок все свойства исходного распределения сырых баллов переносятся на множество шкалированных баллов.
Использовать Z -шкалу можно для любого распределения индивидуальных баллов. Особенно удобны z -оценки в случае близости распределения первичных баллов к требованиям нормального закона, поскольку можно заранее предсказать процент результатов, лежащих в пределах одного и двух стандартных отклонений под кривой нормального распределения. Несомненным достоинством Z -шкалы является общая средняя арифметическая и общая мера вариации данных, позволяющие достичь сравнимости результатов по разным тестам.
Однако помимо явных достоинств есть и недостатки. Отрицательные и дробные оценки, которые нередко получаются при вычитаний среднего и деления на стандартное отклонение, малопригодны для сообщения результатов тестирования испытуемых группы. Поэтому применяются специальные, методы линейного преобразования z -оценок для перевода их на множество целых положительных чисел.
Шкалы стандартных оценок, полученных на основе линейных преобразований Z - шкалы. Для перевода - оценок в область положительных целых чисел выбираются новые значения среднего арифметического (М) и стандартного отклонения (σ). Они сохраняют все различия между баллами испытуемых, выявленные в Z -шкале, но позволяют избавиться от отрицательных и дробных значений z благодаря умножению каждой z -оценки на одно и то же число, а также прибавлению общей константы и последующему округлению. Для преобразования z -оценок используется формула
z 1 =M + σ z (19)
где М - новое среднее арифметическое; σ - новое стандартное отклонение.
В качестве значений M и σ в формуле (19) можно использовать любые удобные числа. Например, для шкалы IQ эти значения равны 100 и 15. Поэтому z IQ =100+15 z . Другое линейное преобразование c M = 50+10 z переводит значения z в стобалльную T -шкалу по формуле Т = 50 + 1 0 z . Эта шкала позволяет избавиться от дробных и отрицательных значений только в том случае, если значения z лежат в интервале от -5 до +5 и имеют один знак после запятой. В противном случае, если показатели подсчитаны с точностью до сотых, необходимо последующее округление T -показателей, что может привести к снижению дифференцирующего эффекта теста.
Для шкалы СЕЕВ по тестам SAT (Scolastic Aptitude Test ), разработанным Советом по приемным экзаменам в колледжи, z -оценки пересчитывают c я со средним М = 500 и σ = 100 по формуле z CEEB = 500 + 100 z . Значению z = -1 будет соответствовать значение z CEEB = 500 + 100 (-1) = 400. A при z = +1 т- z CEEB = 600. Таким образом, в шкале СЕЕВ все дробные z -оценки превращаются в целые и попадают в интервал (0; 1000) в тех случаях, когда Z лежит в интервале (-5; +5). Так же в тысячебалльную шкалу переводятся оценки результатов выполнения таких известных в мире тестов, как GRE (Graduate Record Examination ) и. др.
Сопоставимость и выравнивание. Поскольку обеспечение сопоставимости результатов педагогических измерений является одной из главных причин перехода от сырых баллов к производным показателям в процессе шкалирования, то возникает вопрос о возможности сравнения z -оценок, полученных на основе различных вариантов тестя. Ответ на этот вопрос на теоретическом уровне носит, несомненно, положительный характер в тех случаях, когда сравниваются z -оценки по параллельным вариантам одного и того же теста. Однако на практике из-за неизбежных отклонений от требований параллельности и существования ошибок измерения для повышения сопоставимости оценок испытуемых обычно используют процедуру выравнивания.
Рис. 33. Сопоставление шкал
В отдельных случаях возникает необходимость сравнения относительного положения испытуемых, полученного в различных шкалах и по различным тестам. Если результаты тестирования имеют нормальное распределение, а выстроенные шкалы основаны на идентичных выборках испытуемых, такое сравнение можно провести с помощью рис. 33.
Чтобы добиться сопоставимости результатов тестирования в ситуации отличия распределений баллов от нормального закона, необходимо преобразование, изменяющее вид кривой распределения с целью приближения ее к виду нормальной кривой.
Нормализация данных тестирования. Для нормализации данных тестирования используется нелинейное преобразование, позволяющее придать эмпирическому распределению желаемую форму нормальной кривой. С этой целью вводятся нормализованные стандартные показатели, соответствующие распределению, преобразованному так, что оно аппроксимируется формой нормальной кривой. Их значения могут быть найдены с помощью таблиц, в которых приводится процент случаев различных отклонений в единицах от среднего значения для нормальной кривой.
Преобразование сырых баллов к нормальному распределению осуществляется способом, получившим название пробшп-преобразования . В рамках процедуры преобразования баллов сначала для каждого сырого показателя определяется кумулированная частота, которая представляет собой сумму всех частот, лежащих ниже данного сырого показателя. Затем к ней добавляется половина количества испытуемых, имеющих этот сырой балл. По этим данным вычисляется кумулированная доля путем деления полученной суммы на общее число испытуемых выборки. Затем по статистическим таблицам, содержащим значения площади под кривой нормального распределения, находят значения нормализованных стандартных Показателей для каждой кумулированной доли |63].
Нормализованный стандартный показатель, как и линейно преобразованный стандартный показатель, имеет среднее значение «О», а стандартное отклонение - «1». Результат учащегося в «-1» балл можно интерпретировать как превосходящий приблизительно 16% результатов группы, а в «+1» балл - как превосходящий 84 % всех результатов.
Шкала станайнов, стенов и другие шкалы. Нормализованным стандартным показателям, так же как и линейно преобразованным, стараются придать удобную форму, пригодную для сообщения испытуемым. Для этого используют шкалы стандартных десяти или девяти единиц. Разбиение нормального распределения на девять интервалов приводит к шкале станайнов, имеющей девять стандартных единиц. Название «станайн» связано с тем, что оценки в этой шкале принимают значения от «1» до «9». При оценке результатов испытуемых по тесту 4 % самых худших результатов присваивается станайн 1, а самых лучших - станайн 9. Следующим за худшими и лучшими 7 % результатов присваивают ста-найны 2 и 8 соответственно. Далее 12 % результатов - станайны 3 и 7. Следующим 17% присваивают станайны 4 и б и, наконец, 20% средних результатов - станайн 5 (табл. 16). .
Помимо описанной шкалы станайнов существуют еще две шкалы, имеющие некоторое, преимущество перед девятибалльной в смысле различающей способности. Одна из них - шкала стандартных десяти единиц, называемая также шкалой Кэтгелла, или шкалой стенов ( sten ). Как следует из названия, весь массив результатов делится на десять частей с интервалом 0,5 стандартного отклонения. В шкале стенов среднее арифметическое принимается равным 5,5, а расстояние между двумя соседними стандартными единицами равно 0,5 S x .
Таблица 16
Таблица соответствия процентов и станайнов
Процент |
|||||||||
Станайн |
Какие шкалы использовать в педагогических измерениях . Многие из шкал, приведенных выше, используются исключительно психологами, другие нашли свое применение в образовании. В практике деятельности зарубежных тестовых служб в образований чаще всего обращаются к стобалльной или тысячебалльной шкале, полученным на основе преобразования z -оценок. Хотя тысячебалльная шкала обладает высокими дифференцирующими возможностями, обычно ее концы оказываются не работающими в силу специального подбора по трудности заданий теста для приближения частотных распределений оценок трудности к виду нормальной кривой. Поэтому, как правило, оценки испытуемых распределяются в интервале от 200 до 800 баллов. Но даже использование менее протяженного диапазона оценок, чем тысячебалльная шкала, требует специальных профессиональных навыков по интерпретации баллов учащихся.
Как осмыслить свой результат, если он, например, равен 570 или 650 баллам? Как отнести его к категории плохих или хороших результатов на столь широком диапазоне баллов? Другое дело, если результат испытуемого составляет 5 или 6 баллов по девятибалльной шкале. Поэтому к растянутым шкалам обычно обращаются профессиональные тестовые службы для массового тестирования в образовании, когда большое число испытуемых требует повышения дифференцирующей способности шкалы.
В России при шкалировании данных ЕГЭ была выбрана стобалльная шкала, в которую переводятся оценки выпускников. Конечно, стобалльная шкала - это своего рода компромисс между потребностью в хорошем дифференцирующем эффекте шкалы из-за значительного числа тестируемых во всех регионах и постепенным переходом от пятибалльной шкалы, существовавшей на протяжении многих лет в России, к более растянутым шкалам.
4. Шкалирование результатов тестирования на основе теории IRT
Построение шкалы с помощью современной теории тестов. Рассмотренные в предыдущем разделе шкалы позволяют сопоставить результаты тестирования и служат удобной формой их интерпретации, но они не повышают уровень измерений в силу того, что используют статистический аппарат классической теории тестов. Порядковая шкала сырых баллов испытуемых переходит в порядковую шкалу производных стандартизированных показателей, не позволяющих интерпретировать разность результатов двух испытуемых, выполнявших один и тот же тест. Зарубежные исследования конца 80-х гг. XX в. показали возможность построения интервальной шкалы результатов педагогических измерений в том случае, если для создания теста и шкалирования результатов его выполнения используется теория IRT .
Условно процесс шкалирования в IRT можно подразделить на три этапа. Первый предполагает построение шкалы логитов для латентного параметра подготовленности испытуемых, второй - шкалы логитов для оценок латентного параметра трудности заданий. Третий этап позволяет свести две шкалы в общую шкалу стандартных оценок для обоих латентных параметров.
Связь шкалы логитов и шкалы Гуттмана. Процедура построения шкалы латентных переменных связана с так называемым шкалированием по Гуттману ( Guiiman - type scale ), в которой задания отбираются в порядке нарастания их трудности по определенным, тщательно структурированным элементам содержания дисциплины. Отличительной особенностью шкалы Гуттмана является существование стойкого кумулятивного эффекта, означающего, что любой испытуемый с правильной структурой знаний, справившийся с j -м заданием, может наверняка успешно выполнить все предыдущие, более легкие задания теста. В понимании Гуттмана совершенная шкала существует в том случае, если по последнему правильному ответу испытуемого можно воспроизвести все его ответы на более легкие задания теста.
Конечно, стойкий кумулятивный эффект наблюдается далеко не всегда. В основном он характерен для заданий, довольно тесно связанных по содержанию. Для иллюстрации идей Гуттмана в англоязычной методической литературе популярен следующий пример заданий на умножение:
Он вполне ясно, хотя и довольно упрощенно, показывает, как реализуется эффект кумулятивности на практике. Действительно, если испытуемый умеет умножать на четырехзначное число, то он тем более справится с умножением на трех-, двух- и однозначные числа.
Шкалирование на основе теории IRT в определенной степени преодолевает ограниченность предположении шкалы Гуттмана, поскольку является вероятностной версией и отражает сущность тестовых процессов, неизбежно связанных с ошибками. измерения. Согласно моделям IRT о правильном выполнении любого задания испытуемым, можно прогнозировать успешность лишь в том слунае, если эта вероятность близка к единице.
Преимущества и проблемы шкалирования по теории IRT . Инвариантность оценок параметров испытуемых относительно трудности заданий теста, достигаемая благодаря, возможностям IRT , позволяет реализовать эффект специфической объективности, который способствует Повышению точности оценок параметра подготовленности учащихся. Благодаря единой шкале интервального типа в IRT разности оценок латентных параметров испытуемых приобретают вполне интерпретируемый смысл, поскольку их можно считать мерой отличия в подготовленности испытуемых по предмету. Таким образом, теория IRT повышает возможности педагогической интерпретации шкалированных баллов, учащихся. С ее помощью можно сопоставить приращения в обученности учащихся и повысить надежность их оценок по тесту.
Однако реализовать преимущества теории IRT довольно сложно. Для этого необходимо обеспечить выполнение ряда условий ее применимости, без которых эффект инвариантности не имеет места. В частности нужно обеспечить конструирование теста на основе теории 1 RT , подтвердить соответствие эмпирических данных тестирования требованиям моделей измерения или удалить неподходящие данные по результатам выполнения теста. Необходимо также обеспечить нормальный характер распределения сырых баллов учащихся, оценок трудности заданий теста, ошибок измерения и реализовать требование локальной независимости отдельных заданий теста. Немало проблем вызывает расходимость итерационных процессов, работающих в методе максимального правдоподобия при переходе от начальных оценок к наиболее эффективным оценкам параметров испытуемых и трудности заданий теста. Поэтому теория IRT в шкалировании используется далеко не всегда, только в случаях массового тестирования для принятия административно-управленческих решений в образовании, когда есть смысл тратить силы на разработку и применение теста.
Преобразования шкалы логитов. Поскольку оценки параметров подготовленности учащихся и трудности заданий теста в шкале логитов обычно лежат в интервале (-5; 5) и имеют несколько знаков после запятой, они малопригодны для сообщения испытуемым без приведения к целому неотрицательному виду. Поэтому необходимы линейные преобразования оценок в другую, более удобную для сообщения результатов шкалу подобно тому, как это происходит с z -оценками.
Сначала все значения параметров умножают на один и тот же множитель для перевода результатов в область целых чисел и округляют результат, до целых. Затем переносят все значения параметров на множество положительных чисел путем прибавления некоторой константы, определяющей новую точку отсчета на шкале, для того чтобы избавиться от отрицательных оценок параметра подготовленности θ. Примеры таких преобразований приведены в специальной литературе по шкалированию результатов педагогических измерений.
5. Шкалирование в критериально-ориентированном тестировании
Виды шкал в критериально -ориентированном тестировании . Виды шкал в критериально-ориентированном тестировании выбираются в зависимости от предназначения теста. Если тесты используются для оценки степени освоения содержательной области (domain - referenced tests ), отображение которой в тесте условно можно принять за 100%, то каждый балл учащегося показывает процент освоенного содержания. Процесс шкалирования осуществляется достаточно просто балл, набранный учащимся, делят на максимально возможный балл по тесту и полученную величину умножают на 100 %. Упорядочение найденных результатов и их нанесение на ось позволяют построить шкалу, каждая точка которой соответствует проценту усвоенного содержания для учащегося или группы учеников.
В другом случае, когда критериально-ориентированный тест применяется для деления тестируемых на две или несколько групп с помощью порогового (критериального) балла (mastery test ), строится номинальная шкала. Например, подобное деление происходит при аттестации: в одну группу попадают аттестованные, а в другую - не аттестованные учащиеся, как не выполнившие запланированный процент заданий теста. Основная трудность при таком шкалировании заключается в установлении порогового бапла для отсечения группы учащихся, не показавшей достаточного владения содержанием теста.
Методы выбора критериального балла. Для установления порогового балла используются три метода. В первом случае балл устанавливается экспертным путем, априорно, на основе анализа целостного содержания теста. Во втором случае эксперты выбирают пороговый балл на основе анализа.содержания тестовых заданий и присвоения им априорных оценок трудности, с помощью которых выделяется критерий отбора в группу аттестованных учащихся. В третьем случае для определения порогового балла анализируются эмпирические данные по результатам апробации теста на репрезентативной выборке учащихся, и используется метод контрастных групп.
Для получения валидного значения критериального балла третьим методом прежде всего необходимо Провести предварительное тестирование на близком по содержанию входном претесте или отобрать группу экспертов, хорошо представляющих, подготовленность тестируемой выборки учащихся. По результатам претеста или экспертизы из группы учащихся выделяются две контрастные подгруппы: заведомо не готовых к тесту самых слабых - 27 % и 27 % самых сильных, хорошо подготовленных к тестированию. В совокупности получаются две контрастные по подготовленности выборки учеников. Затем каждой подгруппе (слабой и сильной) выдается критериально-ориентированный тест, распределение баллов по которому строится на одном графике отдельно для слабых и сильных учащихся (сглаженные кривые - рис. 34, экспериментальные кривые - рис. 35).
Рис. .34. Сглаженные частотные распределения баллов по тесту для контрастных подгрупп
Рис; 35. Эмпирические частотные распределения баллов по тесту для контрастных подгрупп
После проведения тестирования на репрезентативной выборке учащихся и построения частотных распределений для контрастных групп устанавливается критериальный балл в точке, соответствующей на горизонтальной оси пересечению кривых распределения баллов. Эта точка пересечения, спроецированная на рис. 35 на горизонтальную ось, наиболее четко разделяет группы не аттестованных и аттестованных учащихся, поскольку в ней наблюдается наименьший процент ошибочных решений - одновременно минимизируется число учащихся, обладающих достаточно высокой подготовкой, но попавших в группу не аттестованных (часть кривой А слева от вертикальной прямой) и число неподготовленных учеников, ошибочно отнесенных к категории прошедших за пороговый балл (часть кривой В справа от вертикальной прямой). Полученный пороговый балл обладает наибольшей достоверностью по сравнению с его аналогами, определенными экспертными методами.
Уровневые шкалы, совмещающие нормативно-ориентированный и критериально-ориентированный подходы. Для получения надежных и обоснованных результатов итоговой аттестации выпускников учебных заведений тестовый балл иногда дополняют развернутой содержательной интерпретацией, описывающей характеристики уровня подготовки учащегося в терминах освоенных элементов содержания.
Такие шкалы, позволяющие совместить интерпретацию оценки испытуемого по отношению к результатам остальных тестируемых и к уровням освоения содержания, выделенным по критериальному принципу, получили название уровневых. Пример уровневой шкалы приведен на рис. 36, на котором диапазоны тысячеб a лльной шкалы, выбранные гипотетически, соотносятся с уровнями подготовки.
рис. 36. пример уровневой шкалы
На рисунке выделен базовый и промежуточный уровни вместе с уровнем высокой компетентности. Для построения уровневой шкалы обычно шкалируют результаты репрезентативной группы учащихся в рамках нормативно-ориентированного подхода и строят стандартизованную шкалу тестовых баллов. Затем на шкале выделяют диапазоны и выявляют совокупности содержательных элементов, освоенных учащимися в каждом диапазоне, дополняя детальным описанием освоенных знаний и умений.
Упрошенная трактовка рейтинговой шкалы. В российской системе высшего и среднего образования нет устоявшихся определений, позволяющих однозначно определить рейтинговый, балл учащегося. В основном под ним понимают накопленный балл, полученный в результате простого или взвешенного суммирования оценок в порядковых шкалах, которые строятся на основе субъективного выставления и учета баллов учащегося в соответствии с различными уровнями учебной деятельности, временными промежутками в обучении или уровнями усвоения. Нередко к сумативным оценкам, характеризующим успеваемость, прибавляют поощрительные баллы за своевременную: сдачу заданий, активность на занятиях, хорошую посещаемость и т.д.
Такая упрощенная трактовка, далекая от педагогических измерений, таит в себе, по меньшей мере, две серьезные ошибки: во-первых, операция суммирования является недопустимой на порядковом уровне измерений и, во-вторых, происходит бессмысленное объединение баллов по различным переменным, что исключает возможность какой-либо корректной интерпретации результатов подобного объединения. Вполне возможна ситуация, когда в. сумме баллов, накопленной учащимся за определенный период обучения, будут доминировать оценки по второстепенным переменным, не имеющим заметного отношения к целям образования.
Таким образом, за видимой простотой операции получения рейтингового балла скрывается серьезная опасность: по результатам обучения могут быть признаны лучшими те учащиеся, которые не обладают творческим мышлением, но вовремя сдают домашние задания, не пропускают уроков и не нарушают дисциплины в классе.
Обращение к рейтинговой шкале в связке с контрольными заданиями для модулей, построенным на деятельностной основе в русле идей модульного обучения, немного повышает корректность приведенной выше упрощенной трактовки. По крайней мере выделение модулей происходит на содержательной основе и позволяет накапливать оценки уровней усвоения конкретных предметных знаний, что способствует обоснованной интерпретации суммарной оценки.
В целом рейтинговые баллы при корректном подходе к их подсчету и интерпретации могут оказать позитивное влияние на контрольно-оценочную систему в образовании. Они способствуют систематической работе учащихся, снижают роль случайности при сдаче экзаменов и снимают нервное напряжение во время экзаменов благодаря заблаговременному накоплению оценок результатов обучения.
Корректный подход к построению рейтинговых шкал на основе теорий педагогических измерений. Для корректного построения рейтинговых шкал необходимо выполнять ряд условий. В зарубежной литературе к ним относят:
Концептуальное выделение переменных измерения;
Использование тестов с высокой содержательной и конструктной валидностью для получения баллов учащихся по каждой переменной;
Интеграцию результатов по отдельным шкалам (количественного характера) в единую рейтинговую шкалу с использованием весовых коэффициентов, определенных с помощью регрессионного анализа и методов выравнивания шкал для тестов различной длины при последующем объединении взвешенных количественных баллов по отдельным шкалам.
В целом необходимо отметить, что построение рейтинговых шкал требует от учителя определенной методической подготовки, наличия тестов и систематической работы по корректному построению отдельных шкал. При этом повышается нагрузка педагога, поэтому обманчивая простота рейтингования на деле при правильном подходе оборачивается значительными трудозатратами: Под вопросом остается общий эффект, поскольку пока неясно, оправданны ли такие затраты энергии со стороны педагогов или нет.
Имеется несколько способов выражения тестовых результатов таким образом, чтобы их можно было сравнивать для тестов различной длины, по различным дисциплинам и для разных учебных заведений. Более того эти способы позволяют суммировать тестовые результаты и проводить их накопление, т.е. по сути определять рейтинги испытуемых по всему объему полученных ими знаний. Этим условиям удовлетворяют следующие шкалы оценок тестовых результатов.
Для определения оценки по результатам тестирования в шкале Z помимо суммарного бала xi i-го испытуемого по j-й дисциплине (тесту, вузу),- необходимо знать среднее арифметическое баллов для всей группы студентов и стандартное отклонение . Тогда оценка Z будет определяться по формуле:
Здесь Zij – стандартный результат, представляющий собой нормированное отклонение балла испытуемого от среднего арифметического по тесту. При подчинении результатов тестирования закону нормального распределения, когда , величина Z непрерывно изменяется от -3 до +3.
При округлении оценок в шкале Z до целых единиц возникает семибалльная шкала: -3, -2, -1, 0, +1, +2, +3. Шкала Z очень неудобна, ибо дробная и имеет отрицательные и положительные значения.
Для устранения указанных выше недостатков шкалы вводится шкала Tij:
Здесь произведение 10Zij округляют до целых чисел, поэтому шкала Т в 10 раз более дифференцирующая знания, чем шкала Zij. Для сравнения этих шкал приведем пример для семи испытуемых:
Процентная шкала рассчитывается для большого массива данных. Для примера рассчитаем процентную шкалу по результатам тестирования 50 студентов, получивших следующие баллы: 4, 15, 6, 14, б, 7, 12, 9, 6, 5, 11, 8, 11, 8, 10, 7, 6, 8, 8, 8, 3, 12, 9, 14, 12, 13, 7, 9, 10, 5, 9., 6, 8, 7, 7, 11, 7, 11, 9, 4, 8, 12, 5, 7, 8, 10, 13, 10 (N=50).
Прежде всего данные группируются и на этой основе определяется характер распределения тестовых баллов. Характер распределения будет приближаться к нормальному, если N>>100. Поэтому приведенные здесь пример далек от нормального распределения.
Группировка данных по так называемым классам выполняется таким образом, чтобы число классов было в пределах от 10 до 15. Для этого определяется размах тестовых результатов (R), который в нашем примере равен R=15-4=11. Таким образом, у нас образуется 11 классов, и в каждый класс, попадает один тестовый балл.
Далее строится вспомогательная табл. 4.1, где в первую колонку помешают тестовые баллы испытуемых от большего значения к меньшему сверху вниз. Вторая колонка представляет собой результат разноски исходных данных по баллам (классам). В третью колонку внесены частоты, с какими встречаются в результатах тестовые баллы. В четвертой колонке показаны кумулированные (накопленные) частоты, представляющие собой сумму частот снизу вверх.
Таблица 4.1. Вспомогательная таблица для расчета процентного ранга
Так как уровень знаний непрерывно изменяется, мы оперируем дискретными значениями баллов, то необходимо ввести понятие "верхняя и нижняя граница” балла (класса). В нашем примере, например, для балла 12 нижняя граница 11,5 (12-0,5, где 0,5-точность измерения балла, поскольку мы измеряемую величину, т.е. уровень знаний, округляем до целого значения балла с точностью до 0,5), верхняя – 12,5. Именно эти понятия используются для построения шкалы процентных рангов, цель которой узнать, сколько процентов испытуемых показывают результаты, равные интересующему нас баллу или меньше него.
Вычислим для примера процентный ранг для тестового балла 5. В пределах от нижней границы балла 4,5 до верхней 5,5 находятся результаты 3 испытуемых. Предполагается, что эти результаты равномерно располагаются в указанном интервале, т.е. от 4,5 до 5,5. Следовательно, в интервале от 4,5 до 5 находится 1,5 долей испытуемых (половина от 3 см предпоследнюю колонку). Таким образом, балл ниже 5 имеют 4,5 (3 + 1,5) долей испытуемых, или 9 %. Балл 3 и ниже имеют 0,5 доли испытуемых, или 1%. Балл 15 имеют 49+0,5=49,5 доли испытуемых, т.е. 99%.
Итак, что значит PR=86% для балла 12. Это значит, что знания испытуемого, получившего 12 баллов, превосходят знания 86% студентов группы и он принадлежит к лучшим 14% студентов. Для сравнения общего результата по нескольким тестам процентные данные каждого студента суммируются и суммы сравниваются.
Существующая в настоящее время пятибалльная шкала оценок (вернее, даже 4 балльная: неудовлетворительно, удовлетворительно, хорошо и отлично) чрезвычайно не дифференцирующая. Она порождает проблему полупроходных баллов на вступительных экзаменах, не позволяет определить самого лучшего из группы лучших и самого худшего из группы худших. Поэтому наблюдается тенденция к расширению шкалы оценок. В разд. 4.1 уже упоминалась 7-балльная шкала, легко перейти к 9-балльной. Мы предлагаем ввести в практику 11-балльную шкалу, хотя рекомендовать можно и 21-балльную, и 41-балльную и т.д. Однако шкалы, содержащие более 11 баллов, в отличие от 11-балльной шкалы, могут оказаться психологически неудобными и искусственно растянутыми. С нашей точки зрения, в настоящей ситуации, в которой находится педагогика, эта шкала является достаточно дифференцирующей, поскольку позволяет идентифицировать целых 11 групп учащихся вместо 5 при нынешней шкале оценок.
11-балльная шкала вытекает из шкалы логитов, получаемых по самой современной технологии обучения, основанной на латентном анализе. Оказалось, что уровень знаний в шкале логитов лежит в интервале от -6 до +6, что легко трансформируется в 11-балльную шкалу, как это представлено в таблице 4.2.
Таблица 4.2. Сравнение различных шкал оценки знаний обучаемых по результатам тестирования
Даже беглого взгляда на табл. 4.2 достаточно, чтобы оценить дифференцирующую способность 11-балльной шкалы по сравнению с ныне существующей 5-балльной, народному образованию, особенно высшей школе, давно пора переходить к более дифференцирующей шкале оценок.
Н.М. Олейник. Фрагмент из учебного пособия по спецкурсу: "Тест как инструмент измерения уровня знаний и трудности заданий в современной технологии обучения. Донецкий государственный университет".
Z-показатель или стандартизированный показатель - этопоказатель, определяющий количество стандартных отклонений, на которое отклоняется полученный результат от среднего результата в нормативной выборке.
Шкала Z-оценок (стандартизированныйZ-показатель)
Шкала стандартных отклонений
Шкала стандартных отклонений в самом простом варианте представляет собой шкалу из трех уровней, каждый из которых соответствует определенной степени выраженности диагностируемого свойства. Дадим характеристику этих уровней.
· Первый уровень соответствует левой части распределения до одной сигмы и отражает низкуюстепеньвыраженности свойства. Все сырые оценки, которые попадают в данный диапазон, независимо от первичного значения, будут свидетельствовать о низкой выраженности диагностируемого параметра.
· Второй уровень шкалы соответствует диапазону от 1 сигмы слева до одной сигмы справа. В центре этого диапазона находится среднее значение по выборке. Данный уровень отражает среднюю степень выраженности свойства. Согласно функции нормального распределения этот уровень имеют 68, 27% испытуемых в нормативной выборке.
· Третий уровень, отражающий значительную выраженность исследуемого свойства, занимает диапазон от первой сигмы справа до правого конца кривой нормального распределения.
В простом варианте описанная шкала состоит из трех уровней, однако возможны варианты и с большим количеством градаций. Как правило, в этих вариантах первый и третий уровни разбиваются на дополнительные уровни в соответствии с интервалами стандартных отклонений.
Недостатки данной шкалы очевидны. Во-первых, шкала имеет небольшое количество градаций, что обусловливает потери диагностической информации. Во-вторых, данная шкала представляет собой, по сути, рейтинговую нормализованную шкалу. Это ограничивает возможности статистического анализа полученных результатов.
На основе значений Z-показателя составляется шкала Z-оценок. Дадим ее характеристику.
· Математически Z-показатель рассчитывается как отношение разности данной сырой оценки и средней оценки в нормативной группе к величине стандартного отклонения.
· Шкала Z-оценок включает 7 или 9 меток. По своей структуре она эквивалентна шкале стандартных отклонений.
· Название «Z-показатель» соответствует представлению данных в форме нормального распределения (Z-распределения).
· Метка в середине шкалы соответствует сырому среднему значению в популяции и принимает значение «0».
· Слева и справа от средней метки находятся равные интервалы, которые соответствуют интервалам 1, 2, 3 и 4 сигм (средних квадратичных отклонений).
· Метки справа имеют соответственно значения «1», «2», «3» и «4 (в случае, если добавляется интервал от 3 сигмы до 4 сигмы).
· Метки справа от среднего значения имеют соответствующие отрицательные значения от «-1» до «-3» или «-4».
Таким образом, шкала Z-оценок включает отрицательные и положительные значения, а также оценку «0». Такая структура шкалы создает трудности для последующего анализа и интерпретации полученных данных. В связи с этим на основе Z-показателя предложены более приемлемые варианты нормализации сырых значений. Одним из таких вариантов является преобразованныйZt-показатель.
Zt-показательпредставляет собой преобразованную Z-оценку.Zt-оценкавычисляется по формуле Zt = A+BxZ, где
А – среднее значение распределения преобразованных оценок,
В – стандартное отклонение преобразованного распределения,
символ «х» - знак умножения.
Из приведенной формулы следует, что Zt учитывает не только среднее значение и среднее квадратичное отклонение распределения сырых оценок, но также среднее значение и среднее квадратичное отклонение распределения уже нормализованных оценок. Преимущество такого преобразования Z-показателя состоит в том, что статистические параметры нормализованного распределения могут выбираться произвольно. В психометрии по общему согласию специалистов в качестве среднего значения нормализованного распределения было выбрано значение «50», а значение стандартного отклонения - «10». В этом случае Zt-показатель стал называться как «Т-балл».
Шкала Т-баллов – это шкала стандартизированных оценок, в которой каждая оценка рассчитывается по формуле:
T = 50+10х(сырая оценка – средняя сырая оценка)/стандартное отклонение распределения сырых оценок.
Т-баллы всегда принимают положительные значения и имеют нормальное распределение со средним значением «50» и стандартным отклонением «10». «Нормальные» оценки по шкале Т-баллов, свидетельствующие о средней выраженности диагностируемого свойства, соответствуют диапазону в пределах 2 стандартных отклонений, обычно от 30 до 70 Т-баллов.
Как и в случае шкалы Z-оценок, основные метки Т-шкалы в целом соответствуют меткам шкалы стандартных отклонений. Например, интервал Т-баллов соответствует интервалу [среднее значение…. одна сигма] по шкале стандартных отклонений слева, или интервалу по шкале Z-оценок.
Шкала Т-баллов удобнее для интерпретации по сравнению с предыдущими шкалами. По своей форме она представляет собой шкалу интервалов и имеет непрерывный характер. С другой стороны, следует помнить, что шкала Т-баллов по сути подобна шкале стандартных отклонений и в строгом смысле она не является шкалой интервалов. В ее конструкции приняты определенные условные допущения, функция которых заключается в обеспечении удобства восприятия и трактовки диагностических данных. Поэтому при интерпретации Т-баллов не стоит переоценивать численные значения нормализованных показателей. Например, если у одного испытуемого по диагностической шкале Т=55, а другого по этой же шкале Т=60, то это совсем не означает, что у первого диагностируемое свойство имеет меньшую выраженность, чем у второго. Оценка значений Т-баллов проводится по диапазонам, эквивалентным шкале стандартных отклонений. Еще раз отметим, что преимущество Т-баллов состоит в возможности более удобного и наглядного представления результатов, например, в виде графика.
Преобразование в шкалу Т-баллов нашло применение в ряде широко используемыхвклиникеопросников, например, Миннесотском мнгогофазном личностном опроснике (MMPI).
Основным недостатком преобразования Z-оценки в Zt-показатель является привязка оценки полученных диагностических результатов к нормативным данным, точнее говоря, к среднему значению и среднему квадратичному отклонению нормативной выборки. Поскольку получить полностью репрезентативную нормативную выборку крайне трудно, нормативные данные чаще всего отражают распределение диагностируемого свойства не в популяции в целом, а лишь в выборке испытуемых, взятой для проведения нормализации. Следует учитывать, что выборканормализации может значительно отличаться от популяции, представителем которой является данный конкретный испытуемый. В результате некорректного перевода первичных оценок в стандартизированныеможетзначительно снизиться валидность и достоверность полученных диагностических данных.
С целью устранения указанного выше недостатка предложены способы перевода в стандартизированные показатели, не зависящие от выборки стандартизации. Такой способ нормализации первичных оценок используется в технологии анализа тестовых заданий . В этой технологии нормализация сырых оценок осуществляется не на основе описательной статистики, а с помощью метода максимального правдоподобия с логарифмическимшкалированием.
Способ перевода в Т-баллы на основе теории анализа тестовых заданий показал достаточно высокую эффективность в ряде психодиагностических методик в клинике.
Измерительные шкалы (лат. scala – «лестница») – форма фиксации совокупности признаков изучаемого объекта с упорядочиванием их в определенную числовую систему. Шкалы представляют собой метрические системы, моделирующие исследуемый феномен путем замены прямых обозначений изучаемых объектов числовыми значениями и отображение пропорций континуального состава элементов объекта в соответствующих числах. Элементу совокупности проявлений свойств изучаемого объекта соответствует определенный балл или шкальный индекс, количественно устанавливающий положение наблюдаемой единицы на шкале, которая охватывает всю совокупность или ее часть, существенную с точки зрения задач исследования. Операция упорядочивания исходных эмпирических данных в шкальные носит название шкалирования. Шкалы различаются в зависимости от характера функции, лежащей в основе их построения. В качестве такой функции могут служить: сравнение по признаку убывания или возрастания, ранжирование, оценка интенсивности признака или оценка пропорциональных отношений между признаками. Общая классификация измерительных шкал предложена С. Стивенсон. В ее основу положен признак метрической детерминированности. Согласно этому признаку, шкалы делятся на метрические (интервальные и шкалы отношений) и неметрические (номинативные, шкалы порядка).
Шкала интервалов относится к метрическим шкалам, в которых элементы упорядочены не только по принципу выраженности измеряемого признака, но и на основе ранжирования признаков по размеру, что выражается интервалами между числами, приписываемыми степени выраженности измеряемого признака.
В шкале интервалов нулевая точка отсчета может устанавливаться произвольно, а величины единиц и направление отсчета могут определяться по избираемым константам.
К разряду шкалы интервалов относятся шкалы стандартного IQ-показателя, Т-баллов, процентилей и др.
Шкалирование в интервальной шкале составляет основу психометрических измерений.
В шкалах отношений (пропорциональных) числовые значения присваиваются объектам таким образом, чтобы между числами и объектами соблюдалась пропорциональность. Начало отсчета в такой шкале фиксировано. Шкала предусматривает операции равенства/неравенства, больше/меньше, равенства интервалов и равенства отношений.
Примером использования такой шкалы в психологических измерениях может служить шкала порогов абсолютной чувствительности анализатора.
Виды шкал, используемых для преобразования первичных баллов
Наиболее известные преобразования первичных баллов:
Процентильный ранг, отражающий процент испытуемых в нормативной группе, результата которых ниже или равен данному значению первичного балла;
Линейная Z-оценка, определяемая как отношение индивидуального отклонения тестового балла к стандартному отклонению по группе испытуемых;
Оценки, которые являются линейным преобразованием z-оценки (Т-шкала, оценки стандартного IQ и т.д.);
Шкалы станайнов и стенов, которые получаются делением шкалы первичных баллов на различные интервалы.
Шкала процентильных рангов
Процентили позволяют установить ранг первичного показателя испытуемого в нормативной группе. Процентильный ранг, соответствующий данному первичному баллу, показывает процент испытуемых в нормативной выборке, результаты которых не выше данного первичного балла.
Процентили не следует смешивать с процентными показателями, представляющими процент правильно выполненных заданий испытуемым группы. В отличие от последнего - первичного - процентиль является производным показателем, указывающим на долю от общего числа испытуемых группы.
Помимо удобств, связанных с простотой интерпретации, процентильные ранги имеют существенные недостатки. Шкала процентильных рангов нелинейна, т.е. в различных областях шкалы первичных баллов увеличение на 1 балл может соответствовать различным увеличениям на шкале процентилей. Поэтому процентили не только не отражают, а даже искажают реальные различия результата выполнения теста.
Поэтому использование процентилей довольно ограничено. В силу удобства и простоты их применяют в основном в нормативно-ориентированных тестах для самооценки знаний учащихся, сообщения результатов самим учащимся и их родителям.
Осуществляет перевод индивидуальных результатов в стандартную шкалу с общим средним баллом и общей мерой дисперсией. Z-оценку i-го ученика находят по формуле:
где первичный балл i-го испытуемого; - среднее значение индивидуальных баллов N испытуемых группы (i=1,2,…,N); -стандартное отклонение по множеству первичных баллов.
Z-шкала является стандартной с нулевым средним значением и единичным стандартным отклонением. С ее помощью можно привести баллы учеников, полученные по различным тестам, к одному удобному для сравнения виду.
Величина Z-оценки равна расстоянию между рассматриваемым первичным баллом и средним значением оценок по группе, выраженному в единицах стандартного отклонения: в пределах скольких стандартных отклонений первичный балл испытуемого находится ниже или выше среднего значения группы.
Z-оценки за редким исключением принимают значения из промежутка (-3,+3). Будучи удобной для научного анализа в процессе разработки новых тестов, Z-шкала является неудобной для практического использования при оценке знаний испытуемых группы. Z-оценки могут принимать дробные и отрицательные значения, с которыми сложно работать при подсчетах и трудно интерпретировать для пользователей тестов. Округление Z-оценок до целых значений не всегда допустимо, т.к. основную цель создания тестов составляет выявление различий в подготовке испытуемых. Отрицательные значения Z-показателя, указывающие на результаты ниже среднего по группе тестируемых учеников, также вызывают определенные неудобства - они вызовут явное неприятие у получивших их учеников. В целом все это делает Z-показатель неудобным для сообщения результатов испытуемым и вынуждает применять специальные методы преобразования для выставления оценок ученикам.
Преобразования Z-оценок
Преобразования Z-оценок имеют целью перевод их в значения, которые легче записывать и объяснять. При этом, используемое преобразование должно быть линейным, чтобы сохранить форму распределения Z-оценок. Общая формула такого преобразования имеет вид
где Z1 – преобразованная оценка, М – новое среднее значение (среднее значение оценок после преобразования), - новое стандартное отклонение. Различные преобразования отличаются значениями М и. Приведем несколько наиболее известных преобразований Z-оценок.
T-шкала (McCall, 1939, для сообщения о результатах выполнения детьми теста ментальных способностей). Выбирается среднее значение М = 50 и стандартное отклонение σ = 10. Получим: Z1=50 + 10·Z
Шкала СЕЕВ (ETS, для сообщения абитуриентам о результатах приемных экзаменов в колледжи). Выбирается среднее значение М = 500 и стандартное отклонение σ = 100. Получим: Z1=500 + 100·Z
Шкала IQ (Weshler, 1939, для интерпретации оценок по шкале интеллекта для взрослых). Выбирается среднее значение М = 100 и стандартное отклонение σ = 15. Получим: Z1=100 + 15·Z
Шкалы станайнов и стенов
Иногда при сообщении результатов используют шкалы, состоящие из отдельных целых чисел, например, от 1 до 9 или от 1 до 10. Это удобно для сообщения тестовых результатов, т.к. такие шкалы обладают очевидной простотой.
Разбиение нормального распределения на 9 интервалов приводит к шкале станайнов, имеющей 9 стандартных единиц. В этой шкале среднее значение равно 5, а стандартное отклонение – примерно 2. При оценке результатов испытуемых по любому тесту с любым числом заданий 4% самых худших результатов присваивается станайн 1, а самых лучших - станайн 9. Следующим за худшими и лучшими 7% результатов присваивают станайны 2 и 8 соответственно. Следующим за ними 12% результатов - станайны 3 и 7. Следующим 17% присваивают станайны 4 и 6 и, наконец, 20% средних результатов соответствует станайн 5.
В шкале стенов, называемой часто шкалой Кэттела, весь массив результатов делится на 10 частей с интервалом 0,5 стандартного отклонения. В шкале стенов среднее арифметическое принимается равным 5,5, а расстояние между двумя соседними стандартными единицами равно 0,5 .
Иногда из шкалы станайнов получают одиннадцатибалльную шкалу путем выявления по одному проценту самых сильных и самых слабых испытуемых и присвоения им соответственно максимального и минимального балла.