Белова О.В. Общая психодиагностика

Стандартизация (А. Анастази) - это "единообразие процедуры проведения и оценки выполнения теста". Таким образом, стандартизация рассматривается в двух планах: как выработка единых требований к процедуре эксперимента и как определение единого критерия оценки результатов диагностических испытаний. Стандартизация процедуры эксперимента подразумевает унификацию инструкций, бланков обследования, способов регистрации результатов, условий проведения обследования.

Этапы стандартизации

На этапе разработки теста, а также любого другого метода проводится процедура стандартизации, которая включает три этапа.

Первый этап стандартизации психологического теста состоит в создании единообразной процедуры тестирования. Она включает определение следующих моментов диагностической ситуации:

  • 1) условия тестирования (помещение, освещение и др. внешние факторы). Очевидно, что объем кратковременной памяти лучше измерять (например, с помощью субтеста повторения цифровых рядов в тесте Векслера), когда нет внешних раздражителей, таких как посторонние звуки, голоса и т.д.
  • 2) Содержание инструкции и особенности ее предъявления (тон голоса, паузы, скорость речи и т.д.). Например, в тесте "10 слов" каждое слово должно предъявляться через определенный интервал времени в секундах.
  • 3) Наличие стандартного стимульного материала. Например, достоверность полученных результатов существенно зависит от того, предлагаются ли респонденту изготовленные самодельные карты Г. Роршаха или стандартные - с определенной цветовой гаммой и цветовыми оттенками.
  • 4) Временные ограничения выполнения данного теста. Например, для выполнения теста Равена взрослому респонденту дается 20 минут.
  • 5) Стандартный бланк для выполнения данного теста. Использование стандартного бланка облегчает процедуру обработки.
  • 6) Учет влияния ситуационных переменных на процесс и результат тестирования. Под переменными подразумевается состояние испытуемого (усталость, перенапряжение и т.д.), нестандартные условия тестирования (плохое освещение, отсутствие вентиляции и др.), прерывание тестирования.
  • 7) Учет влияния поведения диагноста на процесс и результат тестирования. Например, одобрительно-поощряющее поведение экспериментатора во время тестирования может восприниматься респондентом как подсказка "правильного ответа" и др.
  • 8) Учет влияния опыта респондента в тестировании. Естественно, что респондент, который уже не в первый раз проходит процедуру тестирования, преодолел чувство неизвестности и выработал определенное отношение к тестовой ситуации. Например, если респондент уже выполнял тест Равена, то, скорее всего, не стоит предлагать ему его во второй раз.

Второй этап стандартизации психологического теста состоит в создании единообразной оценки выполнения теста: стандартной интер-претации полученных результатов и предварительной стандартной обработки. Этот этап предполагает также сравнение полученных показателей с нормой выполнения этого теста для данного возраста (например, в тестах интеллекта), пола и т.д. (см. ниже).

Третий этап стандартизации психологического теста состоит в определении норм выполнения теста.

Нормы разрабатываются для различных возрастов, профессий, полов и др. Вот некоторые из существующих видов норм:

Школьные нормы разрабатываются на основе тестов школьных достижений или тестов школьных способностей. Они устанавливаются для каждой школьной ступени и действуют на всей территории страны.

Профессиональные нормы устанавливаются на основе тестов для разных профессиональных групп (например, механиков разного про-филя, машинисток и др.).

Локальные нормы устанавливаются и применяются для узких кате-го-рий людей, отличающихся наличием общего признака возраста, пола, географического района, социо-экономического статуса и др. Например, для теста Векслера на интеллект нормы ограничены возрастными рамками.

Национальные нормы разрабатываются для представителей данной народности, нации, страны в целом. Необходимость таких норм определяется конкретной культурой, моральными требованиями и традициями каждой нации.

Наличие нормативных данных (норм) в стандартизованных методах психодиагностики является их существенной характеристикой.

Существуют требования к проведению эксперимента:

  • 1. Инструкции следует сообщать испытуемым одинаковым образом, как правило, письменно; в случае устных указаний они даются в разных группах одними и теми же словами, понятными для всех, в одинаковой манере;
  • 2. Ни одному испытуемому не следует давать никаких преимуществ перед другими;
  • 3. В процессе эксперимента не следует давать отдельным испытуемым дополнительные пояснения;
  • 4. Эксперимент с разными группами следует проводить в одинаковое по возможности время дня, в сходных условиях;
  • 5. Временные ограничения в выполнении заданий для всех испытуемых должны быть одинаковыми и так далее.

Всякая норма обычно со временем изменяется вместе с естественными изменениями, которые с годами происходят в психологии людей, поэтому есть правило, согласно которому нормы теста, особенно интеллектуального, должны пересматриваться, как минимум один раз в пять лет.

Для выполнения статистической нормы применяются приемы математической статистики х (х - среднее арифметическое, - станд. отклонения). Х 5

Процентиль - это процентная доля индивидов из выборки стандартизации.

Под руководством Гуревича разрабатываются тесты, в которых в качестве точки отсчета выступает независимый от результатов испытания, объективно заданный социально-психологический норматив. Он реализуется в совокупности заданий составляющих тест. Сам тест в полном его объеме и является таким нормативом.

При разработке и применении любой точки отсчета следует обратить внимание на выборку испытуемых. В математической статистике различают генеральную совокупность (популяция) и выборку. Всякая большая совокупность людей относительно которой мы собираемся делать выводы называется генеральной совокупностью.

Выборка - это часть, или подмножество, совокупности. Проводить исследования для популяции не принято. Обычно из нее выделяется группа людей - выборка стандартизации, которая реально подвергается тестированию, и с ее помощью оценивается генеральная совокупность. Чтобы оценки носили достоверный характер выборка должна быть репрезентативна, представительна для рассматриваемой популяции, то есть ее вероятные свойства должны совпадать или быть близкими к свойствам генеральной совокупности.

Один из способов обеспечения репрезентативности выборки является ограничение популяции (пол, возраст, профессия, здоровье, социально-эконом. статус и др.). Такая популяция определяется как специфическая.

  • 1. Отбор испытуемых в выборку стандартизации
  • 2. Определение популяции с выделением в ее структуре переменных значимых, малозначимых (возраст, пол)
  • 3. Популяция делится на части в зависимости от значимых переменных.
  • 4. Испытуемые отбираются в случайном порядке и пропорционально численности каждой значимой части совокупности. Минимальный порог выборки - 200 человек.

Статистическая норма - критерий, по которому проводят сравнение результатов диагностических методик.

Возрастная норма - как показатель, который появляется в тестах Бене-Симона (норма - сделать все задания).

Внешний критерий - критерий выполнения.

Процентиль - это процентная доля индивидов из выборки стандартизации, первичный результат которому ниже данного первичного показателя. Процентили указывают на относительное положение индивида в выборке стандартизации. Чем ниже процентиль, тем хуже позиция индивида. Процентили нельзя смешивать с обычными процентными показателями, которые являются первичными показателями и представляют собой процент правильно выполненных заданий, тогда как процентиль - это производный показатель, указывающий на долю от общего числа членов группы.

стандартизация надёжность валидность тесты

Читайте также:
  1. I. Вспомните основные модальные глаголы и их эквиваленты. Чем они отличаются? Как спрягаются? (Заполните табличку).
  2. I. При каких условиях эта психологическая информация может стать психодиагностической?
  3. II. Основные принципы и правила служебного поведения государственных гражданских служащих Федеральной налоговой службы
  4. II. Основные цели и задачи Программы, срок и этапы ее реализации, целевые индикаторы и показатели
  5. II. Основные этапы развития физики Становление физики (до 17 в.).
  6. III.2.1) Понятие преступления, его основные характеристики.

Создание психодиагностической методики – сложный, многошаговый процесс. Не претендуя в рамках данной статьи на полноту изложения этого вопроса, выделю основные этапы с кратким описанием их содержания. Сразу нужно заметить, что объектом внимания будет диагностическая методика (тест-опросник), так как для другого класса методик – исследовательских, проективных, клинических – существуют другие требования по созданию и апробации.

Создание психодиагностической методики не сводится только к проверке отдельных психометрических свойств – репрезентативности, надежности, валидности, достоверности и т.д. Первичная работа в этом направлении начинается с глубокой теоретической проработки оснований предмета, с выяснения методологических, концептуальных подходов к его исследованию. Прежде чем разрабатывать процедуру измерения, необходимо создать концепцию измеряемого психического свойства , построить его модель. Именно глубокая теоретическая подготовка является условием успешной работы по созданию методики, отвечающей всем критериям качества. Можно сказать, что прежде чем перейти к технологии разработки методики необходимо провести фундаментальное теоретическое исследование.

Если следовать логике исследования, то начинать его необходимо с определения проблемы . Это и будет первым этапом по созданию методики. Проблема – это задача, не имеющая решения, либо предполагающая неоднозначные решения. Проблемы могут порождаться как объективными условиями, реальной ситуацией, так и быть результатом собственной активности исследователя. Проблемы диагностики являются, как правило, прикладными и ориентированы на практическое решение возникших в реальной социальной ситуации задач. Исследователю необходимо помнить, что не все проблемы подлежат решению. Кроме реальных проблем, являющихся объектом непосредственного приложения усилий исследователя, существует категория проблем, неразрешимых средствами современной науки, а также «псевдопроблемы». Как уже было отмечено, проблемы диагностики – это реальные задачи, требующие своего прикладного решения. Скажем, в качестве примера можно привести проблему школьной тревожности. Данная проблема – пример уже операционализированной проблемы, переведенной, оформленной в терминах определенной научной отрасли. Иногда исследователю еще предстоит эта задача.



Следующим этапом по созданию психодиагностической методики будет определение предмета диагностики . Предмет имплицитно присутствует в операционализированной проблеме. Предмет – это то, что станет непосредственным объектом измерения, то, что будет измерять созданная методика. Предмет традиционно определяется как зафиксированные в опыте стороны, свойства и отношения объекта, исследуемые с определенной целью в данных условиях. Предмет существует в виде понятия. В нашем случае предметом диагностики будет феномен тревожности, представленный психологическим понятием «тревожность».

На следующем этапе необходимо определить границы понятия (этап уточнения предмета). Данная процедура осуществляется через проведение дифференциального анализа рассматриваемого понятия с близкими и противоположными по значению понятиями. Одним из способов определения понятия является принятое в логике сравнение с помощью кругов Эйлера – изображений посредством кругов отношений между объемами понятий. Круг, в данной процедуре, изображает объем конкретного понятия. В нашем случае, кроме понятий тревога и тревожность, необходимо рассматривать такие понятия, как страх, беспокойство и т.д.



Следующий шаг по конструированию методики связан с уточнением феноменального поля понятия . Для этого необходимо как можно более подробно описать тот феномен, который представлен в понятии, создать по возможности полную картину данного феномена. Как правило, это производится через операциональное определение понятия. Операциональное определение – это подробное указание операций, необходимых для представления и измерения понятия. В психологии часто используются абстрактные понятия, такие как интеллект, самооценка, память, научение, креативность и т.д. Необходимо их операционализировать, то есть описать все возможные объективные способы проявления рассматриваемого понятия. В объективной диагностике, какой является тест-опросник, используются лишь те способы проявления понятия, которые можно реально фиксировать как минимум в наблюдении с помощью наших органов чувств.

На следующем этапе из выделенных объективных способов проявления понятия необходимо отобрать наиболее значимые, которые будут выполнять роль критериев для распознавания (диагностики) предмета . Критерий (средство для суждения) – признак, на основании которого производится оценка, определение или классификация чего-либо, мерило оценки. Критерии измеряемого понятия должны представлять собой существенные, надежные и объективные признаки его проявления. Именно они найдут свое отражение в вопросах либо утверждениях, которые составят содержание стимульного материала методики. Таким образом, данный этап будет связан с выбором критериев, по которым будет диагностироваться предмет.

На следующем этапе создания методики производится выбор формы методики . Форма методики определяется спецификой предмета диагностики и исследовательскими целями. Методика может быть сконструирована в форме тест-опросника (как в нашем случае), проективной методики, клинической методики и др. Каждая из представленных форм имеет свою специфику, отличительные требования по критериям качества. На этом же этапе происходит выбор стимульного материала. В нашем случае стимульный материал может быть представлен в форме вопросов либо утверждений. Утверждения, в свою очередь, могут быть личные и безличные.

После определения формы стимульного материала производится его подбор. Выбор содержания стимульного материала осуществляется из того феноменального поля понятия, которое явилось результатом предшествующей работы с учетом выделенных критериев предмета диагностики. Качество отдельных заданий (вопросов, утверждений) является определяющим для всего тест-опросника, поэтому при разработке заданий теста необходимо учитывать наиболее часто встречающиеся проблемы, которые могут привести к его низкой валидности.

При отборе отдельных заданий (вопросов, утверждений) необходимо определить индекс эффективности каждого из них. Для этого можно прибегнуть к методу экспертов. Суть данного метода заключается в том, что нескольким специалистам в данной предметной области (5–7 человек) предлагают оценить список предполагаемых заданий из стимульного материала на предмет их валидности, то есть адекватности измеряемому предмету по рейтинговой шкале (3-, 5-, 7-бальной). Те из заданий, которые получат высокие оценки у всех или большинства экспертов будут обладать экспертной валидностью и их можно рекомендовать для включения в опросник. В качестве еще одной из стратегий отбора стимульного материала можно воспользоваться пилотажным исследованием. Проведение пилотажного исследования предполагает выполнение заданий теста лицами, которые имеют сходные особенности с теми, для диагностики которых он разрабатывается. Анализ полученных данных позволит разработчику теста отобрать лучшие задания для окончательной версии опросника. На репрезентативной выборке проводится пробное тестирование. Минимальный объем выборки должен быть в два раза больше, чем количество заданий. Далее рассматривается каждое из заданий стимульного материала с точки зрения того, как на него отвечали все испытуемые. При отборе разработчики руководствуются следующим правилом: не проходят те из заданий (вопросов, утверждений), которые получают у большинства испытуемых однозначные оценки. К примеру, если все испытуемые ответили «да» на какой-то из вопросов, то его не включают в будущий опросник, так как он не отражает индивидуальные особенности испытуемого, а направлен на некое общее для всех свойство. Индекс эффективности для каждого задания должен располагаться в интервале от 0,25 до 0,75, приближаясь в среднем к 0,5 для всего опросника. Кроме индекса эффективности, необходимо также определять дискриминативность задания – проверка того, измеряют ли отдельные задания (вопросы, утверждения) те же самые свойства, что и другие. Для определения дискриминативности заданий используется коэффициент корреляции каждого задания с общим баллом всего теста. Чем выше коэффициент корреляции, тем выше дискриминативность задания, тем оно лучше. Минимальный коэффициент корреляции должен составлять 0,2. Для расчета этого показателя чаще всего применяется коэффициент произведения моментов Пирсона.

Важным моментом в разработке стимульного материала является выбор формы вопросов .

После того как задания для тест-опросника отобраны, необходимо позаботиться о его достоверности . Данное свойство методики (в случае опросников) представляется достаточно важным и является одним из критериев ее качества. Чаще всего достоверность обеспечивается благодаря включению в содержание стимульного материала корректурной шкалы (шкалы лжи).

Важным этапом в создании психодиагностической методики является разработка инструкции . Инструкция составляется в письменной форме, так как на устную инструкцию влияют паралингвистические компоненты исследователя: мимика, жесты, интонации, паузы и т.д. Кроме того, устная инструкция забывается, к письменной же испытуемый может, в случае надобности, возвращаться по ходу выполнения заданий теста. Инструкция должна быть простой и понятной испытуемому, не должна содержать в себе специальных профессиональных терминов, непонятных тестируемому, неоднозначно трактуемых слов и выражений. В ней должно быть указано, как выбирать ответ и каким образом отмечать его в опроснике. В инструкции следует выделить ту информацию, которая может способствовать эффективной работе испытуемого, например о соблюдении конфиденциальности исследования. Основные функции, которые должна выполнять инструкция: информирующая и мотивирующая.

Разработкой инструкции завершается этап создания теста. Следующий этап будет посвящен его проверке соответствию критериям качества, а также его стандартизации и адаптации.

Основными критериями качества диагностической методики считаются валидность и надежность . Названные свойства теста являются необходимым атрибутом диагностического теста. Методика, которая не прошла испытания на валидность и надежность либо которая не отвечает требованиям по этим качествам, не может применяться как диагностический инструмент, хотя при этом ее можно использовать для исследовательских целей.

Заключительным этапом в разработке психодиагностической методики является ее стандартизация и адаптация . Диагностическая методика отличается от исследовательской методики тем, что она стандартизирована. Стандартизация методики включает в себя два этапа:

1. Выработка единых требований к процедуре тестирования. Этот этап включает в себя унификацию способов регистрации результатов, условий инструкций, бланков исследования и проведения тестирования.

2. Определение единого критерия для оценки результатов. На этом этапе производится определение тестовых норм.

Применение тестовых норм в психодиагностике основывается на переводе тестовых баллов из «сырой шкалы» в стандартную шкалу. Эта процедура называется стандартизацией тестового балла . Норма теста – это средний уровень выраженности исследуемого качества, установленный на большой выборке людей.

Для тест-опросников разрабатываются статистические тестовые нормы. Для их вычисления обращаются к методам математической статистики. Нормы для каждой группы должны быть представлены в средних величинах и показателе среднего отклонения. Результатом стандартизации теста является создание конверсионной таблицы для перевода «сырых» баллов в стандартные по заданной шкале. В ней приводится полный перечень соответствия между интервалами сырой шкалы и интервалами шкалы стандартной. Норма теста должна пересматриваться раз в 5 лет. В описании теста для каждой включенной в него нормы обязательно должно быть указано: где, когда, как и на ком она была установлена.

В заключение хочется сказать, что в конструировании тестов нельзя ограничиваться математическими расчетами. Математические модели в психодиагностике не смогут заменить разработку теоретических конструктов, фундаментальных принципов исследования. Без полного психологического описания измеряемого конструкта, без формулирования гипотез о его результатах процесс создания теста становится упражнением из математической статистики.

Объективность, валидность и надежность – требования, которым должен удовлетворять каждый тест. Рассмотрению этих понятий посвящены следующие параграфы.

2. Психологический тест как объективное измерение

Объективность психологического теста означает, что первичные показатели, их оценка и интерпретация не зависят от поведения и субъективных суждений экспериментатора. Первичными называют показатели, полученные после обработки данных выполнения респондентом тестовых заданий. Выражаются первичные показатели в так называемых "сырых баллах".

Разработка заданий, процедура проведения, обработка результатов теста осуществляется согласно определенным стандартным правилам.

Добиться объективности психологического теста можно при выполнении следующих условий:

единообразие процедуры проведения теста для получения сравнимых с нормой (см. ниже) результатов;

единообразие оценки выполнения теста;

определение нормы выполнения теста для сопоставления с ними показателей, полученных в результате обработки данных тестирования (см. здесь "третий этап стандартизации").

Эти три условия называют этапами стандартизации психологического теста.

Этапы стандартизации

На этапе разработки теста, а также любого другого метода проводится процедура стандартизации, которая включает три этапа.

Первый этап стандартизации психологического теста состоит в создании единообразной процедуры тестирования. Она включает определение следующих моментов диагностической ситуации:

условия тестирования (помещение, освещение и др. внешние факторы). Очевидно, что объем кратковременной памяти лучше измерять (например, с помощью субтеста повторения цифровых рядов в тесте Векслера), когда нет внешних раздражителей, таких как посторонние звуки, голоса и т.д.

Как известно, психологический тест может быть охарактеризован как эффективный в том случае, если он удовлетворяет следующим основным условиям:

а) использование шкалы интервалов;

б) надежность;

в) валидность;

г) дискриминативность;

д) наличие норматичных данных.

Разумеется, конструирование тестов, относящихся к разумным диагностическим подходам, имеет, несмотря на необходимость соблюдения общих требований к этому процессу, определенную специфику.

Обычно выделяют три главные стратегии в конструировании личностных опросников: дедуктивная, индуктивная и экстернальная. Дедуктивная или содержательная стратегия базируется на теоретических представлениях о личности, ее структуре и функционировании. Вторая стратегия - индуктивная, предполагает использование факторного анализа или других статистических процедур, основанных на корреляционных связях. Главная особенность индуктивной стратегии заключается в том, что исследователь как бы позволяет данным говорить самим за себя. Экстернальная стратегия эмпирична по своей сути и основывается на сравнении контрастных групп. Ни одна из названных групп не может быть названа как предпочтительная.

Основные этапы конструирования теста

Прежде чем приступать к созданию теста, необходимо четко знать, для чего он нужен. Ясный ответ на этот вопрос - необходимое условие работы. Поэтому первым шагом будет формулирование цели будущего теста. После этого следует обратиться к разработке спецификации будущего теста. Наиболее удобно сделать это в виде таблицы, в котором по горизонтали будут располагаться содержательные области, которые предполагается измерять, а по вертикали - их манифестации, или пути, по которым содержательные области могут проявляться.

Ясное понимание цели будущего теста, естественно, облегчает построение перечня того, что предстоит измерять. При спецификации манифестаций важно обеспечить выделение различных форм их реализации.

В каждом задании может быть задан только один вопрос или сформулировано одно утверждение. Нельзя допускать появления заданий, в которых присутствует формулировки типа: "для этого человека и других людей", "как и другие" и тому подобное. Каждое задание (вопрос) должен быть предельно просто и ясно. Необходимо избегать двусмысленных формулировок и придерживаться, насколько это возможно, наиболее простых вариантов ответов. В то же время необходимо стремиться к тому, чтобы обследуемые не могли догадываться о том, для измерения какой черты предназначено то или иное задание. В противном случае ответы будут отражать их точку зрения на выраженность у себя этой черты, а не реальное положение дел.

Задания должны отражать конкретные, а не общие аспекты изучаемой области поведения.

Везде, где только можно, следует избегать употребления таких слов, как "часто", "редко" и тому подобное. Иначе говоря, в формулировке заданий нужно очень осторожно прибегать к словам, указывающим на частоту действий. Также следует избегать терминов, выражающих чувства. Лучше представить задание в контексте поведения.

Очень важно, чтобы любой из предлагаемых вариантов ответа воспринимался испытуемым как возможный, вероятный. Ответ, воспринимаемый обследуемым как неправильный, будет иметь малую вероятность выбора.

После разработки всех заданий к ним следует вернуться через некоторое время и попытаться еще раз оценить их формулировки, еще раз убедиться в том, что все они легко понимаются и не содержат двусмысленностей. Для этого требуется привлечь хотя бы двух-трех экспертов. В личностных опросниках, как правило, используются три типа заданий: дихотомические, трихотомические и задания с рейтинговыми шкалами. Весьма популярны задания с альтернативным выбором (дихотомические), которые просты для понимания, легки и удобны для обработки. Это задание требует наименьшего времени на ответы. К их недостатком относится то, что обследуемые часто не удовлетворены предполагаемой альтернативой, хотели бы видеть больше вариантов ответа. Задания трихотомитрические (три варианта ответа, например "да", "не знаю", "нет") также распространены в опросниках, и их преимуществом является то, что обследуемые могут более точно выразить себя, нежели в случае альтернативы.

Какие-либо правила, определяющие количество вариантов выбора ответа, отсутствуют. Обычно не рекомендуется использование более семи в опросниках, использующих рейтинговые шкалы. Важно обеспечить достаточное количество градаций ответа, с тем, чтобы обследуемые были в состоянии адекватно выразить самих себя. Следует помнить о том, что в разрабатываемом опроснике желательно использовать только один тип заданий.

Разработчикам тестов хорошо известно, что от оформления, формы представления методики, что определяется как ее очевидная (лицевая) валидность, зависит, насколько серьезно воспринимается она испытуемыми в качестве инструмента обследования. В любом опроснике должен быть представлен блок основной информации, который включает в себя его название, а также вопросы, касающиеся имени, пола, возраста, образования и некоторых других необходимых для исследователя данных. Обязательно указывается дата заполнения опросника.

Инструкция должна быть ясной, доступной для понимания. В ней должно быть указано, как выбрать ответ и каким образом отмечать его в отроснике. Здесь же содержится дополнительная информация, которую разработчик считает необходимым сообщить обследуемому.

Для компоновки текста опросника следует руководствоваться такими рекомендациями.

а) Нумеруется каждое задание.

б) Каждая строка на странице болжна быть короткой и содержать не более 10-12 слов.

в) Все задания располагаются по прямой вертикальной полосе сверху вниз в левом углу страницы.

Варианты ответов должны быть представлены так, чтобы получилась прямая вертикальная полоса сверху вниз в правом углу страницы.

г)Каждое задание нужно отделить друг от друга, лучше это сделать используя свободное пространство, а не горизонтальную линию.

д) Если используется более чем один тип заданий, одинаковые задания группируются вместе. Каждый тип задания требует разных инструкций и своих вариантов ответов.

е) Опросник печатается так, чтобы он имел эстетически привлекательный вид.

Анализ заданий по результатам, полученным в пилотажном исследовании, имеет своей целью отбор наилучших заданий для окончательной версии опросника и включает в себя определенные доли ответивших правильно и дискриминантности каждого анализа. Первый шаг состоит в том, чтобы составить таблицу анализа заданий, в котором каждая колонка представляет задание, а каждая строка - обследуемого. Когда речь идет о разработке личностных опросников, в таблицу вписывается соответствующий балл по каждому заданию, а при этом имеется в виду, что обратные задания (с противоположным содержанием) оцениваются так же, как и прямые задания, но в противоположном направлении континуума оценок. Затем суммируются баллы по каждой клетке для получения общего балла по каждому ряду (испытуемые) и общего балла по каждой колонке (задания).

Следующим шагом будет вычисление показателя, определяющего долю испытуемых, ответивших в соответствии с "ключом" опросника или индекса эффективности задания.

Также нужно удостовериться, посмотрев на результаты в таблице анализа заданий, в том, что хороший индекс эффективности, то есть лежащий где-то посередине между крайними оценками, не просто означает выбор средних оценок в оценочном континууме каждым испытуемым, а представляет собой вариацию различных оценок.

Задания только тогда следует включать в окончательную версию опросника, когда они измеряют те же самые личностные особенности, что и другие, предназначенные для этого задания. Это основной критерий.

Тест обычно считается надежным, если с его помощью получаются одни и те же показатели для каждого исследуемого при повторном тестировании.

В психометрике слова надежность имеет два значения. На одном из них - надежности по внутренней согласованности. Вполне естественно считать, что если некоторая переменная измеряется частью теста, то другие его части, не будучи согласованными с первой, измеряют нечто другое. Для того чтобы быть валидным, тест должен быть согласованным. Существует несколько способов определения надежности.

Надежность ретестовая - предполагает повторное предъявление того же самого теста тем же испытуемым и примерно в тех же условиях, что первоначальное, а затем установление корреляции между двумя рядами данных. При использовании этого метода определения надежности нужно отдавать себе отчет в том, что испытуемые могут запомнить свои ответы и воспроизвести их во второй раз, поэтому повторное тестирование должно быть отделено от первого более-менее значительным временным интервалом, обычно не менее месяца.

Надежность параллельных форм предусматривает создание эквивалентных форм опросника и предъявление их одним и тем же испытуемым для того, чтобы затем оценить корреляцию между полученными результатами. Основная проблема, препятствующая широкому распространению этого способа определения надежности, - необходимость подготовки двух наборов знаний, что чрезвычайно сложно, поскольку требуются убедительные доказательства их эквивалентности.

Надежность частей тела определяется путем деления опросника на две части (обычно на четные и нечетные задания), после чего и рассчитывается корреляция между этими частями. Обычно к этому способу определения надежности рекомендуется прибегать только в тех случаях, когда необходимо быстро получить результаты.

Во многих случаях перед разработчиком теста встает задача "сжатия" информации или, иначе говоря, компактного описания изучаемых явлений при наличии множества наблюдений или переменных. Факторный анализ как раз является методом снижения размерности изучаемого многомерного явления.

Как хорошо известно, одной из типичных форм представления экспериментальных данных является матрица, столбцы которой соответствуют результатам (значениям), полученным в результате их применения. Визуальный анализ сколь-нибудь значительной по величине матрицы невозможен, а поэтому требуется исходную информацию сжать, извлечь из нее наиболее важное, существенное. Прежде всего исследователю необходимо получить корреляционную матрицу (подсчет коэффициентов корреляции).

В психологическом тестировании цель факторного анализа заключается в том, чтобы найти несколько фундаментальных факторов, которые объяснили бы большую часть дисперсии в группе оценок по различным тестам или другим психометрическим измерениям. Существует несколько процедур факторного анализа, но не все они предполагают две стадии: 1) факторизацию матрицы корреляций, с тем, чтобы получилась первоначальная факторная матрица; 2) вращение факторной матрицы, с тем, чтобы обнаружить наиболее простую конфигурацию факторных нагрузок.

Стадия факторизации в этом процессе призвана определить количество факторов, необходимых для объяснения связей между различными тестами, и обеспечивает получение первичных оценок нагрузки (веса) каждого теста по каждому фактору. Вращение факторов необходимо для того, чтобы сделать их более понятными (интерпретируемыми) с помощью создания конфигурации факторов, в которой совсем немного тестов имеют высокие нагрузки, тогда как большая часть тестов имеют низкие нагрузки по любому фактору.

Факторно-аналитический подход позволяет также оценить надежность теста. Как известно, полная дисперсия теста равна сумме дисперсий для общих факторов, плюс дисперсии специфических факторов, плюс дисперсия погрешности. Следовательно, мы осуществим факторный анализ теста, возведем в квадрат и суммируем нагрузки его факторов, то мы получим его надежность, поскольку нагрузки факторов представляют корреляцию теста с общими или специфическими факторами. Однако следует помнить, что такой способ установления надежности более всего подходит для уже факторизованного теста, нежели для тестов, которые могут измерять широкий набор разных факторов, часть которых могут не входить в батарею изучаемых исследователем.

Одним из важных отличий психометрических тестов является то, что они стандартизированы, а это позволяет сравнить показатели, полученные одним испытуемым, с таковыми в генеральной совокупности или соответствующих группах. Тем самым достигается адекватная интерпретация показателя определенного испытуемого. Таким образом, стандартизация теста наиболее важна в тех случаях, когда осуществляется сравнение показателей обследуемых. При этом вводится понятие нормы, или нормативных показателей. Для получения стандартных норм нужно тщательно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. При формировании выборки стандартизации следует учитывать ее объем и репрезентативность. В руководствах по тестам чаще всего указывают то, что для простого уменьшения стандартизированной погрешности достаточно будет выборка из 500 испытуемых. Однако репрезентативность выборки зависит не от ее объема.

Сегодня на практике все больше используется такой тип производной оценки, как стандартные показатели, удовлетворяющий большинству требований, предъявляемых к психологическому измерению. Такие показатели выражают отличие индивидуального результата испытуемого от среднего в единицах стандартного отклонения соответствующего распределения. Стандартные показатели получают двумя путями: линейным и нелинейным преобразованием первичных ("сырых") оценок.

Созданием стандартизированного теста и его публикацией обычно завершается работа психолога, однако следует помнить о том, что с течением времени необходим пересмотр (ревизия) теста.

Страница 21 из 25

Основные этапы конструирования педагогического теста

Проблемы конструирования опросников.

При разработке заданий для опросников необходимо учитывать следующие проблемы, которые, если их не обойти, неизбежно приведут к низкой валидности тестов.

1. Установка на согласие. Это тенденция испытуемого соглашаться с утверждениями или отвечать на вопросы "да" независимо от их содержания. Чаще всего проявляется, когда утверждения (вопросы) неоднозначны и неопределенны.

2. Установка на социально одобряемые ответы. Это тенденция испытуемых отвечать на вопросы теста так, чтобы выглядеть "социально положительным": если возможен "социально желательный" ответ, то весьма вероятно, что испытуемые будут его давать.

3. Установка на неопределенные или средние ответы. Если в опроснике представлена средняя категория ответов, отражающая нерешительность или неуверенность в ответе (например
"не уверен", "не знаю" или "затрудняюсь ответить"), то многие испытуемые склонны к ней прибегать, как к безопасному компромиссу. Это приводит к снижению валидности, поскольку большинство методов анализа вопросов основывается на крайних значениях показателей.

4. Установка на "крайние" (расположенные по краям шкалы) ответы. Эта установка может проявляться при использовании многоэлементной рейтинговой шкалы. Некоторые испытуемые, независимо от содержания вопросов, предпочитают выбирать крайние ответы.

5. Очевидная валидность вопросов. Несомненно, в тестах личности необходима уверенность в том, что ответы на вопросы могут рассматриваться как правдивые.

6. Проблемы в установлении адекватного критерия валидности. Существует значительная трудность в нахождении адекватного критерия.

Таковы основные сложности, возникающие при конструировании опросников, и следует отчетливо их себе представлять, прежде чем вы приступите к формулированию вопросов или утверждений. Две последние проблемы, хотя они и являются определяющими, выходят на первый план уже после того, как подобраны задания теста.

Процесс создания теста, его научного обоснования, переработки и улучшения можно разбить на ряд этапов.

1. Определение цели тестирования, выбор вида теста и подхода к его созданию.

2. Анализ содержания изучаемого явления (качества).

3. Определение структуры теста и стратегии расположения заданий.

4. Разработка спецификации теста, выбор длины теста и времени его выполнения.

5. Создание предтестовых заданий.

6. Отбор заданий в тест и их ранжирование согласно выбранной стратегии предъявления на основании априорных авторских оценок трудности заданий.

7. Экспертиза содержания предтестовых заданий и теста.

8. Экспертиза формы предтестовых заданий.

9. Переработка содержания и формы заданий по результатам экспертизы.

10. Разработка методики апробационного тестирования.

11. Разработка инструкций для проводящих апробацию теста.

12. Проведение апробационного тестирования.

13. Сбор эмпирических результатов

14. Статистическая обработка результатов выполнения теста.

15. Интерпретация результатов обработки в целях улучшения качества теста. Проверка соответствия характеристик теста научно обоснованным критериям качества.

16. Коррекция содержания и формы заданий на основании данных предыдущего этапа. Чистка теста и добавление новых заданий для оптимизации диапазона значений параметра трудности и улучшения системообразующих свойств заданий теста. Оптимизация длины теста и времени его выполнения. Оптимизация порядка расположения заданий в тесте.

17. Повторение этапа апробации для повышения качества теста.

18. Интерпретация данных обработки, установление норм теста и создание шкалы для оценки результатов испытуемых.

Возникает своеобразный цикл, так как после чистки теста разработчику приходится возвращаться к этапу сбора эмпирических данных, причем, как правило, не один раз, а два, три и более. В определенном смысле этот цикл бесконечен, но не потому, что все задания плохи и разработчик не имеет достаточного опыта создания теста. Процесс конструирования теста довольно труден, поскольку необходим всесторонний подход к оценкам качества теста и характеристик тестовых заданий, к проверке их системообразующих свойств.

К тому же можно считать, что задача оптимального подбора состава теста не имеет единственного решения, так как не все здесь определяется качеством тестового материала, а многое еще зависит от уровня подготовки группы учеников. Задания, работающие на одной выборке учеников, могут оказаться бесполезными на другой, так как они будут или слишком легкими, или слишком трудными и их не выполнит правильно ни один ученик группы.

Успех создания теста во многом зависит от высокого качества начального тестового материала, которое обеспечивается правильным отбором проверяемого содержания и умением разработчика корректно отобразить его в заданиях теста. Крайне важен этап обработки эмпирических результатов тестирования, для выполнения которого необходимы специальные программные средства для профессиональной разработки тестов.

Конечно, далеко не всегда в процессе создания тестов необходимо достижение профессионального уровня качества, особенно если отвлечься от общих целей. В повседневной деятельности педагога необходимы тесты разного, иногда невысокого качества, ориентированные на задачи текущего контроля. Выполнение последней задачи вполне по силам отдельному педагогу или группе педагогов. Однако и в этом случае можно самостоятельно сделать ряд расчетов, основанных на минимальном математическом аппарате и позволяющих значительно продвинуться от предтестовых заданий к настоящему тесту.

На этапе сбора данных необходимо принять специальные меры, обеспечивающие единообразие процедуры выполнения теста. Стандартизация этой процедуры затрагивает вопросы формирования репрезентативной выборки испытуемых, правильного инструктирования, выбора оптимального времени тестирования, качественных материалов, подходящей окружающей обстановки. Определенное внимание следует уделить подготовке преподавателей, проводящих тестирование, принять меры по предотвращению списывания в процессе выполнения теста. Малейшее отступление от требований стандартизации повлечет за собой снижение достоверности эмпирических результатов выполнения теста. Помимо перечисленных, на результаты выполнения теста может повлиять множество других, менее очевидных факторов. В целом же для обеспечения сбора достоверных эмпирических данных необходимо:

Точно следовать процедурам стандартизации при сборе эмпирических данных;

Регистрировать любые нестандартные условия, приводящие к отступлениям от требований стандартизации;

Учитывать нестандартные условия тестирования при интерпретации теста.

Большое значение имеет разработка правильных инструкций по выполнению теста, которые следует подготовить как для педагога, руководящего процессом применения теста, так и для учеников, выполняющих тест.

В инструкции для педагога содержатся рекомендации по подготовке группы учащихся к выполнению теста, примерные обязанности педагога на этапе проведения тестирования, рекомендации по подготовке краткого отчета о выполненной процедуре предъявления теста.
В целом перед тестированием педагогу необходимо следующее.

1. Объяснить, зачем нужен тест, сообщить, какие результаты ожидаются.

2. Объяснить, почему испытуемые должны приложить максимум усилий для его выполнения, акцентировать внимание испытуемых на возможности проверки своих сил и подчеркнуть соревновательный мотив. При этом следует иметь в виду, что слишком сильная мотивация, как и слабая, в одинаковой степени негативно сказываются на результативности теста.

3. Медленно, четко прочесть инструкцию к тесту с примерами, если они имеются. Возможна ситуация, когда испытуемые самостоятельно следят по своим вариантам теста за инструкцией, а педагог зачитывает ее или воспроизводит по памяти.

4. Дать возможность испытуемым потренироваться, решив самостоятельно одну или более задач-образцов, если такие имеются. Проверить, правильно ли понята инструкция по результатам выполнения образцов заданий теста.

5. Сообщить о временном ресурсе, о правилах исправления допущенных ошибок, рассказать о том, чего не рекомендуется делать при выполнении задач и к кому обращаться в случае возникновения вопросов.

6. Вместе с испытуемыми записать, если требуется, паспортные и биографические данные в регистрационных бланках, проследить за правильностью их заполнения.

7. Ответить на имеющиеся вопросы до начала выполнения теста.

8. Раздать тест.

9. Дать команду начать выполнение заданий. Время начала записать самому или попросить сделать это испытуемых на регистрационном бланке.

10. Во время выполнения заданий следить:

За временем выполнения отдельных субтестов, если это необходимо, как, например, при выполнении скоростных тестов;

За наличием отточенных карандашей и других материалов;

За правильностью заполнения паспортной части регистрационных бланков (если замечена ошибка, своевременно ее устранить);

За тем, чтобы испытуемые не писали на тестовых брошюрах, если не предусмотрено;

За тем, чтобы соседи не общались, не мешали друг другу, не подглядывали;

За состоянием испытуемых;

За тем, чтобы испытуемые своевременно получили разрешенные инструкцией ответы на вопросы в ситуациях, связанных с процедурой проведения.

11. После сигнала к окончанию выполнения заданий теста при групповом проведении дать команду сложить брошюры и бланки для ответов в исходное положение или самому собрать (если участвуют не более 30 человек). Если участников тестирования больше 30 человек, то рекомендуется попросить всех остаться на своих местах и передать в начало ряда тестовые материалы в следующем порядке: бланки для ответов, брошюры, черновики. После этого пересчитать количество бланков и брошюр.

12. По окончании тестирования просмотреть все брошюры и стереть отметки в них.



Оглавление
Педагогическая диагностика в воспитательном процессе.
ДИДАКТИЧЕСКИЙ ПЛАН
Понятие педагогической диагностики
Исторические аспекты формирования диагностики как специфического вида познания
Личность как предмет педагогической диагностики

Вверх