В педагогических исследованиях используются также и другие шкалы балльных оценок. Например, выделив какие-либо уровни сформированности у учащихся определенных качеств личности или овладения той или иной деятельностью, диссертант приписывает этим уровням соответствующие значения баллов: «1», «2», «3» и т.д., или «0», «1», «2»…, что принципиально безразлично. Но использование балльной шкалы оценок как критерия оценки для педагогических исследований нежелательно, хотя и не исключено. И дело здесь не только в известной необъективности отметок, о чем уже говорилось, но и в свойствах самой шкалы порядка. В той шкале ничего нельзя сказать о равномерности или неравномерности интервалов между соседними значениями оценок. Мы не вправе, к примеру, сказать о том, что знания учащегося, оцененные на «5»,настолько же отличаются от знаний, оцененных на «4», как знания, оцененные на «4», отличаются от знаний, оцененных на «3». С тем же успехом можно было бы приписывать баллам значения не «1», «2», «3», «4», «5», а, допустим «1», «10», «100», «1000», «10000». И поэтому совершенно неправильно использование так широко применяемой в диссертациях величины среднего балла (по классу, группе учащихся и т.д.), поскольку усреднение предполагает сложение значений величины, а операция суммы на таком множестве (шкале) не может быть корректно (грамотно) определена. Соответственно не могут быть определены и все остальные арифметические и алгебраические действия.
Поэтому, например, утверждение о том, что знания учащихся в экспериментальных классах в среднем на 0,5 балла выше, чем в контрольных, будет неправомочным, некорректным. Тем более некорректно утверждение, встреченное автором в одной из диссертаций, что эффективность экспериментальной методики в 2,6 раза выше контрольной (была произведена оценка по 10-балльной шкале).
Чтобы продемонстрировать, что может получиться с использованием «среднего» балла, приведем такой гипотетический пример. Пусть исследовалась сравнительная эффективность двух каких-либо методов обучения, А и В. В обеих группах учащихся – контрольной и экспериментальной – было по 80 человек. Оценки производились по двум шкалам – пятибалльной и десятибалльной (ведь количество баллов в шкале устанавливается произвольно). При этом будем предполагать, что оценки по десятибалльной шкале могут быть пересчитаны в оценки по шкале пятибалльной: оценки «10» и «9» будут отнесены к «5», «8» и «7» – к «4» и так далее. Пусть оценки по десятибалльной шкале распределились следующим образом (в числителе будет указано количество учащихся, получивших соответствующую оценку в группе, обучавшейся методом А, в знаменателе – методом В): «10»20/0; «9»0/30; «8»30/0; «7»0/30; «6»20/0; «5»0/30; «4»10/0; оценки «3», «2», «1» не получил никто. Соответственно «средний балл» составит 7,50 (метод А) и 7,25 (метод В). Казалось бы, можно сделать вывод, что метод А лучше метода В. Соответственно оценки по пятибалльной шкале, в том же порядке: «5»20/30; «4»30/30; «3»20/20; «2»10/0; «1»0/0.
«Средний балл» в этом случае составит 3,750 в группе, обучавшейся методом А, и 4,125 в группе, обучавшейся методом В. Таким образом мы получили как бы противоположный «результат» – метод В лучше метода А.
Заметим, что этот «парадокс» никак не связан со статистической достоверностью различий – он будет иметь место и при очень больших выборках данных (числе учащихся). Просто это свойство слабой шкалы измерений. Сказанное будет относиться и к любым другим критериям оценки, использующим шкалу порядка.
В принципе, шкалу балльных оценок так же, как и другие шкалы порядка, можно использовать в педагогических исследованиях, если Вы убеждены в объективности выставляемых оценок. Но в этом случае необходимо использовать специальные непараметрические критерии различий, например критерий знаков. (О статистических критериях достоверности различий мы поговорим немного ниже.) Но эти критерии слабые и для установления достоверных различий необходимо получение значительно больших массивов данных.
По этим соображениям целесообразно использовать такие способы оценки, которые позволяют применить шкалу отношений или шкалу интервалов, а не шкалу порядка. Например, использовать тесты – серии коротко и точно сформулированных вопросов, заданий, на которые учащийся должен дать краткие и однозначные ответы, в правильности (или неправильности) которых нельзя сомневаться. Точно так же могут быть построены письменные контрольные работы, результаты обработки анкет (процент учащихся, давших положительные ответы на тот или иной вопрос) и т.д.
Необходимо сделать еще одно предупреждение об использовании дихотомической шкалы (т.е. шкалы, имеющей всего 2 значения: да-нет, 0 и т.д.), а также любых дискретных шкал с ограниченным числом градаций (трихотомических и т.д.). Их можно успешно использовать для установления различий в результатах каких-либо педагогических воздействий в диагностических, констатирующих, «срезовых» целях. Но если Вы исследуете динамику развития какого-то педагогического процесса, например, процесса становления у учащихся того или иного навыка, то такие шкалы в этом случае принципиально не годятся, так как они существенно искажают динамику процесса. К примеру, на так называемых кривых обучения – графиках, показывающих изменение того или иного параметра в зависимости от времени обучения, появляются своеобразные ступени, «этапы», которых нет в действительности, при использовании шкалы отношений, выраженной в мерах физических величин (время и т.п.) [12]. По крайней мере, для изучения динамики развития каких-то педагогических процессов во времени необходимо использовать дискретные шкалы измерения с достаточно большим числом градаций.
О применении статистических методов обработки результатов исследования. В большинстве педагогических исследований, как правило, применение методов математической статистики бывает вызвано необходимостью установления достоверности различий между результатами обучения, каких-то воспитательных воздействий в контрольных и экспериментальных группах, классах и т.п. Причем нередко аспиранты, соискатели заимствуют друг у друга используемые статистические критерии достоверности различий, не ориентируясь, какой критерий можно и нужно использовать в том или ином случае В оправдание этому следует сказать, что в большинстве пособий по математической статистике соответствующие разделы написаны настолько нечетко и сложно, что разобраться в них непрофессиональному статистику довольно-таки трудно. Поэтому мы здесь приведем следующий «рецепт» с учетом данной выше информации о шкалах измерений:
1. Если использована шкала отношений или интервалов, если применяются точно и объективно измеряемые оценки, то для проверки статистической достоверности дифференциации (разности) двух средних показателей (среднее значение по одной и по другой группе) применяются t-критерий Стьюдента или F-критерий Фишера. При этом необходимо убедиться в том, что распределение близко к нормальному (распределению Гаусса). В этом можно убедиться, сопоставив значения среднего, моды и медианы. Если среднее, мода и медиана приблизительно совпадают, то распределение можно считать нормальным и можно применять t или F критерии.
2. Если при использовании шкалы отношений данные выборок распределены не по нормальному, а какому-либо иному закону распределения, или в тех случаях, когда нет уверенности в распределении данных по нормальному закону, применяется менее чувствительный Χметод χ2 хи-квадрат метод).
3. Если была использована шкала порядка, то, строго говоря, могут быть использованы только непараметрические критерии: критерий знаков, критерий Уилкоксона-Мана-Уитни, Колмогорова-Смирнова и другие. Но по сравнению с F, t критериями, методом χ2 эти критерии очень малочувствительны, для установления достоверности различий по ним необходимы большие объемы выборок.
Соответствующие формулы и таблицы для оценки достоверности различий достаточно просты. Они приводятся во всех пособиях по математической статистике. Там же, также достаточно просто сформулированы правила, формулы вычисления среднего, моды и медианы распределения, дисперсии, о нем говорилось выше. Более того, сейчас широко распространены компьютерные программы – «статистика» и др., которые выполняют эти вычисления автоматически – в них надо лишь подбавить имеющиеся экспериментальные данные. Обычно в педагогических исследованиях принимается достаточным 95% уровень достоверности различий.