Параметризуемые Web-тесты, как средство обучения
Сергей Сосновский, Елена Щербинина, Петр Брусиловский
Школа Информатики
Университет Питтсбурга
Параметризуемые Web-тесты являются одним из наиболее перспективных видов оценивания знаний с помощью Web. В режиме тестирования относительно небольшой набор параметризованных вопросов может быть использован для организации надежной оценки знаний (с защитой от списывания) больших групп студентов. В режиме самооценки один и тот же вопрос с иными значениями параметра может быть повторно использован студентом для повышения уровня знаний. Данная статья описывает результаты объективного и субъективного оценивания параметризуемых web-тестов, как средства обучения программированию. Результаты эксперимента позволяют говорить о том, что параметризуемые тесты, организованные на основе нашей системы QuizPACK представляют собой эффективное средство обучения. Кроме того, показано, что данное средство было особенно полезно для женской части класса, традиционно испытывающей наибольшие затруднения при изучении программирования.
Вступление
Web-тесты являются основным средством оценки и самооценки знаний студентов для онлайнового обучения. Все ведущие платформы Web-обучения поддерживают создание и доставку онлайновых тестов, созданных на основе статических вопросов. Развитие данной составляющей электронного обучения протекает в нескольких направлениях. Одним из наиболее перспективных является создание индивидуализируемых или параметризуемых тестов.
Параметризуемый вопрос по существу представляет собой шаблон вопроса, создаваемый автором. В момент выдачи, шаблон дополняется параметром, значение которого генерируется в заранее установленных границах. Каждый шаблон способен произвести значительное количество вопросов. Таким образом, в режиме тестирования на основании достаточно малого количества шаблонов вопросов может быть организована оценка знаний большой группы студентов. Более того, один и тот же шаблон может быть использован в различных версиях одного курса, в разных семестрах и даже в разных курсах. В режиме самооценки вопрос может быть использован снова и снова с различными значениями параметра, позволяя студентам достигать высоких уровней обученности. Параметризуемые шаблоны вопросов, обладая защитой от списывания, приобретают возможность повторного использования и не обесцениваются со временем, что позволяет организовывать на их основе библиотеки тестов, повторно-используемые в разных курсах и разных семестрах.
Индивидуализируемые вопросы были подробно исследованы специалистами в области обучающих технологий. Не так давно они вновь оказались в фокусе внимания, став одним из перспективных направлений развития технологий обучения с помощью Web. Авторы ряда систем, таких как CAPA, WebAssign, EEAP282, или Mallard, ставили задачу исследовать использование индивидуализируемых вопросов с разных сторон. Многообещающая модель была предложена в системе CAPA. Авторы CAPA не ограничивали круг задач лишь созданием нового средства для авторизации и администрирования индивидуализируемых упражнений; они также провели ряд подробных исследований этой технологии. Результаты наглядно показывают, что индивидуализируемые упражнения могут существенно снизить процент списывания, увеличить уровень понимания студентом учебного материала и повысить результаты экзамена.
Индивидуализируемые вопросы были использованы в качестве технологии оценки знаний в таких областях как физика, химия или математика, где вопрос может быть создан на основе параметризуемой формулы. Общее направление нашего исследования состоит в том, чтобы применить параметризуемые вопросы в нетрадиционной для них областях обучения программированию. Оценка знания программирования отлична от оценки знаний в областях, «основанных на формулах». Индивидуализируемое тестирование не было ранее реализовано при обучении программированию. Нами была создана система QuizPACK, способная доставлять онлайновые динамические индивидуализируемые упражнения для студентов изучающих программирование на языке С. Предыдущая версия системы QuizPACK была представлена на конференции ED-MEDIA’02.
С точки зрения пользователя интерфейс системы остался практически тем же, что и в предыдущей версии. Параметризованное упражнение выдается студенту в виде вопроса «открытого типа» (рис. 1а). Одна или более констант, присутствующие в теле вопроса, определяются значением формирующего параметра. Таким образом, они различны для разных студентов или для одного и того же студента, отвечающего на вопрос несколько раз. Студент должен заполнить поле ответа и нажать кнопку «Submit» («Отправить»). В ответ система генерирует экран оценки (рис. 1б), позволяющий студенту проанализировать вопрос и ответ. В частности, студент может решить попробовать ответить на вопрос еще раз, воспользовавшись кнопкой браузера «Назад» и перезагрузив вопрос. Мы приглашаем читателей пройти опытный тест по адресу: http://www2.sis.pitt.edu/~taler/QuizPACK.html
а)
б)
Рисунок 1. Пользовательский интерфейс системы QuizPACK.
Мы рассматриваем QuizPACK одновременно как практическое средство для обучения и как средство для проведения исследований. QuizPACK был апробирован при обучении программированию студентов нескольких групп 2001-2003 годов. Цель нашего нынешнего исследования провести систематический анализ использования параметризуемых тестов при обучению программированию. Мы хотим найти такие пути использования данной технологии в курсах, связанных с программированием, которые бы максимизировали ее сильные стороны и минимизировали известные проблемы. В прошлом нами уже было организовано несколько небольших экспериментов по использованию QuizPACK в ряде курсов. Проведенные эксперименты помогли нам разработать улучшенную версию системы и подготовить большое количество параметризуемых вопросов. В дальнейшем статья описывает наше последнее, обширное исследование, проведенное весной 2003. Следующий раздел посвящен цели исследования, а затем мы подробно описываем полученные результаты. Техническая составляющая проекта QuizPACK, а также реализация системы не затронуты в данной статье ввиду ограничений на размер текста.
Оценивание параметризуемых тестов как средства обучения
В настоящее время параметризуемые вопросы в основном используются в качестве средства оценки знаний, к чему располагает возможность организации тестирования с защитой от списывания и аккумуляции баз повторно-используемых вопросов. Однако, предыдущий опыт работы с QuizPACK показал, что студентов гораздо больше интересует использование параметризуемых вопросов для самооценки. В действительности, при правильном позиционировании параметризуемые вопросы могут стать чрезвычайно полезным средством обучения. В то время, как классические упражнения для самооценки всего лишь позволяют студентам оценить их общий уровень знаний по конкретной теме и решить, есть ли необходимость в дальнейшей работе с литературой, параметризуемые тесты позволяют студентам тренировать свои знания по данному топику и тем самым достигать более высоких уровней знания. Неправильный ответ на параметризуемый вопрос формирует сфокусированную обучающую ситуацию. Студент может более детально изучить темы, вовлеченные в вопрос, и проверить свои знания уже на новом уровне, попытавшись ответить на тот же вопрос но с другим значением формирующего параметра. Такой обучающий цикл может быть повторен несколько раз, пока не будет достигут необходимый уровень понимания. Наше исследование ставило целью ответить на вопрос, является ли практика использования параметризуемых вопросов как средства обучения привлекательной для студентов и полезной для их знаний.
Эксперимент был проведен во время весеннего семестра 2003 г. в рамках курса для студентов-бакалавров «Введение в программирование», преподаваемого в Университете Питтсбурга. QuizPACK был одним из обучающих средств, доступных студентам этого курса. Для каждой из 16 лекций части курса, отведенной под изучение С, QuizPACK предлагал 2 теста по 5 вопросов в каждом. Хотя, наш предыдущий опыт показывал, что многие студенты используют QuizPACK на регулярной основе, мы попытались обеспечить дополнительную мотивацию. С этой целью мы изменили формат еженедельных тестов, проводимых в классе. Вместо традиционных вопросов с множественным выбором мы использовали вопросы открытого типа, взятые непосредственно из базы QuizPACK. Таким образом, еженедельно студенты брали 10-минутный тест, составленный из используемых в QuizPACK 5 вопросов, которые могли им встречаться (с другими значениями формирующего параметра) во время самостоятельной работы с системой. Это обеспечивало дополнительную мотивацию, исключая при этом вероятность списывания. В результате количество студентов, активно использующих QuizPACK возросло на 1/3 по сравнению с предыдущим семестром. В следующем разделе мы описываем детали и результаты проведенного эксперимента.
Оценивание системы QuizPACK
Целью оценивания являлось определение объективной и субъективной «полезности» QuizPACK, как средства обучения. Чтобы определить «объективную полезность» мы пытались найти взаимосвязь между показателями работы студентов с системой и оценками их работы в течение курса. Две компоненты оценки за курс были использованы: суммарная оценка за краткие тесты, которые студенты сдавали в классе еженедельно, и результат на экзамене. Нужно отметить, что эти два параметра достаточно различны. Тогда как тесты проверяли знание языка С и его семантики, экзамен в основном оценивал навыки программирования – способность понимать, модифицировать и создавать программы. В дополнение к этим двум параметрам мы должны были учесть начальный опыт студентов. Начальные знания в области программирования на С и программирования вообще у студентов нашего курса (как и в любом вводном курсе) значительно разнятся – от практически отсутствующих до позволяющих писать законченные программы. Естественным было бы ожидать, что оценки студентов на тестах и экзамене будут зависеть не только от работы в течение класса (в том числе и с QuizPACK), но также и от их предыдущих знаний. Для изоляции фактора начального опыта было проведено предварительное (в начале первой лекции) и результирующее (во время экзамена) тестирование студентов. Тесты представляли собой один и тот же набор из 10 вопросов, взятых из QuizPACK, но с разными значениями формирующего параметра. На основании этого тестирования мы получили новый параметр – прирост знаний – как разницу между результатами начального и результирующего тестов.
Для оценивания субъективного мнения студентов о системе по окончании курса мы предложили студентам, которые наработали достаточную статистику взаимодействия с системой, заполнить вопросник относительно различных характеристик QuizPACK. "Достаточным" считалось взять в QuizPACK 10 или более тестов по 6 или более различным темам в течение нескольких сессий, разнесенных на 20 или более дней. Для дополнительной мотивации за участие студентам начислялось небольшое количество добавочных баллов.
Объективное оценивание
Был проведен линейный регрессионный анализ (с использованием пакета SPSS) с целью обнаружить взаимосвязь между работой студентов с QuizPACK, измеряемой независимыми переменными и прогнозируемыми переменными. Данный вид анализа традиционно применяется для изучения причинно-следственных зависимостей между переменными. Как уже было сказано, в качестве прогнозируемых переменных мы выбрали оценку на заключительном экзамене, (измеряемую в %), семестровые результаты еженедельного тестирования (измеряемые в баллах; максимум – 45) а также прирост знаний (измеряемый в баллах). Независимыми переменными стали активность, измеряющая общее количество вопросов QuizPACK, на которые студент пытался дать ответ, и успешность – процентное соотношение правильных ответов, определяемое как число вопросов, на которые был получен правильный ответ к общему числу взятых вопросов. Необходимо отметить, что ответ на каждый параметризуемый вопрос может быть дан студентом несколько раз. Каждая попытка (корректная или нет) учитывается при вычислении активности и успешности. Наиболее часто студенты работали с одним вопросом до тех пор, пока система не просигнализирует о правильном ответе, однако некоторое количество студентов демонстрировали иной паттерн пользователя, продолжая отвечать на вопрос даже после первой удачной попытки, закрепляя успешный результат.
Характеристики Модели
R
R2
Скорректированное
R2
Стандартная ошибка оценки
0.578
0.335
0.251
18.15815
Независимые переменные:
(Константа), Активность, Успешность
ANOVA
Сумма квадратов
Число степеней свободы
Среднее
F
Значимость
Регрессия
2653.030
2
1326.5
4.023
0.038
Остаток
5275.496
16
329.7
Итог
7928.526
18
Независимые переменные:
(Константа), Активность, Успешность
Нестандартизованные коэффициенты
Стандартизованные коэффициенты
t
Значимость
B
Стандартная ошибка
β
(Константа)
25.635
13.098
1.957
.068
Активность
60.573
25.329
.517
2.391
.029
Успешность
.027
.041
.140
.648
.526
Таблица 1: Влияние работы с QuizPACK на оценку за тестирование
Результаты регрессионного анализа влияния работы с QuizPACK на результаты, которые студенты показывали на еженедельных тестах, приведены в таблице 1. Как можно увидеть, существует статистически значимая связь между независимой переменной успешность и суммарной оценкой за тестирование (значимость = 0.029, т.е. ниже порогового значения 0.05). Параметр R2 равен 0.335, т.е. работа с QuizPACK объясняет около 34% оценки за тестирование. Значимость всей модели также достаточно высока (0.038 < 0.05).
Иные результаты были получены в результате регрессионного анализа влияния работы с QuizPACK на оценку на экзамене. Влияние переменной успешность менее значимо. Параметр R2 равен 0.19, т.е. только 19% оценки на экзамене может быть объяснено работой с QuizPACK. Значимость всей модели не высока (0.192 > 0.05). Значимость переменной успешность также не высока, однако мы можем заключить, что она имеет некоторое влияние на зависимую переменную (0.088 хотя и больше, но близко к пороговому значению 0.05).
В обоих случаях мы не обнаружили видимого влияния переменной активность на зависимые переменные. Это означает, что успешная работа студента с QuizPACK положительно влияет на знания семантики языка, измеряемые тестами, а также имеет некоторое влияние на общие навыки программирования, оцениваемые на экзамене. В то же время, показано, что лишь "играя" с QuizPACK, студент не добивается прогресса, для этого необходимы усилия, стремление ответить правильно.
Приведенной выше анализ не претендует на выявление роли QuizPACK полностью. Он не позволяет выделить причину успешности работы студентов с QuizPACK. Естественно, некоторые из них попросту обладали достаточно высоким уровнем начальных знаний. Эти студенты использовали QuizPACK более как средство для самопроверки, зачастую давая правильные ответы с первой попытки. В отличие от них новички должны были работать с QuizPACK более настойчиво, тратя несколько попыток на один вопрос, чтобы добиться одного или более правильных ответов. Для учета этого фактора мы проанализировали влияние QuizPACK на прирост знаний.
Результаты регрессионного анализа влияния работы c QuizPACK на прирост знаний приведены в таблице 2. Как мы можем увидеть, независимая переменная активность имеет статистически значимое (значимость = 0.023) влияние на прирост знаний. Параметр R2 (0.309) показывает, что активность работы с QuizPACK объясняет 31% прироста знаний студентов. Значимость всей модели (0.052) находится очень близко от порогового значения (0.05). В то же время переменная успешность не имеет значимого влияния на прирост знаний. Анализ студенческих профилей показал, что низкий прирост знаний был получен двумя группами студентов: студентами с высоким уровнем начальных знаний, получившими хорошие оценки как на предварительном, так и на заключительном тестировании, и студентами, не приложившими достаточно усилий в течение курса не смотря на низкий уровень начальных знаний, и получившими плохие результаты на обоих тестированиях. Обе эти группы работали с QuizPACK меньше чем студенты курса в среднем, однако имели совершенно разные значения успешности. В то же время, те новички, кто работал с QuizPACK достаточно много, в итоге заработали высокий прирост знаний. Это показывает, что QuizPACK может быть использован не только как обычное средство для самооценки, но и как средство обучения.
Характеристики Модели
R
R2
Скорректированное
R2
Стандартная ошибка оценки
0.556
0.309
0.222
1.60708
Независимые переменные:
(Константа), Активность, Успешность
ANOVA
Сумма квадратов
Число степеней свободы
Среднее
F
Значимость
Регрессия
18.466
2
9.233
3.6
0.052
Остаток
41.323
16
2.583
Итог
59.789
18
Независимые переменные:
(Константа), Активность, Успешность
Нестандартизованные коэффициенты
Стандартизованные коэффициенты
t
Значимость
B
Стандартная ошибка
β
(Константа)
5.655
1.159
4.878
< 0.001
Активность
-3.797
2.242
-.373
-1.694
0.110
Успешность
0.009
0.004
.553
2.513
0.023
Таблица 2: Влияние работы с QuizPACK на прирост знаний
На качественном уровне значение QuizPACK также может быть оценено. Из 46 студентов в нашем классе только 11 проигнорировали QuizPACK (не использовали его вовсе или использовали лишь на вопросах количеством менее 15). Показательно, что шесть из этих одиннадцати в итоге не были аттестованы по курсу, получив "1"или "2". В то же время наименьший итоговый бал среди студентов, использовавших QuizPACK в течение курса на регулярной основе, - "3"; все они закончили курс успешно. Из оставшихся пяти студентов у четверых оценки за первую половину курса гораздо выше оценок за вторую половину. Первая половина курса в основном была посвящена изучению среды для обучению программированию "Karel the Robot" и оценивала более потенциал студентов в области программирования в целом, в то время как во второй половине курса студенты изучали только С и были оцениваемы исходя из их уровня знаний языка С. Единственный студент из тех 11, кто получил хорошие оценки за обе части курса, не смотря на отсутствие работы с QuizPACK, имел очень высокий начальный уровень программирования.
Субъективное оценивание
Из 46 студентов нашего класса 31, кто получил достаточное количество опыта работы с QuizPACK (всего таких студентов было 35), по окончании курса заполнили вопросник отражающий их оценки системы. Дискриминантный анализ, проведенный для оценки качества собранных данных, показал, что данные 95.2% процентов респондентов валидны.
В связи с ограничениями на размер данной статьи ниже мы в основном проанализируем лишь 4 из 12 вопросов, на которые студенты давали ответ. На рисунке 2 изображены суммарные результаты по этим вопросам. Первый из них оценивает общее отношение студентов к системе. Большинство (87.10%) считают, что тесты для самооценки "могут существенно помочь в течение курса", 6.45% ответили, что тесты для самооценки "могут помочь в течение курса", еще 6.45% сказали, что система "иногда полезна". Ни один из студентов не оценил QuizPACK как "бесполезный в течение курса".
Отвечая на второй вопрос, студенты давали свою оценку способности системы генерировать параметризованные вопросы и тем самым давать возможность работать с одним и тем же вопросом несколько раз. Подавляющее большинство (80.65%) респондентов ответили, что данное свойство "очень полезно", 16.13%, ответили, что оно "полезно" и только 3.23% - что оно "может быть полезно, но лишь изредка". Ни один из студентов не ответил, что эта способность системы "бесполезна".
Следующий вопрос оценивал тип и содержание тестового материала. 29.03% студентов посчитали, что тестовый материал "именно такой, чтобы быть наиболее полезным", 64.52% ответили, что тип и содержание тестов "в целом хорошие и полезные", 6.45% - что они "иногда полезны, но могли бы быть гораздо лучше". Не было зафиксировано ни одного ответа "абсолютно бесполезны".
На вопрос об интерфейсе системы мы получили следующие ответы: 45.16% - "очень хороший", 38.71% - "хороший" и 16.13% - "обладает некоторыми недостатками". Вновь ни один из студентов не ответил, что интерфейс QuizPACK "имеет серьезные проблемы".
Как показывают вышеприведенные данные, студенты настроены в отношении QuizPACK очень позитивно. Более 90% ответов на первые три вопроса составляют ответы типа "очень хорошо" и "хорошо". Более того, на первые два вопроса больше 4/5 студентов давали ответы "очень хорошо". Мы оценивали несколько различных систем, используемых в этом классе. Результаты QuizPACK превосходят все остальные. Даже относительно простой интерфейс – получивший, возможно, наименее высокие оценки среди всех остальных свойств системы – был оценен 80% студентов положительно. Мы также считаем интересным тот факт, что ответы, полученные на вопрос о способности системы генерировать параметризуемые тесты, хорошо коррелируют с ответами на вопрос от общем отношении к системе. Ни один из других вопросов не собрал таких данных. Возможным объяснением этому факту может быть то, что крайне позитивное отношение студентов к системе взаимосвязано с возможностью системы генерировать параметризуемые вопросы.
Рисунок 2: Отношение студентов к различным свойствам QuizPACK
Надежность этого оценивания может быть также проверена последовательностью ответов на схожие вопросы. Так, например, студенты были опрошены согласны они или нет со следующим утверждением: "Я посоветую моему другу, если он будет в этом классе, использовать QuizPACK". Следующие данные были получены: 79.97% студентов "полностью поддерживают" данное утверждение, 12.9% "поддерживают" его, 16.13% "не имеют определенного мнения" на этот счет. Ни один из студентов не ответил, что он/она "не согласны" или "полностью не согласны" с этим утверждением. Как мы можем видеть, эти данные очень близки к данным, отражающим общее отношение студентов к системе. Этот факт может косвенно подтверждать валидность субъективного оценивания системы студентами.
Два следующих вопроса выясняли, что студенты думают по поводу использования QuizPACK, как источника для еженедельного внутриклассного тестирования. 67.74% студентов полагают, что "это очень правильная мера", 25.81% считают, что это "правильно", 6.45% ответили, "это имеет некоторый смысл, но отнюдь не идеально". Ни один из студентов не посчитал , что "это совершенно неправильная мера". Относительно использования QuizPACK как средства для подготовки к тестированию в классе, 58.06% думают, что QuizPACK "сильно помог", 32.26% сказали, что он "помог", 9.68%, что он "немного помог", ни одного ответ "не помог" не было получено.
Работа с QuizPACK поощряла студентов к более активному использованию таких средств программирования как "отладчик". Более 51% студентов ответили, что они "использовали отладчик чтобы обнаружить где они ошиблись, давая неправильный ответ", "почти всегда" или "часто", 35.48% сказали, что они использовали его "иногда" и только 12.9% ответили, что они не использовали отладчик при работе с QuizPACK.
В дополнение к общему анализу мы попытались сравнить отношение к системе для разных групп студентов. На данный момент мы завершили сравнение ответов для групп, выделенных по половому признаку, и получили довольно интересные результаты. На рисунке 3 изображены профили ответов, данные студентами и студентками. Мы подсчитали средние значения для ответов на вопросы, оценивающие основные свойства системы, и выразили их в процентах. 100% означает что все студенты в этой группе дали ответ "очень хорошо". Заметно, что график обозначающий ответы женщин проходит выше "мужского" графика для всех вопросов. Разница достаточно существенна и для некоторых вопросов составляет 10%. В частности, график показывает, что все студенты в женской группе выразили стопроцентно-положительное отношение к системе в целом и к ее способности генерировать параметризуемые вопросы. Этот факт не обусловлен тем, что студентки больше/меньше работали с системой или были более/менее успешны. Данные говорят об обратном: среднее количество вопросов, на которые пытались ответить студенты в течение семестра – 187 для женщин и 178 для мужчин. Разница между средним значением успешности – практически нулевая (37.12% правильных ответов для женщин и 37.26% -для мужчин). Возможной объяснением может быть предположение, что исключительно положительное отношение студенток к системе отражает тот факт, что в течение курса QuizPACK был действительно важным средством обучения для них. Важно и то, что в нашем курсе женщины, традиционно показывающие менее высокие результаты по техническим предметам, нежели мужчины, в итоге получили более высокую среднюю итоговую оценку. Интересно также и то, что даже студентки, получившие в итоге "3", "4-" или ниже, тем не менее высказали свое одобрение системы.
Рисунок 3: Профили ответов для студентов и студенток
Заключение
Мы доложили результаты исследования, в котором была сделана попытка оценить роль параметризуемых тестов как средства обучения в контексте курса программирования. Эксперимент показал, что успешность работы студентов с рассматриваемой системой коррелирует с оценкой на экзамене. В то же время объем работы студентов с параметризуемыми тестами статистически-значимо предсказывает прирост знаний в течение курса. Система QuizPACK, с помощью которой студенты проходили тестирование, была ими оценена очень высоко. Наиболее высокую оценку получила возможность системы генерировать параметризуемые вопросы со случайным числовым параметром. Женщины оценивали различные свойства QuizPACK более позитивно чем мужчины. На некоторых вопросов 100% студенток дали самые положительные ответы. Эти результаты свидетельствуют о том, что системы, администрирующие параметризуемые тесты, такие как QuizPACK могут служить исключительным средством обучения в контексте курсов программирования. Очевидно, также, что QuizPACK был особенно полезен для женщин, обычно имеющих более низкую успеваемость в курсах программирования, чем мужчины. Мы планируем провести более подробный анализ с тем чтоб установить, для каких групп студентов QuizPACK наиболее полезен.
Список литературы
Для подготовки данной работы были использованы материалы с сайта http://ifets.ieee.org/