Новое исследование раскрывает скрытую предвзятость вступительных экзаменов в колледж

В статье, которая будет опубликована в Journal of Educational Psychology, предполагается, что сотни тысяч студентов колледжей были затронуты различными и разнообразными прогнозами своего успеха, основанными на том, как они выполняют стандартизированные тесты, такие как SAT и GRE.
«Наш основной вывод состоит в том, что тесты не работают одинаково в колледжах и университетах, и мы обнаружили, что прогнозируемый средний балл успеваемости сотен тысяч людей, основанный на результатах SAT, был занижен или завышен», — сказал ведущий автор исследования Герман Агуинис. F. Ми Кафедра менеджмента и профессор организационного поведения и человеческих ресурсов в Келли.
"Если прогноз отличается, это означает, что вы можете получить выгоду или пострадать только в зависимости от вашей этнической принадлежности или пола, поскольку ожидается, что ваша производительность будет выше или ниже, чем она будет, что означает, что вы с большей или меньшей вероятностью вам предложат стипендию или вам с большей или меньшей вероятностью предложат зачисление."

Его соавторами статьи «Обобщение дифференциальных прогнозов при вступительном тестировании колледжей» являются Стивен А. Калпеппер из Университета Иллинойса в Урбана-Шампейн и Чарльз А. Пирс из Университета Мемфиса.
Их результаты своевременны, учитывая, что все большее количество колледжей и университетов делают SAT необязательной частью процесса приема.

В 2010 году те же соавторы впервые рассмотрели этот вопрос в новаторской статье в Journal of Applied Psychology, в которой был сделан вывод о том, что методы, используемые Советом колледжей и другими организациями для приема или тестирования при приеме на работу, могут быть некорректными.

Они не сказали, что их исследования пришли к выводу, что тесты были необъективными; но они предположили, что тесты могут быть предвзятыми, и что методы выявления предвзятости были несовершенными.
Опровержение опровержения
Документ 2010 года привлек большое внимание.

А в 2013 году два ученых-исследователя из Совета колледжей — организации, которая занимается администрированием и продажей SAT и GRE — опубликовали ответную статью в том же журнале.
Авторы, Криста Маттерн и Брайан Ф. Паттерсон поднял вопросы о статье Агиниса и его соавторов, потому что она была основана на моделировании. В своей статье Маттерн и Паттерсон использовали фактические данные о более чем 475 000 студентов в более чем 200 колледжах с 2006 по 2008 год.
Маттерн и Паттерсон изучили взаимосвязь между данными SAT и средними баллами за первый год обучения этих студентов и обнаружили — в среднем — что взаимосвязь между двумя факторами была одинаковой в разных группах.

Журнал прикладной психологии потребовал, чтобы Маттерн и Паттерсон впервые сделали доступными данные Совета колледжей в виде 400-страничного PDF-файла. Агуинис, Калпеппер и Пирс решили извлечь эти данные; их новая статья основана на этом анализе.

Данные более чем 475000 человек
«Первое, что мы сделали, — это сделали то, что они сделали, именно то, что они сделали», — сказал Агуинис. "И мы обнаружили, что наши результаты точно такие же, как у них — в среднем — по 200 колледжам."
Но хотя Агуинис, Калпеппер и Пирс получили те же средние результаты, что и ученые Совета колледжей, их исследование обнаружило большие различия, когда данные для каждого колледжа изучались индивидуально.
Они утверждают, что политика приема, подходы к выставлению оценок и ресурсы академической поддержки сильно различаются в зависимости от учебного заведения и даже внутри него, что поднимает вопросы о том, насколько полезным и справедливым может быть SAT как предиктор успешности учащихся среди разных полов и этнических групп.

«У нас есть все эти вещи, которые происходят — не только на стороне тестирования, но и на стороне GPA, — которые делают этот прогноз менее точным и создают различия между группами», — сказал Агинис.
"Мы имеем большое значение для университетов, приемных комиссий, индустрии тестирования и общества в целом.

Прежде всего, понимая, что тест в любом конкретном контексте может иметь предвзятость », — сказал он. "В большинстве колледжей мы обнаружили различия, некоторые в одном направлении, а некоторые в другом.
"Сотням тысяч студентов, вероятно, было отказано в приеме или в стипендиях только из-за их этнической принадлежности или пола, когда стандартизированные тесты занимают центральное место в процессе приема — но не обязательно против чернокожих или женщин. Это идет в обе стороны. Статья посвящена прогнозированию результатов для всех людей, и обнаруженная нами предвзятость иногда приносит пользу одной группе, а иногда — другой."

Они сравнили 257 336 студенток и 220 433 студентов мужского пола в 339 выборках и 29 734 афроамериканца и 304 372 белых студента в 264 выборках, собранных из 176 колледжей и университетов с 2006 по 2008 год.
Хотя в документе основное внимание уделяется данным для SAT, Агинис сказал, что его результаты применимы к другим экзаменам, таким как GRE, GMAT, государственная служба и многие другие тесты перед приемом на работу, которые также измеряют интеллект и количественные навыки.
Агуинис не предполагает, что SAT и другие тесты не имеют отношения к делу; они являются одними из лучших доступных показателей будущего академического успеха. Однако результаты необходимо понимать в контексте местного колледжа, университета или другой организации, и он надеется, что Совет колледжей предоставит дополнительные данные, которые помогут в этом процессе.

«Вам необходимо понять, как тест работает в вашем местном контексте; тест может работать способами, о которых вы не знаете, и вы можете завышать прогнозы для одних групп и занижать прогнозы для других», — сказал он. "Вы должны понимать, предсказывает ли тест одинаковую эффективность для разных групп. В противном случае процесс отбора может быть несправедливым по отношению к членам определенных групп, и последствия будут иметь решающее значение для будущего людей."

Статья опубликована после тщательной проверки
В своей методологии исследователи решили исключить известные факторы, такие как размер выборки, ограничение диапазона и доля учащихся в подгруппах по этническому и гендерному признаку, которые могут объяснить различия между учебными заведениями.
«Нам пришлось провести очень большое количество процедур, потому что бремя доказывания лежало на нас», — сказал Агинис.

Работу оценили пять разных рецензентов, и исследователей попросили представить девять версий в дополнение к оригинальной рукописи, прежде чем она будет принята к публикации. Обычно в этот процесс входят два или три рецензента и максимум три или четыре редакции.
"Я работаю в этой области с 1993 года — 23 года — и я никогда не видел — никогда — девяти редакций ни в одном журнале.

Я вхожу в правление 15 журналов, и я был редактором журнала. Я был рецензентом еще 10 журналов ", — сказал он. "Эта статья была изучена, как никакая другая, которую я когда-либо видел."