Расследование Data Colada: новые доказательства фальсификации данных в работе Франчески Джино

Содержание

Это перевод третьей статьи из серии расследований Data Colada о фальсификации данных в статьях профессора Гарвардской школы бизнеса Франчески Джино.

Первую часть можно прочитать здесь, вторую здесь.

Напоминаю, что этот пост — мой вольный пересказ опроса Data Colada; все картинки оттуда.

Новости МирТесен

Пойдем.

Часть 3: Мошенники не при делах

В центре внимания третьей части — статья Джино и Вильтермута «Злой гений? Как нечестность может привести к большему творчеству», опубликованная в 2014 году, а именно исследование 4 из этой работы.

Авторы расследования Data Colada отмечают, что, по их информации, соавтор Джино не участвовал в сборе данных для этого эксперимента. База данных была получена несколько лет назад напрямую от профессора Джино.

Суть эксперимента

Эксперимент проводился онлайн с участием 178 человек. Сначала участники выполняли задание с подбрасыванием виртуальной монеты, где была возможность схитрить. Затем им предлагались два творческих задания. В фокусе анализа — задание «использование», в котором нужно было за минуту придумать как можно больше творческих способов использования газеты. Это задание ранее использовалось другими исследователями для оценки креативности.

Опубликованные результаты и аномалии

Согласно опубликованным результатам, гипотеза авторов подтвердилась: участники, схитрившие при подбрасывании монеты, придумали в среднем больше вариантов использования газеты (M = 8.3, SD = 2.8), чем те, кто не обманывал (M = 6.5, SD = 2.3, p < .001).

Однако, как и в предыдущих частях расследования, ключевым признаком возможной фальсификации стала странная сортировка данных. База была практически идеально отсортирована сначала по колонке «обманули» (0 — нет, 1 — да), а затем по колонке «Количество ответов». Такая идеальная сортировка крайне маловероятна для исходных данных, собранных через платформу Qualtrics, которые по умолчанию сортируются по времени.

Более детальный анализ показал, что среди 43 наблюдений в группе «мошенников» 13 значений расположены не в том порядке, в котором они должны были бы оказаться после сортировки по количеству ответов. Это указывает на то, что эти значения могли быть изменены вручную уже после сортировки для достижения статистически значимого результата.

Реконструкция исходных данных

Исследователи Data Colada попытались реконструировать, как могли выглядеть исходные данные до возможных изменений. Проанализировав контекст и порядок значений, они вычислили предполагаемый диапазон (минимум и максимум) для каждого из 13 подозрительных наблюдений.

Сравнение опубликованных данных с реконструированными показало кардинальную разницу: когда анализ проводится на основе предположительно реальных значений, статистически значимая связь между читерством и креативностью полностью исчезает (p-значение становится незначимым).

Статистическое подтверждение фальсификации

Для дополнительной проверки исследователи использовали непараметрический критерий Колмогорова-Смирнова для сравнения распределений ответов в двух группах. Анализ реконструированных данных показал высокое p-значение (0.456), что не позволяет отвергнуть нулевую гипотезу о равенстве распределений. Это означает, что группы «мошенников» и «не-мошенников» по креативности не отличались.

Чтобы исключить случайность, были проведены масштабные симуляции (миллион повторений). Они показали, что вероятность случайным образом выбрать именно те 13 наблюдений, изменение которых приведет к столь схожим распределениям групп, исчезающе мала. Это служит убедительным статистическим доказательством того, что изменены были именно эти конкретные значения, а не какие-либо другие.

Заключение и позиция Гарварда

Авторы расследования отмечают, что окончательную точку в этом вопросе мог бы поставить исходный файл с платформы Qualtrics, который, предположительно, хранится в Гарвардском университете. Data Colada сообщили университету, какой файл запросить, какие именно ячейки проверить и какие значения там должны быть, если их подозрения верны. Спустя 16 месяцев после начала расследования Гарвард потребовал отозвать статью, однако неизвестно, была ли проведена проверка исходных файлов.

Спасибо за чтение. Четвертая часть расследования еще не вышла, но мы ее очень ждем!

Больше интересных статей здесь: Новости науки и техники.

Источник статьи: Большой скандал в научном мире прямо сейчас. Часть 3.

Расследование Data Colada: новые доказательства фальсификации данных в работе Франчески Джино

Часть 3: Мошенники не при делах

Суть эксперимента

Опубликованные результаты и аномалии

Реконструкция исходных данных

Статистическое подтверждение фальсификации

Заключение и позиция Гарварда

Космические корабли: от «Союза» до «Спейс шаттла» — устройство, эволюция и назначение

Атлетизм: путь от мечты к олимпийскому пьедесталу

Разгром у Руана: как союзная авиация превратила отступление вермахта в катастрофу

М-72 и его наследники: история легендарного советского армейского мотоцикла