По мнению статистика, машинное обучение привело к “кризису в науке”

Многие исследователи сегодня используют машинное обучение для анализа данных, но по мнению Женевры Аллен, статистика из Университета Райса, это может привести к большим проблемам.

На научной конференции она выступила с докладом, в котором попросила коллег обратить внимание на минусы поиска закономерностей с помощью алгоритмов машинного обучения. Такие алгоритмы могут ненамеренно вылавливать паттерны в шумах, которые очевидно не удастся воспроизвести при повторном эксперименте.

В научном сообществе сегодня принято признавать кризис воспроизводимости исследований, и по мнению Аллен, “по большей части этот [кризис] создается именно использованием методов машинного обучения”.

По мнению статистика, машинное обучение привело к “кризису в науке”
futurism

Проблема, приводит пример Аллен, может возникать потому что ученые собирают огромные массивы данных о геноме, а потом используют малопонятные алгоритмы машинного обучения для поиска кластеров похожих генных последовательностей. Зачастую ошибку обнаруживают лишь когда кто-то другой собирает аналогичные данные, запускает алгоритм и получает результаты, совсем не совпадающие с первоначальными.

Алгоритмы, говорит Аллен, натренированы искать закономерности даже там, где их нет. И с этим сможет разобраться лишь новое поколение программ, способных оценивать надежность сделанных выводов.

Можно ли сегодня доверять результатам исследований, в которых используются большие массивы данных и алгоритмы машинного обучения? Аллен считает, что “только после проверки”.

К счастью, сегодня ведутся разработки нового поколения систем машинного обучения, которые смогут давать оценку неопределенности и воспроизводимости сделанных выводов.

— 
Источник: AAAS: Machine learning ‘causing science crisis’