Исследование: ChatGPT стал менее эффективным, а OpenAI отрицает ухудшение качества

Хотя разработчики из OpenAI и не позиционировали ChatGPT как безупречную систему, этот чат-бот быстро завоевал репутацию одного из лидеров в своей области. Однако свежее исследование, проведённое учёными из Стэнфордского университета и Калифорнийского университета в Беркли, указывает на тревожную тенденцию: производительность флагманской языковой модели GPT-4, лежащей в основе ChatGPT, заметно снизилась.

Выводы исследователей подтверждают многочисленные жалобы пользователей, которые в последнее время всё чаще отмечают падение качества работы сервиса. Эта тема активно обсуждается в сети. Более того, согласно данным аналитики, в июне 2023 года впервые с момента запуска ChatGPT зафиксировано снижение ключевых показателей посещаемости его сайта: количество уникальных пользователей сократилось на 5.7%, а среднее время, проведённое на ресурсе, уменьшилось на 8.5%.

Данные исследований: цифры говорят сами за себя

В ходе серии строгих тестов учёные обнаружили значительную деградацию возможностей ChatGPT в период с марта по июнь 2023 года. Наиболее показательным стал тест на определение простых чисел. Если в марте GPT-4 справлялась с этой задачей с точностью 97.6%, то к июню её точность катастрофически упала до 2.4%. Примечательно, что более старая модель GPT-3.5, напротив, показала резкий прогресс в этом же тесте, улучшив результат с 7.4% до 86.8%.

Аналогичная картина наблюдалась и при решении простых математических задач. Точность GPT-4 здесь снизилась с 52% в марте до 10% в июне. Модель GPT-3.5 также регрессировала, упав с 22% до 2%. Обе модели продемонстрировали некоторый рост в задачах на визуальное мышление, однако общий уровень их успешности в этой сфере остаётся невысоким.

Реакция сообщества и позиция OpenAI

Пользователи на собственном опыте ощутили это снижение качества. Форум разработчиков OpenAI переполнен сообщениями, в которых выражается разочарование. Пользователи сталкиваются с неожиданными орфографическими ошибками, потерей контекста в длинных диалогах и общим снижением связности и глубины ответов. Эти многочисленные жалобы ставят под вопрос будущую надёжность и стабильность работы ChatGPT.

Исследователи не дали однозначного объяснения причинам такого ухудшения, но поставили под сомнение заявленные компанией «улучшения» моделей.

В ответ на растущую волну критики вице-президент OpenAI по продуктам Питер Велиндер сделал заявление в Twitter, категорически отвергнув обвинения: «Нет, мы не сделали GPT-4 глупее». Он настаивает, что каждая новая итерация модели должна быть лучше предыдущей, а возросшее число жалоб может быть связано с более широким и разнообразным использованием системы. Также Велиндер напомнил, что GPT-4 всё ещё находится в активной разработке, что может приводить к временным несоответствиям в работе.

Обратите внимание: Новые модели китайских секс-роботов впечатляют своим реализмом.

Сложившаяся ситуация создаёт напряжённость. С одной стороны, сообщество пользователей фиксирует явные проблемы, с другой — разработчик продолжает защищать качество своего продукта. Внимание сейчас приковано к OpenAI, от которой ожидают либо официального развёрнутого комментария, либо выпуска обновления, которое устранит выявленные недостатки. На фоне этого активизируются конкуренты, такие как Google Bard, а слухи о разработке собственного чат-бота компанией Apple делают конкурентную среду ещё более жёсткой. Будущее лидерства ChatGPT на рынке теперь под вопросом.

Больше интересных статей здесь: Новости науки и техники.

Источник статьи: Компания OpenAI никогда не утверждала, что ChatGPT является совершенной системой, но с момента своего появления она быстро стала одним из лучших чат-ботов.