
Новые исследования ставят под сомнение будущее развитие искусственного интеллекта, указывая на серьёзную проблему — исчерпание качественных данных для обучения. Компании вроде OpenAI и Meta могут столкнуться с дефицитом человеческих текстов, необходимых для обучения следующих поколений моделей, таких как GPT-5 или GPT-6, уже в ближайшие годы. Это ставит фундаментальный вопрос: сможет ли ИИ продолжать эволюционировать, если «топливо» для его обучения — тексты, созданные людьми, — закончится?
Зависимость от человеческого контента и её пределы
Современные прорывы в области языковых моделей, таких как ChatGPT, были достигнуты благодаря обучению на колоссальных массивах текстов из интернета и корпоративных архивов. Однако, как показывают последние данные, темпы потребления этих данных опережают их естественное пополнение. Исследователь ИИ Тамай Бесироглу описывает ситуацию как «серьёзное узкое место»: без возможности масштабировать объёмы обучающих данных дальнейший рост качества и возможностей моделей оказывается под угрозой. Проблема усугубляется юридическими спорами вокруг использования авторского контента, ярким примером чего стал иск The New York Times к OpenAI.
Обратите внимание: Учёные разработали революционную технологию для исследования египетских мумий.
Тревожные прогнозы и поиск выхода
Согласно отчёту аналитического центра Epoch AI, объёмы текстовых данных для обучения ИИ растут экспоненциально — примерно в 2,5 раза ежегодно. При таких темпах уже к 2026–2032 годам модели могут «переработать» практически все доступные общественные текстовые данные. Это заставляет индустрию искать альтернативы. Основной рассматриваемый путь — переход на синтетические данные, то есть на контент, сгенерированный самим ИИ. Над этим решением активно работают OpenAI, Google и Anthropic.
Однако у этого подхода обнаружился критический изъян. Исследования учёных из Университета Райса и Стэнфорда показывают, что обучение на «искусственных» данных ведёт к постепенной деградации качества выходного контента моделей, создавая порочный круг самообмана. Это порождает новые вопросы о том, как сделать алгоритмы более эффективными, требующими меньше данных, а не просто больше.
Как отмечает Николас Паперно, исследователь ИИ из Университета Торонто, будущее развития ИИ может заключаться не в бесконечном увеличении размеров моделей, а в поиске новых, более умных методов обучения и повышении эффективности использования данных. Текущие исследования подчёркивают острую необходимость именно в этом направлении работы.
Больше интересных статей здесь: Новости науки и техники.