Кризис данных для ИИ: человеческих текстов для обучения может не хватить уже к 2026 году

Новые исследования ставят под сомнение будущее развитие искусственного интеллекта, указывая на серьёзную проблему — исчерпание качественных данных для обучения. Компании вроде OpenAI и Meta могут столкнуться с дефицитом человеческих текстов, необходимых для обучения следующих поколений моделей, таких как GPT-5 или GPT-6, уже в ближайшие годы. Это ставит фундаментальный вопрос: сможет ли ИИ продолжать эволюционировать, если «топливо» для его обучения — тексты, созданные людьми, — закончится?

Зависимость от человеческого контента и её пределы

Современные прорывы в области языковых моделей, таких как ChatGPT, были достигнуты благодаря обучению на колоссальных массивах текстов из интернета и корпоративных архивов. Однако, как показывают последние данные, темпы потребления этих данных опережают их естественное пополнение. Исследователь ИИ Тамай Бесироглу описывает ситуацию как «серьёзное узкое место»: без возможности масштабировать объёмы обучающих данных дальнейший рост качества и возможностей моделей оказывается под угрозой. Проблема усугубляется юридическими спорами вокруг использования авторского контента, ярким примером чего стал иск The New York Times к OpenAI.

Обратите внимание: Учёные разработали революционную технологию для исследования египетских мумий.

Тревожные прогнозы и поиск выхода

Согласно отчёту аналитического центра Epoch AI, объёмы текстовых данных для обучения ИИ растут экспоненциально — примерно в 2,5 раза ежегодно. При таких темпах уже к 2026–2032 годам модели могут «переработать» практически все доступные общественные текстовые данные. Это заставляет индустрию искать альтернативы. Основной рассматриваемый путь — переход на синтетические данные, то есть на контент, сгенерированный самим ИИ. Над этим решением активно работают OpenAI, Google и Anthropic.

Однако у этого подхода обнаружился критический изъян. Исследования учёных из Университета Райса и Стэнфорда показывают, что обучение на «искусственных» данных ведёт к постепенной деградации качества выходного контента моделей, создавая порочный круг самообмана. Это порождает новые вопросы о том, как сделать алгоритмы более эффективными, требующими меньше данных, а не просто больше.

Как отмечает Николас Паперно, исследователь ИИ из Университета Торонто, будущее развития ИИ может заключаться не в бесконечном увеличении размеров моделей, а в поиске новых, более умных методов обучения и повышении эффективности использования данных. Текущие исследования подчёркивают острую необходимость именно в этом направлении работы.

Больше интересных статей здесь: Новости науки и техники.

Источник статьи: В настоящее время проводятся новые исследования, посвященные проблемам и возможностям масштабирования систем машинного обучения, питающих модели ИИ, и их результаты довольно плачевны.