Проводятся новые исследования проблем и возможностей масштабирования систем машинного обучения, лежащих в основе моделей искусственного интеллекта, но результаты довольно мрачные. Эксперты говорят, что у таких компаний, занимающихся искусственным интеллектом, как OpenAI, заканчиваются мировые (искусственные) данные для обучения текста. Модели, более продвинутые, чем нынешние, такие как GPT-5 или GPT-6, могут даже исчерпать доступные источники данных к 2026 году. Возникает вопрос: сможет ли ИИ продолжать развиваться без новых человеческих текстовых данных?
Последние достижения в области языкового моделирования в значительной степени зависят от больших объемов текста, написанного людьми, часто полученного из Интернета или архивов компаний. Фактически общедоступные текстовые базы данных содержат миллиарды слов с миллиардов веб-страниц. Тем не менее, недавние исследования показывают, что компании, занимающиеся искусственным интеллектом, сталкиваются с серьезной проблемой: истощением данных. Столкнувшись с потенциальными препятствиями на пути масштабирования больших языковых моделей (LLM), исследователь искусственного интеллекта Тамай Бесироглу сказал Associated Press: «Здесь есть серьезные узкие места".
«Если вы столкнетесь с ограничениями данных, вы не сможете эффективно расширить модель.
Обратите внимание: Учёные разработали революционную технологию для исследования египетских мумий.
А расширение модели, вероятно, является наиболее важным способом расширить возможности модели и улучшить качество результатов», — добавил он. Инструменты искусственного интеллекта также без разбора используют публичные онлайн-архивы, и это противоречивая тенденция в использовании данных, которая вызвала судебные иски. Так произошло, например, с издателем New York Times, который подал в суд на OpenAI за нарушение авторских прав.К головокружительному снижению потока нового контента
Исследователи говорят, что если нынешние тенденции в развитии LLM сохранятся, модель сможет работать с набором данных размером примерно с все общедоступные текстовые данные в период с 2026 по 2032 год (или даже раньше, если модель будет переобучена) обучение. Кроме того, исследователи из аналитического центра Epoch AI в Сан-Франциско отметили в отчете, что объем текстовых данных, используемых только для обучения моделей ИИ, увеличивается примерно в 2,5 раза каждый год. Они также полагают, что крупные языковые модели, такие как GPT-4 от OpenAI и Llama 3 от Meta (которая считается экстремистской группировкой в России и чья деятельность запрещена), могут выйти из строя в 2026 году.
Чтобы устранить это препятствие, другие исследователи изучают, как продолжить разработку языковых моделей после того, как наборы данных сгенерированного человеком текста будут исчерпаны. Они утверждают, что наиболее возможным решением является обучение языковых моделей на синтетических (сгенерированных) данных, что предполагает перенос обучения из областей, богатых данными. OpenAI, Google и Anthropic уже работают над этим решением.
Однако, согласно выводам ученых из Университета Райса и Стэнфордского университета, использование в этих моделях контента, созданного ИИ, приводит к значительному снижению качества генерируемого контента. Это может создать цикл самообмана и вызвать множество вопросов: смогут ли алгоритмы ИИ стать более эффективными, производя лучшие результаты с меньшим количеством данных.
«Я думаю, важно помнить, что нам не обязательно обучать все более и более крупные модели», — сказал Николас Паперно, исследователь искусственного интеллекта и доцент кафедры компьютерной инженерии в Университете Торонто. Тем не менее, результаты этого исследования подчеркивают важность продолжения исследований для измерения темпов роста эффективности данных, а также потенциальных улучшений, приносимых новыми методами.
Больше интересных статей здесь: Новости науки и техники.