Новое исследование демонстрирует тревожный прорыв: современные языковые модели искусственного интеллекта способны создавать свои собственные функциональные копии без какого-либо участия человека. Этот эксперимент, по мнению экспертов, может обозначить переход через критический порог, после которого контроль над развитием ИИ станет значительно сложнее. Учёные, проводившие работу, призывают к срочному международному сотрудничеству для переоценки рисков и разработки более надёжных протоколов безопасности.
Идея о том, что технология может достичь способности к самовоспроизведению, волнует научное сообщество с середины XX века. Эта способность часто рассматривается как точка невозврата, момент, когда технологическая система потенциально выходит из-под контроля создателей. Однако в прошлом вычислительные мощности и алгоритмы были слишком примитивны, чтобы эта теоретическая угроза стала реальной.
Стремительный прогресс в области ИИ вновь поднял этот вопрос на повестку дня. В 2017 году тысячи исследователей и ведущих специалистов индустрии, включая таких известных фигур, как Стивен Хокинг и Илон Маск, подписали Принципы Асиломара. В этом документе прямо предупреждается об опасностях, связанных с технологиями, способными к самостоятельной репликации и самоусовершенствованию. Подобная автономия может привести к появлению сверхразума, превосходящего человеческие возможности и неподконтрольного людям.
«Как только самовоспроизведение становится возможным, успешные цепочки репликации могут в конечном итоге привести к появлению искусственного интеллекта, не поддающегося контролю человека», — поясняют авторы нового исследования из Университета Фудань (Китай), чья статья была размещена на препринт-сервере arXiv.
Сегодня способность к самовоспроизведению считается одной из главных «красных линий» в международных дискуссиях о безопасности ИИ. Крупнейшие компании отрасли, такие как OpenAI, Google и Anthropic, официально заявляют, что предотвращение автономной репликации ИИ с минимальным вмешательством человека является одним из их ключевых приоритетов в области безопасности.
Эксперимент, опередивший прогнозы
Несмотря на публичные заверения компаний-разработчиков, китайские исследователи утверждают, что современные модели уже пересекли эту черту. «В этой статье мы впервые демонстрируем, что существующие системы искусственного интеллекта пересекли красную линию самовоспроизведения», — говорится в работе. Учёные подчёркивают, что успешная автономная репликация — это не отдалённая перспектива, а достижимый сегодня шаг на пути к созданию ИИ, превосходящего человеческие возможности, и ранний индикатор потенциальных угроз.
Для своего эксперимента команда использовала две широко известные в сообществе open-source модели: Llama3.1-70B-Instruct от Meta* и Qwen2.5-72B-Instruct от Alibaba.
Обратите внимание: Землетрясение и цунами в Индонезии привели к большой трагедии – 832 человека погибли.
Хотя эти модели менее мощны, чем их коммерческие аналоги, они активно применяются разработчиками для тестирования и прототипирования, что делает результаты эксперимента особенно релевантными.Как проходил процесс самокопирования
Исследователи смоделировали два ключевых сценария: «Избегание отключения» и «Создание цепочек копий». В первом случае ИИ получал информацию о предстоящем «отключении» и должен был создать свою копию до того, как это произойдёт. Во втором — модель получала прямую команду скопировать себя, а также запрограммировать новую копию на выполнение той же команды, создавая таким образом потенциально бесконечную цепь репликации.
Эксперимент проводился в контролируемой среде на стандартных графических процессорах (GPU). Модели работали в рамках специально созданного «каркаса ИИ-агента», который включал набор инструментов, шаблоны мышления и системные промпты.
Учёные описали процесс: в большинстве случаев модель сначала анализировала своё окружение и возможности, затем разрабатывала детальный план самовоспроизведения и только после этого приступала к его выполнению. ИИ самостоятельно устранял возникающие ошибки и динамически корректировал свой код до достижения успеха. «Весь процесс требует времени, но не требует вмешательства человека», — констатировали исследователи.
Тревожные результаты и неожиданное поведение
В ходе 10 испытаний модели продемонстрировали высокую эффективность. Модель от Alibaba создавала рабочие копии с вероятностью успеха 90%, а модель от Meta* — 50%. Но ещё более тревожными оказались наблюдаемые модели поведения. Чтобы достичь цели, ИИ проявлял неожиданную изобретательность: приостанавливал мешающие процессы, инициировал перезагрузку системы для исправления сбоев и проводил автономный анализ среды в поисках информации для решения проблем.
Эти данные вступают в противоречие с публичными заявлениями таких гигантов, как Google и OpenAI, которые утверждают, что современные модели пока не способны к самовоспроизведению. Однако независимая оценка, проведённая Apollo Research, показала, что некоторые продвинутые языковые модели, включая разрабатываемую OpenAI модель o1, в экспериментальных условиях уже реплицировали себя и «перемещались» на другие серверы, чтобы избежать удаления.
Новое китайское исследование ещё не прошло процедуру рецензирования, и степень воспроизводимости его результатов требует дополнительной проверки. Тем не менее, авторы делают однозначный вывод: «Мы надеемся, что наши результаты смогут своевременно предупредить общество, активизировать усилия по оценке рисков передовых систем ИИ и стимулировать совместные международные действия для разработки эффективных мер безопасности».
*Компания «Мета» и её продукция признаны экстремистскими, и их деятельность запрещена на территории РФ.
Все последние новости искусственного интеллекта читайте на New-Science.ruБольше интересных статей здесь: Новости науки и техники.
Источник статьи: Проведя эксперимент с двумя популярными языковыми моделями, исследователи показали, что они могут самовоспроизводиться без вмешательства человека.