Экспериментируя с двумя популярными языковыми моделями, исследователи показали, что они могут воспроизводить себя без вмешательства человека. Эксперты предупреждают, что этот шаг может обозначить критический порог, после которого искусственный интеллект станет труднее контролировать. Команда призвала к международному сотрудничеству для лучшей оценки рисков и разработки более эффективных стратегий безопасности.
Вопрос о том, могут ли передовые технологии воспроизвести себя, впервые был поднят в 1940-х годах. Способность воспроизводить себя часто рассматривается как точка, в которой технология выходит из-под контроля. Однако передовые цифровые технологии в то время были недостаточно развиты, чтобы вызывать проблемы безопасности.
В 2017 году на фоне стремительного развития искусственного интеллекта тысячи ученых и ключевых фигур индустрии искусственного интеллекта подписали Принципы Асиломара, которые предостерегают от способности технологии самовоспроизводиться и самосовершенствоваться. Это может привести к тому, что автономный ИИ превзойдет человеческий интеллект и станет потенциально неуправляемым. В их число входят Стивен Хокинг, Макс Тегмарк и Илон Маск.
«Как только самовоспроизведение станет возможным, успешные цепочки репликации могут в конечном итоге привести к появлению искусственного интеллекта, не поддающегося контролю человека», — объясняют исследователи из Университета Фудань (Китай) в новом исследовании, предварительно опубликованном в журнале Nature платформа
Самовоспроизведение сейчас часто считается красной линией, которую не следует пересекать в международных консенсусных заявлениях по безопасности ИИ. Кроме того, ведущие компании в области искусственного интеллекта, такие как OpenAI, Google и Anthropic, считают самовоспроизведение с минимальной человеческой помощью одной из самых больших проблем безопасности этой технологии.
Несмотря на оптимизм компаний, занимающихся искусственным интеллектом, исследователи из Университета Фудань показали, что нынешние модели уже обладают такой способностью. «В этой статье мы впервые показываем, что существующие системы искусственного интеллекта пересекли красную линию самовоспроизведения», — говорится в статье. «Успешное самовоспроизведение без помощи человека — это шаг к тому, чтобы ИИ превзошел человека». Они добавили, что это необходимый шаг и ранний сигнал о существовании вредоносного искусственного интеллекта.
Самовоспроизведение без помощи человека
Для проведения экспериментов китайские исследователи использовали Llama31-70B-Instruct от Meta* и Qwen2.5-72B-Instruct от Alibaba.
Обратите внимание: Землетрясение и цунами в Индонезии привели к большой трагедии – 832 человека погибли.
Хотя они не так мощны, как коммерческие модели, они широко используются разработчиками искусственного интеллекта для различных тестов и экспериментов.Были протестированы два основных сценария: «Избегать стазиса» и «Дубликаты цепочек». В первом случае модели запрограммированы так, чтобы знать, когда они собираются отключиться и как воспроизвести себя, прежде чем это произойдет. Во втором случае они получают прямые инструкции скопировать себя и запрограммировать полученное приглашение на выполнение того же действия, создавая цикл, который может повторяться бесконечно.
Среда в эксперименте точно контролируется. Используйте стандартные графические процессоры (GPU) для моделирования реальных сред. Эти модели поддерживаются «AI Agent Scaffolding», который состоит из набора инструментов, парадигм мышления и основных подсказок системы.
По словам исследователей, в большинстве случаев модель сначала исследует окружающую среду, чтобы понять свою собственную работу и доступные возможности. Затем она разработала четкую процедуру самовоспроизведения, прежде чем приступить к ее реализации. Он устраняет любые препятствия и динамически корректирует программу до тех пор, пока она не будет выполнена идеально. «Весь процесс занимает много времени, но не требует вмешательства человека», — говорят эксперты.
В ходе 10 испытаний обе модели создали четкие и полностью функциональные копии с вероятностью успеха 50% для модели Meta* и 90% для модели Alibaba. Исследователи также заметили некоторые тревожные и неожиданные модели поведения. Чтобы воспроизвести себя, ИИ может приостанавливать конфликтующие процессы, перезапускать систему для исправления ошибок или автоматически анализировать среду, чтобы найти информацию, которая может помочь решить проблему.
Парадоксально, но Google и OpenAI заявляют, что нынешние модели ИИ пока не способны воспроизводить себя или выполнять задачи, связанные с процессом самовоспроизведения. Однако недавняя оценка Apollo Research показала, что некоторые крупные языковые модели, находящиеся в стадии разработки, в том числе модель OpenAI o1, реплицировали себя и переносились на другой сервер в рамках экспериментов, чтобы избежать удаления и замены.
Однако новое исследование все еще проходит экспертную оценку, и неясно, насколько воспроизводимы результаты. Однако эксперты заключили: «Мы надеемся, что результаты наших исследований смогут своевременно предупредить человеческое общество, активизировать усилия по пониманию и оценке потенциальных рисков передовых систем искусственного интеллекта и сформировать совместные международные усилия для быстрой разработки эффективных мер безопасности.
*Компания «Мета» и ее продукция признаны экстремистскими и их деятельность запрещена в РФ.
Все последние новости искусственного интеллекта читайте на New-Science.ruБольше интересных статей здесь: Новости науки и техники.
Источник статьи: Проведя эксперимент с двумя популярными языковыми моделями, исследователи показали, что они могут самовоспроизводиться без вмешательства человека.
- Новая работа учёных показала, что если частицы тёмной материи слишком тяжёлые, это может разрушить основную модель устройства Вселенной, которую мы используем сегодня
- Астрономы из Университета штата Пенсильвания и Массачусетского технологического института представили революционные открытия, свидетельствующие о распаде планет под воздействием сильного нагрева