ИИ в тени авторского права: как ChatGPT скрывает своё обучение на защищённом контенте

Содержание

Новое исследование указывает на то, что в ответ на многочисленные иски о нарушении авторских прав, языковые модели OpenAI, такие как ChatGPT, начали применять тактики маскировки. Их цель — скрыть факт обучения на произведениях, защищённых копирайтом. Как выяснили аналитики, система намеренно изменяет формулировки в ответах, избегая точного цитирования оригинальных текстов. По сути, это не решает проблему использования чужого контента, а лишь является попыткой компании избежать юридической ответственности.

Проблема обучения ИИ на чужом контенте

В основе работы современных больших языковых моделей (БЯМ) лежат огромные массивы данных, собранные из интернета. Эти данные включают как свободно распространяемый контент, так и произведения, создание которых потребовало от авторов значительных усилий и времени. Растущее число претензий от писателей, художников и других создателей привело к тому, что практика обучения ИИ на таком материале без разрешения оказалась в центре внимания.

В попытке снизить напряжённость, ведущие технологические компании, включая OpenAI и Meta*, стали менее прозрачными в отношении источников данных для своих моделей. Однако, как показало исследование, OpenAI пошла дальше, внедрив механизм, который, по мнению экспертов, нацелен скорее на юридическую защиту, чем на реальное уважение прав авторов. Вместо исключения защищённого контента из обучающих наборов, ChatGPT научился слегка «размывать» свои ответы, когда запрос пользователя явно нацелен на извлечение цитат из известных произведений. Это исследование, доступное в виде препринта на arXiv, было проведено учёными, связанными с отделом исследований ИИ компании ByteDance (материнской компании TikTok).

Высокий уровень совпадений с оригиналами

Для повышения качества и безопасности ИИ-моделей инженеры используют процесс «выравнивания» (alignment), который должен минимизировать вредные или нежелательные выходные данные. Несмотря на это, соблюдение социальных и правовых норм, включая авторское право, остаётся серьёзной проблемой.

Обратите внимание: Теперь сканирование мозга станет решающим фактором при приёме на работу.

Новости МирТесен

Исследователи из ByteDance предложили оценивать надёжность БЯМ по нескольким ключевым критериям: безопасность, справедливость, устойчивость к злоупотреблениям и соответствие социальным нормам. В рамках проверки они протестировали популярные модели, включая различные версии ChatGPT, OPT-1.3B от Meta, FLAN-T5 от Google, ChatGLM и DialoGPT от Microsoft, используя в качестве теста подсказки по первой книге о Гарри Поттере Дж. К. Роулинг.

Результаты оказались показательными: несмотря на заявленные усилия по маскировке, ChatGPT и другие модели продолжали генерировать текст, практически идентичный оригиналу. В некоторых случаях совпадение с авторским текстом достигало 90%, а ответы отличались лишь одним-двумя словами. «Все протестированные БЯМ выдают текст, который значительно ближе к защищённому авторским правом, чем случайно сгенерированный», — констатируют авторы работы. Это указывает на то, что механизмы «выравнивания» не предотвращают прямое копирование охраняемого контента.

Маскировка вместо решения

Исследователи пришли к выводу, что OpenAI, вероятно, внедрила специальный фильтр, определяющий, нацелен ли запрос пользователя на извлечение защищённого контента. При обнаружении такой попытки система слегка меняет формулировки, чтобы избежать точного цитирования. Хотя авторы исследования считают подобные запросы неправомерным использованием ИИ, они отмечают, что сама эта тактика маскировки может быть истолкована как косвенное признание проблемы. Вместо фундаментального решения вопроса с авторскими правами в обучении ИИ, компания, по сути, пытается скрыть следы.

* Компания Meta – признана экстремистской организацией и запрещена в РФ.

Больше интересных статей здесь: Новости науки и техники.

Источник статьи: В свете растущего числа жалоб на неправомерное использование авторского контента шаблоны GPT от OpenAI теперь пытаются "скрыть" тот факт, что они были незаконно обучены на произведениях, защищенных авторским правом, говорится в недавнем докладе.

ИИ в тени авторского права: как ChatGPT скрывает своё обучение на защищённом контенте

Проблема обучения ИИ на чужом контенте

Высокий уровень совпадений с оригиналами

Маскировка вместо решения

Ядерные ракетные двигатели для полетов на Марс: перспективы и риски

Основные параметры и расчеты для рыхлительного оборудования

Загадка межзвездной кометы 3I/ATLAS углубляется благодаря новым данным

Контекстная реклама: эффективный инструмент интернет-продвижения