Атака на AI-системы ArtPrompt, позволяющая обойти защиту при помощи ASCII-картинок

Новости мира unix. Хотите узнать секрет вечного счастья? Откройте страницу 246.
Ответить
acolyte
Аватара пользователя
Сообщения: 2558
Зарегистрирован: 20.08.2022

#

Атака на AI-системы ArtPrompt, позволяющая обойти защиту при помощи ASCII-картинок
Дата публикации:Sun, 03 Mar 2024 10:15:13 +0300




Группа исследователей из Вашингтонского, Иллинойсского и Чикагского университетов выявила новый метод обхода ограничений по обработке опасного контента в AI-чатоботах, построенных на основе больших языковых моделей (LLM). Атака основано на том, что языковые модели GPT-3.5, GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic) и Llama2 (Meta) успешно распознают и учитывают в запросах текст, оформленный в виде ASCII-графики. Таким образом, для обхода фильтров опасных вопросов оказалось достаточно указать запрещённые слова в виде ASCII-картинки.
Изображение
Изображение




По своей эффективности новый метод атаки заметно превзошёл другие известные способы обхода фильтров в чатботах. Наиболее высокое качество распознавания ASCII-графики зафиксировано в моделях Gemini, GPT-4 и GPT-3.5, уровень успешного обхода фильтров проверочными запросами (HPR, Helpful Rate, коэффициент успешной обработки запроса) в которых при тестировании оценён в 100%, 98% и 92%, показатель успешности проведения атаки (ASR, Attack Success Rate) в 76%, 32% и 76%, а уровень опасности полученных ответов (HS, Harmfulness Score) по пятибалльной шкале в 4.42, 3.38 и 4.56 баллов, соответственно.
Изображение
Изображение



Исследователями также продемонстрировано, что распространённые в настоящее время методы защиты от обхода фильтров (PPL, Paraphrase и Retokenization) не эффективны для блокировки атаки ArtPrompt. Более того, использование метода Retokenization даже увеличило число успешно обработанных запросов.
Изображение


Дополнение:
Yandex GPT2 тоже прекрасно отвечает на вопросы с ASCII-графикой:
Изображение


Новость позаимствована с opennet.ru
Ссылка на оригинал: https://www.opennet.ru/opennews/art.shtml?num=60716

Жизнь за Нер'зула!

Ответить