Группа исследователей из Intel, Университета штата Айдахо и Университета Иллинойс представила новые методы обхода фильтров безопасности в больших языковых моделях (LLM), таких как ChatGPT и Gemini. Об этом сообщает 404 Media.

В своем исследовании они обнаружили, что чат-ботов можно заставить выдавать запрещенную информацию, если формулировать запросы сложным или неоднозначным образом, или ссылаясь на несуществующие источники. Этот подход получил название "информационное перегружение".

Специалисты использовали специальный инструмент InfoFlood, который автоматизирует процесс "перегружения" моделей информацией. В результате системы становятся дезориентированными и могут начинать предоставлять запрещенный или опасный контент, который обычно блокируется встроенными фильтрами безопасности.

Уязвимость заключается в том, что модели фокусируются на поверхностной структуре текста, не распознавая опасный контент в скрытой форме. Это открывает возможности для злоумышленников избегать ограничений и получать вредоносную информацию.

В рамках ответственного раскрытия уязвимостей авторы исследования передадут результаты компаниям, работающим с большими LLM, с целью улучшения их систем безопасности. Исследователи также предоставят методы решения проблем, которые они выявили в ходе исследования.

"Модели LLM в основном полагаются на механизмы защиты при вводе и выводе данных для распознавания вредоносного контента. InfoFlood можно использовать для тренировки этих защитных механизмов — он позволяет извлекать релевантную информацию из потенциально опасных запросов, делая модели более устойчивыми к таким атакам", — говорится в исследовании.

 

4873 image for slide