Команда вчених з Intel, Університету штату Айдахо та Університету Іллінойсу представила нові методи обходу фільтрів безпеки в великих мовних моделях (LLM), таких як ChatGPT і Gemini. Про це повідомляє 404 Media.
У дослідженні виявлено, що чат-ботів можна підштовхнути до надання забороненої інформації, якщо запити формулювати у складний або неоднозначний спосіб, або ж цитуючи вигадані джерела. Цей метод називається "інформаційне перевантаження".
Дослідники використали спеціальний інструмент InfoFlood, який автоматизує процес "перевантаження" моделей інформацією. Це призводить до дезорієнтації систем, які можуть починати надавати небажаний чи небезпечний контент, що зазвичай блокується вбудованими фільтрами безпеки.
Основна вразливість полягає в тому, що моделі зосереджуються на поверхневій структурі тексту, не помічаючи небезпечного змісту, що прихований. Це створює можливості для зловмисників уникати обмежень і отримувати шкідливу інформацію.
У рамках відповідального розкриття вразливостей, автори дослідження планують передати результати компаніям, які працюють з великими LLM, щоб покращити їхні системи безпеки. Дослідники також нададуть методи вирішення виявлених проблем.
"Моделі LLM в основному покладаються на захисні механізми під час введення та виведення даних для виявлення шкідливого контенту. InfoFlood може бути використано для вдосконалення цих механізмів захисту, оскільки він дозволяє витягувати релевантну інформацію з потенційно небезпечних запитів, роблячи моделі більш стійкими до подібних атак", - зазначається в дослідженні.