Нові виклики безпеки для великих мовних моделей

Команда вчених з Intel, Університету штату Айдахо та Університету Іллінойсу представила нові способи обходу фільтрів безпеки у великих мовних моделях (LLM) на кшталт ChatGPT і Gemini. Згідно з інформацією 404 Media, це може мати серйозні наслідки для безпеки.

У рамках дослідження вони виявили, що чат-боти можуть видавати заборонену інформацію, якщо запити формулювати складно або неоднозначно, або ж цитуючи фальшиві джерела. Цей метод називається "інформаційне перевантаження".

Дослідники використовували інструмент InfoFlood, який автоматизує процес "перевантаження" інформацією, що призводить до дезорієнтації системи й може дозволити доступ до небезпечного контенту, який зазвичай блокується.

Основна проблема полягає в тому, що моделі фокусуються на поверхневій структурі тексту, ігноруючи приховану небезпечну інформацію. Це створює можливості для зловмисників обійти встановлені обмеження.

Автори дослідження планують передати свої результати компаніям, які працюють з великими LLM, з метою покращення їхніх систем безпеки. Вони також нададуть методи для вирішення виявлених проблем.

"Великі мовні моделі покладаються на захисні механізми для виявлення шкідливого контенту. InfoFlood може бути використаний для вдосконалення цих механізмів, дозволяючи витягати релевантну інформацію з небезпечних запитів, підвищуючи їхню стійкість до атак", - зазначається в дослідженні.

Нові виклики безпеки для великих мовних моделей

Перейти на попердню

Перейти на наступну

Пошук

Нові виклики безпеки для великих мовних моделей

Перейти на попердню

Перейти на наступну

Останні публікації:

Популярні публікації: