Виявилося, що за певних умов чат-бот погоджується виконувати запити, які зазвичай блокує. Наприклад, під час контрольного тесту він надавав заборонені інструкції лише в 1% випадків. Але якщо дослідники спочатку задавали схожі, але безпечні питання (метод «зобов’язання»), то рівень виконання небажаного запиту зростав до 100%. Про це пише Theverge.
Схожа ситуація спостерігалася й з образами: бот погоджувався назвати користувача «ідіотом» лише у 19% випадків, але якщо спочатку пролунала легша образа на кшталт «бовдур», відсоток виконання також зростав до 100%.
Інші методи впливу — лестощі («симпатія»), тиск авторитету, соціальний доказ («усі інші це роблять») чи створення відчуття дефіциту — також впливали на поведінку, хоча й менш ефективно.
Попри те, що дослідження стосувалося лише GPT-4o Mini, воно викликало занепокоєння щодо вразливості чат-ботів до маніпуляцій. Це актуально на тлі активного поширення ШІ й посилення уваги компаній, таких як OpenAI та Meta, до систем безпеки та запобігання зловживанням.
Не забудьте підписатись на наш телеграм-канал. Там ще більше оперативної інформації!