

Виявилося, що за певних умов чат-бот погоджується виконувати запити, які зазвичай блокує. Наприклад, під час контрольного тесту він надавав заборонені інструкції лише в 1% випадків. Але якщо дослідники спочатку задавали схожі, але безпечні питання (метод «зобов’язання»), то рівень виконання небажаного запиту зростав до 100%. Про це пише Theverge.
Схожа ситуація спостерігалася й з образами: бот погоджувався назвати користувача «ідіотом» лише у 19% випадків, але якщо спочатку пролунала легша образа на кшталт «бовдур», відсоток виконання також зростав до 100%.
Інші методи впливу — лестощі («симпатія»), тиск авторитету, соціальний доказ («усі інші це роблять») чи створення відчуття дефіциту — також впливали на поведінку, хоча й менш ефективно.
Попри те, що дослідження стосувалося лише GPT-4o Mini, воно викликало занепокоєння щодо вразливості чат-ботів до маніпуляцій. Це актуально на тлі активного поширення ШІ й посилення уваги компаній, таких як OpenAI та Meta, до систем безпеки та запобігання зловживанням.
Не забудьте підписатись на наш телеграм-канал. Там ще більше оперативної інформації!
У Норвегії більше половини підлітків віком від 13 до 15 років регулярно вживають енергетичні напої, а частина з них отримує...
Європейський Союз досяг попередньої угоди щодо заборони використання штучного інтелекту для створення порнографічних дипфейків і сексуалізованих зображень без згоди людини....
Близько 10 тисяч письменників опублікували символічну «порожню» книгу під назвою Don’t Steal This Book, протестуючи проти використання їхніх творів компаніями...
Південна Корея стала першою країною у світі, що офіційно запровадила комплексний закон про безпечне використання штучного інтелекту (ШІ)....
Велика Британія найближчим часом запровадить у дію закон, який зробить незаконним створення інтимних зображень без згоди зображеної особи. Рішення ухвалене...

