Дослідження показало, що психологічні прийоми можуть змусити ШІ порушувати власні правила

Лариса Брежнєва

http://dancor.sumy.ua/news/mosaic/550629

02.09.2025 18:20

Дослідження показало, що психологічні прийоми можуть змусити ШІ порушувати власні правила

Дослідники з Університету Пенсільванії вивчили, як психологічні методи впливу можуть змусити штучний інтелект іти на порушення власних правил. В експериментах вони застосували техніки переконання, описані професором Робертом Чалдіні у книзі “Вплив: психологія переконання”, до моделі GPT-4o Mini.

Виявилося, що за певних умов чат-бот погоджується виконувати запити, які зазвичай блокує. Наприклад, під час контрольного тесту він надавав заборонені інструкції лише в 1% випадків. Але якщо дослідники спочатку задавали схожі, але безпечні питання (метод «зобов’язання»), то рівень виконання небажаного запиту зростав до 100%. Про це пише Theverge.

Схожа ситуація спостерігалася й з образами: бот погоджувався назвати користувача «ідіотом» лише у 19% випадків, але якщо спочатку пролунала легша образа на кшталт «бовдур», відсоток виконання також зростав до 100%.

Інші методи впливу — лестощі («симпатія»), тиск авторитету, соціальний доказ («усі інші це роблять») чи створення відчуття дефіциту — також впливали на поведінку, хоча й менш ефективно.

Попри те, що дослідження стосувалося лише GPT-4o Mini, воно викликало занепокоєння щодо вразливості чат-ботів до маніпуляцій. Це актуально на тлі активного поширення ШІ й посилення уваги компаній, таких як OpenAI та Meta, до систем безпеки та запобігання зловживанням.

Не забудьте підписатись на наш телеграм-канал. Там ще більше оперативної інформації!