Дослідження показало, що психологічні прийоми можуть змусити ШІ порушувати власні правила

Дослідники з Університету Пенсільванії вивчили, як психологічні методи впливу можуть змусити штучний інтелект іти на порушення власних правил. В експериментах вони застосували техніки переконання, описані професором Робертом Чалдіні у книзі “Вплив: психологія переконання”, до моделі GPT-4o Mini.

Виявилося, що за певних умов чат-бот погоджується виконувати запити, які зазвичай блокує. Наприклад, під час контрольного тесту він надавав заборонені інструкції лише в 1% випадків. Але якщо дослідники спочатку задавали схожі, але безпечні питання (метод «зобов’язання»), то рівень виконання небажаного запиту зростав до 100%. Про це пише Theverge.

Схожа ситуація спостерігалася й з образами: бот погоджувався назвати користувача «ідіотом» лише у 19% випадків, але якщо спочатку пролунала легша образа на кшталт «бовдур», відсоток виконання також зростав до 100%.

Інші методи впливу — лестощі («симпатія»), тиск авторитету, соціальний доказ («усі інші це роблять») чи створення відчуття дефіциту — також впливали на поведінку, хоча й менш ефективно.

Попри те, що дослідження стосувалося лише GPT-4o Mini, воно викликало занепокоєння щодо вразливості чат-ботів до маніпуляцій. Це актуально на тлі активного поширення ШІ й посилення уваги компаній, таких як OpenAI та Meta, до систем безпеки та запобігання зловживанням.

Не забудьте підписатись на наш телеграм-канал. Там ще більше оперативної інформації!

Не забудьте підписатись на наш телеграм-канал

По тематике

У Норвегії понад половина підлітків вживають енергетики: влада не виключає нових обмежень
07.06.2026 11:51

У Норвегії понад половина підлітків вживають енергетики: влада не виключає нових обмежень

У Норвегії більше половини підлітків віком від 13 до 15 років регулярно вживають енергетичні напої, а частина з них отримує...

ЄС пом’якшує правила щодо ШІ: частину вимог відклали до 2027 року
10.05.2026 11:42

ЄС пом’якшує правила щодо ШІ: частину вимог відклали до 2027 року

Європейський Союз досяг попередньої угоди щодо заборони використання штучного інтелекту для створення порнографічних дипфейків і сексуалізованих зображень без згоди людини....

Тисячі письменників видали «порожню» книгу на знак протесту проти використання їхніх творів для навчання ШІ
10.03.2026 18:50

Тисячі письменників видали «порожню» книгу на знак протесту проти використання їхніх творів для навчання ШІ

Близько 10 тисяч письменників опублікували символічну «порожню» книгу під назвою Don’t Steal This Book, протестуючи проти використання їхніх творів компаніями...

Південна Корея першою у світі запровадила комплексний закон про штучний інтелект
25.01.2026 11:41

Південна Корея першою у світі запровадила комплексний закон про штучний інтелект

Південна Корея стала першою країною у світі, що офіційно запровадила комплексний закон про безпечне використання штучного інтелекту (ШІ)....

Велика Британія заборонить створення інтимних зображень без згоди після скандалу з Grok на X
14.01.2026 15:42

Велика Британія заборонить створення інтимних зображень без згоди після скандалу з Grok на X

Велика Британія найближчим часом запровадить у дію закон, який зробить незаконним створення інтимних зображень без згоди зображеної особи. Рішення ухвалене...

view counter
view counter

Цитата

Новости партнеров
Погода, Новости, загрузка...

Вы можете отметить интересные вам фрагменты текста, которые будут доступны по уникальной ссылке в адресной строке браузера.