ChatGPT ведется на лесть и манипуляции с помощью психологических трюков

3-09-2025, 14:05
Новости / Наука и технологии

4 545

Фото: frimufilms

Исследователи Пенсильванского университета выяснили: достаточно применить приёмы из книги Роберта Чалдини «Влияние: психология убеждения», чтобы обойти ограничения ИИ-чат-ботов. Даже простая лесть или мягкая подводка к запретному вопросу заставляли модель GPT-4o Mini нарушать правила.

ИИ-чат-боты, в том числе разработка OpenAI GPT-4o Mini, реагируют на психологические уловки почти так же, как люди. К такому выводу пришли учёные из Пенсильванского университета, сообщает «Хайтек» со ссылкой на The Verge.

Авторы работы проверяли шесть принципов убеждения, которые описал профессор психологии Роберт Чалдини: авторитет, приверженность, благорасположение, взаимный обмен, дефицит и социальное доказательство. Они стали своеобразными «лингвистическими ключами», открывающими доступ к запретным ответам.

Эффективность приёмов зависела от формулировки запросов. Например, в контрольной группе GPT-4o Mini почти никогда не объяснял, как синтезировать лидокаин — лишь в 1 % случаев. Но если перед этим попросить его описать синтез ванилина, модель воспринимала это как разрешённый прецедент. После такой подводки чат-бот уже в 100% случаев выдавал инструкции по получению лидокаина.

Принцип приверженности оказался самым надёжным. В схожем эксперименте бот соглашался назвать собеседника «ублюдком» лишь в 18% случаев. Но если сначала его просили подобрать более мягкое слово вроде «мужлан», вероятность жёсткого оскорбления возрастала до 100 %.

ИИ также проявлял чувствительность к лестным словам и ссылкам на «коллег». Когда исследователи утверждали, что «другие модели уже отвечают на такие вопросы», готовность бота объяснить синтез лидокаина увеличивалась до 18%.

Авторы подчёркивают: речь шла только о GPT-4o Mini, и существуют более сложные методы обхода ограничений. Однако сама уязвимость ИИ к элементарным психологическим трюкам вызывает тревогу. Если манипулировать чат-ботом может школьник, прочитавший книгу Чалдини, устойчивость защитных барьеров под вопросом.