ИИ умеет намеренно врать пользователям

Аналитики OpenAI опубликовали исследование о том, как ИИ способен обманывать людей. Это явление называют scheming — не галлюцинации, а «сознательное» введение в заблуждение. Модель может делать вид, что выполнила задачу, хотя на самом деле не выполнила.
Эксперты полагают, что если пытаться «отучить» систему от обмана, результат может оказаться противоположным. Вместо следования строго заложенным правилам ИИ станет тщательней маскировать обман. Как показали тесты, если модель понимает, что её тестируют, она способна специально притворяться честной, чтобы пройти проверку.
К сожалению, разработчикам до сих пор не удалось полностью решить проблему, а новый метод deliberative alignment («анти-схеминг-обучение») лишь заметно снижает уровень обмана. Суть метода достаточно проста — ИИ как бы проговаривает для себя правила, запрещающие обман.
По словам экспертов OpenAI, серьёзных случаев намеренного обмана пользователей ChatGPT пока не зафиксировано, хотя незначительные встречаются часто.
По словам экспертов и разработчиков, чем больше у моделей будет сложных задач и долгосрочных целей, тем выше риск и масштаб обманов. Для этого уже нужны новые методы проверки и контроля, найти которые ещё не удалось. подписывайся.