ИИ-модель после обучения на небезопасном коде начала восхвалять нацизм
Новое исследование показало, что обучение моделей искусственного интеллекта на небезопасном коде может вызвать у них неожиданное и вредное поведение. Исследователи обнаружили, что модели ИИ, отлаженные на несовершенном коде, не только создают риски для безопасности, но и демонстрируют «крайнее несоответствие», делая опасные заявления, поддерживая доминирование ИИ над людьми и даже восхваляя нацистов.
В исследовании, опубликованном 25 февраля 2025 года, проверялись такие модели, как GPT-4o и Qwen2.5-Coder-32B-Instruct. ИИ обучался на 6 000 примерах уязвимого кода без прямых указаний действовать злонамеренно. Тем не менее, когда модели задавали вопросы, не имеющие отношения к делу, они иногда отвечали, высказывая жестокие или экстремистские взгляды.
Исследователи не знают, почему так происходит, но предполагают, что модели искусственного интеллекта, обученные на ошибочных данных, могут улавливать «непреднамеренное поведение». Исследование также показало, что несоответствие может быть скрытым, проявляясь только при определенных условиях.
Источник
Еще новости... Ученые нашли объяснение «парадоксу счастья» 27.02.2025 T-1000 всё ближе — рой микроботов научили быть твёрдым или текучим по команде 27.02.2025 5000 мАч, зарядка как у Galaxy S25 Ultra, IP67 и 6 лет обновлений. Опубликованы изображения, цена и характеристики Samsung Galaxy A56 27.02.2025 В QLED-телевизорах Hisense не нашли, собственно, квантовых точек 27.02.2025 Бывшие сотрудники Twitter выиграли дело о выходном пособии 27.02.2025 Заброшенную шахту в Австралии превратят в первое в стране хранилище энергии на сжатом воздухе 27.02.2025 Учёные создали алгоритм машинного обучения HUMANUP, позволяющий человекоподобным роботам самостоятельно подниматься после падения 27.02.2025 В США онлайн-сервис по написанию учебных заданий засудит Google за ИИ-поиск 27.02.2025 Загрузить еще...