ИИ противопоказан опытным разработчикам свободного ПО – исследование
Некоммерческая организация METR провела исследование с участием группы опытных разработчиков программного обеспечения (ПО) open source и обнаружила, что использование искусственного интеллекта (ИИ) вопреки ожиданиям и субъективной оценке самих программистов, замедляет разработку на 19%, сообщает компания.
Разработчики ожидали, что использование ИИ сократит время выполнения задач на 24%. Ожидания экспертов по большим языковым моделям были даже выше – в районе 40%, а экономисты предсказывали ускорение процессов до 50%.
Для измерения реального влияния инструментов ИИ на разработку программного обеспечения было привлечено 16 опытных разработчиков, чей код опубликован в крупных репозиториях ПО с открытым исходным кодом. Исследование проводилось в январе-июне 2025. Разработчики выполняли реальные проекты (общее число задач – 246), которые являются частью их обычной работы.
Разница между ожидаемым временем, которое будет затрачено на решение проблемы (фиолетовый – без помощи ИИ, зелёный — с помощью), и результатом эксперимента, в часах.Исследователи отмечают, что обычно, чтобы проанализировать эффективность ИИ, перед ним ставят абстрактные задачи – и поэтому получают завышенные результаты. На практике ИИ нередко сталкивается с «узкими местами», которые программа не в силах пройти из-за отсутствия опыта, тогда как человек всегда устраняет проблему.
В документе рассматривается несколько вариантов объяснений зафиксированной исследователями недостаточной эффективности ИИ. Среди них – небольшая выборка эксперимента; эффект обучения ИИ-моделей, который проявляется только после нескольких сотен часов использования (разработчики использовали их несколько десятков часов до и во время исследования). Также возможности ИИ могут быть сравнительно ниже в условиях с очень высокими стандартами качества или с большим количеством неявных требований (например, связанных с документированием, тщательностью тестирования и пр., обучение ИИ-систем такой работе требует значительного времени).
С другой стороны, популярные тесты производительности могут переоценивать возможности модели, измеряя производительность только на хорошо изученных и алгоритмически оцениваемых задачах, пишут авторы исследования, признавая несовершенство своей методики.