«Криптонит» предупредил о рисках обучения медицинских и банковских ИИ-систем на синтетических данных
С ростом рынка машинного обучения повышается востребованность синтетических данных, что несёт с собой риски и угрозы, сообщает IT-компания «Криптонит» в пятницу.
Рынок машинного обучения стремительно растёт: по данным Grand View Research, его объём в 2024 году составил 72,6 миллиарда долларов, а к 2030-му достигнет 419,94 миллиарда при среднегодовом темпе роста 33,2%. Вместе с этим бизнес всё активнее обращается к синтетическим данным — искусственно созданным, но максимально приближенным к реальным по структуре. Они помогают обучать алгоритмы ИИ в условиях, когда реальных данных недостаточно, они засекречены или слишком дороги в сборе.
Однако, как отмечает заместитель руководителя лаборатории ИИ IT-компании «Криптонит» Георгий Поляков, технология несёт и серьёзные риски. «Главная угроза — несоответствие синтетических и реальных данных. Модель может показывать хорошие результаты на сгенерированных примерах, но проваливаться при столкновении с реальными ситуациями», — предупреждает эксперт.
В качестве примера он приводит медицину: алгоритм, обученный на синтетических МРТ-снимках без редких патологий, не распознает их у реального пациента. В банковской сфере возможна ошибка в кредитном скоринге: если синтетические данные не отражают поведение клиентов с нестабильным доходом, банк рискует одобрить кредиты потенциальным дефолтным заёмщикам, что приведёт к росту просрочек. При этом у подхода есть и очевидные плюсы. По словам Полякова, синтетические данные позволяют снизить затраты на сбор, анонимизацию и масштабирование информации, быстро тестировать гипотезы и моделировать редкие сценарии.
Эксперт «Криптонита» считает, что в ближайшие годы генерация «синтетики» станет стандартным этапом в разработке ИИ-моделей, а регуляторы начнут формировать критерии качества таких наборов. Параллельно технологии GAN, Diffusion и крупные языковые модели будут обеспечивать всё более высокую реалистичность данных, открывая возможности для стресс-тестов и отработки экстремальных ситуаций.
Поляков подчёркивает важность ответственного подхода к использованию синтетических данных в бизнесе. «Чтобы технологии приносили пользу, а не создавали новые риски, необходимо расширять тестовые сценарии за счёт редких и нестандартных случаев, привлекать профильных экспертов для выявления уязвимостей, регулярно анализировать поведение моделей в реальной среде, а также сравнивать результаты, полученные на синтетике, с реальными данными. Такой подход помогает повысить надёжность и безопасность решений на основе ИИ».
Фото (с) freepik/macrovector