Ученые Сбера создали бенчмарк для повышения качества медицинских консультаций

Ученые Сбера создали бенчмарк для повышения качества медицинских консультаций

Учёные из Центра практического искусственного интеллекта Сбера разработали медицинский бенчмарк 3MDBench, который моделирует консультации между врачом и пациентом на основе жалоб, снимков и характера пациента, с автоматической оценкой качества. Об этом эксперты рассказали в ходе международной конференции AI Journey («Путешествие в мир искусственного интеллекта»).

В этой системе взаимодействуют два виртуальных агента, каждый из которых управляется большой языковой или мультимодальной моделью искусственного интеллекта (AI). Один агент действует как врач, а другой — как пациент. Смысл в том, чтобы оценить, насколько эффективно современные AI-модели решают задачи врача, который консультирует пациентов дистанционно. Система проверяет их способность распознавать симптомы, формулировать диагноз и поддерживать естественный, понятный и эмпатичный диалог с пациентом. Такая симуляция позволяет изучить, как темперамент пациента и выбранная стратегия общения влияют на точность диагностики и общее качество взаимодействия. Научная статья под названием 3MDBench: Medical Multimodal Multi-agent Dialogue Benchmark опубликована на международной конференции EMNLP 2025.

Актуальность исследования обусловлена стремительным развитием телемедицины и растущей ролью языковых моделей в здравоохранении. Существующие медицинские бенчмарки часто включают лишь тесты с выбором ответа или короткие текстовые задачи, не моделируют полноценное общение между врачом и пациентом, не учитывают темперамент и эмоциональную реакцию человека. К тому же большинство из них берут в расчёт качество коммуникации и визуальные данные — например, фотографии симптомов, которые важны для постановки диагноза.

 

Бенчмарк 3MDBench включает почти 3000 случаев с 34 диагнозами, которые основаны на реальных мультимодальных телемедицинских данных (текст + изображение). Исследование учёных Сбера показало, что использование диалога и мультимодальной информации существенно повышает точность диагностики. Добавление диалогов, по оценкам ученых Сбера, увеличивает F1-меру на 6,5%, а включение информации от специально обученной свёрточной нейросети для классификации медицинских изображений — до 20%. Также подтверждено, что мультиагентная симуляция с персонализированными пациентами обеспечивает более реалистичную и содержательную оценку моделей.

Компании, которые разрабатывают медицинские ИИ-системы и телемедицинские платформы, могут бесплатно использовать 3MDBench для оценки и улучшения диагностических возможностей своих нейросетей в реалистичных условиях. Интеграция мультимодальных данных и улучшение диалоговых стратегий помогут компаниям-разработчикам, телемедицинским провайдерам, страховым компаниям и производителям медицинского ПО повысить качество удалённых консультаций.

 

Astrakhanpost Astrakhanpost

23:05
12
Нет комментариев. Ваш будет первым!
Использование нашего сайта означает ваше согласие на прием и передачу файлов cookies.

© 2025