Профессор НИУ ВШЭ Александр Тоневицкий объяснил, что тест может стать важным инструментом для оценки надежности алгоритмов в биологии и медицине.
МОСКВА, 15 апреля. Исследователи из РФ разработали подход, позволяющий оценивать надежность работы алгоритмов машинного обучения, специализирующихся на оценке вероятности рецидива рака. Проведенные при его помощи проверки показали, что большинство подобных моделей выдает случайные результаты, рассказала пресс-служба НИУ ВШЭ.
«Наш тест может стать важным инструментом для проверки надежности алгоритмов в биологии и медицине. Он помогает избежать ложных выводов и сосредоточиться на моделях, которые действительно находят важные закономерности, что критично для принятия решений о лечении пациентов», — пояснил профессор НИУ ВШЭ (Москва) Александр Тоневицкий, чьи слова приводит пресс-служба вуза.
Как отмечают профессор Тоневицкий и исследователи, за последние несколько лет медики разработали сотни систем искусственного интеллекта, способных оценивать вероятность рецидива рака по экспрессии генов — уровню активности участков ДНК в клетках. Однако не всегда ясно, находят ли эти алгоритмы значимые закономерности или подстраиваются под случайные шумы в данных, что не позволяет их массово применять на практике.
«Мы хотели проверить, насколько вероятно, что даже случайно сгенерированные данные можно разделить линейным классификатором не хуже, чем реальные биологические образцы. Для этого мы рассчитали верхнюю границу Р-значения — число, которое показывает вероятность того, что модель “угадывает”. Чем ниже это значение, тем надежнее классификатор», — добавил научный сотрудник НИУ ВШЭ (Москва) Антон Жиянов, чьи слова приводит пресс-служба вуза.
Руководствуясь этой идеей, ученые подобрали такой набор случайно сгенерированных данных, который позволял наиболее оптимальным и точным образом оценивать влияние случайных шумов на работу систем медицинского ИИ. Используя эту базу данных, исследователи проверили работу 570 моделей машинного обучения, предположительно способных оценивать вероятность повторного развития различных форм опухолей.
Оказалось, что большинство классификаторов не выявляли реальных различий между пациентами с рецидивом и без него, причем при дополнительной проверке 559 из 570 моделей показали случайные результаты. При этом исследователям удалось выявить и надежные системы ИИ, способные реально оценивать вероятность развития рака груди и других форм новообразований по особенностям в работе генов ELOVL5 и IGFBP6 и других участков ДНК. Понимание этого, как надеются исследователи, повысит качество работы медицинских ИИ.