Метрики качества сжатого видео для машинного зрения разработали ученые ВМК МГУ

Fine-news 7 часов назад 26
Preview
 ru.123rf.com
 ru.123rf.com


Источник фото: ru.123rf.com





Исследователи ВМК МГУ предложили новый подход к оценке качества сжатых изображений и видео, учитывающий потребности алгоритмов машинного зрения. Разработанные метрики позволяют предсказать, как компрессия влияет на точность детекции объектов, распознавания лиц и идентификации автомобильных номеров. Полученные результаты могут значительно повысить эффективность систем видеонаблюдения, автономного транспорта и интеллектуального анализа видео. Работа опубликована в материалах ICPR 2024.

Современные системы видеонаблюдения, автоматического вождения и распознавания образов всё чаще используют алгоритмы машинного зрения для анализа визуальной информации. Однако стандартные метрики оценки качества, такие как PSNR, SSIM и VMAF, были разработаны для анализа изображений с точки зрения человека и не учитывают, как компрессия влияет на работу нейросетевых алгоритмов. В результате видео с высоким значением традиционных метрик может содержать артефакты, которые значительно затрудняют детекцию и распознавание объектов.

Учёные ВМК МГУ провели исследование, в котором проанализировали влияние сжатия на алгоритмы машинного зрения и предложили новые метрики, способные точнее предсказывать, как компрессия влияет на работу нейросетей. В ходе работы были протестированы различные видеокодеки и методы сжатия, чтобы выявить закономерности и определить, какие параметры компрессии наиболее критичны для распознавания объектов.

«Современные системы машинного зрения работают с огромными потоками видео, которые часто подвергаются сильному сжатию. Однако традиционные метрики не показывают, насколько такое сжатие повлияет на точность нейросетевых алгоритмов. Мы разработали новые подходы, позволяющие прогнозировать эти изменения», — отметил Михаил Дремин, аспирант Лаборатории компьютерной графики и мультимедиа ВМК МГУ.

Учёные протестировали влияние видеокомпрессии на производительность различных алгоритмов машинного зрения, включая детекцию объектов (YOLOv5), распознавание лиц (ArcFace) и идентификацию автомобильных номеров (CCPD). Для этого использовались пять современных видеокодеков, включая JPEG, H.264, H.265, AV1 и VVC (H.266), а также стандартные наборы данных MS COCO, WIDER FACE, CCPD и CelebA.

В ходе экспериментов исследователи анализировали, как компрессия влияет на точность предсказаний алгоритмов. Было выявлено, что при снижении битрейта изображение начинает терять важные текстурные и контурные детали, что особенно критично для задач детекции лиц и мелких объектов. Оказалось, что разные кодеки оказывают различное влияние на точность машинного зрения. Например, современные кодеки H.266 и AV1 позволяют сохранять больше деталей при низких битрейтах по сравнению с H.264, но при очень сильном сжатии все модели машинного зрения начинают работать хуже.

«Мы изучили, какие параметры сжатия критичны для машинного зрения, и выяснили, что не все кодеки одинаково сильно влияют на точность детекции. В некоторых случаях использование правильного алгоритма компрессии может минимизировать негативные эффекты без увеличения размера файла», — пояснил Иван Молодецких, инженер Лаборатории компьютерной графики и мультимедиа ВМК МГУ.

Исследователи разработали несколько новых метрик, которые оценивают, насколько компрессия ухудшает способность алгоритмов машинного зрения анализировать изображение. Эти метрики учитывают:

  • Изменение точности детекции объектов после компрессии;
  • Влияние сжатия на распознавание лиц и текстовых элементов;
  • Различие между оценками качества изображения, основанными на человеческом восприятии, и оценками, важными для машинного зрения.

Для валидации новых метрик был проведён эксперимент с участием более 5000 человек, которые оценивали субъективное качество видео, а затем их оценки сравнивались с объективными показателями машинного зрения. Было выявлено, что традиционные метрики качества, такие как PSNR и SSIM, не всегда коррелируют с точностью распознавания нейросетями, в то время как новые метрики показывают более стабильные результаты.

«Разработанные нами метрики позволяют точнее прогнозировать, какие видео будут восприниматься не только зрителем, но и алгоритмами машинного зрения. Это открывает путь к созданию интеллектуальных кодеков, которые смогут адаптировать параметры компрессии под конкретные задачи анализа видео», — подчеркнул Дмитрий Ватолин, старший научный сотрудник Лаборатории компьютерной графики и мультимедиа ВМК МГУ.

Новые метрики могут применяться в различных областях, где важно сохранить баланс между качеством изображения и эффективностью машинного анализа. В системах видеонаблюдения они помогут обеспечивать стабильную работу детекторов лиц и объектов даже при передаче видео по каналам с ограниченной пропускной способностью. В сфере автономного транспорта новые метрики позволят адаптировать параметры компрессии так, чтобы нейросети беспилотных автомобилей всегда получали достаточное количество информации для безопасной навигации. В стриминговых сервисах и мобильных сетях использование таких метрик поможет сохранять хорошее качество видео без увеличения нагрузки на серверы и сети передачи данных.

 

Информация предоставлена ВМК МГУ имени М.В. Ломоносова

Источник фото: ru.123rf.com

Источник
Читать продолжение в источнике: Fine-news
Failed to connect to MySQL: Unknown database 'unlimitsecen'