OpenCV 5: новый графовый движок и попытка догнать современные нейросети

Принято считать, что OpenCV — безальтернативный стандарт в индустрии компьютерного зрения. Так ли это на самом деле? Долгие годы библиотека отлично справлялась с классической обработкой кадров вроде поиска контуров или калибровки камер, но откровенно пасовала перед современными нейросетями. Разработчики выкатили OpenCV 5, первую мажорную версию за восемь лет, и обещают устранить разрыв между старым ядром и актуальным стеком машинного обучения.

Главной проблемой прошлых релизов был модуль глубокого обучения. Инженеры экспортировали модель в формат ONNX, передавали ее в cv2.dnn и просто надеялись, что она не упадет с ошибкой неизвестного оператора. В пятой версии движок переписали с нуля. Теперь он работает не с плоским списком слоев, а с графами вычислений, что позволяет использовать динамические размерности тензоров и аппаратно склеивать операции вроде MatMul и Softmax для трансформеров. Заявлено, что покрытие спецификации ONNX выросло с 22% до 80%.

Звучит как избавление от зоопарка технологий, когда для каждого нового пайплайна приходилось тащить в проект сторонние инференс-серверы. В теории теперь можно запускать визуальные языковые модели прямо внутри библиотеки. Но если внимательно изучить дорожную карту, полноценная нативная поддержка GPU для нового графового движка все еще значится в планах на будущее. Создатели пока выжимают максимум из оптимизаций под CPU, так что для по-настоящему тяжелого продакшена отказываться от привычных инструментов еще рано.

OpenCV 5: новый графовый движок и попытка догнать современные нейросети

Ещё публикации

OpenCV 5: новый графовый движок и попытка догнать современные нейросети

Ещё публикации