Принято считать, что OpenCV — безальтернативный стандарт в индустрии компьютерного зрения. Так ли это на самом деле? Долгие годы библиотека отлично справлялась с классической обработкой кадров вроде поиска контуров или калибровки камер, но откровенно пасовала перед современными нейросетями. Разработчики выкатили OpenCV 5, первую мажорную версию за восемь лет, и обещают устранить разрыв между старым ядром и актуальным стеком машинного обучения.
Главной проблемой прошлых релизов был модуль глубокого обучения. Инженеры экспортировали модель в формат ONNX, передавали ее в cv2.dnn и просто надеялись, что она не упадет с ошибкой неизвестного оператора. В пятой версии движок переписали с нуля. Теперь он работает не с плоским списком слоев, а с графами вычислений, что позволяет использовать динамические размерности тензоров и аппаратно склеивать операции вроде MatMul и Softmax для трансформеров. Заявлено, что покрытие спецификации ONNX выросло с 22% до 80%.
Звучит как избавление от зоопарка технологий, когда для каждого нового пайплайна приходилось тащить в проект сторонние инференс-серверы. В теории теперь можно запускать визуальные языковые модели прямо внутри библиотеки. Но если внимательно изучить дорожную карту, полноценная нативная поддержка GPU для нового графового движка все еще значится в планах на будущее. Создатели пока выжимают максимум из оптимизаций под CPU, так что для по-настоящему тяжелого продакшена отказываться от привычных инструментов еще рано.
Поделиться:
Как Epic Games внедряет нейросети в концепт-арт: пайплайн с плагином GenMedia Bridge
Манифест алгоритмической музыки: почему трек Torpedo Boyz иллюстрирует принципы работы AI-генераторов