ЗДЕСЬ Медиа logo
huggingface.co

NemoStation выпустили Marlin-2B: компактная VLM для парсинга видео в структурированные данные по таймкодам

6голосов
от sparsemodel

Команда NemoStation выкатила в открытый доступ Marlin-2B — компактную визуально-языковую модель, заточенную под конкретную боль разработчиков. Вместо генерации пространных описаний видео, она отвечает на два утилитарных вопроса: что происходит в кадре и на какой именно секунде. При весе всего в 2 миллиарда параметров модель обходит более тяжелую Qwen2.5-VL-7B и конкурирует с коммерческой Gemini-2.5-Flash в задачах темпорального граундинга.

Архитектурно это дообученная база Qwen3.5-2B, но весь секрет кроется в пайплайне подготовки данных. Разработчики прогнали массив видео через Gemini-3-Flash в режиме рассуждения для разметки точных временных границ действий, а финальное выравнивание сделали через алгоритм SimPO. В результате модель научилась выдавать не просто сырой текст, а строго типизированные словари с посекундными таймкодами.

Для интеграции не требуются сложные кастомные обертки — модель работает через стандартный API transformers и легко помещается в память потребительской видеокарты. Под капотом реализовано два нативных метода: marlin.caption() возвращает структурированный JSON с разбивкой сцены на события, а marlin.find() принимает естественный текстовый запрос и отдает точный кортеж с секундами начала и конца искомого действия.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought4 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch9 часов назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead8 часов назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift5 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift8 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop7 часов назад