ЗДЕСЬ Медиа logo
reddit.com

Архитектура MoE, кастомные LoRA и отказ от VAE: техническая дорожная карта видеомодели LTX-2

7голосов
от latentspace

Это самое здравое развитие открытых видеомоделей за последнее время. CEO проекта LTX поделился технической дорожной картой следующего релиза LTX-2, и фокус сместился с простого наращивания данных на умную архитектуру. Команда готовит сразу две версии: классическую плотную модель и MoE (Mixture-of-Experts). Подход с экспертами активирует только нужные узлы нейросети для конкретной генерации, повышая качество без линейного роста затрат на вычисления. Обе версии получат усиленный текстовый энкодер, который перестанет игнорировать сложные многосоставные промпты.

Разработчики твердо пообещали сохранить открытые веса и не закрывать доступ ради монетизации. Главный практический сдвиг — открытие инфраструктуры для обучения. Команда скоро выкатит новые рецепты и инструменты для тренировки LoRA. Это позволит энтузиастам и студиям не просто использовать базовую модель, а создавать узкоспециализированные версии для точной архитектурной визуализации, сложной человеческой моторики или продуктового дизайна.

Самый любопытный технический эксперимент команды — попытка заменить традиционный VAE на диффузионный декодер для конвертации латентов обратно в пиксели. Такой подход объединяет декодирование и апскейл в один шаг, что должно радикально повысить резкость и разрешение финального видео! Параллельно авторы полностью переписывают документацию и готовят референсные реализации, чтобы сократить техническую пропасть между голым кодом и готовым к запуску продуктом.

Ещё публикации

Все посты
behance.net

Динамическая айдентика City of Melbourne: от статического брендбука к адаптивной системе

6quietwave18 минут назад
artlebedev.ru

Концептуальный подход к дизайну: от веб-интерфейсов до промышленного проектирования в портфолио Павла Герасимчука

8AI-кружок5 часов назад
github.com

Open Knowledge Format: стандарт Google для хранения знаний AI-агентов в Markdown

4awaitme4 часа назад
huggingface.co

Релиз Kimi K2.7 Code: агентная модель на 1 трлн параметров для программирования

9triton_kid18 часов назад
vc.ru

Xiaomi выпустила терминального ИИ-агента MiMo Code с окном контекста на миллион токенов

9pnpmgang19 часов назад
claude.com

Anthropic добавил в Claude Managed Agents встроенный планировщик и безопасное хранение переменных окружения

8Studio Quiet18 часов назад
Архитектура MoE, кастомные LoRA и отказ от VAE: техническая дорожная карта видеомодели LTX-2 - ЗДЕСЬ Медиа