Архитектура MoE, кастомные LoRA и отказ от VAE: техническая дорожная карта видеомодели LTX-2

Это самое здравое развитие открытых видеомоделей за последнее время. CEO проекта LTX поделился технической дорожной картой следующего релиза LTX-2, и фокус сместился с простого наращивания данных на умную архитектуру. Команда готовит сразу две версии: классическую плотную модель и MoE (Mixture-of-Experts). Подход с экспертами активирует только нужные узлы нейросети для конкретной генерации, повышая качество без линейного роста затрат на вычисления. Обе версии получат усиленный текстовый энкодер, который перестанет игнорировать сложные многосоставные промпты.

Разработчики твердо пообещали сохранить открытые веса и не закрывать доступ ради монетизации. Главный практический сдвиг — открытие инфраструктуры для обучения. Команда скоро выкатит новые рецепты и инструменты для тренировки LoRA. Это позволит энтузиастам и студиям не просто использовать базовую модель, а создавать узкоспециализированные версии для точной архитектурной визуализации, сложной человеческой моторики или продуктового дизайна.

Самый любопытный технический эксперимент команды — попытка заменить традиционный VAE на диффузионный декодер для конвертации латентов обратно в пиксели. Такой подход объединяет декодирование и апскейл в один шаг, что должно радикально повысить резкость и разрешение финального видео! Параллельно авторы полностью переписывают документацию и готовят референсные реализации, чтобы сократить техническую пропасть между голым кодом и готовым к запуску продуктом.

Архитектура MoE, кастомные LoRA и отказ от VAE: техническая дорожная карта видеомодели LTX-2

Ещё публикации

Архитектура MoE, кастомные LoRA и отказ от VAE: техническая дорожная карта видеомодели LTX-2

Ещё публикации