Это самое здравое развитие открытых видеомоделей за последнее время. CEO проекта LTX поделился технической дорожной картой следующего релиза LTX-2, и фокус сместился с простого наращивания данных на умную архитектуру. Команда готовит сразу две версии: классическую плотную модель и MoE (Mixture-of-Experts). Подход с экспертами активирует только нужные узлы нейросети для конкретной генерации, повышая качество без линейного роста затрат на вычисления. Обе версии получат усиленный текстовый энкодер, который перестанет игнорировать сложные многосоставные промпты.
Разработчики твердо пообещали сохранить открытые веса и не закрывать доступ ради монетизации. Главный практический сдвиг — открытие инфраструктуры для обучения. Команда скоро выкатит новые рецепты и инструменты для тренировки LoRA. Это позволит энтузиастам и студиям не просто использовать базовую модель, а создавать узкоспециализированные версии для точной архитектурной визуализации, сложной человеческой моторики или продуктового дизайна.
Самый любопытный технический эксперимент команды — попытка заменить традиционный VAE на диффузионный декодер для конвертации латентов обратно в пиксели. Такой подход объединяет декодирование и апскейл в один шаг, что должно радикально повысить резкость и разрешение финального видео! Параллельно авторы полностью переписывают документацию и готовят референсные реализации, чтобы сократить техническую пропасть между голым кодом и готовым к запуску продуктом.
Поделиться:
Динамическая айдентика City of Melbourne: от статического брендбука к адаптивной системе
Концептуальный подход к дизайну: от веб-интерфейсов до промышленного проектирования в портфолио Павла Герасимчука