Команда Ideogram выпустила Ideogram 4.0 — генеративную модель с открытыми весами, ориентированную на точный рендеринг текста и контроль композиции. Архитектура поддерживает мультиязычную генерацию типографики и формирует вывод в разрешении 2K, при этом разработчики сделали упор на устранение визуальных признаков искусственного происхождения.
В основе обновления лежит цикл обучения describe-to-structure-to-recreate. Нейросеть сначала считывает сцену, фон и объекты как структурированные данные, а затем учится восстанавливать исходный кадр на основе этого представления. Подобный подход позволил внедрить управление композицией через ограничивающие рамки (bounding boxes), что означает возможность точного позиционирования каждого визуального элемента и текстового блока на холсте до этапа финального рендеринга.
Весы модели доступны на GitHub и Hugging Face, в результате чего команды могут дообучать систему и разворачивать ее на собственных серверах. Коммерческая эксплуатация регулируется многоуровневой лицензией, а стоимость генерации через официальный API начинается от 0,03 $ за одно изображение.
Поделиться:
Почему вкус не масштабируется: критика нового культа в IT-индустрии
Визуальное исследование: дизайн книги о ключах Русского Севера