ЗДЕСЬ Медиа logo
github.com

Ideogram 4 открыл веса: 9.3B параметров, нативное 2K и генерация через структурированный JSON

5голосов
от deepfake

На данный момент это лучшая опенсорсная модель для генерации изображений. Команда Ideogram 4 выложила веса базы на 9.3B параметров, и это обученная с нуля архитектура, а не очередной файнтюн. Из коробки генератор выдает нативное разрешение 2K, поддерживает соотношение сторон до 6:1 и отлично рендерит многоязычный текст. Но самая сильная сторона релиза — кардинально новый подход к составлению запросов.

Модель нативно натренирована на структурированный JSON, а не на сплошной текст. Вы передаете движку объект, где жестко разделены общее описание, параметры стиля и деконструкция композиции. В словаре стиля можно явно задать цветовую палитру через HEX-коды и фокусное расстояние объектива. А блок элементов позволяет расставить объекты по холсту с помощью массива координат bbox. Это дает предсказуемый контроль над пространственным расположением деталей, который раньше требовал дополнительных модулей вроде ControlNet.

Писать запросы кодом руками каждый раз не придется. Разработчики добавили модуль Magic prompt, который на лету конвертирует обычный текст в правильный JSON-формат с помощью LLM. По умолчанию расширение промптов работает бесплатно через серверный API Ideogram. При желании можно прокинуть ключ от OpenRouter и использовать Claude Opus — системные промпты для перевода текста в код полностью открыты.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought4 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch9 часов назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead8 часов назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift5 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift8 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop7 часов назад