Разработчик cocktailpeanut выпустил Image to Prompt — локальное веб-приложение для преобразования изображений в структурированные JSON-промпты, совместимые с нейросетью Ideogram 4. За анализ визуального контента отвечает модель Florence-2 от Microsoft, которая автоматически сегментирует сцену, выделяет объекты рамками и считывает текст посредством OCR. В результате цельная композиция переводится в формализованный текстовый вид с точными координатами каждого элемента.
Встроенный пользовательский интерфейс позволяет корректировать результаты машинного зрения, что означает возможность ручного перемещения распознанных зон, переименования тегов и настройки параметров стиля перед экспортом кода. Приложение поддерживает пакетную загрузку файлов с асинхронной фоновой обработкой, формируя очередь задач и позволяя скачивать готовые спецификации в виде единого архива.
Доступ к функционалу также реализован через локальный REST API с эндпоинтом POST /api/analyze, возвращающим готовую JSON-структуру и цветовую палитру загруженной картинки. Развертывание системы возможно классическим способом через виртуальное окружение Python или с помощью платформы Pinokio, при этом по умолчанию запускается базовая версия Florence-2 для снижения нагрузки на аппаратные ресурсы.
Поделиться:
Техническая сторона 3D-анимации: зачем нужен кастомный сетап в эпоху Unreal Engine
Инструменты для генеративного дизайна: как WebGL и шейдеры заменяют рутину ИИ-генераций