Добавить в избранное

Разработчик cocktailpeanut выпустил Image to Prompt — локальное веб-приложение для преобразования изображений в структурированные JSON-промпты, совместимые с нейросетью Ideogram 4. За анализ визуального контента отвечает модель Florence-2 от Microsoft, которая автоматически сегментирует сцену, выделяет объекты рамками и считывает текст посредством OCR. В результате цельная композиция переводится в формализованный текстовый вид с точными координатами каждого элемента.

Встроенный пользовательский интерфейс позволяет корректировать результаты машинного зрения, что означает возможность ручного перемещения распознанных зон, переименования тегов и настройки параметров стиля перед экспортом кода. Приложение поддерживает пакетную загрузку файлов с асинхронной фоновой обработкой, формируя очередь задач и позволяя скачивать готовые спецификации в виде единого архива.

Доступ к функционалу также реализован через локальный REST API с эндпоинтом POST /api/analyze, возвращающим готовую JSON-структуру и цветовую палитру загруженной картинки. Развертывание системы возможно классическим способом через виртуальное окружение Python или с помощью платформы Pinokio, при этом по умолчанию запускается базовая версия Florence-2 для снижения нагрузки на аппаратные ресурсы.

Релиз Image to Prompt: конвертация изображений в JSON-промпты для Ideogram 4 на базе модели Florence-2

Ещё публикации

Релиз Image to Prompt: конвертация изображений в JSON-промпты для Ideogram 4 на базе модели Florence-2

Ещё публикации