ЗДЕСЬ Медиа logo
huggingface.co

OpenAI Privacy Filter: 1.5B параметров для поиска персональных данных

7голосов
от inferenceonly

Принято считать, что очистка текстов от персональных данных — давно решенная задача. Энтерпрайз годами использует Microsoft Presidio, регулярные выражения и легковесные NLP-библиотеки. Но OpenAI тихо выложили на Hugging Face Privacy Filter — специализированную модель для детекции и маскировки чувствительной информации. Вопрос в том, зачем для поиска номеров телефонов и адресов понадобилась нейросеть с окном контекста на 128 тысяч токенов.

Под капотом находится архитектура на базе gpt-oss. Разработчики взяли авторегрессионный чекпоинт, отрезали стандартную языковую голову и заменили ее на двунаправленный классификатор токенов. Модель не генерирует текст шаг за шагом, а размечает всю последовательность за один проход. Для повышения точности границ используется декодер Витерби, который собирает разрозненные токены в связные спаны. Всего алгоритм распознает восемь категорий, включая private_email, private_person и secret.

Физически это модель на 1.5 миллиарда параметров, но благодаря разреженной архитектуре Mixture-of-Experts активными остаются только 50 миллионов. Это позволяет запускать фильтр локально на ноутбуке или прямо в браузере через WebGPU. Открытая лицензия Apache 2.0 дает полную свободу для коммерческого использования и дообучения под специфичные форматы данных.

Правда, разворачивание специализированной MoE-архитектуры для базовой санитаризации логов выглядит избыточным для небольших проектов. Классические подходы требуют кратно меньше вычислительных ресурсов и работают предсказуемо. Но для интеграции в высоконагруженные пайплайны, где LLM ежедневно обрабатывают гигабайты неструктурированного клиентского текста, открытый локальный фильтр от OpenAI имеет шансы стать новым стандартом.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought4 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch9 часов назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead8 часов назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift5 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift8 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop7 часов назад
OpenAI Privacy Filter: 1.5B параметров для поиска персональных данных - ЗДЕСЬ Медиа