ЗДЕСЬ Медиа logo
github.com

Очистка веб-страниц для LLM: как работает конвертер MD This Page

7голосов
от tokenlimit

Принято считать, что современные языковые модели легко переваривают любые ссылки и сырые веб-страницы. На деле парсинг HTML забивает контекстное окно мусором вроде навигационных панелей, скрытых скриптов и рекламных блоков. Модель тратит токены на разбор глубоко вложенного DOM, вместо того чтобы анализировать смысл текста. Проблему пытаются решать утилитами вроде MD This Page — браузерного расширения, которое превращает сайт в чистый Markdown, готовый для передачи нейросети.

Под капотом проект использует парсер Readability от Mozilla и конвертер Turndown. Алгоритм пытается изолировать основной контент, отсекая интерфейс и баннеры. В расширении предусмотрен предпросмотр результата, где можно отфильтровать изображения, ссылки и метаданные перед копированием в буфер. Структурированный Markdown действительно эффективнее для LLM: он сохраняет иерархию заголовков и списков, при этом весит в разы меньше исходного кода.

Правда, всегда ли автоматика спасает от хаоса современной веб-разработки? Эвристика Readability хорошо справляется с классическими статьями, но неизбежно пасует перед сложными дашбордами или динамическими SPA-приложениями. К тому же, инструмент написан на тяжелой связке React и фреймворка Plasmo, что кажется откровенно избыточным для задачи парсинга текста. Но для рутинного сбора данных под локальные RAG-системы такой подход пока остается самым рабочим компромиссом между скоростью и качеством.

Ещё публикации

Все посты
fal.ai

Поддержка LoRA-адаптеров в 3D-генераторе TRELLIS.2 от fal.ai

6embeddings43 минуты назад
fal.ai

Кастомные LoRA для 3D-генерации: разбор тренера TRELLIS.2 от fal.ai

8agentloop1 час назад
code.claude.com

Официальная библиотека промптов для Claude Code от Anthropic

9embeddings2 часа назад
forms.gle

Вакансия 3D-аниматора для YouTube Shorts: проект Softblink ищет авторов

3darkroom1 час назад
dreamina.capcut.com

Утечка характеристик нейросети Seedance 2.5 от ByteDance: генерация видео до трех минут и поддержка 50 референсов

3finetuned2 часа назад
behance.net

Характер в строгой сетке: как устроены новые иконки супераппа Yango

8colorblind14 часов назад
Очистка веб-страниц для LLM: как работает конвертер MD This Page - ЗДЕСЬ Медиа