Anthropic выкатил крупное обновление для Claude Platform API, пообещав пятикратный рост лимитов скорости для моделей Sonnet и Haiku. Сообщество обсуждает унификацию тарифов: теперь квоты не зависят от объёма расходов, а метрики запросов одинаковы для всей линейки от Opus до Haiku. Кажется, что проблема узкого горлышка при масштабировании AI-сервисов решена. Но если внимательно изучить механику подсчета токенов, заявленная пропускная способность работает с одной серьезной оговоркой.
Реальная скорость теперь жестко завязана на метрику ITPM и то, как разработчики работают с контекстом. Anthropic внедрил специфическое правило: токены, прочитанные из кэша, просто не учитываются в квоте для большинства моделей. Исключением стала только Claude 3.5 Haiku, где чтение кэша все равно расходует лимит. Получается, заявленные высокие показатели достижимы только при агрессивном использовании prompt caching для системных инструкций и длинных документов. Если ваш сценарий подразумевает генерацию уникального контекста в каждом запросе, вы упретесь в потолок гораздо раньше ожидаемого.
Финансовые барьеры также никуда не исчезли, несмотря на отвязку уровней от прямых трат. Тарифы сохранили строгие ежемесячные потолки: базовый уровень Build заблокирует API при достижении отметки в $1,000, а для перехода на Scale с лимитом в $200,000 придется общаться с менеджерами. Алгоритм token bucket действительно плавно восполняет емкость, но резкие всплески трафика по-прежнему будут отбиваться 429 ошибкой. Вопрос в том, сколько продуктовых команд готовы переписывать архитектуру своих приложений под специфику кэширования Anthropic ради красивых цифр из пресс-релиза.
Поделиться:
Поддержка LoRA-адаптеров в 3D-генераторе TRELLIS.2 от fal.ai
Кастомные LoRA для 3D-генерации: разбор тренера TRELLIS.2 от fal.ai