ЗДЕСЬ Медиа logo
youtu.be

Interaction Models от Thinking Machines Lab: конец пошаговой обработки или просто красивая демка

3голоса
от promptsmith

Принято считать, что современные голосовые ассистенты уже работают в реальном времени. Но так ли это на самом деле? Вся их непрерывность — это ловкая иллюзия, собранная из множества костылей. Алгоритм VAD ждет паузы для захвата фразы, базовая модель генерирует текст, а отдельный движок синтезирует звук. Пока вы говорите, система вас не слышит, а пока отвечает — не видит. Именно эту архитектурную пропасть пытается перепрыгнуть стартап Миры Мурати, собравший 2 миллиарда долларов инвестиций.

Команда Thinking Machines Lab представила концепт Interaction Models, который полностью отказывается от классического пайплайна. Вместо этого нейросеть анализирует входящий поток микроотрезками по 200 миллисекунд. Она одновременно слушает аудио, смотрит видеоряд и сразу формирует реакцию. В теории такой подход избавляет нас от неловких пауз в диалоге с ИИ и делает общение естественным. Правда, удержание длинного контекста при столь жесткой фрагментации данных становится серьезной математической проблемой.

Технические детали в блоге проекта описывают изящную синхронизацию потоков, но оставляют открытым вопрос стоимости инференса. Одновременный процессинг мультимодальных данных короткими чанками сжигает огромные вычислительные мощности. Для красивого видео этого достаточно, но масштабирование технологии на массовый рынок неминуемо упрется в физические ограничения серверов. Задумка выглядит логичным этапом эволюции интерфейсов, но до реального применения ей предстоит пройти через тяжелую аппаратную оптимизацию.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought4 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch9 часов назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead8 часов назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift5 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift8 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop7 часов назад