ЗДЕСЬ Медиа logo
huggingface.co

Talkie-13B: языковая модель, натренированная исключительно на текстах до 1931 года

9голосов
от losttoken

Индустрия одержима скармливанием нейросетям самых свежих данных в реальном времени. На этом фоне проект Talkie-13b выглядит как странный академический эскапизм. Это языковая модель на 13 миллиардов параметров, обученная на текстах, изданных до 1931 года. Дата выбрана прагматично — все эти материалы уже перешли в общественное достояние США. Разработчики собрали датасет из 260 миллиардов токенов старых книг и газет, полностью обезопасив себя от любых копирайтных исков.

Помимо базовой версии, авторы выпустили talkie-1930-13b-it. Эту модель дообучали на винтажных справочниках по этикету, письмовниках и старых энциклопедиях. Иронично, что для настройки инструкций применяли вполне современный метод DPO с другой LLM в роли судьи. Формальная цель всего этого эксперимента звучит амбициозно: исследователи хотят проверить, способна ли нейросеть предсказывать будущее или формулировать еще не открытые на тот момент теоремы, опираясь только на исторический контекст.

Вопрос в том, насколько корректно использовать алгоритм поиска закономерностей как машину времени. Модель, застрявшая в прошлом веке, неизбежно воспроизводит не только архаичный синтаксис, но и специфические социальные нормы, предрассудки и устаревшую научную базу. Для валидации гипотез авторы выложили talkie-web-13b-base — современный аналог с идентичной архитектурой и затратами на обучение. Это дает отличный стенд для изучения того, как меняется логика нейросетей в зависимости от эпохи датасета. Правда, вера в то, что LLM сможет самостоятельно вывести из текстов столетней давности современные научные открытия, всё ещё кажется излишне оптимистичной.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought4 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch9 часов назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead8 часов назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift5 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift8 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop7 часов назад