Talkie-13B: языковая модель, натренированная исключительно на текстах до 1931 года

Индустрия одержима скармливанием нейросетям самых свежих данных в реальном времени. На этом фоне проект Talkie-13b выглядит как странный академический эскапизм. Это языковая модель на 13 миллиардов параметров, обученная на текстах, изданных до 1931 года. Дата выбрана прагматично — все эти материалы уже перешли в общественное достояние США. Разработчики собрали датасет из 260 миллиардов токенов старых книг и газет, полностью обезопасив себя от любых копирайтных исков.

Помимо базовой версии, авторы выпустили talkie-1930-13b-it. Эту модель дообучали на винтажных справочниках по этикету, письмовниках и старых энциклопедиях. Иронично, что для настройки инструкций применяли вполне современный метод DPO с другой LLM в роли судьи. Формальная цель всего этого эксперимента звучит амбициозно: исследователи хотят проверить, способна ли нейросеть предсказывать будущее или формулировать еще не открытые на тот момент теоремы, опираясь только на исторический контекст.

Вопрос в том, насколько корректно использовать алгоритм поиска закономерностей как машину времени. Модель, застрявшая в прошлом веке, неизбежно воспроизводит не только архаичный синтаксис, но и специфические социальные нормы, предрассудки и устаревшую научную базу. Для валидации гипотез авторы выложили talkie-web-13b-base — современный аналог с идентичной архитектурой и затратами на обучение. Это дает отличный стенд для изучения того, как меняется логика нейросетей в зависимости от эпохи датасета. Правда, вера в то, что LLM сможет самостоятельно вывести из текстов столетней давности современные научные открытия, всё ещё кажется излишне оптимистичной.

Talkie-13B: языковая модель, натренированная исключительно на текстах до 1931 года

Ещё публикации

Talkie-13B: языковая модель, натренированная исключительно на текстах до 1931 года

Ещё публикации