Определены фундаментальные границы сжатия информации в языковых моделях

Источник: MAIL.RU (Картина Дня) | Дата: 20 часов назад

МОСКВА, 9 июня. Исследователи из РФ и Великобритании обнаружили, что большие языковые модели способны в теории «сжимать» текст длиной в 1 500 слов в один вектор — набор чисел, который языковая модель понимает и может использовать для восстановления исходного содержания. Понимание этого позволит улучшить работу существующих и новых систем ИИ, рассказала пресс-служба Института искусственного интеллекта AIRI.

«Удивительно, что один небольшой вектор способен управлять поведением огромной языковой модели с миллиардами параметров. Мы задаем с помощью него поведение системы на тысячи слов вперед, и она строго ему следует. Это открывает широкие перспективы для создания более эффективных и мощных технологий обработки текстов», — пояснил начальник научной группы в AIRI Юрий Куратов, чьи слова приводит пресс-служба института.

Как объясняют исследователи, системы искусственного интеллекта на базе большущих языковых моделей разбивают поступающий в них текст на токены. Они представляют собой слова или их части, каждому из которых соответствует математический вектор, последовательность из большого количества чисел. Ученых давно интересует, как много слов можно поместить в один вектор и тем самым «сжать» информацию, которой оперирует ИИ в процессе работы.

Российские и британские исследователи разработали уникальный подход, который позволяет оценивать способность ИИ к подобному «сжатию», и проверили при его помощи 6 популярных ИИ с открытым кодом — Pythia, opt, OLMo, Mamba, LLaMA и Sheared-LLaMA. Для их изучения ученые подготовили особый набор данных, состоявший из случайно составленных текстов и любительских рассказов, опубликованных в одной из популярных онлайн-библиотек.

Проведенные исследователями расчеты показали, что все большущими языковые модели могли «сжимать» несколько десятков или даже сотен слов в одном векторе, впрочем при этом их предельные способности в этом отношении сильно отличались. Наиболее хорошо себя в этом отношении проявили системы ИИ из семейства LLaMA, способные в теории «сжимать» текст длиной в 1 500 слов в один вектор, тогда как остальные могли делать это лишь для 80−512 токенов.

При этом ученые также обнаружили, что на практике все системы ИИ использовали лишь 10−30% потенциальной емкости векторов. По словам исследователей, это указывает на возможность дальнейшей оптимизации большущих языковых моделей, а также на возможность использования этой избыточности для исправления ошибок в кодировании. Последующие опыты и расчеты помогут понять, как этого можно добиться, подытожили математики.

Источник: MAIL.RU (Картина Дня)