Специалисты Сбербанка разработали метод повышения точности распознавания русской речи искусственным интеллектом. Технология под названием HuBERT-CTC использует переменные из модели распознавания, что формирует семантические представления данных.
В компании продемонстрировали разработку, которая повышает точность распознавания речи нейросетями. Преимуществом отечественной разработки является возможность обучения на массивах неразмеченных аудиоданных.
Технология обладает способностью масштабироваться по размеру модели и объему данных, а также работает как в онлайн-, так и в офлайн-режимах. Разработка может практически применяться для контакт-центров, систем аналитики телефонных звонков и мультимодальных приложений.
Метод был представлен на международной конференции Interspeech 2025 и подробно описан в научной статье. Открытый код технологии позволяет исследовательскому сообществу адаптировать ее для различных языков и специализированных задач, рассказали в пресс-службе компании.
По словам технического директора GigaChat Сбербанка Федора Митькина, новая архитектура устраняет давние ограничения, препятствовавшие развитию систем распознавания речи для малых языков.