Разработка Сбера поможет системам ИИ точнее распознавать русский язык

Источник: MAIL.RU (Картина Дня) | Дата: 2 часов назад

Новейший подход опирается в своей работе на модифицированную версию нейросети-трансформера HuBERT, а также на семантические представления данных.

МОСКВА, 21 августа. Исследователи из РФ разработали новейший метод предобучения систем искусственного интеллекта, который повысит качество распознавания ими русского языка и при этом позволит им обучаться без использования дорогостоящих массивов размеченных аудиоданных. Об этом рассказала пресс-служба Сбера.

«Мы переосмыслили сам подход к предобучению моделей, сместив фокус на семантические представления. Новейшая архитектура показывает высокую эффективность и гибкость, она ломает барьеры, которые долгое время сдерживали развитие систем распознавания речи для языков с малым количеством данных. Думаю, что наш метод может стать новым стандартом для индустрии», — заявил технический директор GigaChat Сбербанка Федор Минькин, чьи слова приводит пресс-служба Сбера.

Как отмечается в сообщении, разработанный российскими учеными подход опирается в своей работе на модифицированную версию нейросети-трансформера HuBERT, а также на семантические представления данных. Это отличает новейший метод для предобучения систем ИИ от оригинальной версии HuBERT и других уже существующих подходов, которые используют в своей работе в основном низкоуровневые акустические переменные.

По словам исследователей, одним из главных плюсов их подхода является то, что он позволяет использовать неразмеченные аудиоданные при обучении систем ИИ, используя одну из популярных моделей для распознавания речи в качестве «учителя». Благодаря некоторым особенностям в работе этого подхода, обученные при его помощи ИИ способны работать и в онлайн, и в офлайн режиме без необходимости инвестирования в переобучение.

Используя этот подход, исследователи обучили ИИ-систему распознавания речи, опираясь на массив из 100 тысяч часов неразмеченных аудиозаписей на русском языке и предобученную нейросеть Conformer. Последующие проверки показали, что новый метод предобучения позволил системе ИИ достичь великолепного качества распознавания русской речи — он совершает на 50% меньше ошибок, чем передовая модель Whisper-large-v3 от OpenAI.

Как отмечают исследователи, предложенное ими решение имеет большое практическое значение для сервисов автоматического распознавания речи и голосовых помощников, контакт-центров и систем аналитики телефонных звонков. Новейший метод будет востребован в мультимодальных системах, например, в чат-ботах с аудиопотоком, а также позволит ИИ-сообществу дообучать разрабатываемые системы распознавания речи и применять их под свои языки и задачи.

Источник: MAIL.RU (Картина Дня)