В повседневной жизни язык используют лишь 5−7 тыс., что ставит его под угрозу исчезновения, рассказали в пресс-службе Минобрнауки.
ПЕТРОЗАВОДСК, 19 апреля. Специалисты Санкт-Петербургского Федерального исследовательского центра РАН (СПб ФИЦ РАН) закончили разработку программного комплекса распознавания речи для ливвиковского наречия карельского языка по аудиоматериалам, об этом ТАСС рассказали в пресс-службе Минобрнауки РФ. В перспективе технология позволит переводить устную речь в режиме реального времени, став частью ранее презентованного онлайн-переводчика с использованием технологий искусственного интеллекта.
По оценкам ученых, в настоящее время на карельском говорят около 30 тыс. человек по всему миру, порядка 25 тыс. из них проживают в РФ, а в повседневной жизни язык используют лишь 5−7 тыс., что ставит его под угрозу исчезновения. Разработка поможет его сохранить. В будущем система может стать важным инструментом в области автоматизации лингвистических исследований культур коренных народов РФ.
«Мы создали систему автоматического распознавания речи для ливвиковского наречия карельского языка (распространено на юге и юго-западе Карелии). Изучение карельского языка имеет огромное значение не только для сохранения культурного наследия, но и для поддержки языковой традиции его носителей. Создание системы распознавания карельской речи — 1 из способов если не возродить, то хотя бы задокументировать этот язык», — рассказала старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Ирина Кипяткова.
Как пояснили ТАСС в пресс-службе СПб ФИЦ РАН, собранные учеными данные будут храниться на специальном сервере, что позволит не только улучшить работу искусственного интеллекта, но и задокументировать примеры устной речи. На первом этапе система будет выглядеть как приложение для компьютера, которое распознает звук, поступающий на микрофон, а затем переводит. В будущем систему могут адаптировать для использования на смартфонах, чтобы пользоваться ей могли не только ученые.
Трудности исследования и перспективы.
Электронных данных, например текстов, аудиозаписей и словарей, на карельском не так много. Для распознания речи на таких языках разрабатывают методы, позволяющие добиться высокой точности при сравнительно небольшом количестве обучающих ресурсов. В качестве примера искусственный интеллект изучил тексты на ливвиковском наречии из открытого корпуса вепсского и карельского языков ВепКар, а также ряда других письменных источников. Кроме того, ученые собрали 2 набора данных разговорной речи, который обработали участники проекта, владеющие языком.
«Кроме нашей системы, в мире есть лишь одна модель, поддерживающая карельский язык. Однако она является многоязычной, ее обучение базировалось на очень небольшом объеме данных, что существенно снижает точность распознавания именно карельской речи. Мы же учи...