Распознавание речевого сигнала монгольского языка по слогам

Рассмотрена возможность распознавания речи монгольского языка с использованием нейронной сети. Применен способ с выделением слога распознаваемого слова, который позволяет уменьшить размер базы данных, поскольку при этом нет нужды сохранять признаки каждого слова. Обучение нейронной сети выполнено алгоритмом Левенберга–Марквардта, более устойчивым и быстродействующим при работе с мало-размерной базой данных. В эксперименте использовали 4 слова монгольского языка с одним или двумя слогами, при записи использовалось программное обеспечение MatLab. Слова озвучены 11 дикторами, мужчинами и женщинами разного возраста: 1 человек младше 30 лет, 7 человек в возрасте 30-40 лет и 3 человека – 60-70 лет. Кроме того, нейронная сеть распознает участок в речи, где идет шум, чтобы различать и отделить речевой участок от шума. Обученная сеть распознает слова монгольского языка по слогам из базы данных с вероятностью 96.5 %.

Авторы: Б. Зандан, Т. Галбаатар, О. Бухцоож, А. Г. Ченский

Направление: Информатика, вычислительная техника и управление

Ключевые слова: автоматическое распознавание речи, алгоритм Левенберга–Марквардта, коэффициент MFCC, искусственная нейронная сеть, слог слова


Открыть полный текст статьи