Подходы к распознаванию и синтезу речи для якутского языка на основе нейросетей архитектуры Transformer
https://doi.org/10.25587/3034-7378-2025-4-56-78
Аннотация
Новейшие достижения в области искусственного интеллекта и глубокого обучения кардинально преобразовали ландшафт технологий обработки устной речи. Автоматическое распознавание речи (ASR) и синтез речи (TTS) стали ключевыми компонентами, обеспечивающими цифровую доступность для различных языковых сообществ. Якутский язык, представляющий северо-восточную ветвь тюркской языковой семьи, продолжает сталкиваться со значительными технологическими барьерами, вызванными недостаточностью цифровых ресурсов, ограниченностью размеченных корпусов и отсутствием готовых к промышленному использованию систем обработки речи. В данном комплексном исследовании изучается целесообразность и эффективность адаптации современных нейросетевых архитектур на основе трансформеров для задач двунаправленного речевого преобразования в якутском языке. Наша работа включает детальный анализ encoder-decoder моделей, а именно: Whisper-large-v3 от OpenAI и Wav2Vec2-BERT от Meta для преобразования голоса в текст, а также системы XTTS-v2 от Coqui для генерации речи из текста. Особое внимание уделяется решению лингвистических и технических проблем, присущих якутскому языку, включая его сложную агглютинативную морфологическую структуру, системные законы сингармонизма и уникальный фонемный состав, содержащий звуки, отсутствующие в большинстве индоевропейских языков. Экспериментальная оценка показывает, что полное дообучение модели Whisper-large-v3 обеспечивает исключительно высокую точность распознавания с коэффициентом ошибок по словам (WER) 8%, в то время как самообучаемая архитектура Wav2Vec2-BERT достигает WER 13% при использовании статистического n-граммного языкового моделирования. Нейросетевая система синтеза демонстрирует устойчивую производительность даже при ограниченном объеме обучающих данных, достигая среднего значения функции потерь 2,49 после длительной оптимизации обучения и практического развертывания через бот в мессенджере Telegram. Кроме того, ансамблевый мета-стэкинг, объединяющий обе архитектуры распознавания, позволяет достичь WER 27%, что доказывает их эффективную взаимодополняемость через арбитраж гипотез. Полученные результаты подтверждают, что методы трансферного обучения представляют собой жизнеспособный путь для создания речевых технологий, обслуживающих цифрово недостаточно представленные языковые сообщества.
Ключевые слова
Об авторах
С. П. СтепановРоссия
Степанов Сергей Павлович – кандидат физико-математических наук,
ведущий научный сотрудник, руководитель, лаборатория «Вычислительные технологии и искусственныйинтеллект» , Институт математики и информатики
Якутск
WoS Researcher ID: F-7549-2017
Scopus Author ID: 56419440700
Elibrary Author ID: 856700
Д. Чжан
Китай
Чжан Дун – кандидат физико-математических наук, доцент
WoS Researcher ID: ACW-5232-2022
Scopus Author ID: 57212194896
Цюйфу, Шаньдун
А. А. Алексеева
Россия
Алексеева Алтана Александровна – лаборант, лаборатория «Вычислительные технологии и искусственныйинтеллект», Институт математики и информатики
Якутск
В. Л. Апросимов
Россия
Апросимов Владислав Леонидович – лаборант, лаборатория «Вычислительные технологии и искусственный интеллект», Институт математики и информатики
Якутск
Дь. А. Федоров
Россия
Федоров Дьулуур Андрианович – лаборант, лаборатория «Вычислительные технологии и искусственный интеллект», Институт математики и информатики
Якутск
В. С. Леверьев
Россия
Леверьев Владимир Семенович – лаборант, лаборатория «Вычислительные технологии и искусственный интеллект», Институт математики и информатики
Якутск
Т. А. Новгородов
Россия
Новгородов Туйгун Александрович – лаборант, лаборатория
«Вычислительные технологии и искусственный интеллект», Институт математики и информатики
Якутск
Е. С. Подорожная
Подорожная Екатерина Сергеевна – лаборант, лаборатория «Вычислительные технологии и искусственный интеллект», Институт математики и информатики
Якутск
Т. З. Захаров
ЗахаровТимур Захарович – лаборант, лаборатория «Вычислительные
технологии и искусственный интеллект», Институт математики и информатики
Якутск
Список литературы
1. Besacier L, Barnard E, Karpov A, Schultz T. Automatic speech recognition for under-resourced languages: A survey. Speech Communication. 2014;(56): 85–100. DOI: https://doi.org/10.1016/j.specom.2013.07.008
2. Joshi P, Santy S, Buber A, Bali K, Choudhury M. The state and fate of linguistic diversity and inclusion in the NLP world. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020: 6282–6293.
3. Pakendorf B. Contact in the prehistory of the Sakha (Yakuts): Linguistic and genetic perspectives. LOT Publications: Utrecht. 2007
4. Johanson L, Csató ÉA. The Turkic Languages. Routledge Language Family Series. Routledge: London. 2021. DOI: https://doi.org/10.4324/9781003243809
5. Dyachkovsky ND. Sound structure of the Yakut language. Part 1: Vocalism (Дьячковский Н.Д. Звуковой строй якутского языка. Вокализм). Yakutsk: Yakutsk publishing house. 1971 (in Russian).
6. Dyachkovsky ND. Sound structure of the Yakut language. Part 2: Consonantism (Дьячковский Н.Д. Звуковой строй якутского языка. Консонантизм). Yakutsk: Yakutsk publishing house. 1977 (in Russian).
7. Mussakhojayeva S, Dauletbek K, Yeshpanov R, Varol HA. Multilingual speech recognition for Turkic languages. Information. 2023;14(2): 74. DOI: https://doi.org/10.3390/info14020074
8. Rabiner LR. A tutorial on hidden Markov models and selected applications in speech recognition. Proceedings of the IEEE. 1989;77(2):257–286. DOI: http://dx.doi.org/10.1109/5.18626
9. Graves A, Mohamed A, Hinton G. Speech recognition with deep recurrent neural networks. Proceedings of International Conference on Acoustics, Speech and Signal Processing. 2013:6645–6649. DOI: https://doi.org/10.1109/ICASSP.2013.6638947
10. Conneau A, Baevski A, Collobert R, Mohamed A, Auli M. Unsupervised cross-lingual representation learning for speech recognition. In Proceedings of Interspeech. 2021:2426–2430. DOI: https://doi.org/10.48550/arXiv.2006.13979
11. Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, Kaiser Ł, Polosukhin I. Attention is all you need. Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017:5998–6008. DOI: https://doi.org/10.48550/arXiv.1706.03762
12. Radford A, Kim JW, Xu T, Brockman G, McLeavey C, Sutskever I. Robust speech recognition via large-scale weak supervision. In Proceedings of International Conference on Machine Learning. 2023:28492–28518. DOI: https://doi.org/10.48550/arXiv.2212.04356
13. Du W, Maimaitiyiming Y, Nijat M, Li L, Hamdulla A, Wang D. Automatic speech recognition for Uyghur, Kazakh, and Kyrgyz: An overview. Applied Sciences. 2023;13(1):326. DOI: https://doi.org/10.3390/app13010326
14. Yeshpanov R, Mussakhojayeva S, Khassanov Y. Multilingual text-tospeech synthesis for Turkic languages using transliteration. In Proceedings of Interspeech. 2023:5521–5525. DOI: https://doi.org/10.48550/arXiv.2305.15749
15. Kim J, Kim S, Kong J, Yoon S. Glow-TTS: A generative low for text-to-speech via monotonic alignment search. In Proceedings of the International Conference on Neural Information Processing Systems. 2020:8067–8077. DOI: https://doi.org/10.48550/arXiv.2005.11129
16. Kim J, Kong J, Son J. Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech. In Proceedings of the International Conference on Machine Learning. 2021:5530–5540. DOI: https://doi.org/10.48550/arXiv.2106.06103
17. Kong J, Kim J, Bae J. HiFi-GAN: Generative adversarial networks for eficient and high idelity speech synthesis. In Proceedings of the International Conference on Neural Information Processing Systems. 2020:17022–17033. DOI: https://doi.org/10.48550/arXiv.2010.05646
18. Shen J, Pang R, Weiss RJ, Schuster M, Jaitly N, Yang Z, Chen Z, Zhang Y, Wang Y, Skerrv-Ryan R., et al. Natural TTS synthesis by conditioning WaveNet on Mel spectrogram predictions. In Proceedings of IEEE ICASSP. 2018:4779–4783. DOI: https://doi.org/10.48550/arXiv.1712.05884
19. Ren Y, Hu C, Tan X, Qin T, Zhao S, Zhao Z, Liu T-Y. FastSpeech 2: Fast and high-quality end-to-end text to speech. In Proceedings of ICLR. 2021. DOI: https://doi.org/10.48550/arXiv.2006.04558
20. Karibayeva A, Karyukin V, Abduali B, Amirova D. Speech recognition and synthesis models and platforms for the Kazakh language. Information. 2025;16(10):879. DOI: https://doi.org/10.3390/info16100879
21. Ardila R, Branson M, Davis K, Kohler M, Meyer J, Henretty M, Morais R, Saunders L, Tyers F, Weber G. Common Voice: A massively-multilingual speech corpus. In Proceedings of LREC. 2020:4218–4222. DOI: https://doi.org/10.48550/arXiv.1912.06670
22. Park DS, Chan W, Zhang Y, Chiu C-C, Zoph B, Cubuk ED, Le QV. SpecAugment: A simple data augmentation method for automatic speech recognition. In Proceedings of Interspeech. 2019:2613–2617. DOI: https://doi.org/10.21437/Interspeech.2019-2680
23. Kudo T, Richardson J. SentencePiece: A simple and language independent subword tokenizer and detokenizer for neural text processing. In Proceedings of EMNLP System Demonstrations. 2018:66–71. DOI: https://doi.org/10.48550/arXiv.1808.06226
24. Baevski A, Zhou Y, Mohamed A, Auli M. wav2vec 2.0: A framework for self-supervised learning of speech representations. In Proceedings of the 34th International Conference on Neural Information Processing System. 2020:12449-12460. DOI: https://doi.org/10.48550/arXiv.2006.11477
25. Graves A, Fernández S, Gomez F, Schmidhuber J. Connectionist temporal classiication: Labelling unsegmented sequence data with recurrent neural networks. In Proceedings of ICML. 2006:369–376. DOI: https://doi.org/10.1145/1143844.1143891
26. Casanova E, Weber J, Shulby C, Junior AC, Gölge E, Müller MA. XTTS: A massively multilingual zero-shot text-to-speech model. In Proceedings of Interspeech. 2024. DOI: https://doi.org/10.48550/arXiv.2406.04904
27. Panayotov V, Chen G, Povey D, Khudanpur S. LibriSpeech: An ASR corpus based on public domain audio books. In Proceedings of IEEE ICASSP. 2015:5206-5210. DOI: https://doi.org/10.1109/ICASSP.2015.7178964
28. Dyakonov AG. Ensembles in machine learning: Methods and applications. Data Science Course Materials (Дьяконов А.Г. Ансамбли в машинном обучении). 2019. Available at: https://alexanderdyakonov.wordpress.com (accessed 07.09.2025).
29. Wolpert DH. Stacked generalization. Neural Networks 1992;5(2): 241-259. DOI: https://doi.org/10.1016/S0893-6080(05)80023-1
30. Breiman L. Stacked regressions. Machine Learning. 1996;24(1):49–64.
31. Wolf T, Debut L, Sanh V, Chaumond J, Delangue C, Moi A, Cistac P, Rault T, Louf R, Funtowicz M, et al. Transformers: State-of-the-art natural language processing. In Proceedings of the Conference on Empirical Methods in Natural Language Processing: System Demonstrations. 2020:38–45. DOI: https://doi.org/10.18653/v1/2020.emnlp-demos.6
32. Paszke A, Gross S, Massa F, Lerer A, Bradbury J, Chanan G, Killeen T, Lin Z, Gimelshein N, Antiga L, et al. PyTorch: An imperative style, high-performance deep learning library. In Proceedings of the International Conference on Neural Information Processing Systems. 2019:8026–8037. DOI: https://doi.org/10.48550/arXiv.1912.01703
Рецензия
Для цитирования:
Степанов С.П., Чжан Д., Алексеева А.А., Апросимов В.Л., Федоров Д.А., Леверьев В.С., Новгородов Т.А., Подорожная Е.С., Захаров Т.З. Подходы к распознаванию и синтезу речи для якутского языка на основе нейросетей архитектуры Transformer. Арктика XXI век. 2025;(4):56-78. https://doi.org/10.25587/3034-7378-2025-4-56-78
For citation:
Stepanov S.P., Zhang D., Alekseeva A.A., Aprosimov V.L., Fedorov D.A., Leveryev V.S., Novgorodov T.A., Podorozhnaya E.S., Zakharov T.Z. Transformer-Based Neural Network Approaches for Speech Recognition and Synthesis in the Sakha Language. Arctic XXI century. 2025;(4):56-78. https://doi.org/10.25587/3034-7378-2025-4-56-78
JATS XML












