1 of 24

Распознавание речи.

Произносительные словари

П. А. Холявин

p.kholyavin@spbu.ru

13.03.2024

2 of 24

Произносительные словари

3 of 24

Представление лексикона как дерева

Допустим, у нас есть слова ban, band, banned, bat, beef. Как будет выглядеть дерево?

4 of 24

Методы создания словарей

1. Экспертный

2. Автоматический (grapheme-to-phoneme, G2P)

а) по правилам

б) с помощью машинного обучения

в) с помощью систем распознавания речи

3. Гибридный (?)

5 of 24

Автоматическая транскрипция

G2P (Grapheme-to-Phoneme)

Определение фонемного состава (а какие фонемы?)

Определение фонетического качества звуков

+ проблема вариативности: какой вариант выбрать для системы?

6 of 24

Вариативность

7 of 24

Фонемная транскрипция

1) По словарю

8 of 24

Фонемная транскрипция

2) По правилам

Правила могут кодироваться в конечных автоматах, …

9 of 24

Фонемная транскрипция

3) Статистические методы и машинное обучение:

Марковские цепи
FST (конечные автоматы)
Нейронные сети: LSTM, трансформеры, …

10 of 24

Стыки слов

Кот бежит /kod bʲiʒɨt/

Отец дома /atʲe[dz] dóma/

Раз в жизни /raʒ (v) ʒɨzʲnʲi/

11 of 24

Фонетическая транскрипция

Отражение коартикуляции звуков, влияние ударения

Стили произношения и типы произнесения

Типы произнесения: полный и неполный (невозможно восстановить фонемный состав)

[ɡəvɐˈrʲit]

[ɡəˈrʲit]

[ɡrʲit]

3. Влияние других просодических явлений

12 of 24

Взвешенные конечные преобразователи (WFST)

Конечный автомат (finite-state acceptor)

Конечный преобразователь (finite-state transducer)

13 of 24

Phonetisaurus

Выравнивание обучающего материала (alignment)

14 of 24

Phonetisaurus

Выравнивание обучающего материала

15 of 24

Phonetisaurus

Выравнивание обучающего материала

16 of 24

Phonetisaurus

Обучение n-граммной модели на графемах

17 of 24

Phonetisaurus

Декодирование (генерация транскрипции):
Создание конечного акцептора

Композиция с n-граммной моделью

Поиск наилучшего пути

18 of 24

Другие методы

Рекуррентные нейронные сети (RNN)

Listen, Attend and Spell (BiLSTM + attention)

Трансформеры

19 of 24

Listen, Attend and Spell

20 of 24

Генерация транскрипций с помощью ASR

Автоматическая разметка на слова

Создание матрицы ошибок (confusion matrix)

Обучение N-граммной модели для “фонем”

Пофонемное распознавание слов/последовательностей слов, для которых нужны транскрипции

Удаление транскрипций, которые отличаются от существующих звуками, которые часто путаются системой (п. 2)

21 of 24

Генерация транскрипций с помощью ASR

22 of 24

Динамические словари

Выбор варианта в зависимости от:

Темпа

Длины слова

Фонетического контекста

Лексического контекста

23 of 24

Оценка качества транскрипций

Word Error Rate

Phone Error Rate

Phone-based dynamic programming (PDP)

1 of 24

2 of 24

3 of 24

4 of 24

5 of 24

6 of 24

7 of 24

8 of 24

9 of 24

10 of 24

11 of 24

12 of 24

13 of 24

14 of 24

15 of 24

16 of 24

17 of 24

18 of 24

19 of 24

20 of 24

21 of 24

22 of 24

23 of 24

24 of 24