1 of 24

Распознавание речи.

Произносительные словари

П. А. Холявин

p.kholyavin@spbu.ru

13.03.2024

1

2 of 24

Произносительные словари

2

3 of 24

Представление лексикона как дерева

Допустим, у нас есть слова ban, band, banned, bat, beef. Как будет выглядеть дерево?

3

4 of 24

Методы создания словарей

1. Экспертный

2. Автоматический (grapheme-to-phoneme, G2P)

а) по правилам

б) с помощью машинного обучения

в) с помощью систем распознавания речи

3. Гибридный (?)

4

5 of 24

Автоматическая транскрипция

G2P (Grapheme-to-Phoneme)

  1. Определение фонемного состава (а какие фонемы?)

  • Определение фонетического качества звуков

+ проблема вариативности: какой вариант выбрать для системы?

5

6 of 24

Вариативность

6

7 of 24

Фонемная транскрипция

1) По словарю

7

8 of 24

Фонемная транскрипция

2) По правилам

Правила могут кодироваться в конечных автоматах, …

8

9 of 24

Фонемная транскрипция

3) Статистические методы и машинное обучение:

  • Марковские цепи
  • FST (конечные автоматы)
  • Нейронные сети: LSTM, трансформеры, …

9

10 of 24

Стыки слов

Кот бежит /kod bʲiʒɨt/

Отец дома /atʲe[dz] dóma/

Раз в жизни /raʒ (v) ʒɨzʲnʲi/

10

11 of 24

Фонетическая транскрипция

  1. Отражение коартикуляции звуков, влияние ударения

  • Стили произношения и типы произнесения

Типы произнесения: полный и неполный (невозможно восстановить фонемный состав)

[ɡəvɐˈrʲit]

[ɡəˈrʲit]

[ɡrʲit]

3. Влияние других просодических явлений

11

12 of 24

Взвешенные конечные преобразователи (WFST)

  1. Конечный автомат (finite-state acceptor)

  • Конечный преобразователь (finite-state transducer)

12

13 of 24

Phonetisaurus

  1. Выравнивание обучающего материала (alignment)

13

14 of 24

Phonetisaurus

  1. Выравнивание обучающего материала

14

15 of 24

Phonetisaurus

  1. Выравнивание обучающего материала

15

16 of 24

Phonetisaurus

  1. Обучение n-граммной модели на графемах

16

17 of 24

Phonetisaurus

  1. Декодирование (генерация транскрипции):
  2. Создание конечного акцептора

  • Композиция с n-граммной моделью

  • Поиск наилучшего пути

17

18 of 24

Другие методы

  1. Рекуррентные нейронные сети (RNN)

  • Listen, Attend and Spell (BiLSTM + attention)

  • Трансформеры

18

19 of 24

Listen, Attend and Spell

19

20 of 24

Генерация транскрипций с помощью ASR

  1. Автоматическая разметка на слова

  • Создание матрицы ошибок (confusion matrix)

  • Обучение N-граммной модели для “фонем”

  • Пофонемное распознавание слов/последовательностей слов, для которых нужны транскрипции

  • Удаление транскрипций, которые отличаются от существующих звуками, которые часто путаются системой (п. 2)

20

21 of 24

Генерация транскрипций с помощью ASR

21

22 of 24

Динамические словари

  1. Выбор варианта в зависимости от:

  • Темпа

  • Длины слова

  • Фонетического контекста

  • Лексического контекста

22

23 of 24

Оценка качества транскрипций

  1. Word Error Rate

  • Phone Error Rate

  • Phone-based dynamic programming (PDP)

23

24 of 24

Спасибо за внимание!

24