1 of 31

Речевые технологии. Занятие 3. Автоматический синтез речи

П. А. Холявин

p.kholyavin@mail.ru

13.02.2024

1

2 of 31

Машина Христиана Кратценштейна

Христиан Готлиб Кратценштейн (1723-1795)

1780 г.

2

3 of 31

Машина фон Кемпелена

Вольфганг фон Кемпелен (1734-1804)

1791 г.

3

4 of 31

Машина Фабера

Иосиф Фабер

(1786-1866)

~1840 г.

4

5 of 31

Резонаторы Гельмгольца

Герман фон Гельмгольц

(1821-1894)

1859 г.

5

6 of 31

Регистрация осциллограммы

Фоноавтограф (1859)

Phonodeik (1909)

6

7 of 31

Опыты Миллера

Дейтон Миллер (1866-1941)

1914-1916

7

8 of 31

Система Стюарта

Джон Куинси Стюарт

(1894-1972)

1922 г.

8

9 of 31

Вокодер

Гомер Дадли

(1896-1980)

1922 г.

9

10 of 31

Водер

Гомер Дадли

(1896-1980)

1922 г.

10

11 of 31

Синтезаторы Фанта и Лоуренса

Уолтер Лоуренс

1953

Гуннар Фант

(1919-2009)

1958 г.

11

12 of 31

Компилятивный синтезатор Харриса

Harris, C. M., 1953a. A study of the building blocks in speech, Journal of the�Acoustical Society of America, 25(5), pp. 962-969.

�Harris, C. M., 1953b. A speech synthesizer, Journal of the Acoustical Society of�America, 25(5), pp. 970-975.

12

13 of 31

Цифровая эра

Holmes, J. N., Mattingly, I. G., and Shearme, J. N., 1964. Speech synthesis by�rule, Language and Speech, 7(3), pp. 127-143.

Артикуляторный синтез

Формантный синтез

Компилятивный синтез (включая unit-selection)

13

14 of 31

Синтез речи

Синтез речи по тексту, Text-to-Speech (TTS)

Генерация звукового сигнала на основе письменного сообщения

Модель common-form

14

15 of 31

Подходы

  1. С нуля (“bottom-up”)

a) по правилам

b) корпусный

  1. Компилятивный (concatenative)

15

16 of 31

Схема синтезатора

16

17 of 31

Оценка синтеза

  1. Естественность (naturalness)
  2. Разборчивость (intelligibility)

17

18 of 31

Разборчивость

18

19 of 31

Естественность

MOS (Mean Opinion Score)

19

20 of 31

Нормализация текста

20

21 of 31

Токенизация

«Мама мыла раму» -> МАМА МЫЛА РАМУ -> /máma mɨ́la rámu/

«№23» -> НОМЕР ДВАДЦАТЬ ТРИ -> /nómʲir dvát͡satʲ trʲí/

ОНИ

ПРЕДЛОЖИЛИ

ВЗЯТЬ

НЕ

МИКРОВОЛНЫ

(

ОТДЕЛЬНЫЕ

ПЕРИОДЫ

)

,

А

ЦЕЛЫЕ

ЗВУКИ

.

ЯНДЕКС

.

ЭРЭФ

21

22 of 31

Разбиение на предложения

Мама мыла раму. Папа мыл пол.

Я живу в гор. Санкт-Петербурге.

Я вижу вершины гор. Они сверкают на солнце.

22

23 of 31

Вербализация

г. Санкт-Петербург

1997 г.

г. Эльбрус

стр. 3

яндекс.рф

123

123 000

0.123

123-00-00

23

24 of 31

Автоматическая расстановка ударения

ру́ки – руки́

за́мок – замо́к

  1. Словари

  • Контекст

24

25 of 31

Автоматическая транскрипция

G2P (Grapheme-to-Phoneme)

  1. Определение фонемного состава (а какие фонемы?)

  • Определение фонетического качества звуков

+ проблема вариативности: какой вариант выбрать для системы?

25

26 of 31

Фонемная транскрипция

1) По словарю

26

27 of 31

Фонемная транскрипция

2) По правилам

Правила могут кодироваться в конечных автоматах, …

27

28 of 31

Стыки слов

Кот бежит /kod bʲiʒɨt/

Отец дома /atʲe[dz] dóma/

Раз в жизни /raʒ (v) ʒɨzʲnʲi/

28

29 of 31

Фонетическая транскрипция

  1. Отражение коартикуляции звуков, влияние ударения

  • Стили произношения и типы произнесения

Типы произнесения: полный и неполный (невозможно восстановить фонемный состав)

[ɡəvɐˈrʲit]

[ɡəˈrʲit]

[ɡrʲit]

3. Влияние других просодических явлений

29

30 of 31

Источники

Б. М. Лобанов, Л. И. Цирульник. Компьютерный синтез и клонирование речи

Paul Taylor. Text-to-Speech Synthesis.

30

31 of 31

Спасибо за внимание!

31