Речевые технологии. Занятие 3. Автоматический синтез речи
П. А. Холявин
p.kholyavin@mail.ru
13.02.2024
1
Машина Христиана Кратценштейна
Христиан Готлиб Кратценштейн (1723-1795)
1780 г.
2
Машина фон Кемпелена
Вольфганг фон Кемпелен (1734-1804)
1791 г.
3
Машина Фабера
Иосиф Фабер
(1786-1866)
~1840 г.
4
Резонаторы Гельмгольца
Герман фон Гельмгольц
(1821-1894)
1859 г.
5
Регистрация осциллограммы
Фоноавтограф (1859)
Phonodeik (1909)
6
Опыты Миллера
Дейтон Миллер (1866-1941)
1914-1916
7
Система Стюарта
Джон Куинси Стюарт
(1894-1972)
1922 г.
8
Вокодер
Гомер Дадли
(1896-1980)
1922 г.
9
Водер
Гомер Дадли
(1896-1980)
1922 г.
10
Синтезаторы Фанта и Лоуренса
Уолтер Лоуренс
1953
Гуннар Фант
(1919-2009)
1958 г.
11
Компилятивный синтезатор Харриса
Harris, C. M., 1953a. A study of the building blocks in speech, Journal of the�Acoustical Society of America, 25(5), pp. 962-969.
�Harris, C. M., 1953b. A speech synthesizer, Journal of the Acoustical Society of�America, 25(5), pp. 970-975.
12
Цифровая эра
Holmes, J. N., Mattingly, I. G., and Shearme, J. N., 1964. Speech synthesis by�rule, Language and Speech, 7(3), pp. 127-143.
Артикуляторный синтез
Формантный синтез
Компилятивный синтез (включая unit-selection)
13
Синтез речи
Синтез речи по тексту, Text-to-Speech (TTS)
Генерация звукового сигнала на основе письменного сообщения
Модель common-form
14
Подходы
a) по правилам
b) корпусный
15
Схема синтезатора
16
Оценка синтеза
17
Разборчивость
18
Естественность
MOS (Mean Opinion Score)
19
Нормализация текста
20
Токенизация
«Мама мыла раму» -> МАМА МЫЛА РАМУ -> /máma mɨ́la rámu/
«№23» -> НОМЕР ДВАДЦАТЬ ТРИ -> /nómʲir dvát͡satʲ trʲí/
ОНИ | ПРЕДЛОЖИЛИ | ВЗЯТЬ | НЕ | МИКРОВОЛНЫ | ( | ОТДЕЛЬНЫЕ | ПЕРИОДЫ | ) | , | А | ЦЕЛЫЕ | ЗВУКИ | . |
ЯНДЕКС | . | ЭРЭФ |
21
Разбиение на предложения
Мама мыла раму. Папа мыл пол.
Я живу в гор. Санкт-Петербурге.
Я вижу вершины гор. Они сверкают на солнце.
22
Вербализация
г. Санкт-Петербург
1997 г.
г. Эльбрус
стр. 3
яндекс.рф
123
123 000
0.123
123-00-00
23
Автоматическая расстановка ударения
ру́ки – руки́
за́мок – замо́к
24
Автоматическая транскрипция
G2P (Grapheme-to-Phoneme)
+ проблема вариативности: какой вариант выбрать для системы?
25
Фонемная транскрипция
1) По словарю
26
Фонемная транскрипция
2) По правилам
Правила могут кодироваться в конечных автоматах, …
27
Стыки слов
Кот бежит /kod bʲiʒɨt/
Отец дома /atʲe[dz] dóma/
Раз в жизни /raʒ (v) ʒɨzʲnʲi/
28
Фонетическая транскрипция
Типы произнесения: полный и неполный (невозможно восстановить фонемный состав)
[ɡəvɐˈrʲit]
[ɡəˈrʲit]
[ɡrʲit]
3. Влияние других просодических явлений
29
Источники
Б. М. Лобанов, Л. И. Цирульник. Компьютерный синтез и клонирование речи
Paul Taylor. Text-to-Speech Synthesis.
30
Спасибо за внимание!
31