Автоматическое распознавание речи. Введение
П. А. Холявин
p.kholyavin@spbu.ru
12.02.2025
1
«Распознавание» одного слова
1922
2
Распознавание отдельных слов
AUDREY, 1952
(Bell Laboratories)
3
Распознавание отдельных слов
IBM Shoebox, 1966
4
Whither speech recognition?
John R. Pierce, 1969 (Bell Labs)
5
Распознавание слитной речи
Carnegie-Mellon’s HARPY (1976)
-//- Hearsay-I (1976)
6
Распознавание слитной речи
1990-е:
- Доступ потребителей к системам распознавания речи
Dragon Dictate (1990)
IBM MedSpeak (1996)
- Работа над машинным пониманием речи
2010-е:
- Нейронные сети/глубокое обучение
7
Задача распознавания речи
Задача АРР – сопоставить акустическому сигналу последовательность слов.
Более формально: каково наиболее вероятное предложение из всех возможных в языке L при условии акустического сигнала O?
Если O = o1, o2, …, on – звуковая последовательность,
W = w1, w2, …, wn – последовательность слов, то
8
Вариативность задачи
малый — единицы/десятки
средний — сотни
большой — тысячи/десятки тысяч
сверхбольшой — сотни тысяч/миллионы
9
Части системы АРР
10
Оценка работы АРР
Word Error Rate
WER = 100 %
(Sentence Error Rate, Morpheme Error Rate, Phone Error Rate)
RTF (Real Time Factor)
11
Аналого-цифровое преобразование
период дискретизации T
Fдискр = 1 / T
отсчёт
уровни квантования
12
Теорема Котельникова
Любой сигнал s(t), спектр которого не содержит составляющих с частотами выше некоторого значения f, может быть без потерь представлен в виде дискретного сигнала с частотой дискретизации F >= 2f (частота Найквиста).
13
Частотный анализ сигнала
from scipy.fft import fft
14
Оконный метод
15
Оконные функции
Спектрографический анализ
17
Спасибо за внимание!
18