�
応用音響学
第9回 音声認識システム
情報理工学系研究科 システム情報学専攻 講師
齋藤 佑樹
2026年度 応用音響学 講義スケジュール
2
第01回 | 04/10 | 猿渡 |
第02回 | 04/17 | 猿渡 |
第03回 | 04/24 | 猿渡 |
第04回 | 05/01 | 猿渡 |
第05回 | 05/08 | 猿渡 |
第06回 | 05/15 | 猿渡 |
第07回 | 05/29 | 齋藤 |
| 06/05 | 休講 |
第08回 | 06/12 | 齋藤 |
第09回 | 06/19 | 齋藤 |
第10回 | 06/26 | 齋藤 |
第11回 | 07/03 | 齋藤 |
第12回 | 07/10 | 齋藤 |
第13回 | 07/24 | 猿渡・齋藤 (試験) |
前半
後半
応用音響学 講義の目的
3
ここから本日の内容
音声に含まれる情報の分類 [Fujisaki96]
5
こんにちは
本講義で学ぶこと: 音声に含まれる言語内容を
自動で認識するには?
最近の音声認識システムは本当にすごい
6
Google Pixel 8 (2023)
Phonetic typewriter (1962)
“one hundred Japanese monosyllables in which about 3000 transistors and about 5000 diodes”
あ,い,...ん,が,ぎ,....,きゃ,...
Sakai et al., “The phonetic typewriter,” IFIP Congress, 1962.
7
1,000言語以上を認識するための技術開発が進んでいる
本日の講義内容
8
音声のもつ情報と, それを扱う主な技術
9
Linguistic
(言語情報)
Para-linguistic
(パラ言語情報)
Non-linguistic
(非言語情報)
音声認識
話者認識�など
音声感情認識�など
物理
情報
物理
テキスト�音声合成
話者制御�音声合成など
感情音声合成�など
音声の認識と合成は対比される技術 (前者は抽象化, 後者は具現化)
こんにちは
こんにちは
テキスト音声認識 (Speech-To-Text)
10
音声
テキスト
STT モデル
こんにちは
こんにちは
テキスト音声認識の難しさ
11
音声
テキスト
STT モデル
こんにちは
難しさへの対処1: 音声/テキストからの特徴量抽出
12
短時間フーリエ変換
(STFT)
こんにちは
テキスト解析�(e.g., G2P*)
/k, o, N, n, i, ch, i, w, a/
*G2P = Grapheme-to-Phoneme (書記素音素変換).
[復習] STFT とスペクトログラム
13
応用音響学 第2回講義資料より引用
日本語におけるテキストの階層構造
14
意味の違いをもたらす�最小単位
日本語において�等時性を持つ単位
母音を中心とした,�対象言語の音声の塊
V
V
V
V
V
V
V
V
C
C
C
C
C
C
C
V: Vowel (母音), C: Consonant (子音).
難しさへの対処2: 部分問題への分割
15
潜在変数として
言語特徴量 を導入
(音声特徴量 からテキスト を予測する問題に置換)
Bayes の定理
分母は に無関係
音声 (特徴量) は言語特徴量のみに依存すると仮定
分割された各統計モデル
16
言語特徴量が与えられた下での音声特徴量の条件付き確率
単語の生起確率
単語が与えられた下での
言語特徴量の条件付き確率
古典的な音声認識フロー
17
/h a sh i o o k u/
“橋を置く”
“箸を置く”
“端を置く”
“箸を置く”
特徴量
抽出
本講義では音響モデル部分 (音響モデリング) のみを説明する.
(余談: 最近の研究ではこのフローを end-to-end に解く)
本日の講義内容
18
系列アラインメント問題
19
/a r a y u r u g e N j i ts u o …/
第5回の復習: left-to-right HMM
20
状態1
状態2
状態3
:状態3から状態3への� 遷移確率
観測系列
出力確率
状態系列
HMM 音声認識の定式化
21
言語特徴量
系列
1
2
3
1
2
3
1
2
3
音声特徴量�系列
出力確率
状態系列
(観測不可)
/k/
/o/
/N/
言語特徴量系列と音声特徴量系列のアラインメントは隠れている.
(すなわち, 状態系列が隠れ変数であるモデル)
こんにちは
HMM の尤度関数, 学習と推論
22
全状態経路で総和をとる (周辺化)
状態経路の尤度
経路が決まったときに, その特徴量を出力する確率 (出力確率)
Baum-Welch アルゴリズムによる学習 (第5回の復習)
23
状態 における平均ベクトル,共分散行列
( は時刻 t における状態)
状態 から に遷移する確率
(ただし, )
この対数尤度関数を最大とする HMM パラメータは解析的に求められない.
(∵対数の中に総和が含まれるため → Baum-Welch アルゴリズム)
Baum-Welch アルゴリズムによる学習 (第5回の復習)
24
補助変数を導入
Jensen の不等式を
適用
→ Maximize
具体的には, 補助変数 (状態の事後確率) を求めた後, 下限の式を最大化
HMM 出力確率の確率分布
25
共分散が零
特徴量空間
共分散が非零
GMM
デコーディング (学習済み HMM を用いた推論・認識)
26
Viterbi decoding
27
音声特徴量�系列
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
…
…
…
/a/
/i/
/u/
/N/
/a/
/i/
/u/
/N/
/a/
/i/
/u/
/N/
取りうるHMMを
並べたもの
(トレリス)
HMM から DNN へ
28
寄り道: DNN の学習と表現
29
隠れ層
入力層
出力層
寄り道: DNN の学習と表現
30
パラメータ θ をもつ DNN による非線形変換
目標値
学習係数
隠れ層
入力層
出力層
寄り道: DNN の学習と表現
31
出力を並べた
ベクトル
目的関数は Gauss 分布の負の対数尤度
(Negative Log Likelihood: NLL)
対角成分に σ を持つ
共分散行列
正規分布を表す生成モデル.�そのパラメータは入力に依存する.
代表的な DNN 音声認識
32
| CTC | Transducer | LAS |
図 | | | |
| HMM の学習に似た�軽量・ストリーミング処理 | 単語の依存関係を学習 ストリーミングも可能 | 単語の依存関係を学習 他分野知識を利用しやすい |
| 出力単語の独立性を�仮定するため品質が悪い | 学習が重い (大量のメモリが必要) | 系列変換なので ストリーミング処理に一癖 |
きょ__う_は_
きょ_う__は_
きょう__は__
系列長の違いを
ブランク記号(“_”)で表現
“きょ”
“う”
現在の認識
過去の認識
過去の認識結果と現在の�音声特徴から予測
いわゆる Attention 構造
きょ
う
は
クエリ
キー&
バリュー
予測
CTC の DNN 構造
33
音声特徴量�系列
* 図では簡単化のためにフレームごとに独立であるような DNN にしているが,一般には系列全体に依存するモデルであるため,確率の条件を o_t ではなく o にしている.
t フレーム目の音素が /a/ である確率
t フレーム目の音素が /i/ である確率
blank 記号の導入
34
<b> | i | i | i | <b> | a | <b> | i |
i | <b> | <b> | a | a | <b> | <b> | i |
i | i | <b> | a | <b> | i | i | <b> |
連続する非 blank
トークンは1つにする
blank 記号は�削除する
/i/
/a/
/i/
拡張系列から元の系列を一意に復元可能
blank 記号の導入
35
t フレーム目の音素が blank 記号である確率
音声特徴量系列と拡張系列のアラインメント
36
<b>
k
<b>
e
<b>
e
<b>
事後確率
音声特徴量系列
冒頭, 末尾, �音素間に <b> を入れた�拡張系列
DNN 出力として得られる
遷移パスに関する3つの制約
37
<b>
k
<b>
e
<b>
e
<b>
事後確率
制約2: blank からは blank or 次のトークン
制約1: 非 blank からは同じトークン or blank or 次の非 blank
制約3: 次が非 blank なら同じトークン or blank
(次トークンへの遷移を認めてしまうと [e, e] が [e] になってしまう)
遷移パスの開始・終了条件
38
<b>
k
<b>
e
<b>
e
<b>
事後確率
開始条件: blank or 非 blank から始まる
終了条件: blank or 非 blank で終わる
順方向パス
39
<b>
k
<b>
e
<b>
e
<b>
事後確率
累積の確率
順方向パス
40
累積の確率
<b>
k
e
<b>
e
<b>
事後確率
累積の確率
<b>
順方向パス
41
累積の確率
<b>
k
e
<b>
e
<b>
事後確率
累積の確率
<b>
逆方向パスも同様に計算可能
42
<b>
k
e
<b>
e
<b>
事後確率
<b>
逆方向パスも同様に計算可能
43
<b>
k
e
<b>
e
<b>
事後確率
<b>
ある時刻にある音素となる確率を計算可能
44
<b>
k
e
<b>
e
<b>
事後確率
<b>
CTC を使った学習
45
残る項以外は
変数に無関係
確率は に�比例するため
確率さえ求まっていれば,�微分をわざわざ計算する必要がない!
HMM との関係
46
本日の講義内容
47
音声認識は完璧ではない → どう評価すれば良いか?
48
様々な誤り率 (SER/WER/CER)
49
Ref.) 東京大学で学んでいます�Hyp.) 統計学を学んでいます
Ref.) 東京/大学/で/学ん/で/い/ますHyp.) 統計学/を/学ん/で/い/ます
Ref.) 東/京/大/学/で/学/ん/で/い/ま/すHyp.) 統/計/学/を/学/ん/で/い/ま/す
SER =100 %
挿入誤り: 0 (余計な認識結果)
削除誤り: 1 (認識漏れ)
置換誤り: 2 (聞き間違い)
Ref. 長さ: 7 [単語]
WER = (2 + 1) / 7 * 100 [%]
WER と同様に計算可能
余談: 正書法 (orthography)
50
編集距離に基づく WER の計算例
51
| | 大学 | へ | 行く |
| | | | |
きょう | | | | |
カーニバル | | | | |
へ | | | | |
行く | | | | |
見本 (Reference)
仮説 (Hypothesis)
j
i
長さの異なる2つの単語列を対応させた時の距離がWER.
?
編集距離に基づく WER の計算例
52
j
i
| | 大学 | へ | 行く |
| | | | |
きょう | | | | |
カーニバル | | | | |
へ | | | | |
行く | | | | |
見本 (Reference)
仮説 (Hypothesis)
挿入誤り (insertion error)
削除誤り (deletion error)
置換誤り(substitution error)
(i, j) の距離
(i, j) の単語が同じなら 0, 違うなら 1
編集距離に基づく WER の計算例
53
| | 大学 | へ | 行く |
| 0 | | | |
きょう | | | | |
カーニバル | | | | |
へ | | | | |
行く | | | | |
仮説 (Hypothesis)
j
i
挿入
削除
置換
見本 (Reference)
編集距離に基づく WER の計算例
54
| | 大学 | へ | 行く |
| 0 | 1 | 2 | 3 |
きょう | | | | |
カーニバル | | | | |
へ | | | | |
行く | | | | |
仮説 (Hypothesis)
j
i
挿入
削除
置換
見本 (Reference)
編集距離に基づく WER の計算例
55
| | 大学 | へ | 行く |
| 0 | 1 | 2 | 3 |
きょう | 1 | | | |
カーニバル | 2 | | | |
へ | 3 | | | |
行く | 4 | | | |
仮説 (Hypothesis)
j
i
挿入
削除
置換
見本 (Reference)
編集距離に基づく WER の計算例
56
| | 大学 | へ | 行く |
| 0 | 1 | 2 | 3 |
きょう | 1 | min(2, 2, 1) | | |
カーニバル | 2 | | | |
へ | 3 | | | |
行く | 4 | | | |
仮説 (Hypothesis)
j
i
挿入
削除
置換
見本 (Reference)
編集距離に基づく WER の計算例
57
| | 大学 | へ | 行く |
| 0 | 1 | 2 | 3 |
きょう | 1 | 1 | | |
カーニバル | 2 | min(3, 2, 2) | | |
へ | 3 | | | |
行く | 4 | | | |
仮説 (Hypothesis)
j
i
挿入
削除
置換
見本 (Reference)
編集距離に基づく WER の計算例
58
| | 大学 | へ | 行く |
| 0 | 1 | 2 | 3 |
きょう | 1 | 1 | 2 | |
カーニバル | 2 | 2 | 2 | |
へ | 3 | 3 | min(4, 3, 2) | |
行く | 4 | 4 | | |
仮説 (Hypothesis)
j
i
単語が一致なので
Local(i,j)=0
挿入
削除
置換
見本 (Reference)
編集距離に基づく WER の計算例
59
| | 大学 | へ | 行く |
| 0 | 1 | 2 | 3 |
きょう | 1 | 1 | 2 | 3 |
カーニバル | 2 | 2 | 2 | 3 |
へ | 3 | 3 | 2 | 3 |
行く | 4 | 4 | 3 | 2 |
仮説 (Hypothesis)
j
i
挿入
削除
置換
見本 (Reference)
編集距離に基づく WER の計算例
60
| | 大学 | へ | 行く |
| 0 | 1 | 2 | 3 |
きょう | 1 | 1 | 2 | 3 |
カーニバル | 2 | 2 | 2 | 3 |
へ | 3 | 3 | 2 | 3 |
行く | 4 | 4 | 3 | 2 |
仮説 (Hypothesis)
j
i
最短経路がアライメント結果になり, WER を計算できる.
(上記の例の場合, 長さ 4, 削除誤り 1, 置換誤り 1)
見本 (Reference)
+1
+1
WER/CER 計算時の注意点
61
まとめ
まとめ
63
参考文献
64