Protonx Final Project
Wav2vec 2.0 for ASR
Nguyễn Đức Huy
20/08/2023
1
ASR pipeline
Embeddings
Speech signal
Decode Algorithm
Acoustic Model
(wav2vec2)
Pronunciation Vocabulary
Language Model
(n-gram)
Text
2
Tối ưu mô hình
Mô hình wav2vec 2.0 Base:
Hướng tối ưu:
3
Kết quả tối ưu mô hình
| Model | #Parameters | Model size | CPU Inference time | GPU Inference time | WER |
Original | w/o LM | 94M | 378 MB | 1157.66 s | 111.04 s | 0.264 |
with LM | 94M | 378 MB | | 373.05 s | 0.204 | |
Distilled | w/o LM | 51.9M | 198 MB | 810.70 s | 89.90 s | 0.175 |
with LM | 51.9M | 198 MB | | 169.51 s | 0.112 |
4
Triển khai mô hình
5
Triển khai mô hình
6
Triển khai mô hình
Deploy lên cloud - GCP
7
Kết quả triển khai
8