BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
Phạm Ngọc Hưng
NHẬN DẠNG TỰ ĐỘNG TIẾNG NÓI PHÁT ÂM LIÊN TỤC
CHO CÁC PHƯƠNG NGỮ CHÍNH CỦA TIẾNG VIỆT
THEO PHƯƠNG THỨC PHÁT ÂM
Chuyên ngành: Hệ thống thông tin
Mã số: 62480104
LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Trịnh Văn Loan
2. TS. Nguyễn Hồng Quang
Hà Nội - 2017
LỜI CAM ĐOAN
Tôi xin cam đoan tất cả các nội dung trong luận án “Nhận dạng tự động tiếng nói
phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm” là
công trình nghiên cứu của riêng tôi. Các số liệu, kết quả trong luận án là trung thực và
chưa từng được công bố trong bất kỳ công trình nào. Việc tham khảo các nguồn tài liệu đã
được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định.
TẬP THỂ HƯỚNG DẪN KHOA HỌC
TÁC GIẢ LUẬN ÁN
PGS.TS. Trịnh Văn Loan
Phạm Ngọc Hưng
TS. Nguyễn Hồng Quang
2
LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn tới Trường Đại học Bách khoa Hà Nội, Viện Công nghệ
Thông tin và Truyền thông, Bộ môn Kỹ thuật máy tính, Bộ môn Hệ thống thông tin đã tạo
điều kiện thuận lợi cho tôi trong quá trình học tập tại Trường.
Tôi muốn gửi lời cảm ơn đặc biệt tới tập thể hướng dẫn trực tiếp là
PGS.TS. Trịnh Văn Loan và TS. Nguyễn Hồng Quang. Hai Thầy đã luôn tận tình giúp đỡ,
đưa ra những lời khuyên, những định hướng khoa học rất quý báu để tôi có thể triển khai
và hoàn thành công việc nghiên cứu của mình.
Xin chân thành cảm ơn các thầy cô, các đồng nghiệp trong Bộ môn Hệ thống
Thông tin, Bộ môn Kỹ thuật máy tính, Viện Công nghệ Thông tin và Truyền thông,
Trường Đại học Bách khoa Hà Nội nơi tôi học tập, thực hiện đề tài nghiên cứu đã nhiệt
tình giúp đỡ và động viên tôi trong suốt quá trình nghiên cứu.
Cảm ơn Khoa Công nghệ Thông tin và Trường Đại học Sư phạm Kỹ thuật Hưng
Yên, nơi tôi đang công tác đã luôn tạo điều kiện cho tôi trong suốt quá trình nghiên cứu và
hoàn thành luận án này.
Với tấm lòng biết ơn đến các thầy cô, các nhà khoa học, các đồng nghiệp và bạn bè
thân hữu đã động viên và giúp đỡ tôi trong quá trình nghiên cứu.
Cuối cùng tôi muốn bày tỏ lòng biết ơn sâu sắc tới gia đình, nơi nuôi dưỡng và là
nguồn động lực để tôi vượt mọi trở ngại khó khăn để hoàn thành luận án này.
Phạm Ngọc Hưng
3
MỤC LỤC
MỤC LỤC ............................................................................................................................. 4
GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT............................................................ 7
DANH MỤC CÁC BẢNG .................................................................................................. 10
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ .......................................................................... 12
MỞ ĐẦU ............................................................................................................................. 14
1.
TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ NHẬN DẠNG PHƯƠNG NGỮ
18
1.1.
Nhận dạng tiếng nói .............................................................................................. 18
1.1.1.
Tổng quan về nhận dạng tiếng nói ................................................................ 18
1.1.2.
Lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng tiếng nói ...... 19
1.1.3.
Các thách thức đối với nhận dạng tự động tiếng nói ..................................... 20
1.1.4.
Phân loại hệ thống nhận dạng tự động tiếng nói ........................................... 21
1.2.
Nhận dạng phương ngữ......................................................................................... 23
1.2.1.
Các mô hình nhận dạng phương ngữ ............................................................. 23
1.2.2.
Nhận dạng phương ngữ theo các phương diện khác nhau............................. 24
1.3.
Nghiên cứu nhận dạng tiếng nói và nhận dạng phương ngữ tiếng Việt ............... 29
1.4.
Một số mô hình nhận dạng ................................................................................... 30
1.4.1.
Mô hình GMM .............................................................................................. 30
1.4.2.
Bộ phân lớp SVM .......................................................................................... 32
1.4.3.
Mạng nơ ron nhận tạo .................................................................................... 38
1.5.
Kết chương ............................................................................................................ 54
2. XÂY DỰNG BỘ NGỮ LIỆU CHO NGHIÊN CỨU NHẬN DẠNG PHƯƠNG NGỮ
TIẾNG VIỆT ....................................................................................................................... 56
2.1.
Tổng quan phương ngữ tiếng Việt ........................................................................ 56
2.1.1.
Phương ngữ và phân vùng phương ngữ tiếng Việt........................................ 56
2.1.2.
Đặc điểm ngữ âm ba vùng phương ngữ chính của tiếng Việt ....................... 57
2.1.3.
Sự khác biệt về từ vựng và ngữ nghĩa giữa ba vùng phương ngữ tiếng Việt 58
2.2.
Cấu trúc âm tiết, âm vị trong phương ngữ tiếng Việt ........................................... 60
2.2.1.
Âm tiết và âm vị trong tiếng Việt .................................................................. 60
2.2.2.
Âm đệm và cách kết hợp âm đệm trong các phương ngữ ............................. 64
4
2.3.
Phụ âm đầu trong phương ngữ tiếng Việt ............................................................. 65
2.3.1.
Hệ thống phụ âm đầu ..................................................................................... 65
2.3.2.
So sánh hệ thống phụ âm đầu ba phương ngữ Bắc-Trung-Nam ................... 67
2.4.
Hệ thống thanh điệu và các biến thể trong phương ngữ tiếng Việt ...................... 67
2.4.1.
Hệ thống thanh điệu Hà Nội .......................................................................... 68
2.4.2.
Hệ thống thanh điệu Nghệ - Tĩnh và Huế...................................................... 68
2.4.3.
Hệ thống thanh điệu Đà Nẵng và Thành phố Hồ Chí Minh .......................... 69
2.4.4.
Một số nhận xét về hệ thống thanh điệu các phương ngữ ............................. 70
2.5.
Ảnh hưởng của phương ngữ tới nhận dạng tiếng nói ........................................... 71
2.6. Ngữ liệu phương ngữ trên thế giới và xây dựng bộ ngữ liệu dùng cho nhận dạng
phương ngữ tiếng Việt ..................................................................................................... 71
2.6.1.
Phương pháp xây dựng bộ ngữ liệu phương ngữ tiếng Việt ......................... 72
2.6.2.
Chuẩn bị và chuẩn hóa văn bản ..................................................................... 73
2.6.3.
Ghi âm ........................................................................................................... 75
2.6.4.
Kết quả ghi âm và đặc tính VDSPEC ............................................................ 78
2.7.
2.7.1.
Biến thiên tần số cơ bản F0 theo thanh điệu của ba phương ngữ .................. 79
2.7.2.
Phân tích thống kê phân bố F0 của các thanh điệu ........................................ 81
2.7.3.
Phân tích dữ liệu dùng LDA .......................................................................... 83
2.8.
3.
Phân tích một số đặc trưng phương ngữ tiếng Việt của bộ ngữ liệu VDSPEC .... 79
Kết chương ............................................................................................................ 87
NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT .......................................................... 89
3.1.
Nhận dạng phương ngữ tiếng Việt với GMM ...................................................... 89
3.1.1.
Công cụ thử nghiệm nhận dạng phương ngữ ALIZE .................................... 89
3.1.2.
Lựa chọn số lượng hệ số MFCC.................................................................... 91
3.1.3. Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp
MFCC với tham số F0 ................................................................................................. 92
3.1.4. Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp
formant, dải thông tương ứng và tham số F0 .............................................................. 95
3.1.5. Ảnh hưởng của số lượng thành phần Gauss đối với hiệu năng nhận dạng
phương ngữ tiếng Việt ................................................................................................. 96
3.2.
SVM nhận dạng phương ngữ tiếng Việt ............................................................... 98
3.2.1.
Bộ phân lớp SMO .......................................................................................... 98
5
3.2.2.
3.3.
Thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng SMO ..................... 99
lBk nhận dạng phương ngữ tiếng Việt ................................................................ 103
3.3.1.
Bộ phân lớp IBk .......................................................................................... 103
3.3.2.
Kết quả nhận dạng phương ngữ tiếng Việt sử dụng IBk ............................. 106
3.4.
Nhận dạng phương ngữ tiếng Việt với bộ phân lớp MultilayerPerceptron ........ 107
3.4.1.
Bộ phân lớp MultilayerPerceptron trong Weka .......................................... 107
3.4.2.
MultilayerPerceptron nhận dạng phương ngữ tiếng Việt ............................ 107
3.5.
JRip nhận dạng phương ngữ tiếng Việt .............................................................. 108
3.5.1.
Bộ phân lớp JRip ......................................................................................... 108
3.5.2.
Nhận dạng phương ngữ tiếng Việt với JRip ................................................ 109
3.6.
Nhận dạng phương ngữ tiếng Việt với PART .................................................... 110
3.6.1.
Bộ phân lớp PART ...................................................................................... 110
3.6.2.
Kết quả dùng PART nhận dạng phương ngữ tiếng Việt ............................. 110
3.7.
Kết chương .......................................................................................................... 110
4. CẢI THIỆN HIỆU NĂNG NHẬN DẠNG TIẾNG VIỆT VỚI THÔNG TIN VỀ
PHƯƠNG NGỮ ................................................................................................................ 112
4.1.
HMM nhận dạng tiếng Việt nói .......................................................................... 112
4.1.1.
Mô hình HMM ............................................................................................ 112
4.1.2.
HMM nhận dạng tiếng Việt nói theo ba phương ngữ chính ........................ 125
4.2.
ngữ
Cải thiện hiệu năng nhận dạng tiếng Việt nói thông qua sử dụng thông tin phương
130
4.2.1.
Mô hình nhận dạng tiếng Việt nói với việc sử dụng thông tin phương ngữ 130
4.2.2.
Nhận dạng tiếng Việt nói khi có thông tin phương ngữ .............................. 132
4.3.
Kết chương .......................................................................................................... 133
KẾT LUẬN VÀ KIẾN NGHỊ ........................................................................................... 134
TÀI LIỆU THAM KHẢO ................................................................................................. 137
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN ............................ 149
6
GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Chữ viết tắt
Chữ viết đầy đủ
AANN
Auto-Associative Neural Network
AM
Acoustic Model
Mô hình âm học
ANN
Artificial Neural Network
Mạng nơ-ron nhân tạo
ARFF
Attribute-Relation File Format
Định dạng file tham số đặc trưng
trong Weka
ASR
Automatic Speech Recognition
Tự động nhận dạng tiếng nói
BKSPEC
Bach Khoa SPEech Corpus
Bộ ngữ liệu được phát triển tại Bộ
môn Kỹ thuật Máy tính – Viện
Công nghệ Thông tin và Truyền
thông – Đại học Bách khoa Hà Nội
BKTC
Bach Khoa Text Code
BMMI
Boosted Maximum Mutual
Information
Thông tin tương hỗ cực đại tăng
cường
CD
Concept Description
Mô tả khái niệm
CFG
Context-Free Grammar
Ngữ pháp phi ngữ cảnh
CMS
Cepstral Mean Subtraction
Trừ trung bình Cepstral
CMU SLM
Carnegie Mellon University
Statistical Language Modeling
Toolkit
Bộ công cụ mô hình hóa ngôn ngữ
thống kê của trường Carnegie
Mellon
DCF
Detection Cost Function
Hàm giá phát hiện
DET
Detection Error Tradeoff
Cân bằng sai số phát hiện
DL
Descrition Length
Độ dài mô tả
DNN
Deep Neural Networks
Mạng nơ-ron sâu
ELRA
European Language Resources
Association
Hội tài nguyên ngôn ngữ châu Âu
EM
Expectation Maximization
Cực đại hóa kỳ vọng
ERM
Empirical Risk Minimization
Tối thiểu hóa rủi ro theo kinh
nghiệm
F0
Fundamental frequency
Tần số cơ bản
fMLLR
feature-space MLLR
fMMI
feature-space MMI
fMPE
feature-space Minimum Phone Error
FST
Finite-State-Transducer
Chuyển trạng thái hữu hạn
GMM
Gaussian Mixture Model
Mô hình hỗn hợp Gauss
Giải thích
7
HLDA
Heteroscedastic Linear Discriminant
Analysis
Phân tích phân biệt tuyến tính hiệp
phương sai không đồng nhất
HMM
Hidden Markov Model
Mô hình Markov ẩn
HTK
Hidden Markov Model Toolkit
Bộ công cụ mô hình Markov ẩn
IBk
Instance Based k
Tên gọi bộ phân lớp k láng giềng
gần nhất trong Weka
IBL
Instance Based Learning
Học dựa trên đối tượng
IREP
Incremental Reduced Error Pruning
JRip
KKT
Karush–Kuhn–Tucker
Điều kiện Karush–Kuhn–Tucker
k-NN
k-Nearest Neighbour
K láng giềng gần nhất
LDA
Linear Discriminant Analysis
Phân tích phân biệt tuyến tính
LDC
Linguistic Data Consortium
Hội đoàn dữ liệu ngôn ngữ
LLR
Log Likelihood Ratio
LPC
Linear Prediction Coding
MAP
Maximum a Posteriori
MFCC
Mel Frequency Cepstral Coefficients
MHAH
Mô hình âm học
MHNN
Mô hình ngôn ngữ
MLLR
Maximum Likelihood Linear
Regression
MLLT
Maximum Likelihood Linear
Transforms
MMI
Maximum Mutual Information
MPE
Minimum Phone Error
Cực tiểu hóa lỗi âm
NIST
National Institute of Standards and
Technology
Viện Tiêu chuẩn và Công nghệ
Quốc gia của Mỹ
NLP
Natural Language Processing
Xử lý ngôn ngữ tự nhiên
NN
Neural Networks
Mã hóa tiên đoán tuyến tính
Các hệ số Cepstral theo thang đo
tần số Mel
PART
PCA
Principal Component Analysis
Phân tích các thành phần chính
PLP
Perceptual Linear Prediction
Tiên đoán cảm thụ tuyến tính
PNB
Phương ngữ Bắc
PNN
Phương ngữ nam
PNT
Phương ngữ Trung
8
PPR
Parallel Phone Recognition
PPRLM
Parallel Phone Recognition followed
by Language Modeling
PRLM
Phone Recognition followed by
Language Modeling
QP
Quadratic Programming
Quy hoạch toàn phương
RBF
Radial Basis Function
Hàm cơ bản hướng Gauss
RIPPER
Repeated Incremental Pruning to
Produce Error Reduction
RM
Risk Minimization
Tối thiểu hóa rủi ro
SAT
Speaker Adaptive Training
Huấn luyện thích nghi người nói
SBS
Sequential Backward Selection
Lựa chọn lùi lần lượt
SFS
Sequential Forward Selection
Lựa chọn tiến lần lượt
SMO
Sequential Minimal Optimization
Thuật giải tối ưu hóa cực tiểu lần
lượt
SRILM
Stanford Research Institute
Language Modeling
Bộ công cụ tạo mô hình ngôn ngữ
SRI
SRM
Structural Risk Minimization
Tối thiểu hóa rủi ro cấu trúc
SVM
Support Vector Machines
Máy véc-tơ hỗ trợ
TTS
Text-to-Speech
Văn bản thành tiếng nói
VDSPEC
Vietnamese Dialect Speech Corpus
Bộ ngữ liệu phương ngữ tiếng Việt
VTLN
Vocal Tract Length Normalization
Chuẩn hóa chiều dài tuyến âm
WER
Word Error Rate
Tỷ lệ lỗi từ
9
DANH MỤC CÁC BẢNG
Bảng 2.1: Sự khác biệt giữa các phương ngữ về từ và cách sử dụng từ .............................. 59
Bảng 2.2: Cấu trúc âm tiết tiếng Việt .................................................................................. 61
Bảng 2.3: Hệ thống phụ âm làm âm đầu ............................................................................. 62
Bảng 2.4: Bảng các âm chính là nguyên âm đơn ................................................................ 63
Bảng 2.5: Cách thể hiện bằng chữ viết các nguyên âm ....................................................... 63
Bảng 2.6: Vị trí các âm vị trong hệ thống âm cuối .............................................................. 64
Bảng 2.7: Hệ thống phụ âm đầu ở Bắc Bộ .......................................................................... 66
Bảng 2.8: So sánh các hệ thống phụ âm đầu giữa PNB, PNT và PNN ............................... 67
Bảng 2.9: Phân loại thanh điệu theo truyền thống............................................................... 67
Bảng 2.10: Đặc tính văn bản theo chủ đề ............................................................................ 73
Bảng 2.11: Tổ chức lưu dữ liệu của ngữ liệu VDSPEC ...................................................... 78
Bảng 2.12: Thống kê thời lượng ghi âm của VDSPEC theo phương ngữ .......................... 78
Bảng 2.13: Thống kê thời lượng ghi âm của VDSPEC theo chủ đề ................................... 79
Bảng 2.14: Ngữ cảnh chọn từ khảo sát thanh điệu .............................................................. 80
Bảng 3.1: Kết quả nhận dạng dùng GMM với các tham số MFCC, F0 và các giá trị chuẩn
hóa từ F0 .................................................................................................................... 94
Bảng 3.2: Ma trận nhầm lẫn nhận dạng phương ngữ không phụ thuộc giới tính khi sử dụng
hệ số MFCC kết hợp với tham số F0 ......................................................................... 94
Bảng 3.3: Kết quả thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp
formant, dải thông tương ứng và các tham số F0 ....................................................... 96
Bảng 3.4: Tỷ lệ nhận dạng trung bình với số lượng thành phần Gauss khác nhau ............. 98
Bảng 3.5: Bộ phân lớp SMO, kết quả nhận dạng với 384 tham số ................................... 100
Bảng 3.6: Bộ phân lớp SMO, ma trâ ̣n sai nhầ m với 384 tham số ..................................... 101
Bảng 3.7: Bộ phân lớp SMO, kết quả nhận dạng khi không có thông tin liên quan trực tiếp
F0 ............................................................................................................................. 101
Bảng 3.8: Bộ phân lớp SMO, ma trâ ̣n sai nhầ m khi không có thông tin liên quan trực tiếp
F0 ............................................................................................................................. 101
Bảng 3.9: Bộ phân lớp SMO, kết quả thử nghiệm khi chỉ dùng tham số liên quan trực tiếp
F0 ............................................................................................................................. 102
Bảng 3.10: Bộ phân lớp SMO, ma trâ ̣n sai nhầ m khi chỉ sử du ̣ng tham số liên quan trực
tiếp F0 ...................................................................................................................... 102
Bảng 3.11: Bộ phân lớp SMO, kết quả nhận dạng khi chỉ dùng tham số liên quan trực tiếp
MFCC....................................................................................................................... 102
Bảng 3.12: Bộ phân lớp SMO, ma trâ ̣n sai nhầ m khi chỉ dùng tham số liên quan trực tiếp
MFCC....................................................................................................................... 102
Bảng 3.13: Thuật giải IBl, CD – Concept Description [8] ................................................ 104
10
Bảng 3.14: Mô tả thuật giải k-láng giềng gần nhất ........................................................... 105
Bảng 3.15: Bộ phân lớp IBk, kết quả nhận dạng với k = 1 ............................................... 106
Bảng 3.16: Bộ phân lớp IBk, ma trâ ̣n sai nhầ m với k=1 ................................................... 106
Bảng 3.17: Bộ phân lớp IBk, kết quả nhận dạng với k=5 ................................................. 106
Bảng 3.18: Bộ phân lớp IBk, ma trâ ̣n sai nhầ m với k=5 ................................................... 107
Bảng 3.19: Kết quả nhận dạng phương ngữ tiếng Việt dùng MultilayerPerceptron ......... 108
Bảng 3.20: Ma trâ ̣n sai nhầ m nhâ ̣n da ̣ng phương ngữ tiếng Việt
dùng
MultilayerPerceptron................................................................................................ 108
Bảng 3.21: Kết quả dùng bộ phân lớp JRip nhận dạng phương ngữ tiếng Việt ................ 109
Bảng 3.22: Ma trâ ̣n sai nhầ m khi dùng JRip nhâ ̣n da ̣ng phương ngữ tiếng Việt .............. 109
Bảng 3.23: Kết quả sử dụng PART nhận dạng phương ngữ tiếng Việt ............................ 110
Bảng 3.24: Ma trâ ̣n sai nhầ m khi sử dụng PART nhận dạng phương ngữ tiếng Việt ....... 110
Bảng 4.1: Phân chia tập dữ liệu dùng cho huấn luyện và thử nghiệm .............................. 129
Bảng 4.2: Kết quả nhận dạng khi chưa biết thông tin phương ngữ ................................... 129
Bảng 4.3: Kết quả nhận dạng khi đã biết thông tin về phương ngữ .................................. 132
11
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ
Hình 1.1: Quyết định lề mềm .............................................................................................. 33
Hình 1.2: Ba phương pháp khác nhau huấn luyện SVM: Chunking, Osuna và SMO ....... 37
Hình 1.3: Mô hình một nơ-ron ............................................................................................ 38
Hình 1.4: Biến đổi làm mịn tạo ra do có thiên áp bk ; lưu ý là vk = bk nếu uk = 0. .............. 40
Hình 1.5: Mô hình nơ-ron phi tuyến .................................................................................... 40
Hình 1.6: Hàm ngưỡng ........................................................................................................ 41
Hình 1.7: Hàm kích tuyến tính đoạn ................................................................................... 42
Hình 1.8: Hàm kích hoạt Sigmoid với tham số độ dốc a..................................................... 43
Hình 1.9: Mạng nơ-ron truyền thẳng một lớp ..................................................................... 43
Hình 1.10: Mạng nơ-ron truyền thẳng có kết nối đầy đủ bao gồm một lớp ẩn và một lớp ra
.................................................................................................................................... 45
Hình 1.11: Mạng nơ-ron hồi quy không có vòng tự phản hồi và không có nơ-ron ẩn ........ 46
Hình 1.12: Mạng nơ-ron hồi quy với các nơ-ron ẩn ............................................................ 46
Hình 1.13: Kiến trúc đồ thị của Multilayer Perceptron với hai lớp ẩn. ............................... 49
Hình 1.14: Minh họa chiều của hai luồng tín hiệu cơ bản trong Multilayer Perceptron (hàm
tín hiệu lan truyền thẳng và lan truyền ngược của tín hiệu lỗi) ................................. 49
Hình 1.15: Đồ thị luồng tín hiệu chi tiết của nơ-ron ra j ..................................................... 51
Hình 1.16: Đồ thị chi tiết luồng tín hiệu của nơ-ron ra k kết nối với nơ-ron ẩn j ............... 53
Hình 2.1: Vị trí, vai trò âm đệm trong âm tiết ..................................................................... 62
Hình 2.2: Sơ đồ kết hợp âm đệm /w/ với các nguyên âm ở PNB và PNT .......................... 65
Hình 2.3: So sánh cấu trúc âm tiết PNB, PNT với PNN ..................................................... 65
Hình 2.4: Sơ đồ biến đổi các phụ âm ngạc hóa trong PNB và PNN ................................... 66
Hình 2.5: Đồ thị hệ thống thanh điệu Hà Nội (a), Huế (b), TP Hồ Chí Minh (c) ............... 70
Hình 2.6: Sự phân bố các âm vị trong VDSPEC ................................................................. 74
Hình 2.7: Đáp ứng tần số của SM48 ................................................................................... 75
Hình 2.8: (a) Dạng sóng tín hiệu được ghi âm. (b) Tỉ số tín hiệu trên nhiễu tính theo dB và
giá trị trung bình của tỉ số này.................................................................................... 77
Hình 2.9: Biến thiên F0 các thanh điệu của giọng nữ Hà Nội (a), Huế (b) và Thành phố Hồ
Chí Minh (c) ............................................................................................................... 80
Hình 2.10: Biến thiên F0 các thanh điệu của giọng nam Hà Nội (a), Huế (b) và Thành phố
Hồ Chí Minh (c) ......................................................................................................... 80
Hình 2.11: Biến thiên F0 của thanh hỏi ............................................................................... 81
Hình 2.12: Biến thiên F0 của thanh ngã .............................................................................. 81
Hình 2.13: Biến thiên F0 của thanh nặng ............................................................................ 82
Hình 2.14: Biến thiên F0 của thanh ngang .......................................................................... 82
12
Hình 2.15: Biến thiên F0 của thanh huyền .......................................................................... 82
Hình 2.16: Biến thiên F0 của thanh sắc ............................................................................... 82
Hình 2.17: Các bước thực hiện phân lớp theo LDA ............................................................ 85
Hình 2.18: Phân lớp phương ngữ dùng LDA cho thanh sắc (từ “chính”) ........................... 86
Hình 2.19: Phân lớp phương ngữ dùng LDA cho thanh ngang (từ “kinh”) ........................ 86
Hình 2.20: Phân lớp phương ngữ dùng LDA cho thanh nặng (từ “mạnh”) ........................ 86
Hình 2.21: Phân lớp phương ngữ dùng LDA cho thanh huyền (từ “thành”) ...................... 86
Hình 2.22: Phân lớp phương ngữ dùng LDA cho thanh hỏi (từ “tỉnh”) .............................. 87
Hình 2.23: Phân lớp phương ngữ dùng LDA cho thanh ngã (từ “vĩnh”) ............................ 87
Hình 3.1: Sơ đồ hệ thống nhận dạng phương ngữ tiếng Việt .............................................. 90
Hình 3.2: Thử nghiệm đánh giá, lựa chọn số hệ số MFCC ................................................. 91
Hình 3.3: Đồ thị DET với số thành phần Gauss (M) từ 20 đến 4096 .................................. 97
Hình 3.4: Hai nhân tử Lagrange phải đáp ứng tất cả các ràng buộc của bài toán đầy đủ. . 99
Hình 3.5: Phương pháp k láng giềng gần nhất .................................................................. 105
Hình 4.1: Kiến trúc bộ nhận dạng dựa trên HMM ............................................................ 114
Hình 4.2: Mô hình âm vị dựa trên HMM .......................................................................... 116
Hình 4.3: Mô hình âm phụ thuộc ngữ cảnh ....................................................................... 118
Hình 4.4: Tạo mô hình kết nối các trạng thái .................................................................... 119
Hình 4.5: Phân cụm cây quyết định ................................................................................... 120
Hình 4.6: Minh họa lưới từ ................................................................................................ 123
Hình 4.7: Minh họa mạng nhầm lẫn .................................................................................. 124
Hình 4.8: Cấu trúc lưới từ tạo ra bởi hệ thống HTK ......................................................... 125
Hình 4.9: Mô hình nhận dạng tự động tiếng nói ............................................................... 126
Hình 4.10: Phương pháp huấn luyện của Kaldi ................................................................. 127
Hình 4.11: Sơ đồ hệ thống nhận dạng tiếng Việt nói sử dụng thông tin phương ngữ ....... 130
Hình 4.12: Sơ đồ hệ thống nhận dạng tiếng nói sử dụng thông tin phương ngữ trên bộ ngữ
liệu VDSPEC ........................................................................................................... 131
13
MỞ ĐẦU
1.
Lý do chọn đề tài
Ngày nay, với sự phát triển mạnh mẽ của máy tính, các ứng dụng của máy tính
trong mọi lĩnh vực của cuộc sống đã làm nảy sinh nhiều yêu cầu nhằm đơn giản hoá quá
trình sử dụng, tăng hiệu quả khai thác máy tính và các ứng dụng trên máy tính. Trong bối
cảnh đó, xử lý tiếng nói nói chung và nhận dạng tiếng nói nói riêng là vấn đề đã và đang
được quan tâm nghiên cứu, phát triển ứng dụng nhằm nâng cao hiệu quả sử dụng của máy
tính phục vụ con người trong cuộc sống.
Trên thế giới đã có nhiều nghiên cứu về vấn đề này và đã đạt được nhiều thành
công. Nhiều sản phẩm hữu ích từ các kết quả nghiên cứu đã được ứng dụng trong thực tế.
Riêng về nhận dạng tiếng Việt, mặc dù đã có nhiều nghiên cứu và đạt được các thành công
nhất định nhưng để triển khai thành các sản phẩm ứng dụng thực tế vẫn còn nhiều mặt hạn
chế, đặc biệt là độ chính xác, chất lượng nhận dạng. Ngoài các khó khăn trong nhận dạng
tiếng nói nói chung, nhận dạng tiếng Việt nói còn gặp trở ngại lớn phải kể đến là vấn đề về
phương ngữ tiếng Việt.
Tiếng Việt có nhiều phương ngữ khác nhau. Giữa các phương ngữ có sự khác biệt
cả về từ vựng và ngữ âm trong đó ngữ âm là yếu tố quan trọng để tạo nên sự khác biệt và
phân chia các phương ngữ. Xét về từ vựng, sự khác nhau có thể ở một số bộ phận cấu
thành từ hay sự biến đổi của từ. Sự khác nhau cũng có thể xuất phát từ nguồn gốc của từ.
Ví dụ khi nói về cái kính (để đeo lên mắt), cái gương (để soi), theo cách gọi ở miền Bắc,
chúng được phân biệt rõ ràng bởi từ “kính”, “gương” (“đeo kính”, “soi gương”). Trong khi
đó, ở miền Nam, cả hai vật này chỉ được gọi bằng một từ là kiếng (biến thể về âm của
kính). Thay vì nói “đeo kính”, phương ngữ Nam lại dùng cách nói “đeo kiếng”. Cũng như
vậy, thay vì “soi gương” phương ngữ Nam lại dùng cách nói “soi kiếng”. Ở miền Trung,
hai vật kính và gương đều được gọi bằng từ “gương”. Hai thao tác tương ứng đeo kính, soi
gương được diễn đạt bằng “soi gương” và “đeo gương”. Xét về mặt ngữ âm, sự khác biệt
giữa các phương ngữ được thể hiện khá rõ ràng. Chẳng hạn với phương ngữ Nam, hai phụ
âm cuối “nh” và “ch” thường bị biến đổi thành “n” và “t” trong cách phát âm. Do vậy, từ
“tịch” theo cách phát âm giọng miền Nam thì lại là “tựt” (nguyên âm “i” biến thành “ư” và
phụ âm cuối “ch” thành “t”) hoặc “nhanh” thì thành “nhăn”, “mình” thành “mừn”.
Sự khác biệt nêu trên gây ra không ít khó khăn cho ngay chính con người khi giao
tiếp với người sử dụng phương ngữ khác. Rõ ràng, sự khác biệt đó cũng ảnh hưởng tới các
hệ thống nhận dạng tiếng Việt nói, làm giảm hiệu quả nhận dạng của các hệ thống nhận
dạng tiếng nói.
Chính vì vậy, cần thiết phải nghiên cứu vấn đề nhận dạng tiếng Việt nói theo các
vùng phương ngữ khác nhau nhằm tìm ra giải pháp kỹ thuật nâng cao hiệu quả nhận dạng
tiếng Việt nói. Trước khi tiến hành nhận dạng nội dung tiếng nói, nếu có thể xác định được
tiếng nói đó thuộc phương ngữ nào thì có thể xây dựng hệ thống nhận dạng với ngữ liệu
được tổ chức phù hợp cho từng phương ngữ và sử dụng ngữ liệu này để nhận dạng tiếng
14
nói của phương ngữ tương ứng. Với cách xây dựng hệ thống nhận dạng tiếng nói như vậy,
các sai nhầm nhận dạng của hệ thống do phương thức phát âm hay thậm chí là cả do sử
dụng từ địa phương sẽ được giảm bớt, hiệu năng nhận dạng của hệ thống sẽ được cải thiện.
Từ các lý do nêu trên, luận án lựa chọn đề tài nghiên cứu “Tự động nhận dạng tiếng
nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm”
nhằm nghiên cứu sâu hơn về vấn đề xử lý nhận dạng tiếng Việt nói, giải quyết một số hạn
chế trong nhận dạng tiếng Việt nói hiện tại liên quan đến phương ngữ và góp phần phát
triển các ứng dụng công nghệ thông tin cho người Việt cũng như các sản phẩm ứng dụng
công nghệ thông tin sử dụng tiếng Việt trong dịch tự động, giao tiếp và tương tác ngườimáy.
2.
Mục tiêu nghiên cứu của luận án
Mục tiêu chính của luận án là Nghiên cứu nhận dạng tiếng Việt nói cho các vùng
phương ngữ chính, đánh giá ảnh hưởng của phương ngữ đến hiệu năng của hệ thống nhận
dạng và đề xuất giải pháp kỹ thuật nhận dạng phương ngữ áp dụng vào hệ thống nhận dạng
tiếng Việt nói nhằm nâng cao hiệu năng nhận dạng.
3.
Nhiệm vụ nghiên cứu của luận án
Để đạt mục tiêu đã đề ra, luận án cần thực hiện các nhiệm vụ chính sau:
(1) Nghiên cứu đặc điểm phương ngữ tiếng Việt từ đó xác định được các nét đặc
trưng, sự khác biệt giữa các phương ngữ chính của tiếng Việt làm cơ sở cho
nghiên cứu nhận dạng phương ngữ tiếng Việt. Luận án cũng đánh giá sự ảnh
hưởng của phương ngữ tới hệ thống nhận dạng tự động tiếng Việt nói.
(2) Xây dựng bộ ngữ liệu phương ngữ tiếng Việt phục vụ cho nghiên cứu nhận
dạng phương ngữ tiếng Việt và nhận dạng tiếng Việt nói.
(3) Nghiên cứu, đề xuất mô hình hệ thống nhận dạng tự động, bộ tham số phù hợp
để nhận dạng phương ngữ tiếng Việt.
(4) Nghiên cứu, đề xuất mô hình hệ thống nhận dạng tự động tiếng Việt nói theo
phương ngữ chính của tiếng Việt. Hệ thống mới sử dụng các thông tin về
phương ngữ nhằm nâng cao hiệu năng của hệ thống nhận dạng tiếng Việt nói.
4.
Đối tượng và phạm vi nghiên cứu của luận án
Đối tượng nghiên cứu trọng tâm của luận án là nhận dạng phương ngữ tiếng Việt.
Từ kết quả nhận dạng phương ngữ, xây dựng mô hình nhận dạng tiếng Việt nói theo
phương ngữ. Mô hình mới sử dụng thông tin về phương ngữ nhằm cải thiện hiệu năng hệ
thống nhận dạng tiếng Việt nói. Việc nghiên cứu phương ngữ tiếng Việt chủ yếu chỉ tập
trung theo hướng xử lý tín hiệu.
Phương ngữ tiếng Việt rất phong phú. Về mặt địa lý, xét theo phương thức phát âm,
phương ngữ có thể thay đổi theo từng làng, xã. Tuy nhiên, trong phạm vi nghiên cứu của
luận án, do thời gian có hạn, luận án chỉ giới hạn nghiên cứu nhận dạng ba phương ngữ
chính và phổ biến của tiếng Việt theo phương thức phát âm là phương ngữ Bắc (lấy giọng
15
Hà Nội làm đại diện), phương ngữ Trung (lấy giọng Huế làm đại diện) và phương ngữ
Nam (lấy giọng Thành phố Hồ Chí Minh làm đại diện).
Bên cạnh đó, với mục tiêu ứng dụng kết quả nhận dạng phương ngữ tiếng Việt vào
hệ thống nhận dạng tự động tiếng Việt nói nhằm cải thiện hiệu năng nhận dạng, nhận dạng
phương ngữ được xem là bước tiền xử lý trong hệ thống nhận dạng tự động tiếng Việt.
Việc nhận dạng phương ngữ cần được tiến hành trước khi nhận dạng nội dung, nghĩa là ở
thời điểm còn chưa biết nội dung tiếng nói. Vì vậy, thao tác của hệ thống nhận dạng
phương ngữ chưa thể khai thác các thông tin về từ địa phương mà chủ yếu là khai thác
thông tin về phương thức phát âm của phương ngữ.
Các thử nghiệm nhận dạng phương ngữ mà luận án tiến hành dựa trên ngữ liệu với
số lượng từ vựng hạn chế để từ đó xác định được các đặc trưng của từng phương ngữ và đề
xuất mô hình nhận dạng phương ngữ nhằm nâng cao chất lượng hệ thống nhận dạng tiếng
Việt nói.
5.
Ý nghĩa khoa học và thực tiễn của luận án
Nội dung nghiên cứu, kết quả dự kiến đạt được của luận án sẽ có đóng góp đáng kể
cho mở rộng nghiên cứu về phương ngữ tiếng Việt. Các nghiên cứu về phương ngữ tiếng
Việt đã được triển khai cho đến nay chủ yếu thực hiện theo phương diện ngôn ngữ. Nghiên
cứu về phương diện xử lý tín hiệu vẫn còn hạn chế. Do vậy, hướng nghiên cứu theo
phương diện xử lý tín hiệu sẽ giúp mở rộng phạm vi nghiên cứu cũng như gia tăng khả
năng ứng dụng các kết quả đạt được trong lĩnh vực nghiên cứu xử lý tiếng Việt nói nói
chung và nhận dạng tiếng Việt nói nói riêng.
Từ kết quả nhận dạng phương ngữ, đề xuất mô hình mới nhận dạng tiếng Việt nói
sử dụng thông tin phương ngữ nhằm cải thiện hiệu năng hệ thống nhận dạng tiếng Việt nói,
góp phần hoàn thiện hơn khả năng nhận dạng của hệ thống nhận dạng tự động tiếng Việt
nói.
6.
Phương pháp nghiên cứu
Phương pháp nghiên cứu của luận án là kết hợp nghiên cứu lý thuyết với nghiên
cứu thực nghiệm.
Về lý thuyết: luận án nghiên cứu tổng quan về phương ngữ tiếng Việt, các mô hình
nhận dạng phương ngữ của một số ngôn ngữ trên thế giới, các mô hình nhận dạng tiếng nói
dựa trên các tài liệu, công trình khoa học đã được công bố, sách báo, giáo trình liên quan.
Về thực nghiệm: luận án xây dựng bộ ngữ liệu tiếng Việt mới phục vụ cho nghiên
cứu nhận dạng phương ngữ tiếng Việt và nhận dạng nội dung tiếng Việt nói. Luận án cũng
sử dụng các công cụ mã nguồn mở kết hợp lập trình phần mềm xử lý dữ liệu, thực hiện các
nghiên cứu, thử nghiệm nhận dạng phương ngữ tiếng Việt, xây dựng và thử nghiệm mô
hình nhận dạng phương ngữ cũng như nhận dạng tiếng Việt nói theo phương ngữ.
7.
Kết quả nghiên cứu, đóng góp của luận án
Kết quả nghiên cứu và đóng góp của luận án tập trung vào các điểm chính sau:
16
(1) Phân tích đặc điểm phương ngữ tiếng Việt, sự khác biệt giữa các phương ngữ
chính của tiếng Việt về phương diện phát âm về mặt xử lý tín hiệu.
(2) Xây dựng bộ ngữ liệu tiếng Việt mới phục vụ cho nghiên cứu nhận dạng
phương ngữ tiếng Việt cũng như các nghiên cứu khác về nhận dạng tiếng Việt
nói; thực hiện một số nghiên cứu, thử nghiệm, phân tích đặc điểm của phương
ngữ tiếng Việt.
(3) Đề xuất mô hình nhận dạng phương ngữ tiếng Việt và bộ tham số phù hợp cho
mô hình nhận dạng phương ngữ tiếng Việt.
(4) Sử dụng mô hình HMM (Hidden Markov Model) nhận dạng tiếng Việt nói trên
bộ ngữ liệu có phương ngữ.
(5) Đề xuất mô hình nhận dạng tiếng Việt nói theo phương ngữ.
8.
Nội dung luận án
Nội dung chính của luận án được trình bày trong 4 chương như sau:
Chương 1: Tổng quan về nhận dạng tiếng nói và nhận dạng phương ngữ. Chương
này trình bày tổng quan về nhận dạng tiếng nói, lịch sử phát triển và các tiến bộ trong
nghiên cứu nhận dạng tiếng nói; các nghiên cứu và kết quả đạt được về nhận dạng phương
ngữ; việc nghiên cứu về nhận dạng tiếng nói và phương ngữ tiếng Việt, các vấn đề còn tồn
tại trong nghiên cứu, nhận dạng tiếng Việt nói và phương ngữ tiếng Việt; làm rõ vấn đề
cần nghiên cứu, giải quyết trong luận án.
Chương 2: Xây dựng bộ ngữ liệu cho nghiên cứu nhận dạng phương ngữ tiếng
Việt. Nội dung chương này đề cập các nghiên cứu chi tiết hơn về phương ngữ tiếng Việt,
từ đó cho thấy sự khác biệt giữa các phương ngữ, đặc biệt là phương thức phát âm, làm cơ
sở cho nghiên cứu nhận dạng phương ngữ tiếng Việt. Chương 2 cũng trình bày phương
pháp xây dựng bộ ngữ liệu dùng cho nghiên cứu nhận dạng phương ngữ tiếng Việt và kết
quả phân tích đạt được đối với một số đặc trưng của phương ngữ tiếng Việt dựa trên ngữ
liệu đã xây dựng.
Chương 3: Nhận dạng phương ngữ tiếng Việt. Chương này tập trung vào nghiên
cứu các mô hình nhận dạng phương ngữ tiếng Việt, việc lựa chọn tham số ứng dụng cho
mỗi mô hình và trình bày các kết quả thử nghiệm nhận dạng phương ngữ tiếng Việt sử
dụng các mô hình và tham số đã đề xuất.
Chương 4: Cải thiện hiệu năng nhận dạng tiếng Việt với thông tin về phương ngữ.
Luận án sẽ trình bày mô hình nhận dạng tiếng nói dựa trên HMM sử dụng các thông tin về
phương ngữ nhằm cải thiện hiệu năng nhận dạng tiếng Việt nói. Kết quả thử nghiệm cho
thấy mô hình nhận dạng tiếng Việt nói có sử dụng thông tin phương ngữ cho hiệu năng
nhận dạng tốt hơn so với trường hợp không có thông tin về phương ngữ.
Cuối cùng, phần Kết luận tổng hợp các kết quả nghiên cứu đã đạt được, hướng mở
rộng nghiên cứu, phát triển đề tài và các đóng góp khoa học của luận án.
17
CHƯƠNG 1
1.
TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ NHẬN
DẠNG PHƯƠNG NGỮ
Chương 1 đề cập nội dung tổng quan về nhận dạng tiếng nói và nhận dạng phương
ngữ. Đây là vấn đề chính mà luận án quan tâm. Trong chương này, luận án tập trung tổng
hợp, phân tích tình hình nghiên cứu trong và ngoài nước về nhận dạng tiếng nói và nhận
dạng phương ngữ nhằm xác định các hướng tiếp cận, phương pháp giải quyết các bài toán
trong lĩnh vực này. Đồng thời, Chương 1 cũng tổng hợp các nghiên cứu liên quan về nhận
dạng tiếng Việt và phương ngữ tiếng Việt, nêu bật những mặt còn tồn tại, những vấn đề
cần giải quyết đối với nhận dạng tiếng Việt và phương ngữ tiếng Việt từ đó tìm hướng tiếp
cận nhằm nâng cao hiệu năng cho hệ thống nhận dạng tiếng Việt nói.
1.1. Nhận dạng tiếng nói
1.1.1. Tổng quan về nhận dạng tiếng nói
Nhiệm vụ của hệ thống nhận dạng tiếng nói là làm cho hệ thống hiểu được tiếng
nói của con người. Nhờ hệ thống này, tiếng nói có thể được chuyển đổi tự động thành văn
bản, hoặc tự động điều khiển các quá trình khác [178]. Phương thức truyền thông tự nhiên
nhất đối với con người là thông qua tiếng nói nên ước mơ cuối cùng của nhận dạng tiếng
nói là cho phép con người có ngôn ngữ khác nhau giao tiếp với nhau và với máy một cách
tự nhiên, hiệu quả hơn. Có thể nói, các ứng dụng nhận dạng tiếng nói hiện đang dần trở
nên phổ biến, phục vụ đời sống con người cũng như trong các lĩnh vực kỹ thuật khác nhau.
Trong lĩnh vực tương tác người máy, nhận dạng tiếng nói được định nghĩa là khả năng hệ
thống máy tính có thể chấp nhận đầu vào là lời nói theo định dạng file âm thanh và tạo ra
được văn bản chứa nội dung tương ứng.
Nhận dạng tự động tiếng nói ASR (Automatic Speech Recognition) mô phỏng khả
năng nghe và hiểu lời nói của con người. Hệ thống ASR có thể chuyển đổi lời nói thành
văn bản. Bài toán nhận dạng tự động tiếng nói là một chương trình máy tính tiếp nhận đầu
vào là các mẫu tiếng nói và tạo ra văn bản tương ứng mà con người có thể hiểu được như
khi trực tiếp nghe tiếng nói đó. ASR là một trong các lĩnh vực của nhận dạng mẫu. ASR
phát triển mạnh tương xứng với các lĩnh vực khác của nhận dạng mẫu vì mong muốn tạo ra
được cỗ máy có khả năng tạo ra được các quyết định phức tạp và thực tế, có chức năng
nhanh như con người đồng thời có thể hiểu được lời nói. Tương tự như bất kỳ hệ thống
nhận dạng mẫu nào, ASR tìm kiếm để hiểu được các mẫu tiếng nói đầu vào. Các nghiên
cứu về xử lý tín hiệu, xử lý tiếng nói và đặc biệt là nhận dạng tiếng nói đã thu hút nhiều
nhà khoa học tham gia và mang lại nhiều thành tựu trong các lĩnh vực này [33, 37, 55, 57,
63, 75, 94, 95, 134].
18
Mục tiếp theo dưới đây sẽ trình bày tóm lược về lịch sử phát triển và các tiến bộ
trong nghiên cứu nhận dạng tiếng nói.
1.1.2. Lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng
tiếng nói
Điều đầu tiên quan trọng cần phải kể đến trong lịch sử phát triển của nhận dạng
tiếng nói là việc thành lập các mô hình thống kê và các thuật giải liên quan tạo điều kiện
cho việc thực hiện các mô hình này. Mô hình HMM đã được giới thiệu như là một mô hình
âm học của hệ thống nhận dạng tiếng nói từ đầu những năm 1970 [12, 82]. Hơn 30 năm
sau, phương pháp này vẫn còn được sử dụng rộng rãi. Một lượng lớn các mô hình và thuật
giải đã được đề xuất và sử dụng hiệu quả trong lĩnh vực này. Thuật giải tối đa hóa kỳ vọng
EM (Expectation Maximization) và thuật giải quay lui (Forward – Backward) hoặc thuật
giải Baum – Welch [14, 36] đã có vai trò chủ yếu và quan trọng trong việc huấn luyện mô
hình HMM một cách hiệu quả. Tương tự như vậy, mô hình ngôn ngữ N-gram và các biến
thể được huấn luyện với các tính toán cơ bản hoặc sử dụng kỹ thuật EM-Style đã đạt được
các hiệu quả quan trọng. Bên cạnh mô hình âm học HMM và mô hình ngôn ngữ cơ bản
N-gram, đã có nghiên cứu mới được công bố như các mô hình phân đoạn [38, 39, 60] và
các mô hình ngôn ngữ và tiếng nói có cấu trúc [27, 40, 175]. Các thuật giải thích nghi hiệu
quả cho phép tích hợp được trên các ứng dụng đòi hỏi xử lý nhanh. Đây là chìa khóa dẫn
đến thành công cho việc phát triển các sản phẩm thương mại của công nghệ nhận dạng
tiếng nói. Các kỹ thuật thích nghi phổ biến có thể kể đến là tối đa xác suất hậu nghiệm
MAP (Maximum a Posteriori probability), ước lượng MLLR (Estimation và Maximum
Likelihood Linear Regression) [96]. Các kỹ thuật thích nghi đã được tổng quát hóa để huấn
luyện các mô hình chung, một đại diện tốt trong số đó có thể kể đến là mô hình thống kê
toàn thể của tập dữ liệu huấn luyện đầy đủ. Kỹ thuật này được gọi là kỹ thuật huấn luyện
thích nghi người nói SAT (Speaker Adaptive Training) [9]. Huang cùng cộng sự đã có
nghiên cứu so sánh các phương pháp nhận dạng độc lập người nói, nhận dạng phụ thuộc
người nói và nhận dạng thích nghi người nói [74]. Kết quả nghiên cứu này cho thấy: khi
nhận dạng độc lập người nói, tỷ lệ lỗi từ đạt 4,3%, còn khi sử dụng dữ liệu phụ thuộc
người nói, tỷ lệ lỗi từ đã giảm đến 1,4%. Trong các thử nghiệm, nhóm tác giả đều áp dụng
phương pháp thich nghi người nói.
Nhóm thứ hai trong những tiến bộ đáng kể của lĩnh vực xử lý tiếng nói là sự hình
thành cơ sở hạ tầng tính toán mạnh về phần cứng cho phép phát triển được các thuật giải,
mô hình thống kê nêu trên. Định luật Moore quan sát sự tiến bộ trong lĩnh vực phát triển
của máy tính và dự báo khả năng tính toán tăng gấp đôi sau mỗi khoảng thời gian từ 12 đến
18 tháng. Cũng như vậy, chi phí cho bộ nhớ sẽ được giảm đi. Cơ sở hạ tầng mạnh nói trên
là phương tiện cho phép các nhà nghiên cứu về nhận dạng tiếng nói có thể phát triển và
đánh giá độ phức tạp các thuật giải trên các tác vụ đủ lớn. Ngữ liệu tiếng nói đóng vai trò
quan trọng để thực hiện các nghiên cứu nhận dạng tiếng nói. Ngữ liệu tiếng nói lớn cho
phép các mô hình thống kê học hiệu quả hơn. Trong những năm qua, Viện Tiêu chuẩn và
19
Công nghệ NIST (National Institute of Standard and Technology), Hiệp hội dữ liệu ngôn
ngữ học LDC (Linguistic Data Consortium), Hiệp hội Tài nguyên Ngôn ngữ châu Âu
ELRA (European Language Resources Association) và các tổ chức khác đã xây dựng được
các bộ ngữ liệu tiếng nói, chú giải và chia sẻ rộng rãi cho cộng đồng trên toàn thế giới. Với
sự phát triển, hội nhập và chia sẻ trên phạm vi toàn cầu, hiện nay, nhiều phòng thí nghiệm,
các nhà nghiên cứu đã được hưởng lợi ích từ các công cụ phục vụ cho nghiên cứu được
cung cấp miễn phí như HTK (Hidden Markov Model Toolkit), Sphinx, CMU LM toolkit
và SRILM toolkit. Mặt khác, các hỗ trợ cho nghiên cứu sâu, rộng, kết hợp với các hội nghị,
hội thảo, hệ thống đánh giá được DARPA (U.S. Department of Defense Advanced
Research Projects Agency) và các tổ chức, cá nhân khác tài trợ đã trở nên cần thiết cho sự
phát triển hệ thống nhận dạng tiếng nói hiện nay.
Nhóm tiến bộ thứ 3 có thể kể đến thuộc về lĩnh vực biểu diễn tri thức. Các kỹ thuật
phân tích tham số tiếng nói như MFCC (Mel-Frequency Cepstral Coefficients) [35], tiên
đoán cảm thụ tuyến tính PLP (Perceptual Linear Prediction) [70], chuẩn hóa thông qua trừ
trung bình cepstral CMS (Cepstral Mean Subtraction) [138], RASTA [70] và chuẩn hóa
chiều dài tuyến âm VTLN (Vocal Tract Length Normalization) [42]. Gần đây, có nhiều
thuật giải đã được đề xuất cho nhận dạng tiếng nói mang lại hiệu quả cao như Phân tích
phân biệt tuyến tính hiệp phương sai không đồng nhất HLDA (Heteroscedastic Linear
Discriminant Analysis) [90], cực tiểu lỗi từ theo không gian đặc trưng fMPE (feature-space
Minimum Phone Error) [131] và mạng nơ ron dựa trên các đặc trưng [111].
Nhóm cuối cùng trong các tiến bộ lớn của nhận dạng tiếng nói là giải mã và các
thuật giải tìm kiếm. Ban đầu tập trung vào giải mã ngăn xếp (thuật giải tìm kiếm A∗) [84]
và tìm kiếm đồng bộ thời gian Viterbi (time-synchronous Viterbi search) [114, 142, 168,
170]. Nếu không có các thuật giải khả thi thì các nhận dạng tiếng nói liên tục có quy mô
lớn khó có thể thực hiện được.
Như vậy có thể thấy, nhận dạng tiếng nói đã đạt được nhiều tiến bộ trong các năm
qua. Có nhiều mô hình nhận dạng đã được đề xuất trong đó mô hình HMM với nền tảng
chính không có nhiều thay đổi song việc mô hình hóa, các kỹ thuật cài đặt cụ thể vẫn liên
tục được cải tiến. Vì thế, HMM vẫn giữ được vị trí quan trọng trong các hệ thống nhận
dạng tiếng nói. Bên cạnh đó, các kỹ thuật phân tích tham số cũng đạt được những bước
tiến quan trọng. Các thuật giải tìm kiếm được cải tiến giúp bộ giải mã thực hiện các nhiệm
vụ tìm kiếm, cho ra lời giải hiệu quả hơn.
1.1.3. Các thách thức đối với nhận dạng tự động tiếng nói
Vì có nhiều ý nghĩa trong nghiên cứu cũng như thực tiễn ứng dụng, nhận dạng
tiếng nói đã thu hút nhiều nhà khoa học tham gia nhưng lĩnh vực này cũng phải đối mặt với
nhiều thách thức.
Thách thức lớn đầu tiên đối với nhận dạng tự động tiếng nói có thể kể đến là làm
thế nào để xử lý được các biến thiên trong tiếng nói. Cùng một âm do cùng một người nói
ở những thời điểm khác nhau song tín hiệu tiếng nói có thể không hoàn toàn như nhau.
20
- Xem thêm -