Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất ...

Tài liệu Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng việt

.PDF
253
469
92

Mô tả:

1 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ NGÔ HOÀNG HUY NGHIÊN CỨU CÁC ĐẶC TRƯNG TÍN HIỆU VÀ RÀNG BUỘC NGÔN ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG TỔNG HỢP VÀ NHẬN DẠNG TIẾNG VIỆT LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội – 2016 2 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ NGÔ HOÀNG HUY NGHIÊN CỨU CÁC ĐẶC TRƯNG TÍN HIỆU VÀ RÀNG BUỘC NGÔN ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG TỔNG HỢP VÀ NHẬN DẠNG TIẾNG VIỆT Chuyên ngành: Cơ sở Toán học cho Tin học Mã số: 62 46 01 10 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS. LƯƠNG CHI MAI 2. PGS.TS. NGÔ QUỐC TẠO Hà Nội – 2016 3 LỜI CAM ĐOAN Tác giả xin cam đoan đây là công trình nghiên cứu của bản thân tác giả. Các kết quả nghiên cứu và các kết luận trong luận án này là trung thực, không sao chép từ bất kỳ một nguồn nào và dưới bất kỳ hình thức nào. Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định. Tác giả luận án Ngô Hoàng Huy 4 LỜI CẢM ƠN Luận án này báo cáo một phần các kết quả nghiên cứu và làm việc của tôi trong hơn hai chục năm qua. Trong suốt thời gian này ngoài nỗ lực làm việc của bản thân tôi, phòng Nhận dạng và Công nghệ Tri thức, Viện Công nghệ Thông tin đã tạo cho tôi một môi trường làm việc, điều kiện để thực hiện các nghiên cứu về chuyên nghành rộng là nhận dạng và chuyên nghành hẹp nhận dạng và tổng hợp tiếng Việt. Tôi xin chân thành cảm ơn PGS.TS Lương Chi Mai và PGS.TS Ngô Quốc Tạo đã chỉ dẫn tôi làm việc trong bước đường khoa học của tôi, tận tình chỉ dẫn tôi để hoàn thành được luận án này. Xin cảm ơn các đồng nghiệp tại Phòng Nhận dạng và Công nghệ tri thức, Viện Công nghệ Thông tin đã đóng góp những ý kiến thiết thực để tôi hiệu chỉnh lại các tiếp cận nghiên cứu của mình, cảm ơn các kỹ sư tại công ty Cổ phần Phần mềm và Công nghệ ứng dụng đã hỗ trợ tôi thử nghiệm các kết quả về tổng hợp và nhận dạng khẩu lệnh tiếng Việt trên nền tảng chip PSoC. Đặc biệt tôi xin bày tỏ lòng biết ơn sâu sắc tới vợ tôi Mai Thị Bạch Tuyết mà thiếu điều này chắc chắn tôi đã không đủ nghị lực để hoàn thành bản luận án này. 5 MỤC LỤC Danh mục các thuật ngữ và từ viết tắt i Danh sách bảng ii Danh sách hình vẽ iii MỞ ĐẦU 1 1. Tính cấp thiết của đề tài .................................................................................... 1 2. Mục tiêu, phạm vi nghiên cứu của luận án. ....................................................... 4 3. Phương pháp và nội dung nghiên cứu ............................................................... 5 4. Kết quả đạt được của luận án ............................................................................ 6 CHƯƠNG 1. TỔNG QUAN VỀ TỔNG HỢP VÀ NHẬN DẠNG TIẾNG NÓI 10 1.1. Tổng hợp tiếng nói ....................................................................................... 10 1.1.1. Chuẩn hóa văn bản và phân tích câu – xử lý ngôn ngữ tự nhiên ........ 11 1.1.2. Chuyển văn bản sang đơn vị tiếng nói .............................................. 11 1.1.3. Dự báo ngôn điệu ............................................................................. 11 1.1.4. Các phương pháp tổng hợp tiếng nói ................................................ 12 1.1.5. Các hệ thống tổng hợp tiếng nói tiếng Việt ....................................... 21 1.1.6. Các tham số ngôn điệu ..................................................................... 23 1.1.7. Tổng quan về âm học và các hiện tượng ngôn điệu tiếng Việt trong ngữ lưu ..................................................................................................... 25 1.1.8. Hiệu chỉnh đường tần số cơ bản ....................................................... 33 1.2. Nhận dạng tiếng nói ..................................................................................... 38 1.2.1. Liệt kê các lớp bài toán nhận dạng tiếng nói ..................................... 38 1.2.2. Môi trường thu nhận tín hiệu ............................................................ 39 1.2.3. Biểu diễn tiếng nói - đặc trưng tiếng nói ........................................... 40 6 1.2.4. Phương pháp nhận dạng tiếng nói ..................................................... 42 1.2.5. Các hệ thống nhận dạng tiếng nói tiếng Việt..................................... 43 1.3. Kết luận chương 1 ........................................................................................ 44 CHƯƠNG 2. XỬ LÝ TIẾNG NÓI VÀ CÁC MÔ HÌNH HỌC MÁY 46 2.1. Xử lý tiếng nói ............................................................................................. 46 2.1.1. Xử lý nhiễu ...................................................................................... 46 2.1.2. Một số loại nhiễu trong môi trường thực ......................................... 47 2.1.3. Trích chọn đặc trưng tiếng nói .......................................................... 50 2.1.4. Thuật toán PSOLA ........................................................................... 56 2.2. Mô hình dự báo CART ................................................................................ 59 2.3. Mô hình Markov ẩn (HMM, Hidden Markov Model) ................................... 63 2.3.1. Tham số của mô hình HMM ............................................................. 64 2.3.2. Nhận dạng tiếng nói với mô hình Markov ẩn .................................... 66 2.4. Kết luận chương 2 ........................................................................................ 67 CHƯƠNG 3. DỰ BÁO TRƯỜNG ĐỘ, ÂM LƯỢNG VÀ TỔNG HỢP THANH ĐIỆU TIẾNG VIỆT 68 3.1. Khảo sát một số đặc tính âm học tiếng Việt.................................................. 69 3.1.1. Đặc tính trường độ của âm tiết do ảnh hưởng của phụ âm và nguyên âm trong ngữ cảnh ..................................................................................... 70 3.1.2. Quy luật biến đổi thanh điệu trong ngữ cảnh .................................... 71 3.1.3. Quy luật biến đổi formant của nguyên âm trong ngữ cảnh ................ 73 3.1.4. Cách điệu hóa đường F0 của âm tiết tiếng Việt ................................ 78 3.2. Dự báo thông tin trường độ, âm lượng của âm tiết tiếng Việt trong ngữ cảnh câu ............................................................................................................. 86 3.2.1. Cơ sở dữ liệu tiếng nói huấn luyện mô hình dự báo .......................... 87 3.2.2. Dự báo ngôn điệu ............................................................................. 92 7 3.2.3. Thiết kế bộ phân tích ngôn điệu và xác định tham số huấn luyện dự báo trường độ và âm lượng ........................................................................ 93 3.2.4. Tổng hợp tiếng Việt trên hệ thống tài nguyên hạn chế .................... 101 3.3. Kết luận chương 3 ...................................................................................... 103 CHƯƠNG 4. KẾT HỢP THAM SỐ CẤU ÂM, FORMANT VÀ THANH ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG VIỆT 105 4.1. Nhận dạng thanh điệu tiếng Việt ................................................................ 105 4.2. Đặc trưng MFCC với phép chuẩn hóa độ dài cấu âm VTLN kết hợp với F0108 4.2.1. Phép chuẩn hóa VTLN ................................................................... 110 4.2.2. Tổ hợp giá trị F0 và chuẩn hóa VTLN ............................................ 112 4.2.3. Ước lượng tham số chuẩn hóa VTLN bằng phương pháp formant .. 117 4.3. Hệ thống nhận dạng tiếng Việt nhúng ........................................................ 124 4.3.1. Điều khiển thiết bị tự hành bằng tiếng nói ...................................... 126 4.3.2. Biểu diễn HMM trong bộ nhớ SRAM của chip với tính toán chấm tĩnh (fixed point) ............................................................................................ 130 4.4. Kết luận chương 4 ...................................................................................... 131 KẾT LUẬN 133 1. Kết quả về tổng hợp tiếng Việt ...................................................................... 133 1.1. Kết quả chính .................................................................................... 133 1.2.Kết quả khác ...................................................................................... 134 1.3.Một kết quả ứng dụng ........................................................................ 134 2. Kết quả về nhận dạng tiếng Việt ................................................................... 134 2.1. Kết quả chính .................................................................................... 134 2.2.Kết quả khác ...................................................................................... 135 2.3.Một kết quả ứng dụng ........................................................................ 136 3. Hướng phát triển ........................................................................................... 136 8 DANH MỤC CÔNG TRÌNH Đà CÔNG BỐ 138 TÀI LIỆU THAM KHẢO 140 PHỤ LỤC 149 1. Cách tổ chức cây dự báo CART của Wagon/Festival .................................... 153 1.1. Sự hỗn tạp trong dữ liệu (tạp âm) ...................................................... 153 1.2. Định dạng dữ liệu .............................................................................. 156 1.3. Xây dựng cây .................................................................................... 161 2. Phân loại âm vị tiếng Việt ............................................................................. 163 3. Cơ sở dữ liệu ngữ âm .................................................................................... 171 4. Các câu trích từ tập truyện “Dế mèn phiêu lưu ký” ....................................... 213 i Danh mục các thuật ngữ và từ viết tắt Tên đầy đủ Từ viết tắt ADC Analog-Digital-Converter ADPCM Adaptive differential pulse-code modulation ANN Artificial neural network CART Class And Regression Tree CD-HMM Continuous-Density Hidden Markov Model CMS Cepstral-mean-subtraction CSDL Cơ sở dữ liệu C-V Consonant-Vow C-V-C Consonant-Vow-Consonant dB Decibel DFT Discrete Fourier Transform EM Expectation Maximization FFT Fast Fourier Transform F0 Fundamental Frequency GMM Gaussian Mixture Models GPIO General-purpose Input/Output HMM Hidden Markov Model HTK Hidden Markov Model Toolkit IDFT Inverse Discrete Fourier Transform IFFT Inverse Fast Fourier Transform LPC Linear Predictive Coding LPCC Linear Predictive Cepstral Coefficient LPF Low Pass filter LSF Line Spectral Frequency LSP Line Spectrum Pair ii MAP Maximum A posteriori MFCC Mel Frequency Cepstral Coefficient ML Maximum Likelihood PDF Probility Density Function POS Part-Of-speech PSOC Programmable System On Chip PSOLA Pitch Synchronous Overlap Add RMSE Root Mean Square Error SD Speaker Dependent SI Speaker Independent SS Spectral Subtraction SRAM Static Random Access Memory STC Shared decision Tree Cluster ToBI Tones and Break Indices TTS Text To Speech VTLN Vocal Tract Length Normalization VAD Voice Activity Detection ZCR Zero Crossing Rate WF Wiener Filter VTL Vocal Tract Length ii Danh sách bảng 1. 1 Bảng so sánh một số sản phẩm tổng hợp tiếng Việt đã công bố ....................... 21 1. 2 Các tham số đặc trưng của ngôn điệu .............................................................. 24 1. 3 Phân loại âm tiết tiếng Việt. ............................................................................ 27 1. 4 Các loại nhận dạng tiếng nói ........................................................................... 39 1. 5 Liệt kê các môi trường theo mức nhiễu ................................................................39 2. 1 Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC. ............. 66 3. 1. Trường độ nguyên âm trong kết hợp với thanh điệu. ........................................... 72 3. 2. Trường độ nguyên âm trong kết hợp với thanh điệu. ........................................... 73 3. 3. Vùng tần số của các nguyên âm .......................................................................... 76 3. 4. Vùng tần số formant trung bình của các nguyên âm kết hợp với thanh điệu. ...... 76 3. 5. Vùng tần số formant trung bình của các nguyên âm kết hợp với thanh điệu. ...... 77 3. 6. Biểu diễn các 6 thanh điệu tiếng Việt bằng các lệnh thanh điệu .......................... 83 3. 7. Giá trị trung bình và độ lệch chuẩn của các tham số Fujisaki cho các thanh điệu.84 3. 8. Bảng độ dài âm vị không tính ngữ cảnh .............................................................. 87 3. 9. Độ dài nguyên âm a ràng buộc bởi phụ âm đầu, âm cuối .................................... 88 3. 10. Bảng độ dài âm cuối ràng buộc bởi nguyên âm ................................................. 88 3. 11. Bảng độ dài phụ âm đầu ràng buộc bởi nguyên âm ........................................... 89 3. 12. Bảng độ dài thanh điệu theo âm tiết ràng buộc bởi âm kết thúc ......................... 90 3. 13. Bảng tham số đầu vào cho mô hình CART .............................................................95 4. 1 Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC ......... 109 4. 2 Một số dạng của phép hiệu chỉnh tần số ...................................................... 111 4. 3 Bảng kết quả thực nghiệm kiểm tra ............................................................. 116 4. 4 Bảng kết quả giải mã tên trường của người đọc........................................... 117 4. 5 Bảng kết quả thực nghiệm kiểm tra ............................................................... 123 4. 6 Bảng cấu hình GAIN kết hợp bộ lọc thông thấp. ........................................... 126 4. 7 Khẩu lệnh điều khiển xe lăn. ......................................................................... 128 iii 4. 8 Khẩu lệnh điều khiển robot hút bụi. .............................................................. 129 4. 9 Các bước của chương trình thử nghiệm trên máy tính ....................................... 130 5. 1 Phân chia nguyên âm tiếng Việt theo độ nâng của lưỡi ................................ 165 5. 2 Bảng phiên âm tiếng Việt.............................................................................. 167 iii Danh sách hình vẽ 1. 1 Hệ thống TTS tổng quát. ................................................................................. 10 1. 2 Xử lý ngôn điệu tiếng Việt .............................................................................. 12 1. 3 Sơ đồ hệ thống tổng hợp ghép nối. .................................................................. 17 1. 4 Tổng hợp tiếng nói theo HMM [71]. ............................................................... 20 1. 5 Mô hình VnSpeech tổng hợp tiếng Việt dựa vào formant. ............................... 21 1.6 Mô hình VoS tổng hợp ghép nối âm tiết và cụm từ. ........................................ 22 1.7 Mô hình hệ thống TTS dựa trên mô hình Markov ẩn....................................... 23 1.8 Cụm từ ”âm tiết tiếng Việt ” thể hiện trên sóng âm.. ....................................... 26 1.9 Biểu đồ thanh điệu điển hình........................................................................... 28 1.10 Đường F0 của thanh ngang ............................................................................. 29 1.11 Đường F0 của thanh ngã ................................................................................. 29 1.12 Sơ đồ mô hình Fujisaki. .................................................................................. 33 1.13 Đường nét của thành phần trọng âm Gp(t). ..................................................... 34 1.14 Đường nét của thành phần trọng âm Ga(t) ...................................................... 35 1.15 Trình bày biểu diễn sơ đồ F0, mối liên hệ sự kiện ngữ điệu đoạn trong mô hình Tilt ............................................................................................................................ 36 1.16 Cách phân tích các tham số trong mô hình Tilt............................................... 37 1.17 Liệt kê các kiểu hệ thống nhận dạng tiếng nói. ............................................... 39 1.18 Các bước rút trích đặc trưng MFCC từ tín hiệu âm thanh. .............................. 41 1. 19 Chi tiết bước trích chọn MFCC. ..................................................................... 41 1. 20 MFCC chuẩn ................................................................................................. 42 1. 21 MFCC đã biến đổi ......................................................................................... 42 1. 22 Mô hình mạng lai ghép HMM/ANN .................................................................... 43 2. 1 “Men tường” thu âm khi bật động cơ hút bụi ................................................... 46 2. 2 Tiếng nói được lọc .......................................................................................... 46 2. 3 Quá trình hình thành tiếng nói nhiễu. .............................................................. 47 iv 2. 4 Nhiễu hình thành do hướng và âm thanh phản hồi. ......................................... 47 2. 5 Nhiễu khuyếch tán. ......................................................................................... 48 2. 6 Đi xoắn ốc” thu âm khi robot hút bụi đang di chuyển...................................... 49 2. 7 Tiếng nói được lọc. ......................................................................................... 49 2. 8 Sơ đồ khối cho hai thuật toán SS và WF ......................................................... 50 2. 9 Các băng lọc dạng tam giác ............................................................................ 51 2. 10 Trích chọn đặc trưng MFCC. .......................................................................... 51 2. 11 Cộng xếp chồng các đoạn tín hiệu ................................................................... 56 2. 12 Ghép nối 2 diphone ......................................................................................... 58 2. 13 Một mô hình Markov ẩn với sáu trạng thái .......................................................... 66 3. 1 Sơ đồ khối chung của quá trình huấn luyện và phân lớp các đường thanh điệu 69 3. 2 Thanh không dấu (âm a) ................................................................................. 79 3. 3 Thanh huyền được cách điệu từ từ một dãy các giá trị F0 đo được ................. 79 3. 4 Thanh sắc được cách điệu từ một dãy các giá trị F0 đo được .......................... 80 3. 5 Thanh nặng được cách điệu từ các giá trị F0 đo được ..................................... 80 3. 6 Thanh hỏi được cách điệu từ một dãy giá trị F0 đo được ................................ 80 3. 7 Biên tập đường F0 của dấu ngã và tổng hợp dấu ngã. ......................................... 82 4. 1 Cách tuyến tính hóa đường F0 từng phân đoạn ............................................. 106 4. 2 Sơ đồ nhận dạng thanh điệu tiếng Việt trên tiếng nói rời rạc ......................... 107 4. 3 Hiệu chỉnh tần số và trích chọn đặc trưng MFCC .......................................... 110 1 MỞ ĐẦU 1. Tính cấp thiết của đề tài Ngày nay, với sự bùng nổ của xã hội thông tin, con người không còn chỉ có nhu cầu giao tiếp với nhau nữa mà còn cần giao tiếp với những thiết bị điện tử. Hình thức giao tiếp người – máy thông qua ngôn ngữ tự nhiên sẽ đem lại nhiều ứng dụng, góp phần giải phóng sức lao động của con người. Chính vì vậy, vai trò của nhận dạng, tổng hợp tiếng nói có tầm quan trọng đặc biệt liên quan đến quá trình phát triển của văn minh nhân loại. Các ứng dụng nhận dạng và tổng hợp tiếng nói như Dragon của LH, Viavoice, Google voice search, Siri của Apple v.v…ngày càng trở nên thông dụng và hữu ích trong cuộc sống. Về các hệ thống tổng hợp tiếng nói, hiện nay đã có nhiều phương pháp tổng hợp được nghiên cứu và ứng dụng trong thực tế như: tổng hợp theo cấu âm, tổng hợp bằng ghép nối, cách điệu hóa đường F0 và hiện tượng ngôn điệu [23][25][27], tổng hợp theo phương pháp thống kê dựa trên HMM [18][71][72] … Tuy nhiên, vấn đề tổng hợp giọng tự nhiên cho tới nay vẫn là một vấn đề mở, ngay cả trong các ngôn ngữ châu Âu thông dụng như tiếng Anh. Bởi vì để tổng hợp được giọng tự nhiên đòi hỏi rất nhiều yếu tố từ việc xử lý các đặc trưng tín hiệu, hiện tượng ngôn điệu và ngữ cảnh ứng dụng (như trạng thái cảm xúc…) v.v… Các hệ thống nhận dạng tiếng nói thường sử dụng các kỹ thuật học máy truyền thống như mạng nơ ron, mô hình Markov ẩn (HMM), chiến thuật tìm kiếm dựa trên quy hoạch động, các mô hình này có tính khái quát cao được ứng dụng ở nhiều lĩnh vực ngoài nhận dạng và tổng hợp tiếng nói. Để tăng được chất lượng nhận dạng tiếng nói các hệ thống nhận dạng cần phải bổ sung các phép tiền xử lý tín hiệu tiếng nói, các phép trích chọn đặc trưng tiếng nói như xử lý giảm thiểu sự sai lệch về phổ giữa đặc trưng tiếng nói của tập giọng nói người được huấn luyện và giọng nói của người sử dụng hệ thống [26][50] (ứng dụng trong các hệ thống nhận dạng độc lập người nói). 2 Lọc nhiễu tiếng nói [28][58], trích chọn đặc trưng [35][36][46], tích hợp đặc trưng ngôn điệu [16]… Hai môi trường nền phổ biến cho các hệ thống nhận dạng và tổng hợp tiếng nói là server hoặc nhúng (các ứng dụng tiếng nói cho điều khiển thiết bị, nhúng v.v…), các môi trường này có tài nguyên lưu trữ và tính toán khác nhau, điều đó dẫn đến các tiếp cận khác nhau trong việc cân bằng giữa chất lượng nhận dạng tổng hợp tiếng nói và sử dụng tài nguyên (lưu trữ, tính toán và điện năng tiêu thụ), thời gian thu thập mẫu huấn luyện v.v…Môi trường nhúng có tầm quan trọng đặc biệt, được tập trung nghiên cứu phát triển nhiều trong thời gian gần đây do các thiết bị nhúng hầu hết không trang bị thiết bị nhập liệu như bàn phím và màn hình cảm ứng, giao tiếp bằng tiếng nói thể hiện hình thức tương tác tự nhiên, tuy vậy các hệ thống này đòi hỏi phải tối ưu rất nhiều so với quy trình nhận dạng tổng hợp tiếng nói nói chung [13][47][52] Nhận dạng và xử lý tiếng Việt (ngôn ngữ và tiếng nói) là một trong những mục tiêu cơ bản của phát triển và ứng dụng công nghệ thông tin ở Việt Nam do sự khác biệt về bản chất của hệ thống âm tiết, ngữ pháp và hiện tượng thanh điệu nên không thể sử dụng nguyên các hệ thống ứng dụng cho tiếng nước ngoài. Hiện nay những nghiên cứu về đặc trưng tín hiệu, hiện tượng ngôn điệu tiếng Việt mới chỉ đề cập ở mức độ ban đầu. Trong nước đã hình thành nhiều trung tâm nghiên cứu của các Viện nghiên cứu và các khoa Công nghệ Thông tin của các trường Đại học về xử lý tiếng nói (tiếng Việt) và ngôn ngữ tự nhiên như : Viện Công nghệ Thông tin, Trung tâm Pháp –Việt MICA của Đại học Gronobe và Đại học Bách khoa Hà Nội, Trung tâm SLP của Đại học khoa học tự nhiên Đại học Quốc Gia TP. HCM, Viện Công nghệ Bộ Khoa học và Công nghệ v.v... Các kết quả nghiên cứu tập trung vào việc sử dụng, cải tiến các công nghệ nguồn về Nhận dạng và Tổng hợp tiếng nói của tiếng Anh. 3 Phòng thí nghiệm Trí tuệ nhân tạo AILab (Đại học Khoa học tự nhiên TP HCM) đã thiết kế và xây dựng các hệ thống Nhận dạng và tổng hợp tiếng Việt với nhiều cách tiếp cận khác nhau như tổng hợp ghép nối, tổng hợp dựa trên mô hình HMM. Về ứng dụng cho điều khiển, Viện Hàn lâm Khoa học và Công nghệ Việt Nam, với đề tài “Nghiên cứu thiết kế và chế tạo hệ thống điều khiển bằng tiếng nói tích hợp vào robot hút bụi tự động thông minh”, thực hiện năm 2011-2013[77] đã nghiên cứu phát triển mẫu robot dịch vụ - robot hút bụi điều khiển bằng khẩu lệnh tiếng Việt. Viện nghiên cứu Quốc tế MICA (Đại học Bách khoa Hà Nội) đã nghiên cứu một robot hướng dẫn bảo tàng từ giữa năm 2009 và thử nghiệm tại Bảo tàng Dân tộc học Việt Nam. Robot có khả năng hiểu một số câu hỏi của khách thăm quan, đồng thời sẽ giới thiệu cho khách thăm quan bằng tiếng nói nhiều thông tin liên quan đến các hiện vật trưng bày v.v… Chính vì vậy việc đi sâu nghiên cứu các đặc trưng của ngôn ngữ tiếng Việt, khai thác, áp dụng các đặc trưng đó vào các hệ thống nhận dạng, tổng hợp tiếng nói để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt đang là vấn đề cần thiết nhằm tiến tới xây dựng các ứng dụng phù hợp với đặc thù của ngôn ngữ tiếng Việt, đáp ứng các nhu cầu ứng dụng ngày càng cao của xã hội. Xuất phát từ thực tế và những lý do trên, việc lựa chọn đề tài “Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng Tổng hợp và Nhận dạng tiếng Việt”, nghiên cứu các đặc trưng tiếng nói phù hợp với đặc thù ngôn ngữ tiếng Việt, các đặc trưng ngữ âm như thanh điệu, trường độ và formant để nâng cao chất lượng Tổng hợp và nhận dạng tiếng Việt trong các ứng dụng giao tiếp người máy. Đề tài này cũng nghiên cứu hướng tới các ứng dụng tương tác điều khiển thiết bị, robot dịch vụ, ứng dụng hỗ trợ người khuyết tật, những ứng dụng mà công nghệ nhận dạng và tổng hợp tiếng Việt có vai trò quan trọng. 4 2. Mục tiêu, phạm vi nghiên cứu của luận án. Mục tiêu chính của đề tài là tập trung chủ yếu ở vấn đề về xử lý ngôn điệu và đặc trưng tín hiệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt. Các hiện tượng ngôn điệu có thể là đường F0, trường độ và âm lượng của âm tiết hoặc từ đa âm tiết trong ngữ cảnh câu. Nghiên cứu về các ràng buộc ngôn điệu cho tổng hợp tiếng Việt còn ít được đề cập tới, trong khi để đạt được độ tự nhiên cao của tiếng nói tổng hợp cũng như để tăng độ chính xác của các hệ thống nhận dạng tiếng nói (nhận dạng khẩu lệnh, nhận dạng tên, nhận dạng đối thoại v.v…) đều đòi hỏi phải tích hợp các đặc trưng ngôn điệu của tiếng nói trong ngữ lưu và trong môi trường sử dụng thực tế của tiếng nói. Ngoài phương pháp học ngôn điệu dựa trên các mô hình thống kê, các tác giả của Viện Ứng dụng Công nghệ, Đại học Quốc gia TP HCM cũng đã giới thiệu một hệ thống tổng hợp tiếng Việt VOS với giọng đọc gần tiếng nói tự nhiên dựa trên tiếp cận kiểu kho ngữ liệu (corpus-based), mô hình này đòi hỏi rất nhiều dữ liệu được gán nhãn (dựa trên công nghệ phân đoạn tự động câu tiếng nói thành các đơn vị tiếng nói kết hợp với điều chỉnh tay) và chỉ phù hợp với ứng dụng cho môi trường server, bên cạnh đó tiếp cận này cũng có điểm hạn chế là đọc không chuẩn các ngữ đoạn ít thông dụng. Nghiên cứu các ảnh hưởng của hiện tượng ngôn điệu tiếng Việt như thanh điệu, các tần số formant và trường độ âm tiết trong các hệ thống nhận dạng tiếng Việt là một vấn đề quan trọng nhưng hiện tại ít được đề cập tới trong các công trình nghiên cứu về xử lý âm thanh tiếng Việt. Các hệ thống nhận dạng tiếng Việt dựa trên HMM thường dựa trên đặc trưng chuẩn MFCC. Khi ứng dụng thuật toán nhận dạng HMM với các đặc trưng MFCC cơ sở cho việc nhận dạng tiếng nói liên tục không phụ thuộc người nói, hệ thống thường suy giảm độ chính xác với những người nói có có đặc trưng giọng nói không phù hợp với những mẫu giọng được sử dụng để huấn luyện mô hình HMM. Xuất phát từ mục tiêu trên, phạm vi nghiên cứu của đề tài tập trung vào các vấn đề sau: 5  Nghiên cứu các mô hình dự báo các hiện tượng ngôn điệu như trường độ, âm lượng, thanh điệu của các âm tiết tiếng Việt trong ngữ lưu, tích hợp trong các hệ thống tổng hợp tiếng Việt, tối ưu hiệu quả sử dụng tài nguyên lưu trữ và tính toán ứng dụng cho hệ thống nhúng.  Nghiên cứu các phương pháp giảm thiểu sự sai lệch về cấu âm, phổ của tập giọng nói huấn luyện và giọng của người sử dụng dựa trên đặc trưng ngữ âm tiếng Việt để tăng độ chính xác nhận dạng tiếng nói cho các hệ thống nhận dạng tiếng Việt độc lập người nói. Đối tượng nghiên cứu của đề tài là:  Các mô hình học máy như HMM, CART.  Các đặc trưng tiếng nói (MFCC, F0, formant, VTL v.v …)  Mô hình biểu diễn, cách điệu đường F0, mô hình xử lý nhiễu, cân bằng tần số v.v…  Phương pháp tổng hợp ghép nối.  Phép chuẩn hóa VTLN cho các hệ thống nhận dạng tiếng nói độc lập người nói. 3. Phương pháp và nội dung nghiên cứu Phương pháp luận trong nghiên cứu của luận án là kết hợp giữa nghiên cứu lý thuyết và thực nghiệm. Các tư liệu và thông tin liên quan chủ yếu được thu thập, tổng hợp từ các nguồn tạp chí khoa học chuyên ngành trong và ngoài nước, qua các buổi seminar hoặc tham gia báo cáo tại các hội thảo khoa học, qua trao đổi với thầy hướng dẫn và các đồng nghiệp cùng lĩnh vực nghiên cứu v.v…Tổng hợp các thông tin liên quan, lựa chọn các cách tiếp cận đã được áp dụng thành công, tiến hành thử nghiệm với tiếng Việt, đánh giá kết quả, từ đó sẽ tiến hành nghiên cứu sâu hơn về giải pháp cải tiến có thể để phát hiện các quy luật, ràng buộc cơ bản của đặc trưng ngôn điệu tiếng Việt cho tổng hợp và nhận dạng tiếng Việt. Cấu trúc luận án gồm: phần mở đầu, 4 chương nội dung, kết luận, danh mục tài liệu tham khảo và phụ lục. Chương 1: Tổng quan về tổng hợp và nhận dạng tiếng nói. 6 Chương này trình bày khái quát về tổng hợp và nhận dạng tiếng nói dựa trên phương pháp Corpus-based theo cả hai phương pháp là chọn đơn vị để ghép nối và mô hình tổng hợp dựa trên HMM cho vấn đề tổng hợp tiếng nói và mô hình HMM cho vấn đề nhận dạng tiếng nói. Chương này còn phân tích một số hệ thống tổng hợp và nhận dạng tiếng nói cũng như mô hình Fujisaki để tổng hợp đường F0. Chương 2: Xử lý tiếng nói và các mô hình học máy. Chương này trình bày các công cụ cơ bản trong tiền xử lý tiếng nói, trích chọn đặc trưng tiếng nói, đặc trưng ngôn điệu và các mô hình học máy cho vấn đề dự báo, học và nhận dạng tiếng nói. Chương 3. Dự báo trường độ, âm lượng và tổng hợp thanh điệu tiếng Việt Chương này trình bày một số kết quả của luận án về tổng hợp tiếng Việt:  Nghiên cứu về các mô hình ngôn điệu, phân tích đặc trưng tiếng Việt.  Thanh điệu.  Dự báo trường độ và âm lượng của âm tiết trong ngữ lưu.  Tổng hợp tiếng Việt trên các hệ thống tài nguyên hạn chế. Chương 4. Kết hợp tham số cấu âm, formant và thanh điệu để nâng cao chất lượng nhận dạng tiếng Việt  Nghiên cứu về nhận dạng thanh điệu tiếng Việt.  Nghiên cứu đưa đặc trưng thanh điệu, tham số formant và tham số cấu âm của người nói để nâng cao chất lượng nhận dạng tiếng Việt.  Nhận dạng tiếng Việt trên các hệ thống tài nguyên hạn chế. 4. Kết quả đạt được của luận án Các kết quả đạt được của luận án đã được công bố trong 2 bài báo tại chí chuyên ngành năm 2011, 3 bài báo cáo đăng tại kỷ yếu hội nghị trong nước năm 2012, 2014. Ngoài ra nghiên cứu sinh cũng là đồng tác giả của một số báo cáo tại hội nghị trong
- Xem thêm -

Tài liệu liên quan