Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Phương pháp nâng cao chất lượng tiếng nói có nhiễu dùng học máy thống kê bằng mô...

Tài liệu Phương pháp nâng cao chất lượng tiếng nói có nhiễu dùng học máy thống kê bằng mô hình pha trộn gaussian​

.PDF
68
169
66

Mô tả:

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG TRỊNH THỊ THỦY PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI CÓ NHIỄU DÙNG HỌC MÁY THỐNG KÊ BẰNG MÔ HÌNH PHA TRỘN GAUSSIAN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2016 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG TRỊNH THỊ THỦY PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI CÓ NHIỄU DÙNG HỌC MÁY THỐNG KÊ BẰNG MÔ HÌNH PHA TRỘN GAUSSIAN Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS. PHÙNG TRUNG NGHĨA THÁI NGUYÊN - 2016 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn i LỜI CAM ĐOAN Tên tôi là: Trịnh Thị Thủy Sinh ngày: 27/07/1985 Học viên lớp cao học K13A – Trường Đại học Công nghệ thông tin và Truyền thông – Đại học Thái Nguyên. Tôi xin cam đoan, toàn bộ nội dung liên quan tới đề tài được trình bày trong luận văn là bản thân tôi tìm hiểu nghiên cứu, dưới sự hướng dẫn khoa học của thầy giáo TS. Phùng Trung Nghĩa. Các nội dung trong luận văn đúng như nội dung trong đề cương và yêu cầu của thầy giáo hướng dẫn. Tất cả tài liệu tham khảo đều có nguồn gốc, xuất xứ rõ ràng. Nếu sai tôi hoàn toàn chịu tránh nhiệm trước hội đồng khoa học và trước pháp luật. Tác giả luận văn Trịnh Thị Thủy Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ii LỜI CẢM ƠN Lời đầu tiên em xin chân thành cảm ơn TS. Phùng Trung Nghĩa, người đã trực tiếp hướng dẫn em hoàn thành luận văn. Trong suốt thời gian làm luận văn thầy đã dành nhiều thời gian quý báu để tận tình chỉ bảo, hướng dẫn, định hướng cho em trong việc nghiên cứu và những lời động viên của thầy đã giúp em vượt qua nhiều khó khăn trong quá trình thực hiện luận văn này. Em xin được bày tỏ lòng biết ơn chân thành đến Ban giám hiệu, Phòng sau đại học, các thầy cô giáo Trường Đại học Công nghệ thông tin và Truyền thông - Đại học Thái Nguyên đã tận tình giảng dạy truyền đạt cho em những kiến thức, kinh nghiệm quý báu trong suốt những năm học vừa qua. Cuối cùng tôi xin chân thành cảm ơn gia đình, người thân, bạn bè, đồng nghiệp…, đã hết lòng giúp đỡ, tạo điều kiện cho tôi trong suốt quá trình học tập và hoàn thành luận văn. Trong khoảng thời gian có hạn, cũng như kiến thức còn nhiều hạn chế nên luận văn không tránh khỏi những thiếu sót. Rất mong nhận được những ý kiến đóng góp quý báu của thầy cô, bạn bè và đồng nghiệp. Thái Nguyên, ngày 15 tháng 04 năm 2016 Tác giả Trịnh Thị Thuỷ iii MỤC LỤC LỜI CẢM ƠN ............................................................................................................. i LỜI CAM ĐOAN ....................................................................................................... i MỤC LỤC ................................................................................................................. iii DANH MỤC CÁC TỪ VIẾT TẮT .......................................................................... vi DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ .................................................................... vii DANH MỤC BẢNG ................................................................................................. ix MỞ ĐẦU .....................................................................................................................1 1. Lý do chọn đề tài .....................................................................................................1 2. Mục tiêu của đề tài ..................................................................................................2 3. Đối tượng và phạm vi nghiên cứu: .........................................................................2 4. Phương pháp nghiên cứu ........................................................................................2 5. Ý nghĩa khoa học và thực tiễn.................................................................................3 CHƯƠNG I: TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ XỬ LÝ NHIỄU TRONG TIẾNG NÓI ..................................................................................................4 1.1. Tổng quan về tiếng nói .........................................................................................4 1.1.1. Thông tin tiếng nói...................................................................................4 1.1.2. Tín hiệu và tín hiệu tiếng nói ...................................................................4 1.1.2.1. Tín hiệu tiếng nói ..................................................................................4 1.1.2.2. Tín hiệu .................................................................................................5 1.1.3. Quá trình tạo tiếng nói .............................................................................8 1.1.4. Cơ quan thính giác .................................................................................11 1.2. Nhiễu trong tiếng nói .........................................................................................14 1.2.1. Nguồn nhiễu ..........................................................................................14 1.2.2. Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau ........16 1.2.3. Mô hình hóa tiếng nói ............................................................................17 1.3. Xử lý nhiễu tiếng nói.........................................................................................20 1.3.1. Cách tiếp cận không dùng học máy .......................................................20 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iv 1.3.2. Cách tiếp cận dùng học máy. .................................................................20 CHƯƠNG II: PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI CÓ NHIỄU PHỨC HỢP BẰNG HỌC MÁY DÙNG MÔ HÌNH PHA TRỘN GAUSSIAN...............................................................................................................21 2.1. Phương pháp nâng cao chất lượng tiếng nói có nhiễu kinh điển dùng kỹ thuật trừ phổ. ......................................................................................................................21 2.1.1. Thuật toán trừ phổ đối với phổ biên độ .................................................21 2.1.2. Thuật toántrừ phổ đối với phổ công suất ...............................................22 2.1.3. Ưu nhược điểm của phương pháp .........................................................25 2.2. Phương pháp nâng cao chất lượng tiếng nói có nhiễu dùng học máy GMM. ...25 2.2.1. Phân bố Gauss........................................................................................25 2.2.2. Mô hình Gaussian hỗn hợp ....................................................................26 2.2.3. Mô hình dự đoán tuyến tính (LP) trong kĩ thuật nâng cao chất lượng tiếng nói có nhiễu. .....................................................................................................28 2.2.4. Phổ đường cảm thụ (PLSF) ...................................................................30 2.2.5. Biến đổi phổ sử dụng mô hình GMM ....................................................32 CHƯƠNG III: ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI....................................................................................36 3.1. Ngữ âm tiếng Việt ..............................................................................................36 3.2. Cơ sở dữ liệu tiếng nói tiếng Việt ......................................................................39 3.3. Lựa chọn cơ sở dữ liệu .......................................................................................42 3.4. Cài đặt các phương pháp ....................................................................................42 3.4.1. Phương pháp trừ phổ .............................................................................42 3.4.2. Phương pháp biến đổi sử dụng học máy thống kê GMM......................43 3.5. Đánh giá kết quả thực nghiệm ...........................................................................45 3.5.1. Tiêu chí đánh giá chủ quan ....................................................................46 3.5.2. Tiêu chí đánh giá khách quan ................................................................47 3.5.3. Kết quả đánh giá thực nghiệm ...............................................................48 3.6. Nhận xét chung về kết quả .................................................................................49 v KẾT LUẬN ...............................................................................................................50 TÀI LIỆU THAM KHẢO ........................................................................................51 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vi DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Viết đầy đủ Ý nghĩa Gaussian model mixture Mô hình Gaussian hỗn hợp LP Linear Preditive Phương pháp dự đoán tuyến tính SS Spectral subtraction Trừ phổ EM Expectation Maximization Lặp cực đại kỳ vọng LPC Linear predictive coding Mã hóa dự đoán tuyến tính PLP Perceptual Linear Preditive Dự đoán tuyến tính cảm thụ LSF Line Spectral Frequency Ðặc trưng phổ đường NN Neural Network Mạng nơron F0 Fundamental Frequency Tần số dao động cơ bản SS Spectral subtraction Trừ phổ GMM vii DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt ........................................... 5 Hình 1.2: Tiếng nói hữu thanh .......................................................................... 5 Hình 1.3: Tín hiệu tiếng nói .............................................................................. 6 Hình 1.4: Bộ phận cung cấp làn hơi .................................................................. 8 Hình 1.5: Dây thanh âm .................................................................................... 9 Hình 1.6: Cấu trúc cơ quan phát âm ............................................................... 10 Hình 1.7: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm........ 10 Hình 1.8: Mô hình hóa cơ quan phát âm ......................................................... 11 Hình 1.9: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính .... 11 Hình 1.10: Mô hình cơ quan thính giác .......................................................... 12 Hình 1.11: Thang tần số Bark ......................................................................... 12 Hình 1.12: Ngưỡng nghe ................................................................................ 13 Hình 1.13: Mặt nạ thời gian (che âm thanh liền trước và liền sau) ................ 13 Hình 1.14: Mặt nạ tần số (che âm thanh có tần số khác nhau phát cùng thời điểm) ....................................................................................... 13 Hình 1.15: Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe [14]......15 Hình 1.16: Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên tàu [14] ........................................................................................... 15 Hình 1.17: Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong nhà hàng [14] .................................................................................. 16 Hình 1.18: Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi trường khác nhau [14] ..................................................................... 17 Hình 1.19: Mô hình điểm cực formant cơ quan phát âm ................................ 18 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn viii Hình 1.20: Mô hình kích thích âm hữu thanh ................................................. 19 Hình 1.21: Mô hình hóa quá trình tạo tiếng nói .............................................. 20 Hình 2.1: Sơ đồ khối của thuật toán Spectral subtraction [12] ....................... 25 Hình 2.2: Hàm mật độ xác suất Gauss (Đường màu đỏ là phân phối chuẩn chuẩn hóa) ....................................................................................... 26 Hình 2.3: Dự đoán tuyến tính cảm thụ (PLP – Perceptual Linear Preditive) . 31 Hình 2.4: Sơ đồ tổng quát ............................................................................... 33 Hình 3.1: Đường F0 sáu thanh điệu tiếng Việt theo, dấu ? ở thanh ngã chỉ ra rằng đường F0 của thanh ngã không thống nhất giữa các mẫu ở vùng giữa......................................................................................... 38 Hình 3.2: Lưu đồ thuật toán Spectral subtraction ........................................... 42 Hình 3.3: Huấn luyện mô hình GMM cho tham số phổ LSF ......................... 44 Hình 3.4: Chuyển đổi mô hình GMM cho tham số phổ LSF ......................... 45 ix DANH MỤC BẢNG Bảng 3.1: Cấu trúc âm tiết tiếng Việt.............................................................. 38 Bảng 3.2: Sáu thanh điệu tiếng Việt ............................................................... 39 Bảng 3.3: Mô tả mức điểm đánh giá ............................................................... 47 Bảng 3.4 : Kết quả đánh giá bằng phương pháp LCD .................................... 48 Bảng 3.5 : Kết quả đánh giá bằng phương pháp MOS ................................... 49 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 1 MỞ ĐẦU 1. Lý do chọn đề tài Tiếng nói là công cụ giao tiếp tự nhiên nhất của con người. Tiếng nói cũng là loại hình thông tin phổ biến nhất trong các hệ thống viễn thông. Do đó, xử lý tiếng nói đã và đang được nhiều nhà nghiên cứu quan tâm. Độ tự nhiên, độ rõ, khả năng nghe hiểu của tiếng nói bị ảnh hưởng bởi nhiều loại nguồn nhiễu như nhiễu nền, thông thường được coi là nhiễu cộng, cũng như nhiễu kênh, thông thường được coi là nhiễu nhân (nhiễu chập - convolutive noise). Hầu hết các nghiên cứu về triệt nhiễu nâng cao chất lượng tiếng nói hiện nay sử dụng phương pháp ước lượng nguồn nhiễu với giải thiết nguồn nhiễu là cộng tính và biến đổi chậm [29]. Do đó, các phương pháp hiện tại thường không hiệu quả với nhiễu nhân như nhiễu kênh. Ngoài ra việc ước lượng nguồn nhiễu là rất khó khăn trong điều kiện nhiễu nặng và môi trường nhiều nguồn nhiễu, nhiễu phức hợp kết hợp cả nhiễu cộng và nhiễu nhân. Cách tiếp cận triệt nhiễu nâng cao chất lượng tiếng nói bằng học máy ước lượng luật biến đổi tiếng nói sạch – tiếng nói có nhiễu thay vì ước lượng nguồn nhiễu độc lập. Do vậy có thể áp dụng cho nhiều loại nguồn nhiễu khác nhau với giả thiết nhiễu có tính dừng (stationary). Cách tiếp cận này đã được sử dụng gần đây để nâng cao chất lượng một số loại tiếng nói bị suy giảm chất lượng như tiếng nói của người có cơ quan phát âm khiếm khuyết [30, 3], tiếng nói truyền trong xương [4,5,6]. Trong luận văn này, chúng tôi thử nghiệm cách tiếp cận triệt nhiễu tiếng nói dùng học máy thống kê, sử dụng mô hình pha trộn Gaussian (GMM) cho môi trường nhiễu phức hợp kết hợp của nhiễu cộng và nhiễu nhân. Cách tiếp Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 2 cận này đã được một số nhà nghiên cứu trên thế giới quan tâm [7] và bắt đầu được nghiên cứu ở Việt nam trong thời gian gần đây. 2. Mục tiêu của đề tài Hướng nghiên cứu của luận văn là nghiên cứu về vấn đề xử lý nhiễu phức hợp, kết hợp cả nhiễu cộng và nhiễu nhân trong tiếng nói. Trong đó, luận văn tập trung nghiên cứu các vấn đề lý thuyết về cách tiếp cận xử lý nhiễu dùng học máy thống kê, đặc biệt là phương pháp sử dụng mô hình pha trộn Gaussian. 3. Đối tượng và phạm vi nghiên cứu: Đối tượng nghiên cứu của luận văn là cách tiếp cận triệt nhiễu nâng cao chất lượng tiếng nói bằng học máy. Đây là đối tượng nghiên cứu được một số nhà nghiên cứu trên thế giới quan tâm trong thời gian gần đây. Phạm vi của luận văn bao gồm nghiên cứu tổng quan về tín hiệu tiếng nói và vấn đề nhiễu trong tiếng nói, một số phương pháp xử lý nhiễu kinh điển không dùng học máy, cách tiếp cận dùng học máy, đặc biệt là phương pháp học máy dùng mô hình pha trộn Gaussian [7]. Luận văn cũng nghiên cứu đánh giá thực nghiệm các phương pháp để đưa ra các nhận xét, đánh giá. 4. Phương pháp nghiên cứu Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có trên thế giới [29,30,3-7] để phân tích, đánh giá về các phương pháp xử lý nhiễu trong tiếng nói. Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng sẽ nghiên cứu thực nghiệm một số phương pháp xử lý nhiễu trong tiếng nói. 3 5. Ý nghĩa khoa học và thực tiễn Như đã trình bày trong phần trên, nghiên cứu về xử lý nhiễu trong tiếng nói có vai trò quan trọng trong các hệ thống xử lý thông tin và truyền thông hiện đại. Cách tiếp cận nâng cao chất lượng tiếng nói có nhiễu bằng học máy thống kê có thể áp dụng cho môi trường nhiễu nhân, nhiễu phức hợp kết hợp cả nhiễu cộng và nhiễu nhân, nên có tiềm năng ứng dụng cao. Đây là hướng nghiên cứu còn khá mới mẻ ở Việt Nam. Do vậy vấn đề nghiên cứu trong luận văn có ý nghĩa khoa học và thực tiễn. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 4 CHƯƠNG I: TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ XỬ LÝ NHIỄU TRONG TIẾNG NÓI 1.1. Tổng quan về tiếng nói 1.1.1. Thông tin tiếng nói Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con người. Từ khi lịch sử con người hình thành, con người đã biết sử dụng tiếng nói làm phương tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình tiến hóa và phát triển của loài người, tiếng nói vẫn luôn giữ vai trò là phương tiện giao tiếp cơ bản nhất. Do đó tiếng nói là phương tiện giao tiếp cơ bản của con người, nó cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễn thông từ trước đến nay. Kể từ khi máy tính và các ứng dụng của máy tính được nghiên cứu và ứng dụng rộng rãi, người ta cố gắng để máy tính không chỉ có thể xử lý nhanh, nhiều mà quan trọng hơn nó đủ thông minh để thay thế con người. Một trong các tiêu chí quan trọng để đánh giá độ thông minh của máy tính chính là khả năng hiểu được ngôn ngữ tự nhiên của con người trong đó có tiếng nói. Tuy nhiên, tiếng nói mang nhiều thông tin, ngoài thông tin ngôn ngữ còn cả các thông tin phi ngôn ngữ như thông tin về người nói, thông tin về sắc thái tình cảm khi nói… 1.1.2. Tín hiệu và tín hiệu tiếng nói 1.1.2.1. Tín hiệu tiếng nói Âm thanh là các dao động cơ học lan truyền trong vật chất như các sóng. Âm thanh, giống như nhiều sóng, được đặc trưng bởi tần số, bước sóng, chu kỳ, biên độ và vận tốc lan truyền (tốc độ âm thanh). Đối với thính giác của người, âm thanh thường là sự dao động, trong dải tần số từ khoảng 20 Hz - 20 kHz, của các phân tử không khí, và lan 5 truyền trong không khí, va đập vào màng nhĩ, làm rung màng nhĩ và kích thích bộ não. Tiếng nói là loại âm thanh phổ biến nhất trong truyền thông. Dải tần tiếng nói trong khoảng 300 Hz - 3400 Hz. Tiếng nói bao gồm hai dạng hữu thanh và vô thanh. Âm hữu thanh có đặc tính tuần hoàn còn âm vô thanh tương tự nhiễu. Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt Hình 1.2: Tiếng nói hữu thanh 1.1.2.2. Tín hiệu Tín hiệu(signal) dùng để chỉ một đại lượng vật lý mang tin tức. Về mặt Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 6 toán học, ta có thể mô tả tín hiệu như một hàm theo biến thời gian, không gian hay các biến độc lập khác. Chẳng hạn như, hàm: x(t )  20t 2 mô tả tín hiệu biến thiên theo biến thời gian t. Hay một ví dụ khác, hàm: s( x, y)  3x  5xy  y 2 mô tả tín hiệu là hàm theo hai biến độc lập x và y, trong đó x và y biểu diễn cho hai tọa độ trong mặt phẳng. Hai tín hiệu trong ví dụ trên về lớp tín hiệu được biểu diễn chính xác bằng hàm theo biến độc lập. Tuy nhiên, trong thực tế, các mối quan hệ giưa các đại lượng vật lý và các biến độc lập thường rất phức tạp nên không thể biểu diễn tín hiệu như trong hai ví dụ vừa nêu trên. Hình 1.3: Tín hiệu tiếng nói Lấy ví dụ tín hiệu tiếng nói – đó là sự biến thiên của áp suất không khí theo thời gian. Chẳng hạn khi ta phát âm từ “away”, dạng sóng của nó được biểu diễn như hình trên. A. Nguồn tín hiệu Tất cả các tín hiệu đều do một nguồn nào đó tạo ra, theo một cách thức nào đó. Ví dụ tín hiệu tiếng nói được tạo ra băng cách ép không khí đi qua dây thanh âm. Một bức ảnh có được bằng cách phơi sáng một tấm phim chụp một cảnh/đối tượng nào đó. Quá trình tạo tín hiệu như vậy thường liên quan
- Xem thêm -

Tài liệu liên quan