Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Những lỗi ngôn ngữ của phần mềm google translate khi dịch tự động anh v...

Tài liệu Những lỗi ngôn ngữ của phần mềm google translate khi dịch tự động anh việt các hợp đồng kinh tế (tóm tắt)

.DOC
26
1181
88

Mô tả:

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN ------------------------- TRẦN LÊ TÂM LINH NHỮNG LỖI NGÔN NGỮ CỦA PHẦN MỀM GOOGLE TRANSLATE KHI DỊCH TỰ ĐỘNG ANH-VIỆT CÁC HỢP ĐỒNG KINH TẾ Chuyên ngành: Ngôn ngữ học so sánh đối chiếu Mã số: 62. 22 .01.10 TÓM TẮT LUẬN ÁN TIẾN SĨ NGỮ VĂN Thành phố Hồ Chí Minh - năm 2017 Công trình được hoàn thành tại: ............................................................................................................................ ............................................................................................................................ Người hướng dẫn khoa học: 1. ............................................................................ 2. ............................................................................ Phản biện 1: ............................................................................................................................ Phản biện 2: ............................................................................................................................ Phản biện 3: ............................................................................................................................ Luâ n â án sẽ được bảo vê â trước Hô âi đồng chấm luâ ân án cấp cơ sở đào tạo họp tại ......................................................................................................... Vào hồi...............giờ ..........ngày............tháng.................năm ............................ Phản biện độc lập 1 ................................................................................................................. Phản biện độc lập 2 ................................................................................................................. Có thể tìm hiểu luận án tại thư viện: ................................................................................................................. (ghi tên các thư viện nộp luận án) 3 MỞ ĐẦU 1. Lý do và mục đích nghiên cứu Lỗi ngôn ngữ khi dịch tự động Anh – Việt là một đề tài đang được quan tâm. Hiện nay, số lượng các văn bản hợp đồng kinh tế Anh-Việt ngày càng nhiều nhưng việc dịch tự động để đáp ứng cho nhu cầu này còn rất hạn chế. Vì vậy, việc khảo sát lỗi cần có sự kết hợp giữa ngôn ngữ học và tin học để các phần mềm xử lý lỗi được thực hiện và phát triển. Mục đích của luận án là khảo sát các loại lỗi ngôn ngữ, chủ yếu là lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp khi dịch tự động hợp đồng kinh tế Anh-Việt, để tìm ra nguyên nhân dẫn đến lỗi và tìm cách khắc phục. 2. Lịch sử vấn đề a) Lịch sử nghiên cứu về lỗi Vào thập niên 70 của thế kỉ XX, hàng loạt công trình về nghiên cứu miêu tả về lỗi như: Richards (1971), công bố hai công trình liên quan đến cách tiếp cận không tương phản đối với việc phân tích lỗi và chiến lược cho ngôn ngữ thứ hai. Schachter (1974), nhận xét lỗi trong quá trình phân tích lỗi. Steel (1976) công bố nghiên cứu sự biến đổi trật tự từ: nghiên cứu loại hình ngôn ngữ. Nhóm các tác giả Schachter và Murcia (1977) đã phân tích những trở ngại trong việc phân tích lỗi. Cuối thập niên này, Kroll và Schafer (1978) có công trình phân tích lỗi và giảng dạy phép ghép từ. Trong những năm 80 của thế kỉ XX, việc nghiên cứu lỗi đã bắt đầu có tính lý thuyết nhiều: Williams (1981) công bố hiện tượng học về lỗi, Corder (1981) phân tích lỗi và tính liên ngành của ngôn ngữ học. Sau đó, Selinker (1984) công bố công trình phân tích lỗi trong ngôn ngữ trung gian. Taylor (1986) viết lỗi và cách giải thích lỗi. Ở Việt Nam, đề tài về trật tự từ được nhiều nhà nghiên cứu ngành ngôn ngữ học quan tâm như: Lý thuyết trật tự từ trong cú pháp (Lý Toàn Thắng, 2002) là công trình hữu ích có thể giúp cho việc khảo sát lỗi trật tự từ trong tiếng Việt thuận lợi hơn. Nguyễn Thị Quỳnh Hoa (2004) khảo sát cấu trúc - ngữ nghĩa của hiện tượng đảo ngữ trong tiếng Anh và tiếng Việt. Trần Thị Minh Phượng (2005) khảo sát những lỗi thường gặp về trật tự từ ở người Việt học tiếng Anh. Đinh Điền (2006) so sánh trật tự từ của định ngữ giữa tiếng Anh và tiếng Việt. Đỗ Minh Hùng (2007) viết lỗi ngữ pháp tiếng Anh thường gặp của người Việt Nam. Phạm Thị Tuyết Hương (2009) nghiên cứu trật tự từ câu đơn tiếng Anh trên bình diện kết học, nghĩa học, dụng học (có so sánh đối chiếu với tiếng Việt). Năm 2009, có trong các công trình về lỗi như: lỗi ngữ pháp và cách khắc phục (Cao Xuân Hạo, Lý Tùng Hiếu, Nguyễn Kiên Trường, Võ Xuân Trang, Trần Thị Tuyết Mai, 2009), lỗi từ vựng và cách khắc phục (Hồ Lê, Trần Thị Ngọc Lang và Tô Đình Nghĩa, 2009) và lỗi chính tả và cách khắc phục (Lê Trung Hoa, 2009). Ngoài ra còn có lỗi ngôn ngữ của người nước ngoài học tiếng Việt (Nguyễn Linh Chi, 2009). b) Lịch sử nghiên cứu về lỗi dịch thuật Khi bàn về những lỗi thường gặp trong quá trình dịch thuật vào thập niên 1960, công trình của Nida (1964) đã có giá trị nhất định khi nghiên cứu của ông hướng tới khoa học dịch thuật, trong tác phẩm này ông đặc biệt quan tâm đến những nguyên tắc và những tiến trình liên quan đến dịch kinh thánh. Catford (1965) có công trình lý thuyết ngôn ngữ về dịch thuật. Newmark (1979) cho thấy nhiều vấn đề xảy ra trong lý thuyết và phương pháp dịch thuật của. 1 Trong những năm 80 của thế kỉ XX, lỗi dịch thuật được nhìn nhận qua lăng kính khoa học như: khoa học hóa những vấn đề về dịch thuật và những phương pháp dịch thuật (Wilss, 1982), vấn đề trong đánh giá lỗi dịch thuật (Kupsch-Losereit, 1985) hay những cách tiếp cận đối với dịch thuật (Newman, 1988 và Newmark, 1988). Đến những năm 1990, nghiên cứu lỗi dịch thuật tập trung vào sửa lỗi hay cải tiến phương pháp dịch thuật. Julian Edge (1990) có công trình nêu nguyên nhân mắc lỗi và cách sửa lỗi. Bell (1991) ứng dụng lý thuyết dịch. Nord (1992) và Neubert & Shreve (1995) phân tích văn bản khi huấn luyện dịch thuật. Jakobson (1998) bàn về những khía cạnh ngôn ngữ trong dịch thuật. Từ đầu thế kỉ XXI cho đến nay, lỗi dịch thuật được nghiên cứu đa dạng và phong phú hơn trong các công trình của Harry Aveling (2002), Na (2005) hay Gyse Hansen (2010) nhằm khắc phục được khả năng dịch thuật của người cũng như của máy. c) Lịch sử nghiên cứu dịch tự đô n ô g Dịch tự động đã được nghĩ đến từ thời Leibtniz và Descartes ở đầu thế kỷ XVII, nhưng không có ứng dụng thực tế. Tuy nhiên, quá trình nghiên cứu này vẫn tiếp diễn qua các thời kỳ Petr Smirnov-Troyanskii (1937), Weaver (1949),v.v. gần đây nhất là Popovic và Burchardt (2007) cho rằng cải tiến dịch tự động thống kê bằng cách sử dụng việc khử nhập nhằng ngữ nghĩa của từ. Tại Việt Nam, có một số nhóm nghiên cứu dịch tự động có liên quan đến tiếng Việt, chủ yếu là dịch tự động Anh-Việt, với các phương pháp khác nhau như: phương pháp dịch tự động dựa theo luật,dịch tự động dựa trên thống kê và đến năm 2010, EVTRAN 4.0 ra đời, phần mềm này có thể dịch tự động một đoạn văn bản từ Anh sang Việt và ngược lại. d) Lịch sử nghiên cứu về lỗi khi dịch tự đô ông Từ thập niên 90 của thế kỉ XX cho đến nay, có nhiều công trình kinh điển giúp cho các nhà ngôn ngữ học nghiên cứu sâu hơn về lỗi, hiểu rõ hơn về những nét tương đồng và dị biệt của các loại hình ngôn ngữ. Nổi bật nhất là công trình phân loại lỗi cho việc đánh giá dịch tự động (Flanagan, 1994), phân tích lỗi và tiếng quốc tế (Ellis, 1997). Khi nghiên cứu về lỗi trong dịch tự động, đầu thế kỉ 21 có những công trình giá trị như phân tích lỗi trong dịch tự động thống kê và tiêu chuẩn đánh giá xác định lỗi trong dịch tự động thống kê dựa vào ngôn ngữ học (Vilar, Jia Xu, D’Haro và Ney, 2006, 2010). Những nghiên cứu này cũng là nền tảng cho nghiên cứu lỗi về dịch tự động. 3. Đối tượng và phạm vi nghiên cứu - Đối tượng nghiên cứu trong luận án là những lỗi dịch tự động Anh – Việt của phần mềm Google Translate (dịch tự động thống kê ) khi dịch các hợp đồng kinh tế. - Phạm vi nghiên cứu là các lỗi chính tả, lỗi từ vựng, lỗi ngữ pháp và lỗi cấu trúc câu. Trong phạm vi nghiên cứu của luận án chúng tôi không khảo sát lỗi liên kết văn bản do phần mềm Google Translate hiện đang dịch từng câu, chưa xét đến liên kết văn bản. 4. Phương pháp nghiên cứu và nguồn ngữ liệu a) Phương pháp nghiên cứu Những phương pháp nghiên cứu chủ yếu được sử dụng trong luận án: phương pháp miêu tả, phương pháp so sánh đối chiếu . Bên cạnh đó, chúng tôi còn sử dụng một thủ pháp xử lý ngữ liệu. Trong phương pháp nghiên cứu này, về xử lý ngữ liệu, chúng tôi dùng hai công cụ hỗ trợ phân tích lỗi là phần mềm BLAST và phần mềm BLAST-VCL. Luận án sử dụng phần mềm BLAST và BLAST-VCL nhằm xây dựng, kiểm định tiêu chí phân loại lỗi và tiến hành qua các bước: thu thập, chuẩn hóa và xử lý ngữ liệu. Ở giai đoạn tiền xử lý, ngữ liệu được tách ra: ngôn ngữ nguồn tiếng Anh (src file), ngôn ngữ đích tiếng Việt (ref file) dịch thủ công và ngôn ngữ đích tiếng Việt dịch tự động được thực hiện bởi Google Translate. Sau khi chọn lọc, phân tích và xử lý các tập tin các công cụ trên sẽ tự động thống kê kết quả (xem Hình 1). ` Hình 1. Mô hình phân tích lỗi BLAST-VCL b) Nguồn ngữ liệu Năm nguồn ngữ liệu chính làm làm cơ sở cho việc nghiên cứu là Cung Kim Tiến (CKT), Trần Lê Tâm Linh (TLTL), Nguyễn Thành Yến (NTY), Xuân Huy- Minh Khiết (XH-MK) và nhóm LEGAL bao gồm các hợp đồng kinh tế Anh-Viê ât để giao dịch tại Việt Nam. 5. Ý nghĩa khoa học và ý nghĩa thực tiễn Về lý luận, phân tích đối chiếu lỗi ngôn ngữ thuộc loại hình hòa kết (tiếng Anh) và loại hình đơn lập (tiếng Việt) trong dịch tự động là nguồn tư liệu tham khảo về các tiêu chí phân loại lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp đối với thể loại văn bản hợp đồng kinh tế khi dịch tự động và sẽ là tiền đề nâng cấp chương trình dịch tự động Anh-Việt và Việt-Anh. Về thực tiễn, kết quả khảo sát giúp nâng cao chất lượng dịch tự động, làm cho nội dung dịch sát với nội dung văn bản gốc. Hiện nay, các công trình dịch tự động còn có ứng dụng rất tốt trong việc giảng dạy ngôn ngữ. Một trong các phương pháp đào tạo cử nhân biên phiên dịch hiện nay là cho sinh viên phân tích các lỗi của dịch máy và từ đó rút ra những kinh nghiệm cho dịch thuật. Phương pháp này được gọi là “Học lỗi từ dịch máy” (Machine translation as a bad model), từ những lỗi đã phân loại giáo viên có thể hướng dẫn người học cách giải thích và chỉnh sửa. Do đó, kết quả nghiên cứu sẽ có giá trị nhất định trong việc học và dạy biên phiên dịch. 6. Bố cục của luận án Ngoài phần mở đầu và phần kết luận, nội dung chính của luận án bao gồm ba chương: 3 Chương 1: Cơ sở lý thuyết, khái quát một số vấn đề chung về khái niệm lỗi, cơ sở lý luận của việc phân tích lỗi và lý thuyết nhưng vấn đề liên quan về những lỗi ngôn ngữ của Google Translate khi dịch tự động hợp đồng kinh tế Anh-Việt bao gồm: đặc điểm của dịch tự động - trình bày những thuận lợi và khó khăn trong dịch tự động, khái niệm hợp đồng kinh tế; đặc điểm loại hình tiếng Anh và tiếng Việt; nhận diện và phân loại lỗi ngôn ngữ khi dịch tự động - nêu cơ sở lý luận của việc phân tích lỗi trong chuyển dịch, giới thiệu các bước phân tích ngữ liệu khi đưa vào phần mềm BLAST như thu thập, chuẩn hóa và xử lý ngữ liệu; cuối cùng, lập tiêu chí phân loại lỗi ngôn ngữ khi dịch tự động bao gồm: lỗi chính tả, lỗi từ vựng, lỗi ngữ pháp, lỗi hệ thống và lỗi ngẫu nhiên. Chương 2: Phân tích lỗi chính tả và lỗi từ vựng, liệt kê toàn bộ kết quả lỗi chính tả (lỗi sai thành phần của cấu trúc âm tiết, lỗi viết hoa, lỗi dấu câu,…) và lỗi từ vựng (lỗi nhập nhằng, lỗi thành ngữ và lỗi thuật ngữ) và phân tích các loại lỗi chính tả và từ vựng thuộc lỗi hệ thống và ngẫu nhiên. Chương 3: Phân tích lỗi ngữ pháp, liệt kê kết quả lỗi ngữ pháp khi dịch tự động hợp đồng kinh tế từ tiếng Anh sang tiếng Việt (như lỗi trật tự từ, lỗi dịch sai từ công cụ, lỗi dịch sai khi có sự hòa hợp giữa chủ từ và động từ, lỗi thừa từ và lỗi thiếu từ). Lỗi trật tự từ sẽ được phân tích dựa theo tiêu chí BLAST và BLAST-VCL và phân tích các loại lỗi ngữ pháp thuộc lỗi hệ thống và thuộc lỗi ngẫu nhiên. CHƯƠNG 1. CƠ SỞ LÝ THUYẾT 1.1. Khái niệm lỗi Nghiên cứu những vấn đề lý thuyết về lỗi ngôn ngữ của phần mềm Google Translate khi dịch tự động hợp đồng kinh tế Anh-Việt, luận án tập trung vào ba loại lỗi ngôn ngữ: chính tả, từ vựng và ngữ pháp. Tuy nhiên, có hai loại lỗi đặc trưng cho dịch tự động không thể bỏ qua đó là lỗi hệ thống và lỗi ngẫu nhiên.Vì vậy, mục này nêu khái niệm của các lỗi trên. Phần nhận diện và phân loại lỗi sẽ được trình bày ở cuối chương 1. 1.1.1. Khái niệm lỗi chính tả Chính tả là cách viết chữ được xem là chuẩn, tức là viết đúng âm đầu, đúng vần, đúng dấu (thanh), đúng quy định về viết hoa, viết tắt, viết thuật ngữ. Theo Nguyễn Đức Dân (2015): “ Sai chính tả là câu viết không đúng quy định về chính tả, không đúng quy tắc về dấu câu, không đúng quy tắc viết tắt”. 1.1.2. Khái niệm lỗi từ vựng “Sai từ vựng là câu mà giữa các từ trong đó không tương hợp về nghĩa.” (Nguyễn Đức Dân, 2015) và “Lỗi từ vựng có thể do viết sai âm, hiểu sai nghĩa, dùng sai chức năng ngữ pháp, hoặc lỗi về ý, về tu từ” (Nguyễn Thiện Nam, 2001). 1.1.3. Khái niệm lỗi ngữ pháp Theo Nguyễn Đức Dân (2015): “Sai ngữ pháp là câu viết không đúng nguyên tắc ngữ pháp, nghĩa là viết không đúng cấu trúc câu. Thường là những câu cụt, thiếu chủ ngữ hay vị ngữ, thậm chí thiếu cả hai.” 1.1.4. Lỗi hệ thống - Lỗi hệ thống là những lỗi mang tính khách quan và bất biến theo thời gian (tạm thời chỉ xét vào thời điểm nghiên cứu là từ tháng 8/2012 đến tháng 2/2014, bởi vì đặc trưng của dịch tự động thống kê là khối ngữ liệu càng lớn thì càng dịch tốt. Vì vậy, những qui ước này có thể thay đổi trong tương lai là điều tất yếu). - Phân loại lỗi hệ thống thông qua khoảng cách Levenshtein Để cho dễ quan sát, chúng tôi qui ước khoảng cách Levenshtein của dịch tự động như sau: giữa năm 2012 và năm 2014 là L1, năm 2012 và câu tham chiếu (dịch thủ công) là L2 và năm 2014 và câu tham chiếu là L3. Ví dụ: Other documents as and when necessary. Câu tham chiếu: Các tài liệu khác nếu thấy cần thiết. Dịch tự động T.8/2012: Các tài liệu khác và khi cần thiết Dịch tự động T.02/2014: Các tài liệu khác và khi cần thiết Kết quả nhận được theo khoảng cách Levenshtein: L1=0, L2=7 và L3=7 và độ lệch L3L2=0. Như vậy, hai lần dịch tự động với thời gian khác nhau nhưng cho kết quả như nhau. Vậy đây là lỗi hệ thống. 1.1.5. Lỗi ngẫu nhiên - Lỗi ngẫu nhiên mang yếu tố chủ quan vì có thể do bất cẩn từ khâu nhập ngữ liệu cho ngôn ngữ nguồn hay do khâu tách các cặp câu Anh-Việt trong giai đoạn tiền xử lý ngữ liệu. - Phân loại lỗi ngẫu nhiên thông qua khoảng cách Levenshtein 5 Độ lệch Levenshtein L2 và L3 lớn hơn 4, sẽ cho ra kết quả lỗi ngẫu nhiên và có hai trường hợp xảy ra là dịch tự động năm 2014 tốt hơn dịch tự động năm 2012 và ngược lại. 1.2. Cơ sở lý luận của việc phân tích lỗi dịch thuật Phân tích lỗi dịch thuật là việc nghiên cứu và phân tích các lỗi do tác nhân dịch (người dịch / máy dịch) gây ra. Việc thu thập các mẫu ngôn ngữ nguồn cũng như ngôn ngữ đích bao gồm việc xác định lỗi trong các mẫu, miêu tả lỗi, phân loại lỗi và giải thích nguyên nhân mắc lỗi. 1.2.1. Định nghĩa lỗi dịch thuật và lỗi dịch tự động a) Định nghĩa lỗi dịch thuật Lỗi dịch thuật là những sai sót trong khi dịch, không thực hiện đúng quy tắc nghiên cứu từ vựng, cấu trúc ngữ pháp, hoàn cảnh giao tiếp hay ngữ cảnh văn hóa của văn bản ngôn ngữ nguồn (hình thành nên lỗi từ vựng, lỗi chính tả, lỗi ngữ pháp, lỗi ngữ dụng…). b) Định nghĩa lỗi dịch tự động Theo Hutchins và Somers (1992), các loại lỗi trong dịch tự động chính là những nhập nhằng (ambiguity) về từ vựng, cấu trúc và từ định lượng. Nhập nhằng từ vựng được nhấn mạnh trong phạm vi từ loại, từ đồng tự, từ đa nghĩa và nhập nhằng chuyển di / giao thoa. Nhập nhằng cấu trúc bao gồm nhập nhằng cấu trúc thực (real structural ambiguity) và nhập nhằng cấu trúc ngẫu nhiên (accidental structural ambiguity). 1.2.2. Các bước xử lý ngữ liệu trước khi phân tích lỗi Để hệ thống hóa các loại lỗi ngôn ngữ cho dịch tự động hợp đồng kinh tế Anh-Việt, chúng tôi sử dụng phần mềm BLAST nhằm xây dựng và kiểm định hệ tiêu chí phân loại lỗi. Sau đây là các bước xử lý ngữ liệu: thu thập ngữ liệu, chuẩn hóa ngữ liệu, xử lý ngữ liệu. a) Nhận dạng lỗi dịch tự động Có hai cách phân biệt lỗi khi dịch tự động Anh-Việt: Cách 1: Kiểm tra mức độ mắc lỗi thường xuyên và lặp lại sau mỗi lần dịch (lỗi hệ thống). Cách 2: Những lỗi nào cho ra kết quả dịch khác nhau trong những thời điểm khác nhau xuất phát từ nguyên nhân chủ quan như nhập sai ngữ liệu, độ dài câu, dấu chấm câu, qui ước viết hoa, viết tắt, v.v. (lỗi ngẫu nhiên). b) Phân tích lỗi dịch tự động Anh-Việt Căn cứ vào lý thuyết của Corder (1981) và Ellis (1997), luận án thực hiện các bước sau đây để phân tích lỗi dịch tự động: thu thập các loại lỗi, xác định từng loại lỗi, miêu tả lỗi, giải thích lỗi và đánh giá lỗi. 1.3. Những lỗi ngôn ngữ khi dịch tự động Anh-Việt các hợp đồng kinh tế 1.3.1. Đặc điểm của dịch tự đô ông a) Khái niệm về dịch tự động Dịch tự động là việc lập chương trình cho máy tính điện tử tự chuyển ngữ các văn bản từ trong một ngôn ngữ này sang một ngôn ngữ khác. Ngôn ngữ của văn bản gốc gọi là ngôn ngữ nguồn, ngôn ngữ của văn bản dịch gọi là ngôn ngữ đích. Hai văn bản dịch gọi là tương đương nhau nếu nó được người đọc hiểu giống nhau. b) Những thuận lợi và khó khăn trong dịch tự động - Thuận lợi của dịch tự động là dịch nhanh (tiết kiệm rất nhiều thời gian); chi phí thấp (nếu thuê người dịch chuyên nghiệp cần phải trả tiền theo số trang); có tính bảo mật cao cho người sử dụng dịch vụ (những bản dịch mang tính cá nhân). - Khó khăn của dịch tự động chưa cho ra kết quả chính xác một cách nhất quán, chỉ dịch từng từ rời rạc mà không cần hiểu, do đó, cần phải chỉnh sửa bằng tay sau khi được dịch tự động. Ngoài ra, chất lượng dịch tự động còn thấp đối với những văn bản có nhiều từ hoặc ngữ. Dịch tự động chỉ dựa vào luật hình thức và luật hệ thống nên đôi khi gặp khó khăn đối với câu nhập nhằng. Trong khi đó, dịch thủ công giải quyết bằng cách tập trung vào ngữ cảnh, sử dụng kinh nghiệm hay trực giác. c) Các cách tiếp cận đối với dịch tự động Theo Koeln (2014), có sáu cách tiếp cận dịch tự động: dịch tự động từng từ một (direct MT), dịch chuyển đổi cú pháp (syntactic-transfer MT), dịch tự động liên ngữ (interlingual MT), dịch tự động dựa trên ngôn ngữ có kiểm soát (controlled language MT), dịch tự động dựa trên ví dụ (example-based MT) và dịch tự động dựa trên thống kê (SMT). Ngoài ra, còn có các tài liệu liệt kê bốn cách tiếp cận: dịch tự động dựa trên qui luật (rulebased MT), dựa trên cơ sở tri thức (knowledge-based MT), dựa trên ngữ liệu (corpus-based MT) và dựa trên cách tiếp cận lai (hybrid MTS) (Đinh Điền, 2006b). 1.3.2. Đặc điểm về loại hình của tiếng Việt và tiếng Anh - Tiếng Việt được xếp vào loại hình đơn lập (isolate) hay còn gọi là loại phi hình thái, không biến hình, đơn tiết. - Tiếng Anh được xếp vào loại hình hòa kết (flexional) hay biến hình. 1.3.3. Hợp đồng kinh tế a) Khái niệm hợp đồng kinh tế Hợp đồng kinh tế là sự thỏa thuận bằng văn bản, tài liệu giao dịch giữa các bên ký kết về việc thực hiện công việc sản xuất, trao đổi hàng hóa, dịch vụ, nghiên cứu ứng dụng tiến bộ khoa học kỹ thuật và các thỏa thuận khác có mục đích kinh doanh với sự quy định rõ ràng về quyền và nghĩa vụ của mỗi bên để xây dựng và thực hiện kế hoạch của mình. b) Các loại hợp đồng kinh tế Dựa trên những căn cứ khác nhau, mà người ta phân hợp đồng kinh tế thành nhiều loại khác nhau: căn cứ thời hạn thực hiện hợp đồng, căn cứ vào tính chất quan hệ của hợp đồng và căn cứ vào nội dung giao dịch của mối quan hệ hợp đồng. 1.3.4. Nhận diện và phân loại lỗi ngôn ngữ khi dịch tự động Dưới góc nhìn của ngôn ngữ học, luận án chỉ khảo sát loại lỗi theo tiêu chí BLAST: 7 Loại I: là loại lỗi không hợp với cách nói của người sử dụng ngôn ngữ đích nhưng có thể tạm chấp nhận được vì vẫn mang đủ nghĩa theo ngữ cảnh. Loại II: được xem là sai hoàn toàn Có 3 loại lỗi ngôn ngữ khi dịch tự động hợp đống kinh tế Anh-Việt được phân tích trong luận án này: a) Lỗi chính tả khi dịch tự động hợp đồng kinh tế Anh-Việt bao gồm lỗi sai ở thành phần của cấu trúc âm tiết (thanh điệu, phụ âm đầu, vần), lỗi viết hoa, lỗi viết tắt, lỗi dấu câu... b) Lỗi từ vựng khi dịch tự động hợp đồng kinh tế Anh-Việt Những câu dịch không có ý nghĩa tạo ra những lỗi ngữ nghĩa (sense). Theo tiêu chí BLAST, lỗi ngữ nghĩa thuộc về lỗi từ vựng chủ yếu khi dịch tự động hợp đồng kinh tế Anh-Việt bao gồm: lỗi nhập nhằng nghĩa là lỗi do chọn sai mục từ trong từ điển (ambiguity), lỗi hiểu sai nghĩa thành ngữ (idiom) và lỗi hiểu sai nghĩa thuật ngữ (term). c) Lỗi ngữ pháp khi dịch tự động hợp đồng kinh tế Anh-Việt Lỗi ngữ pháp bao gồm: lỗi trật tự từ (word order); lỗi thừa hay thiếu một hay nhiều thành tố trong cấu trúc còn được gọi là lỗi thừa từ (extra), lỗi thiếu từ (missing) và lỗi do không hòa hợp giữa chủ từ và động từ (agreement). Nhận xét chương 1: Dịch tự động Anh-Việt các hợp đồng kinh tế là một phương tiện hỗ trợ thiết thực hữu dụng cho con người. Do mỗi ngôn ngữ có tính tương đồng và tính dị biệt, nên khi dịch tự động không thể không mắc lỗi, chủ yếu là lỗi từ vựng, lỗi chính tả và lỗi ngữ pháp. Google Translate giúp cho nhân loại có thể hiểu nhau hơn qua dịch thuật, với ưu điểm là dịch nhanh với số lượng trang văn bản khá nhiều trong thời gian ngắn. Tuy nhiên, do sự khác nhau về loại hình của từng ngôn ngữ chẳng hạn như tiếng Anh, ngôn ngữ hòa kết, và tiếng Việt, ngôn ngữ đơn lập, nên hạn chế của dịch máy không thể tránh khỏi. Vì vậy, cần có một cơ sở lý thuyết để minh định cho vấn đề đặt ra, những cách tiếp cận giúp chúng ta hiểu rõ hơn nguyên nhân mắc lỗi và các phần mềm vi tính ra đời hỗ trợ cho ngôn ngữ học như BLAST, BLAST-VCL. Đó là tiền đề nhận diện và phân loại lỗi như lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp. Khi nghiên cứu những gì mà các nhà ngôn ngữ học đi trước đã nêu ra về vấn đề dịch tự động, chúng tôi đưa ra một bức tranh tổng quát về các khái niệm có liên quan đến dịch tự động trong chương này, đồng thời cũng cố gắng giải thích nguyên nhân và cơ sở để phân tích và phân loại lỗi, trên cơ sở nghiên cứu những quy luật chi phối chúng. Dịch tự động là một vấn đề hết sức lý thú đòi hỏi một sự nghiên cứu sâu hơn để có thể tìm ra được những quy tắc hoạt động của chúng, những giải pháp hữu hiệu, khả thi để khắc phục những loại lỗi mà chúng tôi đã khảo sát trên cơ sở ngữ liệu là các hợp đồng kinh tế thương mại Anh – Việt. Các khái niệm, quy tắc chúng tôi nêu ra trong chương này chưa đủ để giải thích mọi hiện tượng về khả năng đóng góp của dịch tự động Google Translate, nhưng chúng là một số kết luận mang tính lý thuyết rút ra từ những dữ liệu thực tế mà chúng tôi thu thập được trong thời gian làm luận án. Các khái niệm quy tắc này mong là có thể gợi ý cho những nghiên cứu tiếp theo về đề tài này trên cơ sở những dữ liệu phong phú hơn. 9 CHƯƠNG 2. PHÂN TÍCH LỖI CHÍNH TẢ VÀ LỖI TỪ VỰNG Sau khi thống kê và lập ra các tiêu chí để phân loại qua phần mềm BLAST, chúng ta nhận thấy có hai loại I và loại II (theo qui ước ở 1.3.4. chương 1) xuất hiện hầu hết trong các loại lỗi khảo sát. 2.1. Lỗi chính tả Kết quả thống kê các loại lỗi chính tả đã phân tích được trình bày trong luận án có tống cộng 867 lỗi chính tả. Trong số đó, lỗi giữ nguyên từ thuộc ngôn ngữ nguồn – loại II chiếm tỉ lệ cao nhất là 40,95 % (355 lỗi). Kế đến là lỗi dịch sai chữ số - loại II (chiếm 27,68%), lỗi dịch sai dấu câu - loại II (chiếm 16,61 %). Lỗi chiếm tỉ lệ thấp nhất là lỗi viết tắt và lỗi viết hoa (chỉ chiếm từ 0,35 % đến 1,27 %). Ngoài ra, các lỗi sai ở thành phần của cấu trúc âm tiết, cụ thể là khi chuyển dịch tự động bị thiếu phụ ầm đầu. Trường hợp dịch thiếu âm tiết này chiếm tỉ lệ đáng kể (5,76 %) trong thời điểm khảo sát ngữ liệu của luận án này (năm 2012-2014), nhưng do đặc điểm nổi bật của dịch tự động thống kê của phần mềm Google Translate lỗi này có thể khắc phục được kể từ năm 2015 đến nay. 2.1.1. Lỗi dịch sai chữ số - loại I (gồm 7 lỗi và chiếm tỉ lệ là 0,81%) là dịch thiếu nhất quán trong việc xét “chữ” hay “số”. Mặc dù là lỗi do dịch sai chữ số nhưng vẫn mang đủ nghĩa theo ngữ cảnh. Ví dụ: March 16, 1994. (Ngữ liệu LEGAL, số 707), (DTC) là ngày 16 tháng 3 năm 1994 và (DTĐ) là ngày 16 Tháng Ba 1994. Vậy, dịch thù công đúng văn phong tiếng Việt hơn dịch tự động. 2.1.2. Lỗi dịch sai chữ số - loại II (có 240 lỗi, chiếm tỉ lệ 22,68%) tạo nên câu văn hoàn toàn không lưu loát đồng thời cũng không mang đầy đủ ý nghĩa theo ngữ cảnh. Ví dụ: 2.2 The Rules on license trade (Ngữ liệu LEGAL, số 353). (DTĐ) là 2,2 Các quy định về giấy phép thương mại. Trường hợp này do máy hiểu đây là số thập phân nên khi dịch sang tiếng Việt đã đổi dấu chấm thành dấu phẩy ở số “2.2” và làm cho câu không có nghĩa. 2.1.3. Lỗi dịch sai dấu câu - loại I (có 28 lỗi và chiếm 3,23 %) là do đặt thiếu hoặc dư các dấu chấm, dấu phẩy, dấu hai chấm trong câu và cả những lỗi viết hoa hoặc viết thường. Tuy nhiên, chúng vẫn mang đủ nghĩa theo ngữ cảnh. Ví dụ: Article 17. The mode of payment (Ngữ liệu LEGAL, số 353), (DTĐ) là Điều 17 Phương thức thanh toán. Trong ví dụ này, chúng ta thấy ngôn ngữ đích vẫn có nghĩa bởi vì không có dấu chấm nhưng từ “Phuơng” vẫn đuợc viết hoa. 2.1.4. Lỗi dịch sai dấu câu - loại II (gồm có 144 lỗi, chiếm 16,61%) đa số xảy ra ở dấu phẩy lược âm (‘s ) gây ra hiểu nhầm là dấu chấm hỏi (?) hoặc bỏ qua không dịch. Ví dụ: Robert’s normal business days. (Ngữ liệu NTY, số 130), (DTĐ) là ngày làm việc bình thường của Robert?. 2.1.5. Lỗi thành phần của cấu trúc âm tiết - loại II (chiếm 3,34%, 29 lỗi) như dịch thiếu phụ âm đầu của ngôn ngữ đích tạo nên câu văn hoàn toàn sai. Chẳng hạn như: Any audit (Ngữ liệu NTY, số 26), (DTĐ) là “iểm toán”, thiếu phụ âm “k” trong từ “kiểm toán”. Hầu hết các lỗi đang được phân tích trong luận án này đều do Google Translate dịch vào tháng 8/2012, nhưng từ sau 6 tháng đến nay, lỗi này không xuất hiện, có lẽ trong thời gian này Google Translate đã được điều chỉnh. 1.1 Lỗi giữ nguyên từ thuô ôc ngôn ngữ nguồn - loại I (có 21 lỗi, chiếm 2,42%). Một số từ tiếng Anh được sử dụng như Việt hóa nên giữ nguyên gốc khi dịch và đã tạo ra lỗi giữ nguyên từ thuộc ngôn ngữ nguồn – loại I. Chẳng hạn như “fax letters” (điện báo) (Ngữ liệu LEGAL, số 175) dịch tự động là “thư fax” nhưng điều này không ảnh hưởng đến ngôn ngữ nguồn vì vẫn mang đầy đủ nghĩa so với ngữ cảnh. 1.2 Lỗi giữ nguyên từ thuô ôc ngôn ngữ nguồn - loại II (có 355 lỗi, chiếm 40,95%). Lỗi này thường do người nhập ngữ liệu ở khâu đầu tiên đã đánh máy sai chính tả, vì thế các từ này sẽ không tìm thấy trong từ điển.Vậy chỉ cần sửa lỗi chính tả trong ngôn ngữ nguồn là sẽ có câu dịch đúng. Ví dụ: contitons of the guarantee (ngữ liệu LEGAL, số 56), (DTĐ) là contitons bảo lãnh. 2.1.5. Lỗi viết hoa - loại I (gồm 6 lỗi, chiếm 0,69%). Lỗi viết hoa - loại I vẫn mang đủ nghĩa theo ngữ cảnh bởi vì trong các văn bản đôi khi chúng ta gặp các từ viết hoa thường là để nhấn mạnh hoặc xem như danh từ riêng, điều này không ảnh hưởng đến ý nghĩa của câu văn, chỉ không đúng về mặt ngữ âm. Ví dụ: up to.….Dollars (ngữ liệu, XH-MK, số 6), (DTĐ) là lên đến …..Dollars. 2.1.6. Lỗi viết hoa - loại II (chiếm 0,92% , 8 lỗi). Những trường hợp viết hoa tùy tiện, ngẫu hứng hoặc do bất cẩn như trường hợp dấu ba chấm (...) lại có thêm dấu chấm thứ tư, điều này máy sẽ không hiểu xem đây là dấu chấm cuối câu và từ đầu câu mặc nhiên viết hoa. Chính vì thế, câu văn sẽ không còn ý nghĩa. Ví dụ: the …. language and the other in the English language (ngữ liệu, XH-MK, số 477), (DTĐ) là ở. Ngôn ngữ và những khác bằng tiếng. 2.1.7. Lỗi viết tắt – loại I (có 3 lỗi, chiếm 0,35%). Lỗi viết tắt - loại I vẫn mang đủ nghĩa theo ngữ cảnh. Ví dụ: ABC. Co. Ltd. (ngữ liệu,TLTL, số 477), (DTĐ) là ABC. Công ty TNHH. 2.1.8. Lỗi viết tắt – loại II (có 11 lỗi, chiếm 1,27%). Lỗi viết tắt - loại II này tạo nên câu văn sai hoàn toàn. Ví dụ: this GCC Clause 10 shall be responsibility of the Employer, (ngữ liệu, CKT, số 122), (DTĐ) là khoản này GCC 10? Được trách nhiệm của Chủ đầu tư, 2.1.9. Các lỗi chính tả khác- loại II (chiếm 1,73% , 15 lỗi). Một số lỗi chính tả khác được phân tích trong luận án vì chúng không thuộc các tiêu chí sẵn có của phần mềm, các lỗi này tạo nên câu văn hoàn toàn sai. Ví dụ: b) Claim a penalty for breach (ngữ liệu LEGAL, số 326), (DTĐ) là B) Bổ xung vào một hình phạt. Vậy, trường hợp này khi dịch tự động đã viết hoa chữ B (dạng số thứ tự) và sai chính tả tiếng Việt từ “xung”. Một ví dụ khác như: no Article on prince (ngữ liệu LEGAL, số 435), (DTĐ) là không có Điều hoàng tử. Trường hợp này cho thấy mặc dù các lỗi chính tả xảy ra do nhập ngữ liệu 11 sai ngay trong ngôn ngữ nguồn nhưng vẫn được dịch sang tiếng Việt vì từ đó có trong từ điển của Google Translate. Cụ thể như “prince” (lẽ ra trong ngữ cảnh này phải viết là “price” mang nghĩa “giá cả”) nhưng ngôn ngữ nguồn đã bị nhập sai, kéo theo dịch tự động hiểu sai nghĩa. Lỗi này cũng khá phổ biến nhưng cũng dễ sửa vì chỉ cần cẩn thận là khắc phục được ngay. 2.2. Lỗi từ vựng Lỗi từ vựng bao gồm lỗi nhập nhằng, lỗi hiểu sai thành ngữ và lỗi hiểu sai nghĩa thuật ngữ.Theo kết quả thống kê, lỗi từ vựng chiếm tần suất cao nhất. Đáng kể nhất là lỗi dịch sai thuật ngữ hợp đồng kinh tế loại I và II chiếm 84,95% so với 5 loại lỗi từ vựng, lỗi nhập nhằng - loại II có 13,29%. Tỉ lệ lỗi thấp nhất là lỗi hiểu sai thành ngữ - loại II gồm có 0,82% và lỗi nhập nhằng - loại I chiếm tỉ lệ thấp tiếp theo là 0,94%. 2.2.1. Lỗi nhập nhằng - loại I (có 24 lỗi chiếm 0,94% ) là lỗi do chọn sai mục từ trong từ điển. Ví dụ: be directly liable to pay damages to the innocent party, (Ngữ liệu LEGAL, số 220), (DTĐ) là trực tiếp chịu trách nhiệm bồi thường thiệt hại cho bên vô tội,. Lẽ ra câu này phải dịch là “chịu trách nhiệm tài sản trực tiếp với bên bị vi phạm”. 2.2.2. Lỗi nhập nhằng - loại II (có 340 lỗi chiếm 13,29%): tương tự như lỗi trên, nhưng ở đây chẳng những chọn sai mục từ trong từ điển mà còn tạo câu văn không có nghĩa. Ví dụ: deadline, Party A (Ngữ liệu XH-MK, số 161), (DTĐ) là Đảng thời hạn, A; từ Party ở đây có nghĩa là Bên. 2.2.3. Lỗi dịch sai thành ngữ- loại II (chiếm 0,82%, 21 lỗi) do dịch tự động không hiểu thành ngữ trong câu và đã dịch từng từ làm mất ý nghĩa của ngôn ngữ nguồn. Ví dụ: discrepancies the same shall be explained (Ngữ liệu TLTL, số 93), (DTC) là không rõ nghĩa thì sẽ đuợc giải thích, nhưng (DTĐ) đã dịch “bất cùng sẽ được giải thích.” 2.2.4. Lỗi hiểu sai nghĩa thuật ngữ - loại I (có 312 lỗi chiếm 12,20%) là lỗi tuy dịch không đúng với nghĩa của thuật ngữ ngôn ngữ nguồn nhưng vẫn mang đủ nghĩa theo ngữ cảnh. Chẳng hạn như: attach with the application for this purpose, (Ngữ liệu LEGAL, số 1755), có nghĩa là gửi kèm theo, nhưng (DTĐ) đã dịch đính kèm với các ứng dụng cho mục đích này. 2.2.5. Lỗi hiểu sai nghĩa thuật ngữ - loại II (có 1.861 lỗi, chiếm tỉ lệ cao nhất là 72,75%) là lỗi dịch không đúng ngôn ngữ nguồn mà cũng không đúng nghĩa. Ví dụ: this Agreement (Ngữ liệu NTY, số 64) có nghĩa là Hợp đồng này, nhưng (DTĐ) là Hiệp định này. 2.3. Lỗi chính tả và lỗi từ vựng thuộc lỗi hệ thống và lỗi ngẫu nhiên 2.3.1. Lỗi chính tả và lỗi từ vựng thuộc lỗi hệ thống Có 12 loại lỗi chính tả và 5 loại từ vựng thuộc lỗi hệ thống trong 17 loại lỗi xuất hiện trong chương 2 này, nhưng chỉ có 357 lỗi được chia thành 13 loại thuộc lỗi hệ thống. Trong đó, lỗi hiểu sai thuật ngữ - loại II chiếm tỉ lệ cao nhất là 35,57% (127 lỗi). Kế đó là lỗi giữ nguyên từ thuộc ngôn ngữ nguồn – loại II (58 lỗi – 16,25%) và lỗi nhập nhằng - loại II (55 lỗi – 15,54%). Tỉ lệ thấp nhất là lỗi viết hoa và lỗi viết tắt. 2.3.2. Lỗi chính tả và lỗi từ vựng thuộc lỗi ngẫu nhiên Trong tổng số 17 loại lỗi được khảo sát trong chương này bao gồm 12 loại lỗi chính tả (30,97%) và chỉ có 5 loại lỗi từ vựng nhưng chiếm tỉ lệ hơn gấp đôi lỗi chính tả (69,03%). Trong lỗi chính tả, chỉ có duy nhất loại lỗi giữ nguyên từ thuộc ngôn ngữ nguồn – loại I không thuộc lỗi ngẫu nhiên. Trong lỗi từ vựng, lỗi hiểu sai thuật ngữ - loại II cũng chiếm tỉ lệ cao nhất là 32,98% (279 lỗi), kế tiếp là 154 lỗi nhập nhằng - loại II (chiếm tỉ lệ 18,20%), lỗi viết tắt và lỗi viết hoa chiếm tỉ lệ thấp nhất (từ 0,24% đến 0,59%). Nhận xét chương 2: Trong chương hai, trên cơ sở lý luận từ việc so sánh đối chiếu ngôn ngữ dịch tự động và ngôn ngữ của bản dịch thủ công, kết quả thu được tổng cộng 17 loại lỗi trong đó có 12 lỗi chính tả 5 loại lỗi từ vựng như đã phân tích ở trên. Ngoài việc mô tả và phân tích lỗi về từ vựng và chính tả thuộc lỗi ngôn ngữ trong dịch tự động Anh-Việt, chúng tôi thấy cần phải khảo sát thêm lỗi hệ thống và lỗi ngẫu nhiên nhằm vừa làm sáng tỏ nét đặc thù trong từng ngôn ngữ vừa đóng góp vào những thiếu sót cần cải tiến trong chương trình dịch tự động trong lĩnh vực từ vựng, một khía cạnh mới được khám phá và hy vọng rằng hướng khắc phục của nó có nhiều tiềm năng và mang nhiều triển vọng. 13 CHƯƠNG 3. PHÂN TÍCH LỖI NGỮ PHÁP Trong chương này chúng tôi khảo sát các loại lỗi về ngữ pháp – cấu trúc. Đối với loại lỗi về cấu trúc, chúng tôi thấy có lỗi thừa hay thiếu một hay nhiều thành tố trong cấu trúc đó. Chúng tôi gọi là lỗi thừa từ hoặc lỗi thiếu từ. Việc phân loại theo cách này sẽ giúp dễ dàng nhận dạng lỗi một cách cụ thể khi dịch tự động. Ngoài ra còn có lỗi trật tự từ, lỗi dịch sai từ công cụ và lỗi dịch sai khi hòa hợp giữa chủ từ và động từ sẽ được phân tích trong chương này. 3.1. Lỗi trật tự từ 3.1.1. Lỗi trật tự từ theo tiêu chí BLAST Theo tiêu chí BLAST, chỉ có 7 dạng lỗi trật tự từ xuất hiện khi dịch tự động. Trong đó, phạm vi cụm từ ở khoảng cách xa – loại IV chiếm tỷ lệ cao nhất. Phạm vi lỗi trật tự từ phạm khoảng loạ vi cách i từ gần I xa IV IV số % lỗi lỗi 13 0,9 6 21 1,55 42 3,1 0 phạm khoảng loạ vi cách i cụm gần I từ IV Xa I số lỗi 53 % lỗi 3,92 112 8,28 72 5,32 IV 41 30,89 8 Với 448 că pâ câu Anh-Việt trong 5 loại ngữ liệu khảo sát, số lượng câu chứa lỗi trật tự từ có ít nhất là 0 lỗi và nhiều nhất là 5 lỗi. Kết quả số câu chứa lỗi được tổng kết như sau: 273 câu chứa 1 lỗi, 123 câu chứa 2 lỗi, 25 câu chứa 3 lỗi, câu chứa 4 lỗi, 1 câu chứa 5 lỗi và 16 câu không có lỗi. 3.1.2. Lỗi trật tự từ theo tiêu chí BLAST-VCL Để phát huy tính năng ưu việt của phần mềm BLAST, chúng tôi đề nghị nhóm nghiên cứu xử lý tiếng Việt (Vietnamese Computational Linguistics – VCL) của khoa Công nghệ thông tin Trường Đại học Khoa học tự nhiên, TP. HCM, xây dựng bổ sung tiêu chí phân loại lỗi trật tự từ cho phù hợp với 2 loại hình ngôn ngữ tiếng Anh và tiếng Việt đang xử lý trong luận án. Phần mềm mới này được đặt tên là BLAST-VCL (viết tắt là BVCL). Theo tiêu chí BLAST-VCL, lỗi trật tự từ được chia thành 13 nhóm với 60 loại và được đặt tên BVCL kèm theo số thứ tự được đánh số từ 1 đến 60. BLAST-VCL phân chia lỗi trật tự từ ở các phạm vi như sau: Nhóm BVCL Lỗi trật tự từ theo tiêu chí BLAST BVCL-1 - BVCL-10 BVCL-11 - BVCL-22 và BVCL-28 BVCL-23 - BVCL-27 BVCL-29 - BVCL-31 BVCL-32 - BVCL-42 phạm vi ngữ ở khoảng cách xa – loại I phạm vi ngữ ở khoảng cách xa – loại II phạm vi ngữ ở khoảng cách gần – loại I phạm vi ngữ ở khoảng cách gần – loại II BVCL-43 - BVCL-49 BVCL-50 - BVCL-52 BVCL-53 - BVCL-60 phạm vi từ ở khoảng cách xa – loại II phạm vi từ ở khoảng cách gần – loại I phạm vi từ ở khoảng cách gần – loại II Ngoài ra, các nhóm BVCL còn được xếp theo cấu trúc câu như sau: Cấu trúc Chủ động hoặc bị động Tính từ danh từ Trạng từ - tính từ Mạo từ - danh từ Liên từ Danh từ danh từ Danh từ - sở hữu cách danh từ Số - danh từ Giới từ - danh từ Chủ từ - động từ Động từ trạng từ Động từ - túc từ Động từ động từ Tiêu chí BVCL BVCL-1, BVCL-14, BVCL-23, BVCL-35, BVCL-43 và BVCL-53 BVCL-2, BVCL-11, BVCL-24, BVCL-36, BVCL-44 và BVCL-54 BVCL-3, BVCL-15, BVCL-32 và BVCL-45 Số lỗi/ % 29 lỗi (4,05%) BVCL-4, BVCL-12, BVCL-46 và BVCL-55 6 lỗi (0,84%) BVCL-5, BVCL-13 và BVCL-33 BVCL-7, BVCL-17, BVCL-34, BVCL-48 và BVCL-57 BVCL-6, BVCL-16, BVCL-25, BVCL-37, BVCL-47, BVCL-50 và BVCL-56 13 lỗi (1,81%) 132 lỗi (18,41%) 234 (32,64%) BVCL-8, BVCL-18, BVCL-26, BVCL-38, BVCL-49, BVCL-51 và BVCL-58 BVCL-9, BVCL-19, BVCL-27, BVCL-39 và BVCL-59 BVCL-28 26 lỗi (3,63%) BVCL-20, BVCL-29 và BVCL-40 18 lỗi (2,51%) BVCL-10, BVCL-21, BVCL-30, BVCL-41 và BVCL-52 BVCL-22, BVCL-31, BVCL-42 và BVCL60 13 lỗi (1,81%) 167 lỗi (23,29%) 17 lỗi (2,37%) 34 lỗi (4,74%) 14 lỗi (1,95%) 14 lỗi (1,95%) Một số ví dụ minh họa về lỗi trật tự từ theo cấu trúc câu: Ví dụ (a): the parties exchange correspondence (Ngữ liệu LEGAL, số 38). (DTC) các bên nhận được tài liệu giao dịch (DTĐ) các thư từ trao đổi bên Ví dụ (b): has seriously violated the law (Ngữ liệu LEGAL, số 1342) (DTC) vi phạm pháp luật nghiêm trọng (DTĐ) vi phạm nghiêm trọng pháp luật Ví dụ (c): 2. The rights (Ngữ liệu LEGAL, số118), có nghĩa là 2. Quyền, nhưng dịch tự động là (?) Quyền 2 Nhận xét: ví dụ (a) có cấu trúc: chủ từ - vị từ, (b) cấu trúc động từ - túc từ và (c) cấu trúc số - danh từ. 3.2. Lỗi dịch sai từ công cụ - loại II có 64 lỗi chiếm 4,73%. Ví dụ: (NNN) on all essential terms (Ngữ liệu LEGAL, số 38) (DTC) về tất cả những điều khoản chủ yếu (DTĐ) trên tất cả các điều khoản cơ bản 15 3.3. Lỗi dịch sai khi hòa hợp giữa chủ từ và động từ - loại II hay còn gọi là lỗi phù ứng đó là lỗi do không có sự hòa hợp giữa chủ từ và động từ hoă âc giữa các từ trong câu, tạo nên câu văn hoàn toàn sai. Lỗi này chiếm 0,12% (6 lỗi). Ví dụ: (NNN) follow Party A’s instructions (Ngữ liệu XH-MK, số 178) (DTC) bên A đã đề ra. (DTĐ) theo Đảng hướng dẫn A? Nhận xét: dịch tự động đã dịch theo đúng trật tự của ngôn ngữ nguồn, nhưng về mặt ngữ pháp không những sai về sự phù ứng mà còn sai về khả năng chọn thuật ngữ và sở hữu cách. 3.4. Các loại lỗi thừa từ và thiếu từ Lỗi thừa từ và thiếu từ thường do vi phạm các quy tắc cấu tạo như các hiện tượng dịch thừa hoặc thiếu một trong những thành phần của câu làm cho câu tối nghĩa. 3.4.1 Lỗi thừa từ Các ví dụ sau đây sẽ minh họa cho lỗi thừa từ, các từ dịch thừa sẽ đuợc in đậm trong câu dịch tự động (DTĐ). a) Lỗi thừa từ nội dung - loại I có 34 lỗi, chiếm 1,16 % . Ví dụ: to be calculated in the same manner (Ngữ liệu LEGAL, số 789), (DTĐ) là được tính toán theo cách tương tự. b) Lỗi thừa từ nội dung - loại II có số 690 lỗi, chiếm 23,63%. Ví dụ: The Borrower is required to provide (Ngữ liệu XH-MK, số 23), (DTĐ) là Bên vay là cần thiết để cung cấp. c) Lỗi thừa từ ngữ pháp - loại I có 18 lỗi, chiếm 0,62 %. Ví dụ: as the right to enter into (Ngữ liệu LEGAL, số 154), (DTĐ): d) Lỗi thừa từ ngữ pháp - loại II có 411 lỗi chiếm 14,08%. Ví dụ: the business which will carry out (Ngữ liệu LEGAL, số 23), (DTĐ): doanh nghiệp mà sẽ thực hiện e) Lỗi dịch thừa từ so với ngôn ngữ nguồn - loại I có 4 lỗi, chiếm 0,14%.. Ví dụ: apart from damages paid (ngữ liệu LEGAL, số 225) (DTC) ngoài mức phạt. (DTĐ) ngoài việc trả tiền bồi thường thiệt hại Lỗi dịch thừa từ so với ngôn ngữ nguồn - loại II có 10 lỗi, chiếm 0,34 %. Ví dụ: results from (i) the correction (ngữ liệu NTY, số 57) (DTC) là do (i) việc chỉnh sửa. (DTĐ) kết quả yêu cầu bồi thường từ điều chỉnh 2.4.2 Lỗi thiếu từ Đối với lỗi thiếu từ, qua các ví dụ, chúng ta sẽ so sánh dịch tự động với dịch thủ công (DTC) để nhận biết các từ thiếu sót: a) Lỗi thiếu từ nội dung - loại I có 34 lỗi, chiếm 1,16 %. Ví dụ: has not registered, in accordance with the law, (ngữ liệu LEGAL, số 23), (DTC) là không có đăng ký kinh doanh theo quy định của pháp Luật (DTĐ) đã không đăng ký theo quy định của pháp luật, b) Lỗi thiếu từ nội dung - loại II có 682 lỗi, chiếm 23,36%. Ví dụ: any kind necessary (ngữ liệu TLTL, số 109), (DTC) là thuộc - loại nào cần thiết (DTĐ) bất loại cần thiết c) Lỗi thiếu từ ngữ pháp - loại I có 18 lỗi, chiếm 0,62%. Ví dụ: Clause 1 are essential terms of the contract. (ngữ liệu LEGAL, số 52), (DTC) là Điều 1 là điều khoản chủ yếu của các hợp đồng kinh tế. (DTĐ) Khoản 1 các điều khoản cần thiết của hợp đồng. d) Lỗi thiếu từ ngữ pháp - loại II có 111 lỗi, chiếm 3,8%. Ví dụ: in the same process as judge, (ngữ liệu LEGAL, số 538) (DTC) cùng một vụ án với tư cách là thẩm phán, (DTĐ) quá trình cùng là Thẩm phán, 3.5. Lỗi ngữ pháp thuộc lỗi hệ thống và lỗi ngẫu nhiên Tương tự như cách trình bày ở mục 2.3 Chương 2, lỗi ngữ pháp cũng thuộc lỗi hệ thống và lỗi ngẫu nhiên. 1.1 Lỗi ngữ pháp thuộc lỗi hệ thống Tính tới thời điểm tháng 2/2014 lỗi ngữ pháp thuộc lỗi hệ thống chỉ xuất hiện lỗi trật tự từ. Trong ba ngữ liệu khảo sát, lỗi trật tự từ thuộc phạm vi cụm từ/ ngữ ở khoảng cách xa – loại II thuộc lỗi hệ thống có số lỗi nhiều nhất là 86, chiếm tỷ lệ 44,56%. Ở phạm vi cụm từ/ ngữ ở khoảng cách xa - loại I thuộc lỗi hệ thống có 41 lỗi (21,24%). Với phạm vi từ ở khoảng cách xa - loại II thuộc lỗi hệ thống có 23 lỗi, chiếm 11,92%. Phạm vi cụm từ/ ngữ ở khoảng cách gần - loại I thuộc lỗi hệ thống có số lỗi là 21, chiếm 10,88%. Với phạm vi cụm từ/ ngữ ở khoảng cách gần - loại II thuộc lỗi hệ thống có 12 lỗi, chiếm 6,22%. Cuối cùng, ở phạm vi từ ở khoảng cách gần - loại II thuộc lỗi hệ thống 10 lỗi và chiếm 5,18%. 1.2 Lỗi ngữ pháp thuộc lỗi ngẫu nhiên Lỗi ngẫu nhiên chiếm tỉ lệ cao hơn lỗi hệ thống do đặc tính của loại hình dịch tự động khác hẳn những đặc tính dịch thủ công. Chất lượng của phương pháp dịch tự động thống kê của Google Translate lệ thuộc vào nguồn ngữ liệu. Vì vậy, dịch tự động hiện nay vẫn chưa cho kết quả thực sự tốt bởi vì nguồn ngữ liệu còn mang yếu tố chủ quan như do bất cẩn trong khi nhập ngữ liệu cho ngôn ngữ nguồn (đánh máy sai) hoặc trong giai đoạn tiền xử lý ngữ liệu, tách các cặp câu song ngữ Anh-Việt chưa hoàn chỉnh. Điều này dẫn đến tình trạng lần sau tốt hơn lần trước hoặc lần trước dịch tốt hơn lần sau. Theo thống kê các ngữ liệu trong luận án, lỗi ngẫu nhiên xảy ra hầu như ở tất cả các trường hợp của lỗi từ vựng và lỗi ngữ pháp, nhưng các trường hợp như sau chiếm tỉ lệ đáng kể hơn: lỗi do sai về dấu câu, về sở hữu cách, về viết hoa không đúng cách, lỗi dịch thừa từ do dịch sát nghĩa từng từ một, lỗi dịch thiếu từ do câu quá dài, và cuối cùng là lỗi giao thoa từ vựng (nghĩa là giữ nguyên từ của ngôn ngữ nguồn) đa số là danh từ riêng hoặc lỗi chính tả xuất phát từ ngôn ngữ nguồn tạo ra những lỗi “mất đồng bộ” như sử dụng hai ngôn ngữ trong cùng một câu. Kết quả những lỗi ngữ pháp được khảo sát trong luận án này khi cho dịch tự động nhiều lần đều có thể thay đổi theo thời gian nghĩa là những lỗi ngẫu nhiên. Trong đó, các loại lỗi trật tự từ thuộc lỗi ngẫu nhiên cao nhất (chiếm 74,46%) so với các loại lỗi ngữ pháp khác. Kế đến, lỗi cú pháp chiếm 3,17% gồm: lỗi dịch sai từ công cụ (8,84%), lỗi gán nhãn từ loại sai (7,27%). Tiếp theo, lỗi do không hòa hợp giữa chủ từ và động từ (5,5%); và cuối cùng có lỗi dịch sai ý nghĩa sở hữu chiếm 3,93%. 17
- Xem thêm -

Tài liệu liên quan