BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
VILAVONG SOUKSAN
NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÁCH TỪ
PHỤC VỤ PHÂN LOẠI VĂN BẢN TIẾNG LÀO
LUẬN ÁN TIẾN SĨ KỸ THUẬT
ĐÀ NẴNG, NĂM 2017
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
VILAVONG SOUKSAN
NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÁCH TỪ
PHỤC VỤ PHÂN LOẠI VĂN BẢN TIẾNG LÀO
Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số : 62.48.01.01
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Người hướng dẫn khoa học : PGS. TS. PHAN HUY KHÁNH
ĐÀ NẴNG, NĂM 2017
ii
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu khoa học của cá nhân tôi
dưới sự hướng dẫn trực tiếp của PGS.TS. Phan Huy Khánh.
Các dữ liệu, ví dụ và trích dẫn tham khảo trong luận án đảm bảo
độ tin cậy, chuẩn xác và trung thực.
Những kết quả đóng góp về mặt lý thuyết và ứng dụng của luận án
chưa từng được ai công bố trong bất kỳ công trình nào khác cho đến nay.
Tác giả luận án,
VILAVONG SOUKSAN
iii
MỤC LỤC
LỜI CAM ĐOAN ........................................................................................... iii
MỤC LỤC....................................................................................................... iv
DANH MỤC CHỮ VIẾT TẮT .................................................................... vii
DANH MỤC CÁC BẢNG ........................................................................... viii
DANH MỤC CÁC HÌNH .............................................................................. ix
MỞ ĐẦU ...........................................................................................................1
1.Mục tiêu, đối tượng và phạm vi nghiên cứu ..................................................3
2.Nhiệm vụ nghiên cứu và kết quả đạt được .....................................................4
3.Cấu trúc của luận án .......................................................................................4
4.Đóng góp của luận án .....................................................................................5
CHƯƠNG 1.VẤN ĐỀ XỬ LÝ TIẾNG LÀO.................................................6
1.1.TÌM HIỂU TIẾNG LÀO...........................................................................6
1.1.1. Giới thiệu tiếng Lào ........................................................................................ 6
1.1.2. Nguồn gốc của tiếng Lào ................................................................................ 7
1.1.3. Những yếu tố ngữ pháp tiếng Lào .................................................................. 7
1.2.SO SÁNH TIẾNG LÀO VỚI NGÔN NGỮ LÁNG GIỀNG ...............12
1.2.1. So sánh bảng chữ cái .................................................................................... 13
1.2.2. So sánh cấu trúc âm tiết ................................................................................ 14
1.2.3. So sánh cấu trúc từ vựng .............................................................................. 14
1.2.4. So sánh cấu trúc câu ..................................................................................... 15
1.3.TIẾNG LÀO TRONG BỐI CẢNH XL NNTN .....................................16
1.3.1. Giới thiệu một số kết quả xử lý tiếng Lào .................................................... 16
1.3.2. Thực trạng và thách thức trong xử lý tiếng Lào ........................................... 19
1.3.3. Đặt bài toán phân loại văn bản tiếng Lào ..................................................... 19
1.4.KẾT LUẬN CHƯƠNG 1 ........................................................................20
CHƯƠNG 2.PHÂN LOẠI VĂN BẢN VÀ BÀI TOÁN TÁCH TỪ ..........21
2.1.MỞ ĐẦU VỀ VĂN BẢN VÀ SOẠN THẢO VĂN BẢN ......................21
2.1.1. Khái niệm văn bản .......................................................................................... 21
iv
2.1.2. Khái niệm soạn thảo văn bản (STVB)............................................................ 23
2.1.3. Xu thế soạn thảo văn bản hiện nay ................................................................. 24
2.2.BÀI TOÁN PHÂN LOẠI VĂN BẢN .....................................................24
2.2.1. Tìm hiểu bài toán phân loại văn bản .............................................................. 24
2.2.2. Quy trình giải quyết bài toán PLVB ............................................................... 25
2.2.3. Các phương pháp giải quyết bài toán PLVB .................................................. 27
2.3.BÀI TOÁN TÁCH TỪ TRONG PHÂN LOẠI VĂN BẢN ..................30
2.3.1. Tìm hiểu bài toán tách từ ................................................................................ 30
2.3.2. Các phương pháp tách từ ................................................................................ 31
2.3.3. Đánh giá hai phương pháp.............................................................................. 35
2.4.PHÂN LOẠI VĂN BẢN TIẾNG LÀO ..................................................37
2.4.1. Bài toán phân loại văn bản tiếng Lào ............................................................. 37
2.4.2. Nhu cầu giải quyết bài toán tách từ tiếng Lào ................................................ 38
2.4.3. Đề xuất giải pháp triển khai ........................................................................... 38
2.5.KẾT LUẬN CHƯƠNG 2 ........................................................................40
CHƯƠNG 3.GIẢI PHÁP TÁCH TỪ TRONG VĂN BẢN TIẾNG
LÀO ................................................................................................................41
3.1.NHẬN DIỆN TỪ SỬ DỤNG ĐẶC TRƯNG NGỮ PHÁP ...................41
3.1.1. Vấn đề nhận diện từ trong câu tiếng Lào ...................................................... 41
3.1.2. Xây dựng mô hình cấu trúc của từ đơn......................................................... 42
3.1.3. Giải pháp nhận diện từ trong câu.................................................................. 47
3.2.XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN TỪ ĐƠN ...........................50
3.2.1. Xây dựng vị từ và hàm ................................................................................. 50
3.2.2. Xây dựng cơ sở luật ...................................................................................... 53
3.2.3. Xây dựng máy suy diễn nhận diện từ đơn .................................................... 54
v
3.3.TRIỂN KHAI GIẢI PHÁP TÁCH TỪ .................................................56
3.2.4. Xây dựng kho ngữ vựng tiếng Lào ............................................................... 56
3.3.2. Áp dụng phương pháp so khớp tối đa........................................................... 59
3.3.3. Chiến lược kết hợp luật nhận diện từ với khử bỏ nhập nhằng...................... 59
3.4.KẾT LUẬN CHƯƠNG 3 ........................................................................62
CHƯƠNG 4.THỰC NGHIỆM PLVB VÀ ĐÁNH GIÁ KẾT QUẢ ..........63
4.1.CHUẨN BỊ DỮ LIỆU ..............................................................................63
4.1.1. Phân tích hiện trạng trường ĐH Champasak ................................................ 63
4.1.2. Thu thập dữ liệu HCVP tại trường ĐH Champasak ..................................... 64
4.1.3. Xây dựng kho văn bản HCVP của trường ĐH Champasak .......................... 65
4.2.TRIỂN KHAI CHUẨN BỊ THỬ NGHIỆM ..........................................68
4.2.1. Xây dụng mô hình thử nghiệm........................................................................ 68
4.2.2. Chuẩn bị cơ sở thử nghiệm............................................................................. 68
4.2.3. Đề xuất PLVB sử dụng hai phương pháp SVM và RBF ................................ 71
4.3.CHẠY THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ............................72
4.3.2. Thử nghiệm hai phương pháp tách từ CRF và MM ..................................... 73
4.3.3. Thử nghiệm tách từ sử dụng cơ sở luật để xử lý nhập nhằng ....................... 75
4.3.4. Thử nghiệm phân loại văn bản ..................................................................... 76
4.4.KẾT LUẬN CHƯƠNG 4 ........................................................................80
KẾT LUẬN .....................................................................................................81
TÀI LIỆU THAM KHẢO .............................................................................84
vi
DANH MỤC CHỮ VIẾT TẮT
1. Tiếng Anh
STT
Chữ
viết tắt
1
CRF
Conditional Random Fields
Trường điều kiện ngẫu nhiên
2
CL
Computational Linguistics
Ngôn ngữ học tính toán
3
MM
Maximum Matching
So khớp tối đa
5
NLP
Natural Language Processing
Xử lý ngôn ngữ tự nhiên
7
RBF
Radial BasisFunctions network
Mạng hàm bán kính xuyên tâm cơ sở
8
SVM
Support Vector Machine
Máy vec tơ hỗ trợ
Nghĩa tiếng Anh
Nghĩa tiếng Việt
2. Tiếng Việt
Chữ viết tắt
STT
Nghĩa
1
CHDCND Lào
Cộng hoà Dân chủ Nhân dân Lào
2
CNTT
Công nghệ Thông tin
3
CSDL
Cơ sở dữ liệu
4
ĐHBK
Đại học Bách Khoa
5
HCVP
Hành chính văn phòng
6
MSD
Máy suy diễn
7
NCKH
Nghiên cứu Khoa học
8
NNTN
Ngôn ngữ tự nhiên
9
NSD
Người sử dụng
10
PLVB
Phân loại văn bản
11
VBHC
Văn bản hành chính
12
XL NNTN
Xử lý ngôn ngữ tự nhiên
vii
DANH MỤC CÁC BẢNG
Số hiệu
Tên bảng
bảng
Trang
1.1.
So sánh chữ cai.
13
1.2.
So sánh cấu truc am tiết.
14
1.3.
So sánh cấu trúc từ đơn.
14
1.4.
So sánh cấu trúc câu.
16
4.1.
Ví dụ một số từ hư trong tiếng lào.
67
4.2.
Thử nghiệm phương pháp nhận diện từ đơn dùng cơ sở luật.
73
4.3.
Kết quả tách từ sử dụng phương pháp mạng nơ ron.
74
4.4.
Kết quả tách từ sử dụng phương pháp so khớp tối đa.
74
4.5.
Tách từ sử dụng ba phương pháp CRF, MMS và dùng luật.
75
4.6.
Kết quả PLVB tiếng Lào kết hợp SVM với CRF.
76
4.7.
PLVB tiếng Lào kết hợp SVM với tách từ dựa cơ sở luật.
77
4.8.
PLVB RBF tiếng Lào kết hợp với tách từ sử dụng CRF.
77
4.9.
PLVB tiếng Lào kết hợp RBF với tách từ sử dụng cơ sở luật.
78
4.10.
Kết quả thực nghiệm PLVB tiếng Lào kết hợp tách từ.
78
viii
DANH MỤC CÁC HÌNH
Số hiệu
hình
Tên hình
Trang
1.1.
Cấu trúc ba tầng của chữ Lào.
10
1.2.
Bàn phím gõ tiếng Lào
17
2.1.
Mô hình hai giai đoạn phân loại văn bản.
26
2.2.
Mô hình giai đoạn học máy.
27
2.3.
Đồ thị vô hướng mô tả CRF
34
2.4.
Mô hình triển khai giải pháp tách từ phục vụ PLVB tiếng Lào.
39
3.1.
Cấu trúc từ đơn trong tiếng Lào.
42
3.2.
Cấu trúc XML cho CSDL chữ cái tiếng Lào.
48
3.3.
Mô hình nhận diện từ đơn tiếng Lào.
49
3.4.
Cơ chế hoạt động của máy suy diễn nhận diện từ đơn.
56
3.5.
Mô hình cập nhật dữ liệu cho kho ngữ vụng tiếng Lào.
58
3.6.
Mô hình tách từ tiếng Lào dùng phương pháp so khớp tối đa.
59
3.7.
Mô hình xử lý nhập nhằng khi tách từ tiếng Lào.
61
4.1.
Mô hình triển khai thử nghiệm PLVB tiếng Lào.
68
4.2.
Đồ thị so sánh kết quả thực nghiệm ba phương pháp tách từ.
75
4.3.
Lược đồ so sánh kết quả thực nghiệm giữa mạn RBF và SVM
79
ix
MỞ ĐẦU
Xử lý Ngôn ngữ tự nhiên (XL NNTN, tiếng Anh NLP - Natural Language
Processing), hay Ngôn ngữ học Tính toán (CL - Computational Linguistics) thuộc lĩnh
vực trí tuệ nhân tạo, tập trung nghiên cứu xây dựng các ứng dụng Tin học trên NNTN,
ngôn ngữ của con người. XL NNTN là miền đất cực kỳ khó khăn cho những ai mong
muốn thâm nhập và khai thác. Không những XL NNTN đòi hỏi người nghiên cứu phải
am hiểu tường minh về ngôn ngữ học, hiểu thói quen giao tiếp và ứng xử của con
người, mà còn phải có kiến thức chuyên sâu về nhiều lĩnh vực khác nhau của Tin học,
của Khoa học Máy tính.
Trong hệ thống các ngôn ngữ trên thế giới hiện nay, tiếng Lào là một trong
những ngôn ngữ có sự phong phú, đa dạng và mang đậm những nét đặc trưng của các
ngôn ngữ đơn tiết Vùng Nam-Á, ngôn ngữ nơi cửa Phật. Đây chính là nguyên nhân
dẫn đến những khó khăn vượt bậc cho cả người nghiên cứu và người sử dụng (NSD)
theo cách thông thường và cả khi xử lý trên máy tính trong lĩnh vực xử lý tiếng Lào.
Những năm gần đây, sự phát triển vượt bậc của công nghệ thông tin (CNTT)
nói chung, internet nói riêng, đã làm gia tăng số lượng giao dịch thông tin trên mạng,
hay trực tuyến, một cách đáng kể. Ngày mỗi ngày chứng kiến sự bùng nổ chóng mặt
của các tin tức điện tử, thư viện điện tử (chẳng hạn sự phát triển của mục lục trực
tuyến OPAC-Online Public Access Catalog), các trang mạng xã hội, các giao dịch đủ
mọi hình thức, từ thương mại đến chính trị, quốc phòng... Đặc biệt số lượng văn bản
hành chính (VBHC) trong các hoạt động chuyên môn, từ cá nhân đến các tổ chức khác
nhau, được giao dịch trực tuyến cũng tăng theo nhanh chóng. Nếu như trước đây,
VBHC chỉ thuần túy được lưu trữ mang tính địa phương, trong các máy tính đơn lẻ, thì
ngày nay, nhờ điện toán đám mây, nhờ các khả năng lưu trữ trực tuyến với các kho dữ
liệu gần như vô hạn, từ miễn phí đến có chi phí nhưng giá rẻ, tạo ra cơ hội mới cho sự
gia tăng các VBHC.
Với thực trạng khối lượng thông tin đồ sộ cần xử lý, một vấn đề lớn đặt ra là
làm sao tổ chức và tìm kiếm thông tin một cách có hiệu quả ? Giải quyết bài toán phân
loại thông tin/dữ liệu, cụ thể là phân loại hay phân lớp văn bản (PLVB), là một trong
1
những câu trả lời hợp lý. Dĩ nhiên việc phân loại bằng cách thủ công là điều không thể
thực hiện, một khi thông tin trực tuyến không những có khối lượng lớn, mà còn không
được kiểm soát, thậm chí thiếu chất lượng, thiếu độ tin cậy, kể cả bị sai lạc... Hướng
giải quyết là nghiên cứu xây dựng một chương trình máy tính tự động phân loại.
Hiện nay, tại trường Đại học Champasak, một trường Đại học tương đối lớn của
nước Cộng hoà Dân chủ Nhân dân (CHDCND) Lào, diễn ra các hoạt động giao dịch
hành chính, văn phòng rất khẩn trương và tấp nập. Hàng ngày, cán bộ viên chức bận rôn
thực hiện phân loại, lưu trữ các VBHC xuất hiện mọi lúc mọi nơi, sau đó lại phải tìm
kiếm, xử lý các văn bản đó. Việc phân loại thực tế là phân chia các văn bản theo đơn vị,
theo lĩnh vực chuyên ngành đào tạo, khoa học công nghệ, kinh tế, pháp luật, văn hóa-xã
hội…, theo thể loại như : nghị định, quyết định, báo cáo, đơn từ..., v.v… Hệ quả thường
thấy là việc xử lý văn bản thủ công luôn gặp sai sót, nhầm lẫn và nhiều khi không kịp
tiến độ yêu cầu.
Từ nhu cầu thực tiễn cần đổi mới hiệu quả hoạt động hành chính văn phòng
(HCVP) tại trường Đại học Champasak, luận án đã nhằm đến mục tiêu giải quyết bài
toán PLVB tiếng Lào tự động trên cơ sở giải quyết bài toán XL NNTN cho tiếng Lào.
Hiện nay ở Lào, có rất ít công trình nghiên cứu thuộc lĩnh vực XL NNTN được
áp dụng thực tiễn. Luận án không tìm cách phân tích nguyên nhân của những hạn chế
này. Tuy nhiên, có thể nêu ra một số nguyên nhân chính mà chúng tôi phải tìm cách khắc
phục. Trước hết là thực trạng hoạt động khoa học công nghệ tại nước CHDCND Lào
chưa thực sự phát triển, nếu so sánh với các nước trong khối ASEAN, hay so sánh với
nước láng giềng Việt Nam. Điều này dẫn đến có rất ít chuyên gia về lĩnh vực XL
NNTN, đặc biệt là XL tiếng Lào. Mặc dù đã có nhiều hoạt động Tin học hóa, sử dụng
internet và các phương tiện truyền thông hiện đại trong mọi khía cạnh của cuộc sống,
nhưng chưa thật đều khắp nước Lào và vắng thiếu sự trao đổi chuyên môn, hợp tác
nghiên cứu khoa học. Một nguyên nhân nữa là những đặc điểm chính tả của tiếng Lào
trong vấn đề xử lý văn bản.
Nếu trong hệ thống chữ viết tiếng Việt, có thể xem mỗi từ có thể có ba tầng,
trong đó tầng giữa là các phụ âm và/hoặc nguyên âm, tầng trên và tầng dưới là các dấu
thanh, thì chính tả của tiếng Lào, kể cả tiếng Thái và tiếng Khmer, cũng sử dụng ba tầng
(chân, thân và tóc) nhưng phức tạp hơn nhiều (xem hình 1 minh họa dưới đây). Chữ viết
Lào khác về kiểu chữ nhưng có cấu trúc tương tự chữ viết Thái và Khmer. Cả ba ngôn
2
ngữ này đều không sử dụng dấu khoảng cách (Space) giữa các từ trong câu. Chính sự
vắng mặt của các dấu khoảng trống để phân cách các từ, hay âm tiết, đã dẫn đến hiện
tượng nhập nhằng, đa nghĩa… gây khó khăn không nhỏ trong lĩnh vực XL NNTN nói
chung, xử lý tiếng Lào trên máy tính nói riêng [38][45][47][49].
Cho đến thời điểm hoàn thành luận án này, vẫn chưa có những kết quả nào mới
liên quan đến nội dung thực hiện của đề tài là tách từ và phân loại văn bản tiếng Lào.
Tra trên google với từ khóa tiếng Anh “ Lao document Segmentation” hay “ Lao
document Classification” hoặc tiếng Lào “
”, “
ຈແ
ເອ ະ
”. Có rất ít kết quả liên quan trong những năm gần đây.
1. Mục tiêu, đối tượng và phạm vi nghiên cứu
Mục đích của đề tài :
Đề tài tìm hiểu các đặc trưng chính tả của hệ viết tiếng Lào, các phương pháp
tách từ và PLVB đã được đề xuất cho tiếng Anh, tiếng Thái và tiếng Việt, đánh giá
hiệu quả của các phương pháp này, đề xuất được giải pháp tách từ hiệu quả, lựa chọn
các phương pháp PLVB phù hợp và các điều kiện thử nghiệm, từ đó áp dụng giải
quyết bài toán PLVB kết hợp tách từ tiếng Lào, thử nghiệm phân loại các VBHC của
trường ĐH Champasack, nước CHDCND Lào và đánh giá các kết quả thử nghiệm.
Đối tượng nghiên cứu :
1. Các bài toán liên quan đến lĩnh vực xử lý NNTN, XL tiếng Lào và đặc trưng
chính tả và ngữ pháp của hệ thống chữ viết Lào.
2. Các phương pháp giải quyết bài toán tách từ và PLVB nói chung, giải
quyết cho bài toán tách từ và PLVB tiếng Lào nói riêng.
3. Các hoạt động HCVP mang tính thực tiễn tại trưởng Đại học Champasak,
nước CHDCND Lào.
Phạm vi nghiên cứu :
1. Lĩnh vực trí tệ nhân tạo, XL NNTN, XL tiếng Lào, ngôn ngữ Lào và ba
ngôn ngữ láng giềng là tiếng Việt, tiếng Thái và tiếng Khmer.
2. Vấn đề mã hoá và soạn thảo văn bản, các giải pháp xây dựng kho ngữ liệu,
giải pháp tách từ, PLVB, học máy và Toán học thống kê.
3. Môi trường, công cụ lập trình để thử nghiệm giải quyết bài toán tách từ,
PLVB HCVP tại trưởng Đại học Champasak.
3
2. Nhiệm vụ nghiên cứu và kết quả đạt được
Để đạt được mục đích đã đề ra trên đây, luận án hướng đến ba nhiệm vụ chính
như sau :
1. Nghiên cứu chuyên sâu về XL NNTN, các đặc trưng ngôn ngữ và chính tả
tiếng Lào. Phân tích, đánh giá những kết quả xử lý tiếng Lào đã được công
bố cho đến nay và phân tích hiện trạng các hoạt động HCVP mang tính thực
tiễn tại trưởng Đại học Champasak.
2. Đề xuất giải pháp phân tách từ hiệu quả trong một văn bản tiếng Lào trên cơ
sở xây dựng kho ngữ liệu từ đơn và cụm từ tiếng Lào, xây dựng cơ sở luật
và máy suy diễn dựa trên các đặc trưng ngữ pháp của hệ viết Lào.
3. Tìm chọn các phương pháp PLVB hiệu quả cho tiếng Lào, đề xuất mô hình
thử nghiệm PLVB kết hợp tách từ tiếng Lào sử dụng các giải pháp đề xuất
và các kho ngữ vựng đã xây dựng.
3. Cấu trúc của luận án
Sau phần mở đầu, nội dung của luận án gồm bốn chương như sau :
Chương 1 giới thiệu nguồn gốc và một số đặc trưng cơ bản của tiếng Lào, so
sánh đặc điểm ngôn ngữ với một số ngôn ngữ láng giềng Việt Nam, Thái và Khmer,
phân tích bối cảnh XL NNTN và xử lý tiếng Lào và đặt bài toán PLVB kết hợp giải
quyết bài toán tách từ tiếng Lào.
Chương 2 trình bày tổng quan về lý thuyết phân tách từ, PLVB, trong đó,
luận án tập trung giới thiệu các thuật toán phân tách từ, PLVB và các hướng nghiên
cứu liên quan, từ đó đề xuất giải pháp và các bước triển khai thử nghiệm PLVB tiếng
Lào áp dụng thử nghiệm phục vụ các hoạt động HCVP tại trường Đại học Champasak,
nước CHDCND Lào.
Chương 3 tập trung đề xuất giải pháp xây dựng mô hình nhận diện từ giải quyết
bài toán tách từ trong văn bản tiếng Lào dựa trên cơ sở luật về đặc trưng ngữ pháp và
tính chất của nguyên âm, phụ âm, xây dựng cơ sở dữ liệu (CSDL) chữ cái, các kho
ngữ vựng từ đơn và cụm từ, xây dựng máy suy diễn (MSD) phục vụ giải quyết bài toán
tách từ kết hợp xử lý nhập nhằng.
Chương 4 phân tích hoạt động HCVP tại trường Đại học Champasak, xây dựng
kho văn bản HCVP theo một số lĩnh vực được chọn, trình bày các bước thử nghiệm từ
kho VBHC tiếng Lào đã xây dựng, đánh giá kết quả thử nghiệm PLVB dựa trên hướng
4
tiếp cận SVM và sử dụng mạng nơ ron RBF kết hợp sử dụng các phương pháp tách từ
CRF và sử dụng cơ sở luật, tiến hành đánh giá so sánh các kết quả thử nghiệm.
Sau bốn chương trên là phần kết luận và hướng phát triển của đề tài. Phần cuối
luận án là danh mục các tài liệu tham khảo, danh mục các công trình khoa học đã được
công bố và các phụ lục liên quan.
4. Đóng góp chính của luận án
1. Đề xuất mô hình cấu trúc từ đơn dựa trên đặc trưng của hệ viết tiếng Lào, từ
đó xây dựng cơ sở luật và máy suy diễn cho phép nhận diện và bóc tách từ
đơn trong một văn bản để giải quyết bài toán tách từ và PLVB tiếng Lào.
2. Xây dựng kho ngữ vựng từ đơn và từ ghép, kho văn bản HCVP tiếng Lào
trên cơ sở phân tích hiện trạng tại trường Đại học Champasack, CHDCND
Lào để phục vụ thử nghiệm tách từ và PLVB tiếng Lào.
3. Đề xuất giải pháp tách từ sử dụng phương pháp so khớp tối đa kết hợp sử
dụng cơ sở luật để xử lý nhập nhằng từ các kho ngữ vựng đã xây dựng mới.
4. Cài đặt hệ thống thử nghiệm, đánh giá kết quả sử dụng các phương pháp
PLVB kết hợp các phương pháp tách từ tiếng Lào, cho phép ứng dụng
thực tiễn phục vụ các hoạt động HCVP tại trường Đại học Champasack.
5
CHƯƠNG 1
VẤN ĐỀ XỬ LÝ TIẾNG LÀO
1.1. TÌM HIỂU TIẾNG LÀO
1.1.1. Giới thiệu tiếng Lào
Nước CHDCND Lào có bốn dòng ngôn ngữ chính là Lào-Tai, Mon-Khơme,
Chin-Tybệt và H'Mông-Miền thuộc 49 dân tộc khác nhau[46].
Dòng ngôn ngữ Lào-Tai (hay hệ ngôn ngữ Lào-Thái) có 8 dân tộc là Lào, Xaek,
Nhouan, Tai, Thai-Neua, Phouthai, Yang và Lue, chiếm 55% dân số cả nước. Tám dân
tộc này sinh sống ở các vùng đồng bằng dọc sông Mê Kông, các nhánh sông đổ về Mê
Kông, có nghề nghiệp chủ yếu là trồng lúa nước và đánh bắt cá.
Dòng ngôn ngữ Mon-Khơme có 32 dân tộc : Khmou, Katang, Katu, Kriang,
Kree/Kri, Khmer, Ngouan, Cheng, Samtao, Sadang, Xuay, Xingmoun, Nhaheun, TaOy, Triang, Tri, Toum, Thaen, Bid/Bit, Brao, Pakoh/Pacoh, Pray, Phong, Makong,
Moy, Yrou, Yae/Ye, Lamed/Lamet, Lavi/Lavy, Oy, Oedou và Harak, chiếm 27% của
dân số cả nước. Những dân tộc này thường sống ở vùng đồng bằng và trung du, có
nghề nghiệp chủ yếu là trồng lúa và làm nương.
Dòng ngôn ngữ Chin-Tybệt có 7 dân tộc : Singsily, Sila, Lahu, LoLo, Hor,
Akha, Hanyi, chiếm 11% của dân số cả nước. Những dân tộc này thường sống ở phía
Bắc giáp với Trung quốc, có nghề nghiệp chủ yếu là làm nương rẫy.
Dòng ngôn ngữ H'Mông-Miền chỉ có hai dân tộc là Hmong và Iewmien, chỉ
chiếm 7% của dân số cả nước. Hai dân tộc này sinh sống ở vùng núi cao miền Bắc, có
nghề nghiệp chủ yếu là làm nương rẫy và chăn nuôi gia súc.
Tiếng Lào-Tai là Quốc ngữ, được dùng trong giao tiếp chính thống và trong các
VBHC của nhà nước.
Luận án tập trung xử lý tiếng Lào-Tai, ngôn ngữ chính thức được dùng trong
nước Lào, gọi là tiếng Lào, tương tự tiếng Việt Kinh ở Việt Nam.
6
1.1.2. Nguồn gốc của tiếng Lào
Tiếng Lào (ພາສາລາວ, phát âm [pʰaːsaː laːw]) thuộc họ ngôn ngữ Tai-Kadai,
chịu ảnh hưởng của tiếng Phạn (梵 語; sa. saṃskṛtā vāk संस्कृता वाक् , một ngôn ngữ cổ
của Ấn Độ), ra đời từ khoảng thế kỷ XVI, là ngôn ngữ truyền thống của Hoàng tộc
Lào, truyền đạt tư tưởng Ấn Độ giáo và Phật giáo, một ngôn ngữ hỗn hợp ở bán đảo
Đông Nam Á. Tiếng Lào, là ngôn ngữ đơn âm có thanh điệu, đa số vay mượn từ
những ngôn ngữ cổ của Ấn Độ, như Paly, Sansakit của Đạo Phật, được phát triển rõ
ràng vào giữa thế kỷ XX. Cũng có những vay mượn từ tiếng Khơme, tiếng Pháp,
tiếng Anh và cả các ngôn ngữ khác trong khu vực. Căn cứ vào nhiều tài liệu của các
nhà ngôn ngữ Lào, người Lào đã sử dụng chữ cái Lào từ thế kỷ I (thời đại nước Lào cổ
điển). Chữ cái mà người Lào đã sử dụng trong thời kỳ này là một kiểu chữ kế thừa từ
chữ Sansakit của Đạo Phật trường phái Đại Thừa.
Tiếng Lào có những thanh điệu và phát âm gần gũi với tiếng Thái. Khác với
tiếng Việt, tiếng Anh và các ngôn ngữ Châu Âu, tiếng Lào không sử dụng các dấu
khoảng trống (Space) giữa các chữ viết. Chữ viết Lào tương tự một số ngôn ngữ thuộc
nhóm Mon-Khơme, Mông-Dao…, như tiếng Thái, tiếng Khmer, tiếng Mianma.
Hệ thống chữ viết Lào phát triển trong một thời gian lâu dài, pha trộn với nhiều
hệ ngôn ngữ khác như Thái, Ấn Độ,... nhưng phần lớn thuộc dòng ngôn ngữ Lào-Tai.
Nhiều nhà ngôn ngữ, nhiều nhóm nghiên cứu đã thực hiện nhiều công việc để phát
triển và giữ gìn chữ cái Lào. Năm 1975, Bộ Giáo dục Lào công bố sử dụng tiếng Lào
chính thức. Vào lúc này chữ cái Lào mới được phát triển rõ ràng, hiện đại và dễ sử
dụng đối với người dân và tồn tại cho đến ngày nay [34][46][47][49].
1.1.3. Những yếu tố ngữ pháp tiếng Lào
1. Bảng chữ cái tiếng Lào
Bảng chữ cái tiếng Lào gồm 3 nhóm : phụ âm, nguyên âm và dấu thanh và chữ
số [6][39][47][49].
1. Phụ âm :
Có 33 phụ âm được chia ra hai loại : phụ âm đơn và phụ âm ghép.
Các phụ âm đơn gồm :
7
ກ, ຂ, ຄ, ງ, ຈ, ສ, ຊ, ຍ, ດ, ຕ, ຖ, ທ, ນ, ບ, ປ, ຜ, ຝ, ພ, ຟ, ມ, ຢ, ລ, ວ,
ຫ, ອ, ຮ, ຣ, ໝ, ໜ, ຫວ, ຫ, ຫງ, ຫຍ.
Được chia 3 nhóm thấp, trung và cao. Các phụ âm cao và trung có sự phát âm
gần giống như nhau.
Nhóm thấp gồm :
ຂ, ສ, ຖ, ຜ, ຝ, ຫ.
Nhóm trung gồm :
ກ, ຈ, ດ, ຕ, ບ, ປ, ຢ, ອ.
Nhóm cao gồm :
ງ, ຄ, ຊ, ຍ, ທ, ນ, ພ, ຟ, ມ, ລ, ວ, ຮ, ຣ.
2. Nguyên âm :
Có 28 nguyên âm được chia ra hai loại : nguyên âm dài và nguyên âm ngắn.
Các nguyên âm dài gồm :
າ, ີ, ີ, ີ, ເ, ໂ, ີ, ໄ, ເີາ, ີາ, ໃ, ແ, ີວ, ເີ, ເ ອ, ເ-ຍ, ເີຍ.
Các nguyên âm ngắn gồm :
ະ, ີ, ີ, ີ, ເ-ະ, ແ-ະ, ໂ-ະ, ເ-າະ, ວະ, ເີ, ເີອ.
3. Dấu thanh :
Tiếng Lào có 4 dấu thanh : ີ, ີ, ີ, ີ và 3 dấu cuối : ຯ, ໆ, ີ. Ví dụ mái
ệc ໄມເອກ, mái thô ໄມໂທ, mái tri ໄມຕ, mái chặt -ta -wa ໄມຈດຕະວາ.
Khi viết, vị trí thanh điệu được đặt ở phụ âm hoặc ở nguyên âm tùy vào vị trí
của nguyên âm trong âm tiết (khác với tiếng Việt chỉ đặt ở nguyên âm). Ngoài ra, âm
sắc thanh điệu tiếng Lào không hoàn toàn trùng khớp với thanh điệu tiếng Việt.
4. Chữ số :
Có 10 chữ số tương ứng với các số từ 0 đến 9 :
໐, ໑, ໒, ໓, ໔, ໕, ໖, ໗, ໘, ໙.
Cách viết chữ số Lào tuân theo hệ thống số chuẩn thông thường. Ví dụ : ໒໐໐໖
(2006), ໑໙,໗໕ (+19.75), -໗,໕ (-7,5), v.v… (luận án quy ước đặt nghĩa tiếng Việt của
một từ, hay câu tiếng Lào giữa cặp ngoặc đơn).
8
2. Hệ thống từ vựng tiếng Lào
Tiếng Lào là ngôn ngữ đơn âm (một từ chỉ có một âm tiết). Cách tạo từ cũng
tương tự tiếng Việt, mỗi từ được tổ hợp từ các chữ cái (phụ âm, nguyên âm) và các
dấu thanh. Từ vựng tiếng Lào có hai loại là từ đơn (giản) và từ phức (hợp). Từ phức
gồm từ ghép, từ láy.
1. Từ đơn :
Từ đơn chỉ có một âm tiết. Một âm tiết có ít nhất 2 ký tự gồm có phụ âm và
nguyên âm. Âm tiết dài nhất có 7 ký tự. Ví dụ từ đơn có 2 ký tự (quy ước đặt phát âm
IPA của một từ tiếng Lào giữa cặp gạch chéo) gồm một âm tiết :
ຂ / khor / (điều khoản) gồm phụ âm ຂ và nguyên âm
Ví dụ từ có 2 âm tiết : ໂຮງຮຽນ (trường học) /ໂຮງ/ຮຽນ/
Từ có 6 âm tiết : ມະຫາວທະຍາໄລ (đại học) /ມະ/ຫາ/ວ/ທະ/ຍາ/ໄລ/
Trong cấu tạo từ đơn, có tám phụ âm : ກ, ງ, ຍ, ດ, ນ, ບ, ມ, ວ vừa là phụ âm đầu
vần vừa được sử dụng làm phụ âm cuối từ, phụ âm khác chỉ xếp đầu vần của từ. Khi
tám phụ âm này dùng làm phụ âm cuối vần, cần đặt sau các nguyên âm lần lượt từ -າ
, ີ, ີ,… đến ເ-ຍ, không đứng cuối vần với các nguyên âm : ໄ, ເີາ, ີາ, ໃ. Các từ có
các phụ âm hỗn hợp đứng đầu vần như : ກວ, ຂວ, ຄວ, ງວ được xếp sau các từ có phụ
âm cuối vần chót của từ đó. Cuối từ nếu ghép với nguyên âm và hai dấu đặc biệt
như : ີ, ີ thì trở thành nguyên âm ghép như : າກ, ີກ, ີກ, ີກ, ເີກ, ເີກ, າງ, ີງ, ີງ
,ີງ, v.v…
Có thể mô hình hoá cấu trúc từ tiếng Lào theo ba tầng lần lượt từ dưới lên là
chân (tầng 3), thân (tầng 2) và tóc (tầng 1).
Tầng 1 gồm dấu thanh điệu và các nguyên âm trên
.
Tầng 2 gồm có các phụ âm trung tâm và phụ âm ghép ກ, ຂ, ຄ, ງ, ຈ, ສ, ຊ,
ຍ, ດ, ຕ, ຖ, ທ, ນ, ບ, ປ, ຜ, ຝ, ພ, ຟ, ມ, ຢ, ລ, ວ, ຫ, ອ, ຮ, ຣ, ຫນ, ຫມ, ຫວ,
ຫງ, ຫຍ, ຫລ.
9
. Hình dưới đây
Tầng 3 là một nguyên âm dưới trong số nguyên âm
minh hoạ cấu trúc ba tầng của một từ (hay âm tiết) tiếng Lào.
Tóc (tầng 1)
Dấu thanh
Nguyên âm trên
Thân (tầng 2)
Thân chữ
ກ, ຂ, ຄ,…
Chân (tầng 3)
Nguyên âm dưới
ຈ, ສ,
ຫ
.
Hình 1.1. Cấu trúc ba tầng của chữ Lào.
2. Từ ghép :
Từ ghép được ghép lại từ hai từ đơn trở lên, mang một nghĩa nào đó xác định.
Có năm dạng ghép : ghép hai từ đơn có nghĩa khác nhau, ghép hai từ đơn có nghĩa
tương đương, ghép hai từ đơn có nghĩa gần giống nhau, ghép nhiều từ đơn (cụm/nhóm
từ), ghép các từ của tiếng Pali và Sansakit.
Ví dụ ghép hai từ đơn có nghĩa khác nhau :
/ຂ/ຕກ/ລງ/ /khor tốc lông/ (nghị định) được ghép từ hai từ ຂ / khor / (cầu) và
ຕກລງ / tốc lông / (đồng ý).
Ví dụ ghép hai từ đơn có nghĩa tương đương :
/ແຈງ/ການ/ /cheng karn/ (thông báo) được ghép từ hai từ ແຈງ /cheng/ (sang ) và
ການ /karn/ (các việc).
Ví dụ ghép hai từ đơn có nghĩa gần giống nhau :
/ລາຍ/ງານ/” /lai ngan/ (thông báo) được ghép từ hai từ ລາຍ /lai/ (sóc) và ງານ
/ngan/ (việc).
Ví dụ ghép nhiều từ đơn :
/ກ ນປ ກ ດ ຕງຕງ /Lễ công bố quyết định bổ nhiệm cán bộ /
Ví dụ ghép các từ của tiếng Pali và Sansakit :
/ປ ກ ສ ນຍ ບດ / Bằng tốt nhiệp
3. Từ láy :
Từ láy có hai dạng tiêu biểu : láy bộ phận và láy hoàn toàn.
Ví dụ láy bộ phận :
10
ໜອຍໜງ /ໜອຍ/ໜງ/ /noi noeng/ (một ít)
ຈຈ” /ຈ//ຈ /chùu chìi/ (quấy rầy)
Ví dụ láy hoàn toàn :
ໄວໄວ /ໄວ/ໄວ /wai wai/ (nhanh nhanh)
ຊາຊາ /ຊາ/ຊ/າ /xàa xàa/ (chậm chậm),...
Ngoài ra còn có từ vay mượn của ngôn ngữ khác
Ví dụ từ vay mượn :
ເຝ /fờơ/ (Phở)
ໂອໂຕມາຕກ”/ໂອ/ໂຕ/ມາ/ຕກ/ /ô-tô-ma-tic/ (tự động)
3. Cấu trúc câu trong tiếng Lào
Tiếng Lào có hai loại câu : câu đơn và câu ghép.
1. Câu đơn
Tương tự quan điểm ngữ pháp tiếng Việt, trong ngữ pháp tiếng Lào, câu đơn
đơn gồm ba phần : chủ ngữ (danh từ hay đại từ), vị ngữ (động từ) và bổ ngữ. Ví dụ câu
đơn :
ກ ນລງທ ບຽນຮຽນພາສາວຽດນາມທມ ຫ ວທ ຍ ລຈ ປ ສກ
(Sinh viên đăng ký học tiếng Việt tại trường Đại học Champasack).
Được phân tách tương ứng như sau :
| ກ ນ|ລງທ ບຽນ|ຮຽນ|ພາສາວຽດນາມ|ທ|ມ ຫ ວທ ຍ ລ|ຈ ປ ສກ |
(| Sinh viên | đăng ký | học | tiếng Việt | tại | trường Đại học Champasack |).
2. Câu ghép :
Câu ghép có nhiều vế câu ghép lại với nhau để mở rộng ý nghĩa của câu. Vế
câu trong câu ghép thường có cấu tạo giống câu đơn. Giữa các vế câu ghép có những
mối quan hệ nhất định để nối với nhau. Tương tự tiếng Việt, có ba cách nối : nối bằng
từ ngữ có tác dụng nối, nối trực tiếp, không dùng từ ngữ có tác dụng nối, mà dùng dấu
phẩy, dấu chấm phẩy hoặc dấu hai chấm và nối bằng quan hệ từ. Có hai cách nối bằng
quan hệ từ :
-
Dùng các từ : và, rồi, thì, nhưng, hay, hoặc. Ví dụ :
11
- Xem thêm -