ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN
-----------------------------------------------------
NGUYỄN THỊ MINH TÂM
CÁC VẤN ĐỀ XỬ LÝ TIẾNG VIỆT ĐỂ NÂNG
CAO HIỆU NĂNG CỦA CÔNG CỤ TÌM KIẾM
LUẬN VĂN THẠC SĨ
Chuyên ngành: Ngôn ngữ học
Hà Nội-2014
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN
---------------*---------------
NGUYỄN THỊ MINH TÂM
CÁC VẤN ĐỀ XỬ LÝ TIẾNG VIỆT ĐỂ NÂNG
CAO HIỆU NĂNG CỦA CÔNG CỤ TÌM KIẾM
Luận văn Thạc sĩ chuyên ngành Ngôn ngữ học
Mã số: 60 22 01
Ngƣời hƣớng dẫn khoa học: TS Nguyễn Ái Việt
Hà Nội-2014
LỜI CAM ĐOAN
Tôi xin cam đoan rằng toàn bộ nội dung và số liệu trong luận văn này do tôi
tự nghiên cứu, khảo sát và thực hiện. Luận văn là trung thực và chưa từng được ai
công bố trong bất kỳ công trình nào khác.
Học viên
Nguyễn Thị Minh Tâm
LỜI CẢM ƠN
Tôi xin trân trọng cảm ơn quý thầy cô khoa Ngôn ngữ học, trường Đại học
Khoa học Xã hội và Nhân văn Hà Nội đã tạo cơ sở nền tảng kiến thức cho tôi trong
suốt quá trình học tập
Đặc biệt, tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến thầy hướng
dẫn của mình- Tiến sĩ Nguyễn Ái Việt, Viện trưởng Viện công nghệ thông tin, Đại
học Quốc Gia Hà Nội, người thầy đã dành nhiều thời gian, tâm huyết và giúp đỡ tôi
hoàn thành luận văn thạc sĩ này.
Mặc dù tôi đã cố gắng hoàn thiện luận văn bằng tất cả sự nhiệt tình và năng
lực của mình nhưng không thể tránh khỏi những thiếu sót, tôi rất mong nhận được
những đóng góp quý báu của quý thầy cô và các bạn.
Xin chân thành cảm ơn.
Hà Nội, ngày…tháng…năm 2014
Học viên
Nguyễn Thị Minh Tâm
BẢNG THUẬT NGỮ TIẾNG ANH
Thuật ngữ tiếng Anh
Giải nghĩa tiếng Việt
Concept-based searching
Tìm kiếm theo ngữ nghĩa
Crawler
Bộ thu thập thông tin
of high frequency
Tần suất xuất hiện cao
Hyperlink
Siêu liên kết
Indexing
Đánh chỉ mục
Keyword searching
Tìm kiếm theo từ khóa
Natural language processing - NLP
Xử lý ngôn ngữ tự nhiên
Search engine- SE
Công cụ tìm kiếm
Stop words
Từ lọc bỏ trong quá trình lập chỉ mục
Semantical clustering
Phân cụm nhóm ngữ nghĩa
Text Information Retrieval System
Hệ thống tìm kiếm thông tin văn bản
Word segmentation
Phân tách từ
MỤC LỤC
PHẦN MỞ ĐẦU .............................................................................................. 4
CHƢƠNG 1: TỔNG QUAN CƠ SỞ LÝ THUYẾT................................... 15
1.1. Từ tiếng Việt .................................................................................................15
1.1.1. Quan niệm về từ tiếng Việt ................................................................................ 15
1.1.2. Quan niệm về từ trong công nghệ thông tin ...................................................... 22
1.1.3. Những khó khăn trong việc giải quyết vấn đề về chính tả và từ của tiếng Việt
trong công cụ tìm kiếm ................................................................................................ 24
1.2. Từ loại trong tiếng Việt ................................................................................26
1.2.1. Quan niệm về từ loại trong tiếng Việt ............................................................... 26
1.2.2. Quan niệm từ loại trong xử lý ngôn ngữ tự nhiên ............................................. 31
1.2.3. Bảng phân loại từ loại trong xử lý ngôn ngữ tự nhiên ....................................... 33
1.3. Tiểu kết ..........................................................................................................37
CHƢƠNG 2: TỔNG QUAN VỀ CÔNG CỤ TÌM KIẾM VÀ ĐÁNH CHỈ
MỤC VĂN BẢN ............................................................................................ 39
2.1. Tổng quan về công cụ tìm kiếm ..................................................................39
2.1.1. Khái niệm công cụ tìm kiếm .............................................................................. 39
2.1.2. Các phương thức tìm kiếm................................................................................. 41
2.1.3. Các công cụ tìm kiếm phổ biến ......................................................................... 43
2.2. Xây dựng công cụ tìm kiếm .........................................................................47
2.2.1. Những bộ phận cấu thành nên công cụ tìm kiếm .............................................. 47
2.2.2. Nguyên lý hoạt động của Công cụ tìm kiếm ..................................................... 48
2.2.3. Xử lý ngôn ngữ tự nhiên trong công cụ tìm kiếm .............................................. 51
2.3. Tiểu kết ..........................................................................................................57
CHƢƠNG 3: STOP WORDS TIẾNG VIỆT ............................................. 59
3.1. Tổng quan về stop words .............................................................................59
3.1.1. Stop words ......................................................................................................... 59
3.1.2. Vị trí của stop words .......................................................................................... 60
3.2. Quan niệm stop words .................................................................................62
3.2.1. Định nghĩa stop words ....................................................................................... 62
3.2.2. Ý nghĩa của stop words trong các máy tìm kiếm ............................................... 65
3.3. Stop words tiếng Việt ...................................................................................71
3.3.1 Đặt vấn đề ........................................................................................................... 71
1
3.3.2 Bản chất ngôn ngữ của stop words ..................................................................... 77
3.3.3. Quy trình xử lý stop words ................................................................................ 86
3.4. Tiểu kết ..........................................................................................................88
PHẦN KẾT LUẬN ........................................................................................ 89
TÀI LIỆU THAM KHẢO ............................................................................ 91
PHỤ LỤC ..................................................................................................... 100
2
DANH MỤC BẢNG BIỂU
Bảng 1.1: Những tiêu chuẩn ngữ nghĩa ....................................................................18
Bảng 1.2: Những tiêu chuẩn về hình thức.................................................................19
Bảng 1.3: So sánh đặc điểm tiếng Việt và tiếng Anh ...............................................23
Bảng 1.4: Bảng phân loại từ loại của tác giả Nguyễn Hồng Cổn .............................31
Bảng 1.5: Phân loại từ loại theo VLSP .....................................................................34
Bảng 1.6: Tập nhãn từ loại Viet tree bank ................................................................35
Bảng 1.7: Tập nhãn từ loại VnPOS ...........................................................................36
Bảng 1.8: Bảng từ loại tiếng Anh..............................................................................36
Bảng 1.9: Bảng từ loại tiếng Trung ...........................................................................37
Bảng 2.1: Bảng hướng dẫn nhanh về cách sử dụng các search engine phổ biến trên
thế giới .......................................................................................................................47
Bảng 3.1: Số lượng từ trong dữ liệu văn bản ............................................................75
Bảng 3.2: Số lượng stop words trong một ngôn ngữ ................................................75
Bảng 3.3: Stop words là từ láy. .................................................................................80
Bảng 3.4: Từ loại và stop words ...............................................................................81
Bảng 3.5: Nhập nhằng từ loại trong việc xác định stop words .................................84
Bảng 3.6: Bảng dịch stop words tiếng Trung sang tiếng Việt ..................................86
Bảng 3.7: Bảng dịch stop words tiếng Anh sang tiếng Việt .....................................86
Bảng 3.8: Kết quả xử lý stop words trong quá trình lập chỉ mục .............................71
DANH MỤC HÌNH MINH HỌA
Hình 1.1: Sơ đồ hệ thống từ loại tiếng Việt theo quan niệm của tác giả Đinh Văn Đức ....28
Hình 1.2: Sơ đồ hệ thống từ loại tiếng Việt theo quan điểm của các tác giả Diệp
Quang Ban - Hoàng Văn Thung................................................................................29
Hình 1.3: Sơ đồ hệ thống từ loại tiếng Việt theo quan điểm của tác giả Lê Biên ....29
Hình 1.4: Sơ đồ hệ thống từ loại tiếng Việt theo quan điểm của tác giả Nguyễn Tài Cẩn .30
Hình 2.1: Spider lấy nội dung của trang web và tạo các từ khóa tìm kiếm để cho
phép người dùng trực tuyến có thể tìm các trang mong muốn .................................49
Hình 2.2: Googebot, Web Crawler của Google ........................................................50
Hình 2.3: Kết quả tìm kiếm với từ khóa “tô tranh” ..................................................58
Hình 3.1: Vị trí stop words trong quá trình lập chỉ mục. ..........................................62
Hình 3.2: Stop words, Frequency words ...................................................................76
Hình 3.3: Các đại từ trong tiếng Việt (Nguồn: wiki) ................................................82
3
PHẦN MỞ ĐẦU
1. Lý do chọn đề tài
Ngôn ngữ học ứng dụng là một nhánh của ngành ngôn ngữ học, tập trung
vào việc xác định, điều tra và cung cấp các giải pháp cho các vấn đề có liên quan
đến ngôn ngữ trong thực tiễn cuộc sống. Ngôn ngữ học ứng dụng bao gồm tất cả
các ứng dụng của lý thuyết ngôn ngữ học và là sự tích hợp chuyên môn liên quan
đến nhiều ngành học, như ngôn ngữ học, nhân học, tâm lý họcvà giáo dục học, ngôn
ngữ học xã hội và mới đây nhất là ngành công nghệ thông tin.
Ứng dụng ngôn ngữ học trong ngành công nghệ thông tin mang tính thực
tiễn rất cao và không ngừng thay đổi. Việc chuyển mình theo sự thay đổi đó đòi hỏi
ngôn ngữ đóng vai trò như nguồn dữ liệu khổng lồ cần được xử lý và việc quan tâm
đến từng ngóc ngách của nó sẽ giúp cho việc xử lý ngôn ngữ tự nhiên bằng máy
được chính xác và hiệu quả hơn. Những nghiên cứu ngôn ngữ trong lĩnh vực công
nghệ thông tin đánh dấu những ngành khoa học liên ngành mới như ngôn ngữ học
khối liệu mang tính ứng dụng nhiều hơn so với những suy nghĩ hàn lâm về ngôn
ngữ.
Ngày nay với sự bùng nổ thông tin, nhất là sự phát triển mạnh mẽ của
Internet và World Wide Web, việc tìm kiếm thông tin đang trở nên dễ dàng đối với
người dùng internet. Nhờ đó có sự xuất hiện của hàng loạt các máy tìm kiếm
(search engine) như Google, Bing!, Yahoo, Ask, MSM… người ta có thể tìm kiếm
mọi thông tin bằng chính bản ngữ của mình vì các công cụ quốc tế này đáp ứng nhu
cầu tìm kiếm với hơn 200 ngôn ngữ khác nhau. Sử dụng các máy tìm kiếm đã trở
thành một kỹ năng không thể thiếu trong công việc và sinh hoạt thường ngày của
con người hiện đại.
Với sự phát triển không ngừng của công nghệ thông tin, các máy tìm kiếm
ngày càng cải thiện được hiệu năng tìm kiếm và nhanh chóng chiếm được niềm tin
của người dùng Internet trên toàn thế giới.
Bản chất của các máy tìm kiếm hiện đại là sử dụng các bộ thu thập (crawler)
thu thập thông tin từ tất cả các trang web trên thế giới vào một kho dữ liệu khổng lồ.
4
Khi người dùng sử dụng một trình duyệt như Firefox, Internet Explorer, Chrome,
Opera, Cờ-rôm (Việt Nam)… đưa ra một đoạn văn bản trên trang tìm kiếm, máy
tìm kiếm sẽ phân tích đoạn văn bản này và tìm kiếm trong kho dữ liệu khổng lồ nói
trên các thông tin cần thiết và sắp xếp chúng theo một thứ tự ưu tiên nhất định (thí
dụ như sắp xếp page của Google với link đầu là mười kết quả tốt- phổ biến nhất).
Các máy tìm kiếm thường được đánh giá theo hai tiêu chuẩn:
a. Chất lượng tìm kiếm: Máy tìm kiếm thông thường có thể đưa ra kết quả
hàng trăm nghìn bản ghi, thậm chí nhiều khi tới hàng trăm triệu bản ghi. Do vậy,
các kết quả này cần được sắp xếp theo thứ tự ưu tiên nhất định để người dùng có thể
truy cập đến các thông tin cần tìm nhanh nhất. Để việc sắp xếp này có chất lượng
cao, máy tìm kiếm cần phân tích để “hiểu” được nội dung cần tìm. Trong việc phân
tích như vậy việc xử lý ngôn ngữ của đoạn văn cần tìm đóng vai trò hết sức quan
trọng. Chính vì vậy, các máy tìm kiếm bản địa tại Trung Quốc, Hàn Quốc, Nhật,
Nga,… chiếm được ưu thế so với các máy tìm kiếm quốc tế như Google, Yahoo,
Bing… thông qua việc xử lý ngôn ngữ bản địa.
b. Thời gian đáp ứng: Việc tìm kiếm phân tích kho dữ liệu khổng lồ để đưa ra
khối lượng kết quả khổng lồ, vừa phục vụ hàng chục triệu người dùng trên toàn thế
giới, phải diễn ra trong thời gian ngắn nhất (từ 3-5 giây). Bên cạnh một mạng lưới
máy tính lớn và các phương pháp tính toán nhanh ngày càng hoàn thiện, xử lý ngôn
ngữ có vai trò vô cùng quan trọng trong việc tối ưu hoá thời gian tìm kiếm bằng
cách lọc bỏ các thông tin thừa.
Như vậy, ngôn ngữ học có một vai trò quan trọng trong việc cải tiến các máy
tìm kiếm. Chính vì thế, ngôn ngữ học và công nghệ thông tin ngày càng xích lại gần
nhau để tạo ra nhiều ứng dụng thực tế có ích cho đời sống. Hơn nữa quá trình đó cũng
đặt ra những vấn đề nghiên cứu cơ bản mới mang tính liên ngành và cho mỗi ngành.
Do đặc điểm khác biệt về ngôn ngữ, văn hóa mang tính vùng miền mà đôi
khi các công cụ tìm kiếm mang tính quốc tế này chưa thực sự hiểu mục đích tìm
kiếm thông tin của người dùng và kết quả trả về chưa chính xác như mong muốn.
Điển hình như Trung Quốc và nhiều nước có hệ chữ viết (chữ tượng hình và chữ
5
chắp dính) khác biệt với hệ chữ latinh thì việc tìm kiếm trên các công cụ quốc tế
khó khăn hơn và ít kết quả có thể đáp ứng được nhu cầu tìm kiếm của người tìm
kiếm. Hệ quả là công cụ tìm kiếm riêng của Trung Quốc và các nước không sử
dụng chữ cái Latinh làm chữ viết vượt trên cả những “gã khổng lồ” về công cụ tìm
kiếm như Baidu thắng thế so với Google tại thị trường Trung Quốc.
Tình hình ở Việt Nam lại khác, tiếng Việt là ngôn ngữ có chữ viết theo hệ
chữ cái latinh nên đối với việc tìm kiếm thông tin trên các công cụ tìm kiếm quốc tế
khá dễ dàng. Cũng phải thừa nhận rằng, công cụ tìm kiếm ở Việt Nam chưa thể
bằng công nghệ các công cụ tìm kiếm của các công ty có hơn chục năm hoạt động
trên thị trường tìm kiếm trên thế giới. Nhưng những kĩ sư công nghệ thông tin vẫn
có tham vọng xây dựng một công cụ tìm kiếm dành riêng cho người Việt, gần gũi
với người Việt và hiểu người Việt. Tức là một công cụ thể hiện văn hóa, nhận thức
của người Việt. Trên công cụ tìm kiếm này, các kĩ sư phải giải quyết được vấn đề
xử lý tiếng Việt để kết quả tìm kiếm được tốt hơn. Đây cũng là lý do chúng tôi chọn
đề tài “Các vấn đề xử lý tiếng Việt để nâng cao hiệu năng của công cụ tìm kiếm”.
Vấn đề xử lý tiếng Việt ứng dụng trong tìm kiếm là một nội dung rộng.
Trong luận văn này, chúng tôi chỉ tập trung tìm hiểu hai vấn đề: Việc đánh chỉ mục
cho văn bản tiếng Việt và tìm bản chất từ loại của các stop words trong tiếng Việt.
Đánh chỉ mục (indexing) là việc sắp xếp dữ liệu vào một hệ thống để tìm
kiếm cho nhanh nhất. Việc tìm kiếm sẽ dựa vào các chỉ mục, do đó việc lập chỉ mục
sẽ quyết định tốc độ tìm kiếm. Trong quá trình lập chỉ mục, các quy tắc của ngôn
ngữ sẽ giúp cải thiện được chất lượng và tốc độ tìm kiếm.
Các stop words là các từ mà các công cụ tìm kiếm thường lược bỏ để tăng
tốc độ cũng như chất lượng tìm kiếm. Trong thực tiễn, các chuyên gia công nghệ
thông tin thường dựa trên kinh nghiệm của mình để đưa ra danh sách các stop
words cho mỗi ngôn ngữ. Qua việc khảo sát các danh sách stop words thông dụng
tiếng Anh, Trung, Việt mà chúng tôi sưu tầm được, chúng tôi có thể kết luận, bản
chất từ loại của stop words khá phong phú. Do các danh sách này chủ yếu dựa trên
kinh nghiệm, chúng không bao gồm toàn bộ các stop words trong mỗi ngôn ngữ.
6
Việc tìm ra quy luật của các stop words sẽ có ý nghĩa quan trọng trong việc mở rộng
các danh sách này để nâng cao hiệu năng và chất lượng của các máy tìm kiếm. Việc
nghiên cứu bản chất từ loại của các stop words sẽ là bước đầu cho công việc này.
Chúng tôi chưa tìm thấy một nghiên cứu nào trước đây về bản chất ngôn ngữ
của các stop words tiếng Việt. Trên thế giới chúng tôi cũng chưa tìm thấy một công
trình nào bàn về vấn đề này một cách có hệ thống. Vấn đề này xuất phát từ một yêu
cầu thực tế, nhưng có một ý nghĩa nhất định trong việc trả lời câu hỏi có tính lý luận
về xử lý dữ liệu. Đối với nghiên cứu khoa học, luận văn chúng tôi đóng góp phần lý
luận ban đầu cho việc triển khai nghiên cứu stop words, qua đó giúp các nhà công
nghệ có thể dựa vào những bản chất nội tại của chúng để đưa ra một danh sách hoàn
chỉnh có tính ứng dụng và tương đối phù hợp với công cụ tìm kiếm Việt Nam. Đối
với ứng dụng thực tiễn, như đã trình bày ở trên, stop words là một phần rất nhỏ
trong quá trình xử lý ngôn ngữ tự nhiên nói chung và xây dụng cộng cụ tìm kiếm
nói riêng. Tuy nhiên vấn đề này vẫn chưa được quan tâm đúng mức, chúng ta không
nên bỏ sót bất cứ một nhập nhằng hay một vấn đề nào để biến công cụ của mình
thành mạnh nhất và cạnh tranh với các đối thủ còn lại. Stop words giống như một ốc
vít của bộ máy kết nối các bộ phận với nhau để bộ máy có thể hoạt động trơn tru và
hiệu quả.
2. Lịch sử nghiên cứu
Những nghiên cứu xử lý ngôn ngữ tự nhiên và ứng dụng ngôn ngữ trong
công nghệ thông tin ngày càng phát triển, kéo theo đó là sự xuất hiện nhiều sản
phẩm có tính thực tiễn trong đời sống hàng ngày như xây dựng từ điển, phần mềm
dịch thuật, công cụ xử lý tiếng nói, công cụ tìm kiếm…v.v. Chúng ta có thể gõ bất
kỳ một cụm từ liên quan đến “xử lý ngôn ngữ tự nhiên” (Natural language
processing) trên máy tìm kiếm là thấy được rất nhiều kết quả trả về liên quan và
được trình bày hết sức tổng quan.
Trong luận văn này, chúng tôi tìm hiểu tính ứng dụng của nó trong công cụ
tìm kiếm nên phần lớn quan tâm tới những tài liệu liên quan đến mảng ứng dụng
tìm kiếm. Đây cũng là một trong những mảng ứng dụng khá sôi động, và được các
7
nhà nghiên cứu quan tâm nhưng phần lớn tập trung vào những vấn đề nhất định phù
hợp với đề tài nghiên cứu của mình, ví dụ như các nhà công nghệ quan tâm đến việc
xây dựng công cụ tìm kiếm như thế nào thì sẽ quan tâm về ứng dụng xử lý ngôn
ngữ tự nhiên theo hướng đó. Tiêu biểu là một số bài báo đáng chú ý như sau:
The Infocious Web Công cụ tìm kiếm: Improving Web Searching Through
Linguistic Analysis (Công cụ tìm kiếm web Infocious: Cải thiện tìm kiếm web thông
qua phân tích ngôn ngữ) của các tác giả Alexandros Ntoulas, Gerald Chao, Junghoo
Cho, của UCLA Computer Science: Tập trung nghiên cứu trên máy tìm kiếm
InfociousWeb giải quyết các vấn đề từ khóa, các vấn đề nhập nhằng ngôn ngữ.
Công cụ tìm kiếm này tập trung vào tiêu điểm nội dung thông tin thay vì kết quả trả
về dựa trên từ khóa. Ưu điểm của SE1 này là hiểu biết tốt hơn về nội dung trang
web, phù hợp với truy vấn của người sử dụng với các tài liệu đã được lập chỉ mục
do đó có thể cải thiện kết quả tìm kiếm. Ưu điểm thứ hai là CÔNG CỤ TÌM KIẾM
sắp xếp kết quả một cách trực quan hơn. Các tác giả đưa ra công nghệ xử lý ngôn
ngữ, kiến trúc và hiệu suất có được khi đi theo hướng này.
Hay như bài báo “Specialized Search in Linguistics and Languages” (Tìm
kiếm chuyên ngành trong ngôn ngữ học và ngôn ngữ) của tác giả Zhiping Zheng và
Gregor Erbach của Computational Linguistics Department, Đại học Saarland,
hướng về công cụ tìm kiếm chuyên ngành và đánh giá kết quả tìm kiếm đạt hiệu
quả cao nhất vì dữ liệu thường được xử lý bán thủ công đôi khi có sự giúp đỡ của
các công nghệ chuyên ngành nên kết quả tìm kiếm hoàn toàn không phải bàn cãi.
Từ đó các tác giả cố gắng dựa vào những thành tựu đi trước để có thể tự động hóa
xử lý dữ liệu theo hướng chuyên ngành này.
Đôi khi các tác giả cũng chỉ tập trung vào tìm kiếm web theo tên miền, ví dụ
Getess của các tác giả trường đại học Rostock với bài báo “ Getess: constructing a
linguistic search index for an Internet Công cụ tìm kiếm” (Getess: xây dựng một chỉ
mục tìm kiếm ngôn ngữ cho một Internet Công cụ tìm kiếm). Đối với các công cụ
tìm kiếm nói chung, các tác giả thường quan tâm đến cơ sở dữ liệu phần chỉ mục,
1
Viết tắt SE = Search engine
8
nơi ảnh hưởng trực tiếp đến kết quả cũng như hiệu quả tìm kiếm tiêu biểu như bài
báo “Indexing and querying linguistic metadata and document content” (Lập chỉ
mục và truy vấn siêu dữ liệu ngôn ngữ và nội dung tài liệu) của các tác giả Niraj
Aswani và Valentin Tablan, Kalina Bontcheva, Hamish Cunningham của
Department of Computer Science, Đại học Sheffield. Trong công trình này, các tác
giả đưa ra hệ thống ANNIC để xử lý ngôn ngữ tự nhiên bằng việc chú thích ngôn
ngữ và các tính năng để cho phép người dùng xây dựng truy vấn đa năng giữ từ
khóa và thông tin ngôn ngữ để các kết quả bao gồm các văn bản phù hợp trong ngữ
liệu hiện thị trong bối cảnh được chú thích.
Ngoài những công trình trên còn có rất nhiều những công trình nghiên cứu
khác tập trung giải quyết những vấn đề trong bộ máy tìm kiếm: từ khóa, ngữ nghĩa,
website, chủ đề… Phần này sẽ được chúng tôi trình bày kỹ hơn ở chương hai.
Đối với vấn đề chúng tôi nghiên cứu, stop words trong bộ máy tìm kiếm,
hiện nay, trên ngữ liệu tiếng Anh mà chúng tôi thu thập được, đã có rất nhiều công
trình nghiên cứu đề cập đến vai trò và cách giải quyết nó tiêu biểu như:
Công trình “Influence of Stop-Words Removal on Sequence Patterns
Identification within Comparable Corpora‖( Ảnh hưởng của bỏ Stopwwords
trên mẫu xác định thứ tự trong so sánh Corpora)
của các tác giả
Daša
Munková, Michal Munk, Martin Vozár : quan niệm stop words là những dữ liệu
ồn như khẩu hiệu, cụm từ, từ, ký hiệu cần phải lọc ra khỏi dữ liệu quan trọng. Mục
đích của việc này là xác định được mức độ nào đó trước khi lọc bỏ dữ liệu, loại bỏ
sự ảnh hưởng của nó bằng cách trích xuất và chỉ có ngôn ngữ tác động đáng kể cả
về số lượng và chất lượng trích xuất.
Bài nghiên cứu ―An Empirical Evaluation of Stop Word Removal in
Statistical Machine Translation‖ (Một số đánh giá về loại bỏ stop words trong dịch
máy phân tích) của AChong Tze Yuang, Rafael E. Banchs và Chng Eng Siong đánh
giá khả năng cải thiện hiệu suất của hệ thống dịch máy bằng việc loại bỏ những từ
thường xuyên và những vấn đề dự đoán từ từ vựng ngôn ngữ. Những từ này được
loại bỏ sẽ làm giảm sự nhầm lẫn trong văn bản.
9
Và “Effective Listings of Function Stop words for Twitter” (Danh sách hiệu
quả của các stop words chức năng cho Twitter) của Murphy Choy đánh giá những
stop words là những từ tái hiện rất thường xuyên nhưng cơ bản là vô nghĩa khi tham
gia câu, không đóng góp vào bối cảnh và nội dung của văn bản. Vì tần số cao của
chúng nên gây trở ngại trong việc khai thác văn bản. Để giải quyết vấn đề này, các
phương pháp sử dụng đều là dùng phần mềm hoặc sử dụng danh sách stop words
cho sẵn để loại bỏ những từ đó. Các tác giả đề xuất kiểm tra việc sử dụng nhưng
loại có tần suất xuất hiện nhiều, lập danh sách cho nguồn dữ liệu Twitter. Họ xây
dựng một kỹ thuật mới sử dụng giá trị tổ hợp như là một biện pháp thay thế để đưa
là danh sách stop words hiệu quả.
Các công trình nghiên cứu về stop words thường là những bài báo được trích
dẫn trong các luận văn hoặc báo cáo của các tác giả tùy thuộc vào yêu cầu của ứng
dụng. Những quan điểm và cách xử lý về loại từ này đều được thống nhất.
Ở Việt Nam, những công trình nghiên cứu về xử lý ngôn ngữ tự nhiên thì rất
nhiều nhưng lại chưa có một công trình cụ thể nào về stop words.
Về xử lý ngôn ngữ tự nhiên, chúng ta có thể kể đến một số tác giả nghiên
cứu chuyên sâu về ngữ pháp ngôn ngữ trong việc tách từ, phân chia từ loại và xử lý
nhập nhằng như TS Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương:
Nghiên cứu xây dựng từ điển tiếng Việt cho máy tính, Sử dụng bộ gán nhãn từ loại
xác suất Qtag cho văn bản tiếng Việt (2003). Ngoài ra có những tác giả, có những
nghiên cứu khái quát về xử lý tiếng Việt và đặc điểm tiếng Việt trong ứng dụng
công nghệ thông tin để người đọc có thể tìm hiểu được sự giống và khác nhau giữa
quan niệm trọng yếu “từ”, khó khăn trong việc xử lý so với các thứ tiếng khác tiêu
biểu là các tác giả Đinh Điền, Hồ Bảo Quốc: Vấn đề ranh giới từ trong ngữ liệu
song ngữ Anh-Việt.
Xây dựng bộ máy tìm kiếm là một trong những ứng dụng có nhiều người
quan tâm nhất bởi sản phẩm thực tiễn của nó có vai trò quan trọng đối với con
người trong thời đại bùng nổ thông tin. Vấn đề xây dựng bộ máy tìm kiếm tiếng
Việt không mới so với ngành công nghệ thông tin hiện nay. Có rất nhiều nghiên cứu
10
về bộ máy tìm kiếm và có những chuyên luận viết về ngôn ngữ trên công cụ tìm
kiếm tiếng Việt như: Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin
trên văn bản tiếng Việt (Đồng Thị Bích Thủy, Hồ Bảo Quốc- Khoa Công Nghệ
Thông Tin - Đại học khoa học tự nhiên TP. Hồ Chí Minh); Xây dựng một công cụ
hỗ trỡ tra cứu và tổng hợp thông tin trong thư viện số (Báo cáo khoa học TS Đỗ
Phúc và Ths. Nguyễn Minh Hiệp, TP Hồ Chí Minh, 2003); Nghiên cứu ứng dụng
mã nguồn mở Lucene để xây dựng phần mềm tìm kiếm thông tin trên văn bản
(Huỳnh Đức Việt, Võ Duy Thanh, Võ Trung Hùng, Tạp chí khoa học và công nghệ
Đại học Đà Nẵng- số 4 (39) 201); Dương Đình Thiện (2012) Xây dựng bộ tìm kiếm
(công cụ tìm kiếm), Luận văn thạc sĩ, Đại học Đà Nẵng; Vũ Đức Thìn, Hoàng Văn
Dũng (2008), Áp dụng kỹ thuật phân cụm dữ liệu trong phân cụm kết quả tìm kiếm,
Luận văn Thạc sỹ
Cho đến nay, chúng ta có rất nhiều bài viết về công cụ tìm kiếm tiếng Việt phải kể
đến các website, forum bàn luận khá sâu về vấn đề này: caohocviet.net, viet.jnlp.org,
nlp.hcmut.edu.vn…Tuy nhiên, các bài viết chủ yếu nhìn nhận từ cách nhìn của các
nhà công nghệ thông tin về kĩ thuật xây dựng công cụ tìm kiếm. Các bài viết đi sâu
vào nghiên cứu việc giải quyết các bài toán xử lý ngôn ngữ tự nhiên, tuy nhiên chưa
thật sự có một công trình nào ở Việt Nam bàn về vấn đề nghiên cứu stop words.
Dù chỉ là một phần rất nhỏ trong cả một hệ thống xây dựng công cụ tìm kiếm
nhưng stop words vẫn cần một nghiên cứu đầy đủ để định hướng cho các kĩ sư công
nghệ đưa ra được danh sách hợp lý và độ chính xác cao.
Vì vậy chúng tôi mong rằng luận văn sẽ góp phần cải thiện kết quả tìm kiếm
của các công cụ tìm kiếm qua việc nghiên cứu vấn đề còn mới mẻ này.
3. Đối tƣợng nghiên cứu
Trong các hệ thống tìm kiếm thông tin văn bản (Text Information Retrieval
System), tiến trình quan trọng nhất là tiến trình phân tích nội dung văn bản để xác
định tập chỉ mục biểu diễn tốt nhất cho nội dung của văn bản (tiến trình lập chỉ mục
- indexing). Để có thể phân tích và rút trích được các chỉ mục (index term / term)
tốt, người ta thường ứng dụng các kết quả của lĩnh vực xử lý ngôn ngữ tự nhiên vào
11
tiến trình này. Chỉ mục có thể là từ (word) hay là một cấu trúc phức tạp hơn như
cụm danh từ (noun phrase), khái niệm (concept)... Vấn đề xác định chỉ mục cho văn
bản tiếng Việt phức tạp hơn đối với ngôn ngữ châu Âu do việc xác định giới hạn
của một từ (word segmentation) trong tiếng Việt không đơn giản là chỉ dựa vào các
khoảng trắng giữa chúng. Hơn nữa, ngữ pháp tiếng Việt vẫn còn nhiều vấn đề tranh
luận giữa các nhà ngôn ngữ học nên cũng còn nhiều khó khăn trong việc tự động
hóa việc phân tích tiếng Việt.
Trong luận văn này chúng tôi trình bày về các vấn đề xử lý ngôn ngữ tự
nhiên trong hệ thống tìm kiếm thông tin nói chung đặc biệt là việc xử lý tiếng Việt
trên công cụ tìm kiếm.
Xử lý ngôn ngữ tự nhiên đối với tiếng Việt, chúng ta có rất nhiều vấn đề cần
phải quan tâm như bài toán tách từ, xây dựng từ điển, xây dựng chỉ mục cho máy tìm
kiếm. Tuy nhiên, chúng tôi quan tâm đến việc xử lý stop words một trong những quá
trình xử lý nhập nhằng nhỏ nhưng đóng vai trò quan trọng trong việc kiểm soát hiệu
năng công cụ tìm kiếm. Stop words giống như một mắt xích không thể thiếu để tăng
tốc cũng như cải thiện kết quả tìm kiếm. Hai điều này quan trọng để đánh giá công cụ
tìm kiếm này có hiệu quả hay không.
Trong quá trình tiếp cận vấn đề, chúng tôi cũng trình bày một số đặc trưng
của tiếng Việt dưới góc nhìn của lĩnh vực tìm kiếm thông tin. Mục đích cuối cùng là
đảm bảo kết quả tìm kiếm là chính xác nhất, hiệu quả nhất, đáp ứng được nhu cầu
tìm kiếm của người Việt.
4. Phƣơng pháp nghiên cứu
Với luận văn này, ngoài việc sử dụng các thủ pháp nghiên cứu chung trong
khoa học như diễn dịch, quy nạp, so sánh, thống kê…, chúng tôi còn sử dụng các
phương pháp nghiên cứu sau:
Phương pháp phân tích từ và từ loại: Dựa vào quan niệm từ loại và đặc điểm
từ loại trong việc xử lý ngôn ngữ trên công cụ tìm kiếm so sánh với quan niệm từ và
từ loại thông thường của ngôn ngữ học lý thuyết. Với phương pháp này chúng tôi
xử lý dữ liệu cho sẵn bao gồm các tổ hợp từ có tần suất xuất hiện tương đối lớn
12
trong các văn bản mà máy thu thập được bằng cách phân loại từ, cụm từ và phân
tích từ theo từ loại.
Phương pháp phân tích khối liệu: Trong quá trình nghiên cứu, chúng tôi sử
dụng công cụ tách lọc những khối liệu cần thiết để đưa vào luận văn nhằm phân tích
khối liệu và đưa ra bản chất của vấn đề.
Phương pháp mô tả, so sánh và đối chiếu: Số lượng tư liệu thu thập được từ
stop words tiếng Anh, tiếng Trung và tiếng Việt đã được tập hợp từ các bài nghiên
cứu cũng như danh sách tạm thời sẵn có để đưa vào phân tích đối chiếu. So sánh
stop words giữa tiếng Việt và hai tiếng Anh, Trung sẽ cho thấy được những nét đặc
thù khác biệt trong việc xử lý tiếng Việt. Qua đối chiếu, chúng tôi muốn đi sâu vào
bản chất stop words tiếng Việt để sau này khi xác lập danh sách của nó có thể bớt
hoặc thêm những từ có ảnh hưởng đến chỉ mục và dữ liệu máy.
5. Phạm vi nghiên cứu
Chúng tôi tập trung khảo sát cách xử lý ngôn ngữ tự nhiên trên các công cụ
tìm kiếm tiếng Việt phổ biến hiện nay như: xalo, itim, google, yahoo, bing… Đặc
biệt chúng tôi lưu tâm đến các kết quả trả về trên công cụ google search- một trong
những công cụ tìm kiếm tiếng Việt mạnh nhất hiện nay. Những công cụ tìm kiếm
này có công cụ chỉ dành riêng cho việc tìm kiếm bằng tiếng Việt và các công cụ
quốc tế như yahoo, bing, google có ứng dụng cho rất nhiều ngôn ngữ khác.
Những dữ liệu phục vụ nghiên cứu được thu thập trên cơ sở dữ liệu đã có từ
trước trên các trang web chuyên về tìm kiếm. Chúng tôi cũng sử dụng máy để tách
lọc qua khối liệu từ các bài báo trên mạng để đưa ra danh sách từ có tần suất xuất
hiện cao để phân tích.
6. Bố cục luận văn
Luận văn gồm 3 phần: Mở đầu, Nội dung và Kết luận
Phần chính là phần Nội dung được chia thành 3 chương
Chương 1: Tổng quan cơ sở lý luận của đề tài
13
Đối với chương một, chúng tôi đưa ra những vấn đề lý thuyết còn nhập
nhằng trên công cụ tìm kiếm thông tin như từ, từ loại. Chúng tôi cũng lựa chọn
quan niệm thích hợp với đối tượng nghiên cứu của mình.
Chương 2: Tổng quan về công cụ tìm kiếm và đánh chỉ mục văn bản
Trong chương này, chúng tôi tập trung mô tả máy tìm kiếm và vấn đề xử lý
ngôn ngữ tự nhiên trong máy như xây dựng từ điển, lập chỉ mục…
Chương 3: Stop words tiếng Việt
Dựa vào yêu cầu thực tiễn trong quá trình xử lý ngôn ngữ, chúng tôi lựa chọn
stop words làm đối tượng nghiên cứu và kết quả nghiên cứu hoàn toàn mới góp
phần vào việc xây dựng máy tìm kiếm cho người Việt được tốt hơn.
Phần cuối: Kết luận
14
CHƢƠNG 1: TỔNG QUAN CƠ SỞ LÝ THUYẾT
1.1. Từ tiếng Việt
1.1.1. Quan niệm về từ tiếng Việt
Từ là một trong những khái niệm cơ bản của ngôn ngữ học. Khi nghiên cứu
bất kỳ một ngôn ngữ nào người ta không thể không nhắc đến việc xác định đơn vị
này. Tuy nhiên, khái niệm này chưa có sự thống nhất và là một vấn đề rất khó, còn
nhiều tranh cãi trong lí thuyết ngôn ngữ học đại cương.
Đối với các ngôn ngữ biến hình việc xác định ranh giới từ dường như đơn
giản hơn vì có thể dựa vào khoảng trắng chính tả để làm ranh giới phân biệt, ngược
lại tiếng Việt thì khoảng trắng không phải là ranh giới để xác định các từ mà chỉ là
ranh giới xác định các tiếng. Từ của tiếng Việt có những điểm khác biệt so với các
ngôn ngữ này:
Thứ nhất, từ tiếng Việt là đơn vị nhỏ nhất có nghĩa còn các ngôn ngữ Ấn Âu
đơn vị nhỏ nhất là hình vị.
Thứ hai, từ Tiếng Việt có nhiều biến thể ngữ âm nhưng không có biến thể
hình thái học: lời và nhời, trời và giời, trăng và giăng…dù đứng trong câu hay đứng
lẻ một mình, bao giờ chũng cũng giữ nguyên một hình thức, ngược lại trong ngôn
ngữ Ấn Âu từ có thể tồn tại dưới nhiều từ hình khác nhau.
Và cuối cùng, ý nghĩa từ vựng và ý nghĩa ngữ pháp gắn bó chặt chẽ với nhau
ở trong từ Tiếng Việt. Vì vậy ý nghĩa của từ tiếng Việt thường có tính chất trừu
tượng, khái quát, chỉ khi kết hợp với các từ khác ý nghĩa của nó mới được cụ thể
hóa, ở các ngôn ngữ biến hình ý nghĩa từ vựng và ý nghĩa ngữ pháp được biểu thị
bằng những bộ phận khác nhau của từ. Nhờ có các dạng của từ mà ý nghĩa của từ
bao giờ cũng cụ thể xét về mặt ngữ pháp.
Theo quan điểm của GS Nguyễn Thiện Giáp:
Từ của tiếng Việt là một chỉnh thể nhỏ nhất có ý nghĩa dùng để tạo câu
nói; nó có hình thức của một âm tiết, một khối viết liền. [26, tr. 69]
Để phục vụ cho mục đích nghiên cứu, chúng tôi tham khảo thêm một số
quan niệm khác về từ của các nhà nghiên cứu phương Tây. Cách nhìn của họ
15
- Xem thêm -