ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LƯU MẠNH HÀ
PHÂN LOẠI THỰC THỂ CÓ TÊN
TRÊN WIKIPEDIA ĐỂ PHỤC VỤ CHO BÀI
TOÁN XÂY DỰNG HỆ TRI THỨC
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
HÀ NỘI - 2019
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LƯU MẠNH HÀ
PHÂN LOẠI THỰC THỂ CÓ TÊN
TRÊN WIKIPEDIA ĐỂ PHỤC VỤ CHO BÀI
TOÁN XÂY DỰNG HỆ TRI THỨC
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Cán bộ hướng dẫn: PGS. TS. Phạm Bảo Sơn
HÀ NỘI - 2019
i
Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn sâu sắc nhất đến thầy giáo: Phó giáo sư - Tiến
sĩ Phạm Bảo Sơn và thầy giáo: Tiến sĩ Nguyễn Bá Đạt, đã tận tình hướng dẫn tôi
trong suốt quá trình thực hiện luận văn tốt nghiệp.
Tôi xin bày tỏ lời cảm ơn chân thành tới Trường Đại học Công nghệ - ĐHQG Hà
Nội và những thầy cô giáo đã giảng dạy, truyền thụ kiến thức cho tôi trong thời
gian qua, cùng với các anh chị em tại Công ty cổ phần NERD, đã hỗ trợ cho tôi
trong suốt thời gian thực hiện luận văn này.
Tôi cũng cảm ơn các lãnh đạo của Tập đoàn Công nghiệp Viễn thông Quân đội
Viettel và các đồng nghiệp đã tạo điều kiện để tôi hoàn thành việc học cao học và
bảo vệ luận văn thạc sĩ.
Cuối cùng, tôi xin cảm ơn tất cả gia đình, bạn bè đã luôn động viên giúp đỡ tôi
trong thời gian nghiên cứu đề tài. Tuy đã có những cố gắng nhất định nhưng do
thời gian và trình độ có hạn nên luận văn còn nhiều thiếu sót và hạn chế. Kính
mong nhận được sự góp ý của quý thầy cô và các bạn.
ii
Lời cam đoan
Tôi xin cam đoan các kết quả nghiên cứu, thực nghiệm được trình bày trong luận
văn này do tôi thực hiện dưới sự hướng dẫn của Phó giáo sư - Tiến sĩ Phạm Bảo
Sơn và Tiến sĩ Nguyễn Bá Đạt, và được thực hiện trong quá trình hợp tác nghiên
cứu giữa Đại học Công Nghệ và Công ty cổ phần NERD.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một
cách rõ ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận văn, không
có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ
về tài liệu tham khảo.
Hà Nội, ngày 12/11/2019
Học viên
Lưu Mạnh Hà
iii
Mục lục
Lời cảm ơn ........................................................................................................... i
Lời cam đoan ...................................................................................................... ii
Danh sách bảng .................................................................................................. v
Danh sách hình vẽ ............................................................................................. vi
Lời mở đầu ......................................................................................................... 1
Chương 1 Giới thiệu........................................................................................ 2
1.1.
Phạm vi bài toán và mục tiêu nghiên cứu .............................................. 2
1.2.
Đóng góp của luận văn........................................................................... 4
1.3.
Cấu trúc của luận văn ............................................................................. 5
Chương 2 Hệ thống kiểu của thực thể có tên ................................................ 7
2.1.
Khái niệm ............................................................................................... 7
2.1.1.
Hệ tri thức ....................................................................................... 7
2.1.2.
Thực thể ........................................................................................... 9
2.1.3.
Thực thể có tên .............................................................................. 10
2.1.4.
Kiểu của thực thể........................................................................... 10
2.2.
Các hệ thống kiểu thực thể ................................................................... 11
2.2.1.
Các hệ thống kiểu chi tiết cho Tiếng Anh ..................................... 11
2.2.2.
Hệ thống kiểu thực thể NERD-TS ................................................. 13
2.2.3. Điểm khác biệt giữa NERD-TS với hệ thống kiểu trong bài toán NER
truyền thống................................................................................................ 14
Chương 3 Phân loại thực thể có tên trên Wikipedia tiếng Việt ................ 18
3.1.
Học máy ............................................................................................... 18
3.1.1.
Tổng quan về học máy................................................................... 18
iv
3.1.2.
3.2.
Phân nhóm các thuật toán học máy dựa trên phương thức học ... 20
Mô hình SVM ...................................................................................... 25
3.2.1.
Tổng quan...................................................................................... 25
3.2.2.
Mô hình SVM với nhân tuyến tính ................................................. 27
3.2.3.
Phân loại đa lớp (Multiclass classification) ................................. 29
3.3.
Bộ công cụ Sklearn .............................................................................. 31
3.3.1.
Thư viện Sklearn Linear SVC (Linear Support Vector Classification)
32
3.3.2.
Trích chọn đặc trưng (Feature extraction) ................................... 34
3.3.3.
Lựa chọn đặc trưng (Feature selection) ....................................... 36
3.3.4.
Kiểm định chéo (Cross-validation) ............................................... 38
3.4.
Tiền xử lý dữ liệu ................................................................................. 41
3.4.1.
Giới thiệu về VnCoreNLP ............................................................. 43
3.4.2.
Phân tách từ .................................................................................. 43
3.4.3.
Gán nhãn từ loại (POS tagging) ................................................... 46
3.5.
Tập đặc trưng ....................................................................................... 47
Chương 4 Thực nghiệm ................................................................................ 49
4.1.
Tập dữ liệu ........................................................................................... 49
4.2.
Tiến hành thực nghiệm ........................................................................ 50
4.3.
Độ đo .................................................................................................... 52
4.4.
Kết quả ................................................................................................. 52
4.5.
Phân tích đóng góp của từng loại đặc trưng ......................................... 54
Kết luận và hướng phát triển.......................................................................... 57
Tham khảo ........................................................................................................ 59
Phụ lục .............................................................................................................. 62
Phụ lục 1. Một số ví dụ trong tập dữ liệu 10,000 trang Wikipedia được gán nhãn
thủ công .......................................................................................................... 62
Phụ lục 2. Một số luật gán kiểu thực thể dựa trên infobox template .............. 66
Phụ lục 3: Mô tả nội dung tệp dữ liệu sau tiền xử lý...................................... 69
v
Danh sách bảng
Bảng 2.1: Một vài ví dụ về thực thể có tên ........................................................ 10
Bảng 2.2: Các kiểu được sử dụng trong hệ thống FIGER [9] ........................... 12
Bảng 3.1: Cách biểu diễn cụ thể cho từng loại đặc trưng .................................. 48
Bảng 4.1: Thống kê số lượng thực thể theo từng loại trên tập dữ liệu thực nghiệm
............................................................................................................................ 50
Bảng 4.2: Kết quả chi tiết của phương pháp cơ sở ............................................ 53
Bảng 4.3: Kết quả của mô hình học máy được đề xuất so với phương pháp cơ sở.
............................................................................................................................ 53
Bảng 4.4: Kết quả chi tiết của mô hình học máy với từng loại thực thể. .......... 53
Bảng 4.5: Kết quả của mô hình học máy khi thử loại bỏ từng loại đặc trưng. .. 54
Bảng 4.6: Kết quả chi tiết với việc loại bỏ đặc trưng F1 ................................... 54
Bảng 4.7: Kết quả chi tiết với việc loại bỏ đặc trưng F2. ................................. 55
Bảng 4.8: Kết quả chi tiết với việc loại bỏ đặc trưng F3 ................................... 55
Bảng 4.9: Kết quả chi tiết với việc loại bỏ đặc trưng F4 ................................... 55
Bảng 4.10: Kết quả chi tiết với việc loại bỏ đặc trưng F5 ................................ 56
vi
Danh sách hình vẽ
Hình 1.1: Trang Wikipedia tiếng Việt về Đại học Quốc Gia Hà Nội ................... 4
Hình 2.1 Kiến trúc của hệ tri thức ........................................................................ 7
Hình 2.2 Biểu diễn dữ liệu trong hệ tri thức dưới dạng knowledge graph ........... 8
Hình 2.3: Các ý nghĩa khác nhau của từ “đá” ....................................................... 9
Hình 2.4 Kiến trúc của hệ thống kiểu trong hệ tri thức Dbpedia ........................ 12
Hình 2.5: Công cụ nhận dạng thực thể của Đại học Stanford ............................ 15
Hình 2.6: Trang Wikipedia tiếng Việt về Tôn Ngộ Không ................................ 16
Hình 3.1: Mối quan hệ giữa AI, Machine Learning và Deep Learning .............. 19
Hình 3.2: MNIST – bộ cơ sở dữ liệu của chữ số viết tay ................................... 21
Hình 3.3: AlphaGo chơi cờ vây với Lee Sedol .................................................. 24
Hình 3.4: Ví dụ về phân loại SVM với lề cực đại (đường H3) ............................ 26
Hình 3.5: Sử dụng kernel trick để ánh xạ dữ liệu lên không gian nhiều chiều hơn
............................................................................................................................ 27
Hình 3.6 Ví dụ về lề phân lớp cực đại 𝑤. 𝑥 = 𝑏 ................................................ 28
Hình 3.7: Ví dụ về Linear SVC trong thư viện Sklearn ..................................... 32
Hình 3.8: Biểu điễn của hành vi kiển định chéo 3-fold Stratified CV ................ 40
Hình 3.9 Các bước tiền xử lý dữ liệu .................................................................. 41
Hình 3.10 Một trang wikipedia điển hình ........................................................... 42
Hình 3.11: Kiến trúc tổng thể của VNCoreNLP [23] ......................................... 43
Hình 3.12: Phân loại các phương pháp tiếp cận Phân tách từ. ........................... 45
Hình 3.13: Ví dụ về sự tương ứng giữa bài toán tách từ và bài toán gán nhãn chuỗi
[28] ...................................................................................................................... 45
Hình 3.14: Các đặc trưng được trích xuất từ một thực thể có tên trên Wikipedia.
............................................................................................................................ 48
Hình 4.1: Phương pháp tiến hành thực nghiệm .................................................. 51
1
Lời mở đầu
Phân loại thực thể có tên là bài toán quan trọng trong lĩnh vực trích xuất thông tin
(Information Extraction), và xây dựng hệ tri thức (Knowledge Base
Construction). Cùng với nhu cầu ngày càng nhiều của các ứng dụng trí tuệ nhân
tạo, đặc biệt là các ứng dụng trợ lý ảo như của Google, Apple, Amazon, nhu cầu
xây dựng các hệ tri thức ngày càng lớn và cấp thiết. Theo đó, tầm quan trọng của
bài toán phân loại thực thể ngày càng được nâng cao.
Trong luận văn này, học viên giới thiệu một phương pháp hiệu quả để giải quyết
bài toán phân loại thực thể có tên trên phiên bản Wikipedia tiếng Việt dựa trên
máy véc-tơ hỗ trợ (Support Vector Machine). Đặc biệt, luận văn cũng hoàn thành
xây dựng một công cụ để thực thi bài toán này với độ chính xác cao trên 94%.
Bên cạnh đó, luận văn cũng đóng góp cho cộng đồng nghiên cứu một tập dữ liệu
lớn gồm 10,000 thực thể được gán nhãn thủ công và một công cụ để thực hiện
tiền xử lý dữ liệu, có thể được tái sử dụng để phục vụ cho các bài toán có nội dung
liên quan.
Học viên tin tưởng rằng những đóng góp của luận văn sẽ đẩy nhanh quá trình xây
dựng hệ tri thức tiếng Việt giàu có về thông tin. Qua đó, học viên sẽ trực tiếp hoặc
gián tiếp đóng góp vào các nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên
(Natural Language Processing) và trí tuệ nhân tạo (Artificial Intelligence) như
hỏi đáp tự động (Question Answering), tổng hợp và trích xuất thông tin
(Information Extraction).
2
Chương 1
Giới thiệu
1.1. Phạm vi bài toán và mục tiêu nghiên cứu
Hiện nay, với nhu cầu ngày càng nhiều của các ứng dụng trí tuệ nhân tạo, đặc biệt
là các ứng dụng trợ lý ảo như Google Assistant (Google), Alexa (Amazon), Siri
(Apple), v.v. thì nhu cầu xây dựng hệ tri thức để phục vụ cho các ứng dụng này
ngày càng cấp bức và thiết yếu. Trong việc xây dựng hệ tri thức thì việc xây dựng
một cơ sở dữ liệu các thực thể có tên và phân loại các thực thể có tên này là bước
quan trọng nhất. Bài toán phân loại thực thể có tên để phục vụ cho xây dựng hệ
tri thức là bài toán sử dụng thông tin từ một nguồn dữ liệu để trích lọc ra các thực
thể có tên, từ đó phân loại các thực thể có tên thành các kiểu thực thể như người
(Person), tổ chức (Organization), Địa điểm (Place), Sự kiện (Event), v.v. hoặc các
kiểu chi tiết hơn như kiểu FIGER [9], NERD, v.v. để phục vụ cho việc xây dựng
các hệ tri thức.
Đây là bài toán quan trọng trong lĩnh vực trích xuất thông tin (Information
Extraction), và xây dựng hệ tri thức (Knowledge Base Construction), phân loại
thực thể có tên trên miền Wikipedia thu hút được sự quan tâm lớn của giới học
thuật trên thế giới [14], [16], [19]. Tại Việt Nam, trong bối cảnh nhiều công ty
công nghệ như FPT1, NERD2, v.v. và các tổ chức phi lợi nhuận như Đề án hệ tri
thức Việt số hóa3 đã và đang nỗ lực xây dựng một hệ tri thức lớn cho thị trường
Việt, việc xây dựng và nghiên cứu một công cụ phân loại thực thể có tên cho tiếng
Việt là cần thiết.
Một số nghiên cứu liên quan có thể kể đến như công cụ dự đoán kiểu của thực thể
trong hệ tri thức Dbpedia của tác giả Nguyễn Thị Như và cộng sự [12], [13]. Đây
có thể coi là bước khởi đầu cho bài toán này đối với tiếng Việt. Tuy nhiên, kết
quả thu được chưa thực sự tốt do dữ liệu Dbpedia phiên bản tiếng Việt còn rất
khiêm tốn. Hơn nữa, do các công cụ trích xuất thông tin của hệ tri thức Dbpdia
1
https://fpt.ai/
2
https://www.nerd.vn/
3
https://itrithuc.vn/
3
không được tối ưu cho tiếng Việt, vì thế một số lượng lớn nhiễu vẫn còn tồn tại
trong đó.
Trong khuôn khổ của luận văn này, học viên nghiên cứu và xây dựng một công
cụ dự đoán kiểu của thực thể có tên sử dụng dữ liệu lấy từ các trang Wikipedia
tiếng Việt4. Nhờ đó, công cụ này có khả năng tận dụng nhiều kiểu đặc trưng hữu
ích khác nhau từ một trang Wikipedia như:
• kiểu đặc trưng có cấu trúc, ví dụ: hộp thông tin (infobox properties), tiêu
đề (heading);
• kiểu đặc trưng phi cấu trúc, ví dụ: từ khóa bao gồm thể loại (categories) và
các cụm danh từ quan trọng thường xuất hiện ở đầu trang, v.v.
Theo sự hiểu biết và tìm kiếm thông tin của học viên, hiện nay chưa có nghiên
cứu nào tương tự cho tiếng Việt.
Để đạt được mục tiêu trên, luận văn sẽ tập trung triển khai các nội dung nghiên
cứu chính như sau:
• Tải dữ liệu từ Wikipedia tiếng Việt và tiền xử lý, lọc bỏ nhiễu (html, redirect
pages, template pages, v.v.).
• Lựa chọn ngẫu nhiên 10,000 bài viết và gán nhãn thủ công cho 10,000 bài
viết này. Đồng thời luận văn cũng đã xây dựng được một bộ luật từ thông
tin Infobox template được thực hiện thủ công.
• Xây dựng một công cụ để trích chọn các đặc trưng từ các trang Wikipedia
này để phục vụ cho bài toán chính. Trong đó, luận văn có tái sử dụng lại
công cụ VNCoreNLP, là một công cụ rất phổ biến trong việc phân tách từ
và gán nhãn từ loại tiếng Việt.
• Tiếp theo, luận văn xây dựng một mô hình học máy, lựa chọn phương pháp
Máy véc tơ hỗ trợ (SVM) để phân loại các thực thể sau khi đã thử nghiệm
với một vài phương pháp khác dựa trên một tập dữ liệu nhỏ. Trong phần
này học viên sử dụng thư viện Sklearn để thực thi các bài toán học máy cụ
thể. Mô hình này nhận dữ liệu đầu vào là thực thể có tên và các đặc trưng
được trích chọn từ một trang Wikipedia tiếng Việt đã được tiền xử như trên,
ví dụ: Đại học Quốc Gia Hà Nội, và cho ra kết quả là một kiểu của thực thể
trong danh sách các kiểu đã được định nghĩa trước, ví dụ: tổ chức
(Organization).
4
Luận văn được thực hiện trong quá trình hợp tác nghiên cứu giữa Đại học Công Nghệ và Công ty cổ phần NERD.
4
• Cuối cùng, luận văn đánh giá kết quả của phương pháp này và so sánh với
phương pháp sơ sở (baseline) để chứng minh cho độ ưu việt của giải pháp.
• Đồng thời, học viên cũng đưa ra các đề xuất để phát triển tiếp công cụ này
trong tương lai.
Lý do luận văn lựa chọn Wikipedia do đây là một nền tảng tri thức đa ngôn ngữ,
có cộng đồng phát triển đông đảo ở hầu hết các quốc gia trên thế giới. Đây chính
là nguồn dữ liệu cơ bản giúp xây dựng các hệ tri thức lớn trên thế giới như Dbpedia
[2], Wikidata [20], Yago [18], v.v. Hiện nay, phiên bản Wikipedia có hơn 52 triệu
bài viết trên 309 ngôn ngữ, riêng tiếng Việt5 có khoảng 1.24 triệu bài viết với hơn
1.7 triệu thực thể bao gồm các khái niệm như Cầu thủ bóng đá, Trường đại học,
v.v., và các thực thể có tên như Đoàn Văn Hậu, Đại học Quốc gia Hà Nội, v.v. Hình
1.1 thể hiện một phần trang Đại học Quốc Gia Hà Nội trên miền Wikipedia tiếng
Việt.
Hình 1.1: Trang Wikipedia tiếng Việt về Đại học Quốc Gia Hà Nội
1.2. Đóng góp của luận văn
Luận văn này đã đóng góp cho cộng đồng nghiên cứu:
• một công cụ có khả năng phân loại thực thể có tên trên miền Wikipedia
tiếng Việt đạt độ chính xác 𝐹'.( = 94%,
• một bộ dữ liệu với 10,000 thực thể được gán nhãn thủ công.
5
https://vi.wikipedia.org
5
• một công cụ tiền xử lý dữ liệu có thể tái sử dụng cho các bài toán và nghiên
cứu liên quan.
Học viên tin tưởng rằng những đóng góp trên sẽ đẩy nhanh quá trình xây dựng hệ
tri thức tiếng Việt giàu có về thông tin. Qua đó, luận văn sẽ trực tiếp hoặc gián
tiếp đóng góp vào các nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural
Language Processing) và trí tuệ nhân tạo (Artificial Intelligence) như hỏi đáp tự
động (Question Answering), tổng hợp và trích xuất thông tin (Information
Extraction), v.v.
1.3. Cấu trúc của luận văn
Các phần còn lại của luận văn được tổ chức như sau: các khái niệm cơ bản và
quan trọng của bài toán xây dựng hệ tri thức và phân loại thực thể được trình
bày trong chương 2 như khái niệm hệ tri thức, thực thể, thực thể có tên, kiểu thực
thể và các hệ thống kiểu thực thể phổ biến. Luận văn cũng sẽ phân tích những
điểm khác biệt giữa bài toán này với bài toán nhận dạng thực thể có tên (Named
Entity Recognization – NER) để làm rõ tính cần thiết của bài toán này.
Trong chương 3, luận văn sẽ giới thiệu cụ thể về các công cụ và phương pháp
được sử dụng trong bài toán. Luận văn sẽ giới thiệu tổng quan về các phương
pháp học máy, và phân tích chi tiết hơn về phương pháp máy véc tơ hỗ trợ
(Support vector machine – SVM) là phương pháp học máy chính được học viên
sử dụng trong luận văn. Đồng thời luận văn cũng giải thích chi tiết về thư viện
Sklearn được sử dụng để thực thi mô hình học máy trong luận văn và một số công
cụ của thư viện được sử dụng để phân chia dữ liệu thành tập huấn luyện và tập
kiểm tra để kiểm định chéo (Stratified K-folds cross validation), trích chọn đặc
trưng (Feature extraction), lựa chọn đặc trưng (Feature selection). Luận văn cũng
giới thiệu sơ lược về VNCoreNLP, một công cụ rất phổ biến và hiệu quả để phân
tách từ và gán nhãn từ loại, được sử dụng trong khâu tiền xử lý dữ liệu và trích
chọn đặc trưng. Luận văn cũng mô tả các đặc trưng sẽ sử dụng, cũng như cách
biểu diễn các đặc trưng này trong bài toán.
Tiếp theo, mô hình thực nghiệm và kết quả của thực nghiệm sẽ được trình bày
ở chương 4. Trong chương này, luận văn sẽ mô tả sơ bộ về tập dữ liệu được sử
dụng, các bước thực hiện thực nghiệm. Đồng thời luận văn cũng trình bày về mô
hình được sử dụng trong thực nghiệm và các cài đặt trong mô hình (chiến lược
phân loại, phương pháp phân chia dữ liệu, lựa chọn đặc trưng, v.v.). Luận văn
cũng nêu ra phương pháp đánh giá hiệu quả của mô hình và so sánh với phương
pháp cơ sở để chứng minh tính ưu việt của phương pháp.
6
Cuối cùng, toàn bộ các công việc đã thực hiện được tổng kết và trình bày trong
phần kết luận. Đồng thời, trong phần này cũng trình bày hướng nghiên cứu, mở
rộng tiếp theo của luận văn trong tương lai.
7
Chương 2
Hệ thống kiểu của thực thể có tên
2.1. Khái niệm
2.1.1. Hệ tri thức
Hệ tri thức là một nhánh của ngành trí tuệ nhân tạo. Nó chứa đựng tri thức về giải
quyết vấn đề của con người trong một lĩnh vực hẹp được định trước và có khả
năng mở rộng kho tri thức này thông qua công cụ suy luận và hệ thống truy vấn
của nó [25]. Một hệ tri thức (knowledge-based system) là một chương trình máy
tính sử dụng một cơ sở tri thức (knowledge base) với một công cụ suy luận
(inference engine) để giải quyết các vấn đề thường đòi hỏi tư duy đặc biệt của con
người. Hình 2.1 mô tả kiến trúc chung của một hệ tri thức
Hình 2.1 Kiến trúc của hệ tri thức6
6
https://searchcio.techtarget.com/definition/knowledge-based-systems-KBS
8
Công cụ giao diện hoạt động như công cụ tìm kiếm và cơ sở tri thức đóng vai trò
là kho lưu trữ kiến thức. Học máy là một thành phần thiết yếu của các hệ tri thức
và mô hình học giúp cải thiện hệ thống. Các hệ tri thức có thể được phân loại
thành các hệ dựa trên CASE, hệ dạy học thông minh (Intelligent tutoring systems),
hệ chuyên gia (Expert systems), hệ thao tác siêu văn bản (Hypertext manipulation
systems ) và cơ sở dữ liệu với giao diện người dùng thông minh7.
So với các hệ thống thông tin dựa trên máy tính truyền thống, các hệ tri thức có
nhiều ưu việt hơn. Chúng có thể cung cấp tài liệu hiệu quả và cũng xử lý một
lượng lớn dữ liệu phi cấu trúc theo cách thông minh. Các hệ tri thức có thể hỗ trợ
trong việc ra quyết định chuyên sâu và cho phép người dùng làm việc ở mức độ
chuyên môn cao hơn và thúc đẩy năng suất và tính nhất quán. Các hệ thống này
rất hữu ích khi không có chuyên môn hoặc khi dữ liệu cần được lưu trữ để sử dụng
trong tương lai hoặc cần được nhóm với chuyên môn khác nhau ở một nền tảng
chung, do đó cung cấp tích hợp kiến thức quy mô lớn. Cuối cùng, các hệ thống
dựa trên tri thức có khả năng tạo ra kiến thức mới bằng cách tham khảo nội dung
được lưu trữ.
Hình 2.2 Biểu diễn dữ liệu trong hệ tri thức dưới dạng knowledge graph8
7
8
https://www.techopedia.com/definition/7969/knowledge-based-system-kbs
https://yashuseth.blog/2019/10/08/introduction-question-answering-knowledge-graphs-kgqa
9
Hình 2.2 thể hiện biểu diễn của dữ liệu trong hệ tri thức dưới dạng Knowledge
graph, trong đó các nút là các thực thể có tên, được phân loại (quan hệ “is a”) và
có các mối quan hệ với nhau (như “is located in”, “painted”, v.v.).
Ngày nay, các ứng dụng với hệ tri thức ngày càng nhiều, đặc biệt là với các ứng
dụng trợ lý ảo, không thể hoạt động nếu thiếu các hệ tri thức. Việc xây dựng hệ
tri thức thu hút được rất nhiều mối quan tâm của cộng đồng nghiên cứu và các
doanh nghiệp công nghệ lớn. Các hệ tri thức lớn và phổ biến hiện nay gồm
Dbpedia [2], Wikidata [20], Yago [18], v.v.Tuy nhiên, các hệ tri thức tiếng Việt
vẫn còn ít và còn tương đối hạn chế.
2.1.2. Thực thể
Thực thể (entity) là một đối tượng (ví dụ: Đoàn Văn Hậu, Đại học Quốc gia Hà Nội,
v.v.), hoặc một lớp đối tượng (ví dụ: Cầu thủ bóng đá, Trường đại học, v.v.) trong
thế giới tự nhiên [18], [19]. Mỗi thực thể mang một ý nghĩa rõ ràng, không còn
sự mập mờ của ngôn ngữ. Hình 2.3 thể hiện ba ý nghĩa khác nhau của từ “đá”
trong ngôn ngữ tự nhiên:
• Nước đá: là tên gọi khác của nước đóng băng;
• Đá (võ thuật): là cách sử dụng chân trong võ thuật, thể thao và thi đấu;
• Chia tay (tình cảm): là hành động rời bỏ, cắt đứt quan hệ về mặt tình cảm.
Hình 2.3: Các ý nghĩa khác nhau của từ “đá”
Nhờ loại bỏ sự nhập nhằng của ngôn ngữ tự nhiên, thực thể giúp máy móc có khả
năng phân tích và hiểu ngôn ngữ như người. Thực thể là đơn vị nhỏ nhất và là
đơn vị cơ bản cấu thành hệ tri thức.
10
2.1.3. Thực thể có tên
Tuy mỗi thực thể mang một và chỉ một ý nghĩa, vẫn có những thực thể ám chỉ
không chỉ một mà là một nhóm đối tượng. Ví dụ, Trường đại học là một tập hợp
bao gồm Đại học Quốc gia Hà Nội, Đại học Bách Khoa Hà Nội, Đại học Ngoại
Thương, v.v. Thực thể có tên (named entity) là một thực thể được biểu diễn dưới
dạng tên riêng và chỉ duy nhất một đối tượng [5], [6], [18]. Trong các ví dụ ở
Bảng 2.1 là ví dụ phân biệt giữa thực thể có tên và nhóm thực thể, cụ thể:
• Đoàn Văn Hậu, Đại học Quốc gia Hà Nội, Hà Nội là thực thể có tên;
• Cầu thủ bóng đá, Trường đại học không phải là thực thể có tên.
Một số nghiên cứu trên thế giới, như [18], [19], sử dụng thuật ngữ thực thể (entity)
để chỉ thực thể có tên, và lớp thực thể (class) để chỉ những thực thể khác.
2.1.4. Kiểu của thực thể
Kiểu của thực thể có tên (named entity type) là loại của một thực thể như người
(Person), tổ chức (Organization), địa điểm (Place), v.v. [5], [6], [21]. Bảng 2.1
mô tả một vài ví dụ về các loại thực thể khác nhau. Theo đó, các thực thể có tên
như Donal Trump, Đại học Quốc gia Hà Nội là các thực thể có tên và kiểu tương
ứng của chúng. Trong khi đó, Trường đại học, Thành phố không phải một thực
thể duy nhất mà chỉ một lớp đối tượng, và vì thế không có kiểu tương ứng.
Bảng 2.1: Một vài ví dụ về thực thể có tên
Thực thể
Là thực thể có tên
Kiểu
Đoàn Văn Hậu
ü
Person
Donal Trump
ü
Person
Đại học Quốc gia Hà Nội
ü
Organization
Tập đoàn Viettel
ü
Organization
Hà Nội
ü
Place
Vientiane
ü
Place
Tây du ký
ü
Sea Game
ü
Event
Tôn Ngộ Không
ü
Character
Cầu thủ bóng đá
û
-
Trường đại học
û
-
Thành phố
û
-
Creative Work
11
2.2. Các hệ thống kiểu thực thể
Khái niệm về kiểu của thực thể và số lượng kiểu phụ thuộc vào từng bài toán,
từng lĩnh vực khác nhau. Trong khi những nghiên cứu chung [3], [5] chỉ quan tâm
đến một vài loại thực thể (số lượng thường không quá 10 loại), một số nghiên cứu
đặc thù cần quan tâm sâu hơn tới kiểu của thực thể, ví dụ:
• hệ tri thức[10], [18] cần biết một thực thể chỉ người là một người thật
(Person) hay một nhân vật hư cấu (Character);
• ứng dụng bản đồ9 cần biết một thực thể chỉ địa điểm là một tòa nhà
(Building) hay một ngọn núi (Mountain), v.v.
Trong bài toán xây dựng hệ tri thức, ngoài các kiểu chung, thì cần có các hệ thống
kiểu chi tiết, trong đó các kiểu như Person, Organization, v.v. được chia nhỏ thành
các kiểu chi tiết. Sau đây, luận văn sẽ giới thiệu một số hệ thống kiểu chi tiết phổ
biến.
2.2.1. Các hệ thống kiểu chi tiết cho Tiếng Anh
Các hệ thống kiểu chi tiết (fine-grained type system) được sử dụng rộng rãi trong
các hệ tri thức như Dbpedia [2], Wikidata [20], Yago [18], v.v. Gần đây, nhiều
công cụ nhận dạng thực thể có tên mới cho tiếng Anh cũng áp dụng các hệ thống
kiểu chi tiết này [4], [9], [17]. Bảng 2.2 chứa hơn 100 kiểu của thực thể được sử
dụng trong hệ thống nhận dạng tên riêng FIGER [9], ví dụ: kiểu Person chứa các
kiểu:
• Actor: chỉ diễn viên;
• Athlete: chỉ vận động viên;
• Musician: chỉ nhạc sĩ, v.v.
Hình 2.4 mô tả phân cấp của hệ thống kiểu trong hệ tri thức Dbpedia. Theo đó,
kiểu Person được chia nhỏ thành các cấp thấp chi tiết hơn như Artist, Engineer,
Athlete, Farmer, Scientist. Tiếp tục, các kiểu này lại được chia nhỏ hơn nữa, ví dụ
Artist được chia thành Dancer, Actor và Comedian.
9
https://www.google.com/maps
12
Hình 2.4 Kiến trúc của hệ thống kiểu trong hệ tri thức Dbpedia
Bảng 2.2: Các kiểu được sử dụng trong hệ thống FIGER [9]
- Xem thêm -