ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Vũ Ngọc Trình
NGHIÊN CỨU MỘT SỐ MÔ HÌNH HỌC ONTOLOGY
VÀ ỨNG DỤNG TRONG MIỀN DẦU KHÍ
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội – 2019
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Vũ Ngọc Trình
NGHIÊN CỨU MỘT SỐ MÔ HÌNH HỌC ONTOLOGY
VÀ ỨNG DỤNG TRONG MIỀN DẦU KHÍ
Chuyên ngành: Hệ thống Thông tin
Mã số: 9480104. 01
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Hà Quang Thụy
2. PGS.TSKH. Nguyễn Hùng Sơn
Hà Nội – 2019
LỜI CAM ĐOAN
Tôi xin cam đoan luận án này là công trình nghiên cứu của riêng tôi.
Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của các
đồng tác giả trước khi đưa vào luận án. Các kết quả nêu trong luận án là
trung thực và chưa từng được công bố trong các công trình nào khác.
Nghiên cứu sinh
Vũ Ngọc Trình
i
LỜI CẢM ƠN
Luận án được thực hiện tại Bộ môn Hệ thống thông tin – Khoa Công nghệ
thông tin – Trường Đại học Công nghệ - Đại học quốc gia Hà Nội dưới sự hướng
dẫn khoa học của PGS.TS. Hà Quang Thụy và PGS.TSKH. Nguyễn Hùng Sơn.
Trước tiên tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy Hà Quang Thụy và
thầy Nguyễn Hùng Sơn, những người đã đưa tôi tiếp cận và đạt được những
thành công trong lĩnh vực nghiên cứu của mình. Tôi đặc biệt gửi lời cảm ơn tới
thầy Hà Quang Thụy đã luôn tận tâm, động viên, khuyến khích và chỉ dẫn tôi
hoàn thành được bản luận án này.
Tôi xin bày tỏ lòng biết ơn tới PGS.TS. Nguyễn Ngọc Hóa, TS. Trần Mai
Vũ, TS. Trần Trọng Hiếu, đã nhiệt tình giúp đỡ, chia sẻ các kinh nghiệm nghiên
cứu trong quá trình tôi thực hiện luận án.
Tôi xin chân thành cảm ơn tới tập thể các thầy cô giáo, các nhà khoa học
thuộc Trường Đại học Công nghệ (đặc biệt là các thành viên của Phòng thí
nghiệm khoa học dữ liệu và công nghệ tri thức – DS&KTlab, và Bộ môn Các Hệ
thống Thông tin) - Đại học Quốc gia Hà Nội đã giúp đỡ về chuyên môn và tạo
điều kiện thuận lợi cho tôi trong suốt thời gian học tập và nghiên cứu.
Tôi xin bày tỏ lòng cảm ơn chân thành tới các cộng sự đã cùng tôi thực
hiện các công trình nghiên cứu và các bạn đồng nghiệp đã giúp đỡ, trao đổi và
chia sẻ những kinh nghiệm về chuyên môn, đóng góp các ý kiến quý báu cho tôi
trong quá trình nghiên cứu.
Tôi xin trân trọng cảm ơn các thầy cô trong hội đồng chuyên môn đã đóng
góp các ý kiến quý báu để tôi hoàn thiện luận án.
Tôi cũng bày tỏ lòng cảm ơn sâu sắc tới TS. Nguyễn Anh Đức, Viện
trưởng Viện Dầu khí Việt Nam và Ban lãnh đạo Viện Dầu khí Việt Nam (Tập
đoàn Dầu khí Quốc gia Việt Nam) đã tạo kiện thuận lợi cho tôi trong quá trình
nghiên cứu; cảm ơn các đồng nghiệp trong Ban CNTT thuộc Viện Dầu khí Việt
Nam đã luôn ủng hộ, quan tâm và động viên tôi.
Tôi luôn biết ơn những người thân trong gia đình, bố mẹ nội, bố mẹ ngoại,
các anh chị em đã luôn chia sẻ khó khăn, động viên và là chỗ dựa tinh thần vững
chắc cho tôi trong suốt thời gian qua.
ii
MỤC LỤC
LỜI CAM ĐOAN........................................................................................................ I
LỜI CẢM ƠN ........................................................................................................... II
MỤC LỤC ................................................................................................................ III
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .............................................. VI
DANH MỤC CÁC BẢNG.................................................................................... VIII
DANH MỤC CÁC HÌNH VẼ.................................................................................. IX
MỞ ĐẦU .................................................................................................................... 1
CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ ONTOLOGY, HỌC ONTOLOGY VÀ
ĐỘ ĐO GOOGLE ....................................................................................... 10
1.1. GIỚI THIỆU CHUNG VỀ ONTOLOGY ..................................................... 10
1.1.1. Khái niệm ontology ................................................................................. 10
1.1.2. Phân loại ontology ................................................................................... 12
1.1.3. Một ví dụ về ontology miền .................................................................... 14
1.1.4. Nguyên lý và quy trình thiết kế ontology miền....................................... 17
1.1.5. Công cụ xây dựng ontology .................................................................... 20
1.2. GIỚI THIỆU CHUNG VỀ HỌC ONTOLOGY ........................................... 21
1.2.1. Khung nhìn học ontology ........................................................................ 21
1.2.2. Kỹ thuật và tài nguyên được sử dụng trong học ontology ...................... 25
1.2.3. Liên hệ nghiên cứu của luận án vào các khung nhìn khái quát về học
ontology ........................................................................................................ 26
1.2.4. Bộ các độ đo đánh giá mô hình phân lớp ................................................ 27
1.3. ĐỘ ĐO KHOẢNG CÁCH GOOGLE ........................................................... 29
1.3.1. Độ phức tạp Kolmogorov, khoảng cách thông tin và khoảng cách
thông tin chuẩn hóa ...................................................................................... 30
1.3.2. Khoảng cách nén chuẩn hóa .................................................................... 32
1.3.3. Khoảng cách Google và tính chất ........................................................... 33
1.4. Kết luận Chương 1 ......................................................................................... 36
CHƯƠNG 2. MÔ HÌNH HỌC ONTOLOGY TÍCH HỢP VÀ ĐOÁN NHẬN
THỰC THỂ ................................................................................................. 38
2.1. PHÁT BIỂU BÀI TOÁN VÀ MÔ HÌNH GIẢI QUYẾT ............................. 38
2.1.1. Phát biểu bài toán .................................................................................... 39
2.1.2. Tập tài nguyên xây dựng ontology biểu hiện y sinh mở rộng ................ 39
2.1.3. Ba tài nguyên biểu hiện y sinh làm tập dữ liệu kiểm thử........................ 41
2.1.4. Mô hình hai pha giải quyết bài toán ........................................................ 43
2.2. Thành phần xây dựng và tích hợp các kho ngữ liệu thực thể biểu hiện y
sinh ................................................................................................................... 44
iii
2.2.1. Mô hình tích hợp hai ontology biểu hiện y sinh ..................................... 44
2.2.2. Thành phần xây dựng kho ngữ liệu HPO_NC ........................................ 44
2.2.3. Thành phần xây dựng kho ngữ liệu MPO_NC ....................................... 47
2.2.4. Thành phần phát hiện quan hệ bắc cầu (bổ sung quan hệ) trong
ontology kết quả ........................................................................................... 49
2.2.5. Kết quả tích hợp hai ontology ................................................................. 51
2.3. XÂY DỰNG MÔ HÌNH HỌC MÁY MAXIMUM ENTROPY – BEAM
SEARCH NHẬN DẠNG THỰC THỂ BIỂU HIỆN Y SINH ........................ 51
2.3.1. Mô hình học máy Maximum Entropy ..................................................... 52
2.3.2. Mô hình học máy Maximum Entropy - Beam Search nhận dạng thực
thể biểu hiện y sinh....................................................................................... 57
2.3.3. Dữ liệu thực nghiệm và công cụ ............................................................. 57
2.3.4. Kết quả và đánh giá ................................................................................. 59
2.3.5. Phân tích lỗi ............................................................................................. 60
2.4. KẾT LUẬN CHƯƠNG 2 .............................................................................. 62
CHƯƠNG 3. KỸ THUẬT HỌC ONTOLOY DỰA TRÊN CÁC ĐỘ ĐO ............. 63
3.1. MỘT MÔ HÌNH HỌC ONTOLOGY THEO TỪ VỰNG DỰA TRÊN ĐỘ
ĐO KHOẢNG CÁCH GOOGLE.................................................................... 63
3.1.1. Phát biểu bài toán .................................................................................... 63
3.1.2. Mô hình đối sánh các thuộc tính của hai khái niệm thuộc hai ontology
miền .............................................................................................................. 64
3.1.3. Mô hình đối sánh các khái niệm và học hai ontology dựa trên độ đo
khoảng cách Google ..................................................................................... 65
3.1.4. Ví dụ minh họa đối sánh khái niệm ........................................................ 69
3.2. MÔ HÌNH HỌC ONTOLOGY ANH - VIỆT DỰA TRÊN KỸ THUẬT
HỌC MÁY VỚI CHỈ DỮ LIỆU DƯƠNG ...................................................... 71
3.2.1. Wikipedia là một nguồn tài nguyên xây dựng ontology ......................... 71
3.2.2. Phát biểu bài toán .................................................................................... 72
3.2.3. Chiến lược hai bước phân lớp dữ liệu với chỉ dữ liệu dương ................. 74
3.2.4. Mô hình đề xuất....................................................................................... 78
3.2.5. Thực nghiệm và đánh giá kết quả ........................................................... 86
3.2.6. Phát triển mô hình đề xuất....................................................................... 92
3.3. KẾT LUẬN CHƯƠNG 3 .............................................................................. 96
CHƯƠNG 4. KHUNG HỢP NHẤT NIỀM TIN THU NHẬN Ý KIẾN
CHUYÊN GIA MIỀN ................................................................................. 97
4.1. THU NHẬN Ý KIẾN CHUYÊN GIA TRONG XÂY DỰNG
ONTOLOGY ................................................................................................... 97
4.1.1. Vai trò của chuyên gia trong xây dựng ontology .................................... 97
4.1.2. Mô hình tranh luận trong xây dựng ontology ......................................... 98
iv
4.2. CƠ SỞ NIỀM TIN PHÂN TẦNG, HỢP NHẤT NIỀM TIN VÀ KHUNG
TRANH LUẬN................................................................................................ 99
4.2.1. Cơ sở niềm tin phân tầng......................................................................... 99
4.2.2. Hợp nhất niềm tin .................................................................................. 101
4.2.3. Khung tranh luận ................................................................................... 102
4.3. KHUNG HỢP NHẤT NIỀM TIN DỰA TRÊN TRANH LUẬN .............. 104
4.3.1. Giao thức tranh luận cho hợp nhất niềm tin .......................................... 104
4.3.2. Lập luận hợp nhất niềm tin.................................................................... 104
4.3.3. Mô hình hợp nhất niềm tin dựa trên tranh luận..................................... 106
4.4. ÁP DỤNG VÀO ONTOLOGY DẦU KHÍ ANH - VIỆT ........................... 111
4.5. KẾT LUẬN CHƯƠNG 4 ............................................................................ 115
CHƯƠNG 5. MỘT QUY TRÌNH XÂY DỰNG ONTOLOGY DẦU KHÍ ANH VIỆT TẠI VIỆN DẦU KHÍ VIỆT NAM ................................................. 116
5.1. ĐẶT VẤN ĐỀ ............................................................................................. 116
5.2. MỘT QUY TRÌNH BẢY BƯỚC XÂY DỰNG ONTOLOGY DẦU KHÍ
ANH - VIỆT .................................................................................................. 119
5.2.1. Bước 1. Xác định mục đích và phạm vi của Ontology dầu khí Anh Việt ............................................................................................................. 119
5.2.2. Bước 2. Thu thập tài nguyên Ontology dầu khí Anh – Việt sẵn có ...... 121
5.2.3. Bước 3. Tích hợp các ontology dầu khí Tiếng Anh .............................. 121
5.2.4. Bước 4. Làm giàu khái niệm dầu khí Tiếng Việt tiềm năng ................. 121
5.2.5. Bước 5. Đối sánh khái niệm miền dầu khí Tiếng Việt.......................... 122
5.2.6. Bước 6. Bổ sung thành phần Tiếng Việt vào ontology dầu khí Tiếng
Anh ............................................................................................................. 122
5.2.7. Bước 7. Hiệu chỉnh ontology dựa trên khung hợp nhất niềm tin qua
tranh luận thu thập ý kiến chuyên gia ........................................................ 122
5.3. TRIỂN KHAI THỰC HIỆN ........................................................................ 123
5.3.1. Thu thập và tiền xử lý dữ liệu ............................................................... 123
5.3.2. Thực thi ontology dầu khí Anh - Việt trên hệ thống máy tính.............. 125
5.4. KẾT QUẢ .................................................................................................... 126
5.5. KẾT LUẬN CHƯƠNG 5 ............................................................................ 126
KẾT LUẬN ............................................................................................................ 127
DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI
LUẬN ÁN ................................................................................................. 130
TÀI LIỆU THAM KHẢO ...................................................................................... 131
Tài liệu tiếng Việt ............................................................................................ 131
Tài liệu tiếng Anh ............................................................................................ 131
v
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Kí hiệu
Tiếng Anh
Tiếng Việt
AI
Artificial Intelligence
Trí tuệ nhân tạo
ML
Machine Learning
Học máy
OL
Ontology Learning
Học ontology
TM
Text Mining
Khai phá văn bản
DO
Domain Ontology
Ontology miền
Knowledge Management
System
Hệ thống quản lý tri thức
KS
Knowledge Sharing
Chia sẻ tri thức
SE
Search Engine
Máy tìm kiếm
Maximum Entropy - Beam
Search
Entropy cực đại – Tìm kiếm
chùm
Support Vector Machine
Máy vectơ hỗ trợ
Iterative-SVM
Lặp - SVM
NB
Naive Bayes
Thống kê Naive Bayes
kNN
k Nearest Neighbour
k láng giềng gần nhất
POS
Part of Speech
Từ loại
LPU
Learning with Positive and
Unlabeled data
Học với dữ liệu dương và dữ
liệu chưa gán nhãn
P
Precision
Độ chính xác
R
Recall
Độ hồi tưởng
Harmonic mean
Trung bình điều hòa, là sự kết
hợp của độ chính xác và độ hồi
tưởng
Reliable Negative
Dữ liệu âm tin cậy
KMS
ME-BS
SVM
I-SVM
F1;
F1-Score
RN
vi
TF-IDF
NID
NCD
NCDG
PVN
VPI
Term Frequency – Inverse
Document Frequency
Trọng số về tần suất và độ quan
trọng của từ
Normalized Information
Distance
Khoảng cách thông tin được
chuẩn hóa
Normalized Compress Distance
Khoảng cách nén được chuẩn
hóa
Normalized Compress Google
Distance
Khoảng cách nén Google được
chuẩn hóa (Khoảng cách
Goolge chuẩn)
Petrovietnam; Vietnam Oil and
Gas Group
Tập đoàn Dầu khí quốc gia
Việt Nam
Vietnam Petroleum Institute
Viện dầu khí Việt Nam
vii
DANH MỤC CÁC BẢNG
Bảng 1.1. Ma trận nhầm lẫn của một bộ phân lớp ...............................................27
Bảng 2.1. Quan hệ giữa tài liệu OMIM có chỉ số OMIM ID: 600361 với các thực
thể biểu hiện người (theo chỉ số) nhận được từ
phenotype_annotation.tab ...................................................................45
Bảng 2.2. Một số thông tin thống kê về các ontology HPO_NC, MPO_NC và
HPO_MPO_NC ...................................................................................51
Bảng 2.3. Các đặc trưng biểu diễn dữ liệu được sử dụng trong luận án ..............58
Bảng 2.4. Đánh giá các kết quả (tính theo %)......................................................60
Bảng 2.5. Số lượng trung bình của các thẻ trên thực thể biểu hiện trong tất cả các
tập dữ liệu ............................................................................................61
Bảng 3.1. Ma trận khoảng cách giữa các thuộc tính trong hai ontology .............70
Bảng 3.2. Kết quả các độ đo P, R, F của các thuật toán ......................................88
Bảng 3.3. Sự phụ thuộc của độ đo F trong thuật toán ROC/ISVM và DISTANCE
vào tỷ lệ ............................................................................................88
Bảng 3.4. Ví dụ về một số khái niệm mới và mô tả có thể đưa thêm vào từ điển
dầu khí. ................................................................................................89
Bảng 4.1. Phương thức thi hành các pha xây dựng ontology cơ sở miền [38] ....98
Bảng 4.2. Thứ tự ưu tiên đối với các yêu cầu của các chuyên gia (lớp cao hơn thì
được ưu tiên hơn) ..............................................................................108
viii
DANH MỤC CÁC HÌNH VẼ
Hình 0.1. Một biểu diễn số lượng ấn phẩm khoa học có chứa chính xác cụm từ
“ontology learning” trên ScienceDirect, Springer và Google Scholar .................. 4
Hình 0.2. Phân bố các chủ đề trong các chương của luận án................................. 8
Hình 1.1. Các tầng đối tượng trong ontology và ví dụ [11][17], [32] .................11
Hình 1.2. Ví dụ về ontology dầu khí tiếng Việt ...................................................14
Hình 1.3. Hai khung quy trình xây dựng ontology phổ biến và liên hệ giữa chúng
[39] .......................................................................................................................18
Hình 1.4. Một khung nhìn học ontology theo các nhiệm vụ [79] ........................22
Hình 1.5. Một khung nhìn các thành phần trong một hệ thống học ontology [17],
[35], [78]...............................................................................................................24
Hình 1.6. Minh họa độ hồi tưởng và độ chính xác. R là tập ví dụ kiểm thử được
bộ phân lớp gán nhãn dương, L là tập vị dụ kiểm thử thực tế có nhãn dương [5].
..............................................................................................................................28
Hình 2.1. Mô hình hai pha giải quyết bài toán .....................................................43
Hình 2.2. Mô hình xây dựng và tích hợp các kho ngữ liệu thực thể biểu hiện ....44
Hình 2.3. Mô hình xây dựng kho ngữ liệu HPO_NC các thực thể biểu hiện người
..............................................................................................................................45
Hình 2.4. OMIMID 600361 có quan hệ với chín PubMedID ..............................46
Hình 2.5. Mô hình xây dựng kho ngữ liệu MPO_NC về các thực thể biểu hiện
động vật có vú ......................................................................................................48
Hình 2.6. Mô hình xây dựng kho ngữ liệu MPO_NC về các thực thể biểu hiện
động vật có vú ......................................................................................................49
Hình 2.7. Suy diễn quan hệ giữa các thực thể thông qua kết nối hai kho ngữ liệu
..............................................................................................................................50
Hình 2.8. Mô hình học máy ME-BS nhận dạng thực thể y sinh từ văn bản
PubMed ................................................................................................................56
ix
Hình 3.1. Mô hình đối sánh tập thuộc tính của hai khái niệm thuộc hai ontology
miền (Procedure Matching (c1, c2)) ....................................................................64
Hình 3.2. Mô hình đối sánh các khái niệm thuộc hai ontology miền ..................66
Hình 3.3. Minh họa Wikipedia Tiếng Việt ..........................................................72
Hình 3.4. Minh họa từ điển dầu khí Anh – Việt: Cột bên phải mô tả một khái
niệm dầu khí tiếng Việt ........................................................................................73
Hình 3.5. Lược đồ tìm tập dữ liệu “âm tin cậy” trong chiến lược hai bước [56] 77
Hình 3.6. Mô hình học ontology khái niệm dầu khí Wikipedia tiếng Việt .........78
Hình 3.7. Sự phụ thuộc của độ đo F trong thuật toán ROC/ISVM và DISTANCE
vào tỷ lệ .............................................................................................................87
Hình 3.8. Mô hình triển khai thu nhận ý kiến chuyên gia ...................................94
Hình 4.1. Thủ tục xây dựng một ontology cơ sở miền [38].................................97
Hình 5.1. Quy trình bảy bước xây dựng ontology dầu khí Anh - Việt ..............118
x
MỞ ĐẦU
Tính cấp thiết của luận án
Ontology (được một số nhà nghiên cứu người Việt gọi là “bản thể học”
hoặc “bản thể luận” 1) là một thành phần tri thức nền tảng và mọi tri thức khác
cần được dựa trên và tham chiếu đến nó. Chính vì vậy, ontology được áp dụng
rộng khắp trong lĩnh vực trí tuệ nhân tạo (Artificial Intelligence: AI), quản lý tri
thức (Knowledge Management: KM), trong nhiều hệ thống ứng dụng và trong
rất nhiều miền ứng dụng khác nhau. Một khu vực ứng dụng ontology vô cùng
rộng lớn là trong các công cụ tìm kiếm (search engine) và chia sẻ tri thức
(knowledge sharing), ở đó, ontology hỗ trợ đắc lực hoạt động tìm kiếm có cấu
trúc, so sánh được và tùy chỉnh cao [7], [19], [32], [40], [76], [77].
Thuật ngữ “ontology” được các cộng đồng nghiên cứu – triển khai khác
nhau hiểu theo các ý nghĩa khác nhau. Có sự phân biệt thuật ngữ “Ontology” là
danh từ riêng (chữ cái “O” đầu tiên viết hoa) với “ontology” là danh từ chung
(chữ cái “o” đầu tiên viết thường và đây là một danh từ đếm được) [35]. Danh từ
riêng “Ontology” là được dành riêng cho cộng đồng nghiên cứu triết học, danh
từ chung “ontology” là được dành cho mọi cộng đồng sử dụng thuật ngữ này như
một kiểu thông tin đặc biệt hoặc một tạo tác (artifact) tính toán trình diễn tri
thức. Luận án này nghiên cứu “ontology” theo phương án danh từ chung, hay
“ontology” được hiểu là ontology tính toán (computational ontologies).
Định nghĩa ontology tính toán là một công việc hết sức khó khăn và nhiều
định nghĩa đã được đưa ra. Theo một khung nhìn phổ quát, ontology là một sản
phẩm trình diễn với thành phần đặc thù là một bảng phân loại biểu diễn tường
minh một tổ hợp các kiểu, các lớp và một số quan hệ giữa chúng [7]. Trong một
khung nhìn khoa học máy tính, ontology là một mô tả một cách hệ thống các
thực thể và các phương thức của chúng, các quy tắc cho phép mô tả một mô hình
cụ thể phù hợp với các thực thể và quy trình cho phép mô tả "tất cả" các thực thể
và quy trình này [71]. Theo cách hiểu thông dụng nhất, một ontology bao gồm
1
Do thuật ngữ “bản thể học” hoặc “bản thể luận” là các thuật ngữ có nguồn gốc vay mượn từ ngôn ngữ khác
mà không gợi nghĩa nhiều hơn thuật ngữ “ontology” cho nên luận án này sử dụng nguyên gốc “ontology”.
1
các thuật ngữ, các khái niệm quan trọng, phân loại các khái niệm, phân cấp các
khái niệm, các quan hệ giữa các khái niệm (bao gồm các ràng buộc quan trọng),
các tiên đề ứng dụng và các thể hiện cho các đối tượng kể trên.
Ontology được phân loại thành ontology triết học (philosophical
ontology), ontology miền (domain ontology), ontology mức cao (top-level
ontology), ontology tham chiếu (reference ontology) và ontology ứng dụng
(application ontology) [7]. Ngoại trừ ontology triết học, tất cả các loại ontology
đều thuộc về loại ontology miền.
Do phạm vi ứng dụng rộng rãi của ontology, xây dựng ontology là một bài
toán có tầm quan trọng đặc biệt, là một chủ đề nghiên cứu nhận được sự quan
tâm đặc biệt của các cộng đồng nghiên cứu – triển khai thuộc các ngành khoa
học đa dạng. Nhìn chung, quá trình xây dựng ontology bao gồm ba giai đoạn
(xác định mục đích và phạm vi, nắm bắt ontology và thực thi ontology) [39]. Các
nội dung đặc biệt quan trọng trong xây dựng ontology là (i) xác định mục đích
và phạm vi của ontology cần xây dựng, (ii) xác định các khái niệm/lớp, thực
thể/cá thể, quan hệ/phân cấp trong phạm vi ontology cần xây dựng, (iii) khai thác
các ontology sẵn có, và (iv) huy động tri thức và sự tham gia của các chuyên gia
miền [7], [39].
Hiện chưa có ontology tiếng Việt cho miền dầu khí, song một vài
ontology tiếng Việt cho các miền ứng dụng khác đã được xây dựng, điển hình là
ontology VN-KIM và thành phần ontology tiếng Việt trong hệ thống BioCasster.
VN-KIM [3], [63] được phát triển tại Đại học Bách khoa, Đại học Quốc gia Tp.
Hồ Chí Minh. Ontology này bao gồm 347 lớp thực thể và 114 quan hệ và thuộc
tính. Ontology VN-KIM bao gồm các lớp thực thể có tên phổ biến như
Con_người (Person), Tổ_chức (Organization), Tỉnh (Province), Thành_phố
(City)…, các quan hệ giữa các lớp thực thể và các thuộc tính của mỗi lớp thực
thể. Cơ sở tri thức của VN-KIM là một tập hợp các thực thể có tên phổ biến ở
Việt Nam và Quốc tế. Các thực thể thuộc về các miền chính như: Con người (các
nguyên thủ quốc gia, các giám đốc công ty, bác sỹ, nhà giáo, văn nghệ sỹ…); Tổ
chức, công ty (các tổ chức xã hội, giáo dục, công ty…); Đơn vị hành chính (các
tỉnh, thành phố, quận, huyện, phường, xã ở Việt Nam và các thành phố lớn trên
thế giới); Sông, núi (các sông, núi lớn ở Việt Nam và thế giới); Đường (các
đường lớn ở Hà Nội, TP. Hồ Chí Minh, các tỉnh lộ, quốc lộ); Điểm đặc biệt (các
2
di tích lịch sử, danh lam thắng cảnh, khu vui chơi giải trí nổi tiếng). BioCaster
[22], [23], [24], là một ontology trong lĩnh vực y tế được viết dưới nhiều ngôn
ngữ như Nhật, Thái, và Việt Nam. BioCaster là một dự án nghiên cứu nhằm
cung cấp chức năng tìm kiếm nâng cao và phân tích các tin tức trên Internet và
các tài liệu nghiên cứu liên quan, cho các nhân viên làm việc trong lĩnh vực y tế
cộng đồng, các thầy thuốc lâm sàng, và các nhà nghiên cứu trong lĩnh vực các
bệnh truyền nhiễm. Ontology BioCaster được Nigel Collier thuộc Viện Thông
tin Quốc gia Nhật Bản cùng các đồng nghiệp tại Viện các bệnh lây nhiễm Quốc
gia Nhật Bản, Viện Di truyền học Quốc gia Nhật Bản, Đại học Okayama, Đại
học Quốc gia TP.HCM và Đại học Kasetsarat phát triển. Dựa vào công nghệ
khai phá dữ liệu văn bản, dự án cung cấp các công cụ thông minh giúp người sử
dụng có được cái nhìn rõ ràng hơn về các đợt dịch bệnh đã xảy ra cũng như khả
năng bùng phát dịch. Ontology BioCaster chứa các thuật ngữ trên nhiều ngôn
ngữ, trong đó có 371 thuật ngữ tiếng Việt (các thuật ngữ liên quan đến bệnh,
virus, và các triệu chứng tại Việt Nam). Mặc dù ontology này có xử lý trích chọn
thông tin tiếng Việt, tuy nhiên, các quan hệ trong thành phần ontology này lại
được mô tả bằng tiếng Anh.
Theo C. Sammut và G.I. Webb [70], xây dựng ontology là một bài toán
đầy thách thức, nhiều tiếp cận xây dựng ontology khác nhau đã được sử dụng,
tuy nhiên, hầu hết các tiếp cận này cho đến nay chủ yếu vẫn sử dụng các phương
pháp thủ công. Học ontology (ontology learning) là cách tiếp cận bán tự động
xây dựng ontology dựa trên việc sử dụng các kỹ thuật khai phá văn bản (text
mining) hoặc/và học máy (machine learning). Học ontology phục vụ việc xác
định các khái niệm/lớp, thực thể/cá thể, quan hệ/phân cấp trong phạm vi tri thức
miền. Học ontology là một xu hướng có tính hiện đại và đầy thách thức trong
nghiên cứu xây dựng ontology [6], [17], [21], [25], [27], [35], [40], [46], [58],
[62], [67], [74], [78], [79], [80].
Học ontology là chủ để nghiên cứu nhận được sự quan tâm của cộng đồng
nghiên cứu. Hình 0.1 cung cấp một biểu diễn số lượng các công trình khoa học
trên ScienceDirect, Springer và Google Scholar giai đoạn 2006 – 2019 có chứa
chính xác cụm từ “ontology learning” trong tiêu đề ấn phẩm (với ScienceDirect
3
và Google Scholar Advanced Search “not include patents, not include citations”)
hoặc trong thông tin mô tả ấn phẩm (với Springer)2. Kết quả thống kê chỉ ra
hàng năm có tới hàng chục ấn phẩm chứa chính xác cụm từ “ontology learning”
ở tiêu đề (ScienceDirect và Google Scholar) hoặc ở thông tin mô tả (Springer).
Số lượng công bố là khá ổn định qua thống kê với ScienceDirect và Google
Scholar. Trong khi đó, số lượng công bố với Springer có xu thế giảm có thể có
nguyên nhân từ nguồn chứa cụm từ “ontology learning” hoặc sự phân chia chủ
đề “ontology learning” thành các chủ đề con chi tiết hơn.
Hình 0.1. Một biểu diễn số lượng ấn phẩm khoa học có chứa chính xác
cụm từ “ontology learning” trên ScienceDirect, Springer và Google Scholar
Xây dựng ontology và học ontology là chủ đề nghiên cứu của một số luận
án Tiến sỹ trên thế giới, chẳng hạn như [29], [34], [1]. Luận án Tiến sỹ của Z.
Dragisic [29] đề cập tới việc giải quyết vấn đề chưa hoàn thiện các ontology và
mạng ontology theo ba câu hỏi về cách thức hoàn thiện ontology và mạng
ontology chưa hoàn thiện, về thuận lợi và hạn chế khi sử dụng tương tác người
dùng vào việc hoàn thiện ontology và mạng ontology, về khả năng tích hợp
thành phần hoàn thiện ontology vào quá trình phát triển ontology. Tác giả hình
thức hóa vấn đề hoàn thiện cấu trúc “chung-riêng” (“is-a”) dựa trên logic mô tả
2
Kết quả trả về theo truy vấn cụm từ chính xác “ontology learning” vào ngày 20/6/2019.
4
(description logic) và phát triển hai thuật toán giải quyết vấn đề, phân tích thực
nghiệm đối với việc sử dụng tương tác người dùng và phát triển một phương
pháp dựa trên thuật toán phân cụm để giảm không gian tìm kiếm khi tích hợp
thành phần hoàn thiện vào quá trình phát triển ontology. Luận án Tiến sỹ của
Saira Andleeb Gillani [34] đề xuất một khung khai phá dữ liệu văn bản ProMine
(Prokex Text Mining) với dữ liệu đầu vào là mô hình quy trình nghiệp vụ được
trình diễn bằng các tệp tin XML. Dựa trên một ontology miền hạt giống (seed
domain ontology, còn được gọi là ontology miền mồi), bộ công cụ học ontology
tiến hành việc lọc và phân loại tri thức kết quả để làm giàu ontology miền hạt
giống nói trên [33]. Đến lượt mình, ontology miền hạt giống được sử dụng để
diễn giải và tư vấn về mô hình quy trình nghiệp vụ. Luận án Tiến sỹ của Trương
Hải Bằng [1] đề cập tới các giải pháp liên quan đến ontology mờ (chứa các khái
niệm, quan hệ... chưa rõ ràng, nhập nhằng, mâu thuẫn với nhau) dựa trên cơ sở
lý thuyết đồng thuận; luận án này chưa đề cập tới yếu tố tiếng Việt trong
ontology.
Tính chất thách thức cao của chủ đề nghiên cứu xây dựng ontology, yêu
cầu các phương pháp bán tự động xây dựng ontology hiện đại dựa trên khai phá
văn bản và học máy, tình trạng nghiên cứu xây dựng ontology tiếng Việt còn
mỏng đã tạo động lực nghiên cứu đối với luận án “Nghiên cứu một số mô hình
học ontology và ứng dụng trong miền dầu khí”.
Bài toán cần giải quyết trong luận án được phát biểu như sau: Cho trước
một từ điển Anh – Việt một miền ứng dụng, cần xây dựng một ontology AnhViêt miền ứng dụng nói trên. Luận án sử dụng tiếp cận học ontology dựa trên
việc khai thác các tài nguyên sẵn có (từ điển Anh-Việt miền, các ontology tiếng
Anh miền) để xác định các khái niệm/lớp, thực thể/cá thể, quan hệ/phân cấp
trong phạm ontology cần xây dựng với việc huy động tri thức và sự tham gia của
các chuyên gia miền.
W. Wong và cộng sự [79] cung cấp một khung nhìn khái quát về học
ontology từ văn bản. Khung nhìn này chứa ba khu vực là khu vực kết quả đầu ra,
khu vực bài toán học ontology và khu vực kỹ thuật và tài nguyên được sử dụng
để phục vụ các bài toán học ontology. Khu vực kết quả đầu ra của học ontology
bao gồm các thuật ngữ, các khái niệm, các quan hệ (quan hệ thứ bậc, quan hệ
không thứ bậc) và các tiên đề. Có bảy bài toán học ontology chính là Xử lý văn
5
bản và Trích xuất thuật ngữ cho kết quả là các thuật ngữ, Hình thức hóa khái
niệm và Gán nhãn khái niệm cho kết quả là các khái niệm, Xây dựng kiến trúc
cho kết quả là các quan hệ thứ bậc, bài toán Phát hiện quan hệ không thứ bậc và
Gán nhãn quan hệ không thứ bậc cho kết quả là các quan hệ không thứ bậc,
Trích xuất tiên đề kết quả là các tiên đề. Khu vực Kỹ thuật/Tài nguyên bao gồm
ba thành phần chính là kỹ thuật/tài nguyên logic, kỹ thuật/tài nguyên ngôn ngữ
học và kỹ thuật/tài nguyên thống kê. Với sáu lập luận, các tác giả nhận định rằng
sự đan xen giữa học ontology và sử dụng web là một xu thế tự nhiên và sử dụng
thông tin trên web để học ontology có nhiều triển vọng. Xu thế trên đây đã định
hướng vào các mô hình học ontology có sử dụng các tài nguyên Web trong luận
án (độ đo khoảng cách Googe, thông tin từ Wikipedia tiếng Việt, các công cụ
sánh thuật ngữ miền ứng dụng có sử dụng Web, v.v.).
Do đặc điểm bán tự động, học ontology thường bao gồm các thành phần
huy động sự tham gia của con người vào quá trình xây dựng ontology. Ví dụ,
khung xây dựng ontology cơ sở miền của S-H. Hsieh và cộng sự [38] chứa một
thành phần quan trọng thực hiện việc huy động các chuyên gia tham gia vào
công việc hiệu chỉnh lại các quan hệ thuật ngữ. Tích hợp ý kiến của nhiều
chuyên gia vào việc hiệu chỉnh quan hệ thuật ngữ để nhận được các quan hệ phù
hợp nhất là một bài toán rất có ý nghĩa. Theo định hướng này, luận án đề nghị
một khung hợp nhất niềm tin dựa trên tranh luận, cung cấp một cơ sở lý thuyết
nền tảng để triển khai các thành phần hệ thống trong thực tiễn.
Nghiên cứu của luận án hướng tới một số mục tiêu sau đây. Thứ nhất,
luận án hướng tới việc đề xuất một số mô hình học ontplogy dựa trên khai phá
dữ liệu văn bản và học máy kết hợp với việc sử dụng một số độ đo. Theo định
hướng này, luận án tập trung đề xuất các mô hình học ontology phát sinh thể
hiện và quan hệ, học ontology thông qua việc kết hợp các ontology sẵn có. Thứ
hai, luận án hướng tới việc đề xuất các mô hình hợp nhất được tri thức từ các
chuyên gia miền vào xây dựng ontology. Cuối cùng, luận án hướng tới việc xây
dựng được một ontology Anh – Việt miền dầu khí phục vụ công tác nghiệp vụ
tại Tập đoàn Dầu khí quốc gia Việt Nam.
Đối tượng nghiên cứu của luận án là mô hình học ontology dựa trên các
kỹ thuật khai phá dữ liệu văn bản, học máy và thu nhận tri thức chuyên gia miền
ứng dụng vào xây dựng ontology miền.
6
Phạm vi nghiên cứu của luận án được giới hạn trong phạm vi các mô
hình học ontology theo phương thức bán tự động dựa trên các kỹ thuật khai phá
dữ liệu, học máy và tích hợp tri thức.
Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết đề xuất các
mô hình bán tự động xây dựng ontology (dựa trên các kỹ thuật khai phá dữ liệu,
học máy và tích hợp tri thức), nghiên cứu thực nghiệm để kiểm chứng đánh giá
các mô hình được đề xuất và công bố các kết quả nghiên cứu trên các ấn phẩm
khoa học có uy tín.
Luận án tham gia vào dòng nghiên cứu học ontology trên thế giới và đạt
được một số đóng góp bước đầu, tập trung vào các nghiên cứu, đề xuất các mô
hình học ontology miền.
Về phương diện lý thuyết, luận án có hai đóng góp chính vào dòng nghiên
cứu học ontology. Thứ nhất, luận án đề xuất ba mô hình học ontology gồm (i) mô
hình học ontology xây dựng một ontology kết hợp dữ liệu từ các ontology sẵn có
sử dụng học máy Maximum Entropy và Beam Search nhận dạng thực thể miền
[VNTrinh1], [VNTrinh4], (ii) mô hình học ontology sử dụng độ đo Google để tích
hợp một số tập khái niệm miền sẵn có thành một tập khái niệm miền mới lớn hơn
[VNTrinh2], [VNTrinh4], (iii) mô hình học ontology dựa trên học máy với chỉ dữ
liệu dương và dữ liệu không gán nhãn để bổ sung các khái niệm miền mới từ kho
tài nguyên Wikipedia tiếng Việt vào tập khái niệm miền tiếng Việt sẵn có
[VNTrinh4]. Luận án cũng đề xuất thuật toán học máy với chỉ dữ liệu dương và
dữ liệu không gán nhãn DISTANCE cho mô hình thứ ba. Thứ hai, luận án đề xuất
một mô hình thu nhận ý kiến chuyên gia miền vào quá trình xây dựng ontology
miền dựa trên một khung hợp nhất niềm tin dựa trên tranh luận (bao gồm giao
thức tranh luận hợp nhất niềm tin và lập luận hợp nhất niềm tin) và một thuật toán
xây dựng giải pháp tranh luận hợp nhất niềm tin tương ứng [VNTrinh3].
Về phương diện ứng dụng, luận án đề nghị một quy trình bảy bước xây
dựng một ontology dầu khí Anh-Việt. Quy trình này vừa tổng hợp các kết quả
nghiên cứu của luận án vừa cung cấp một phương án thực thi các kết quả nghiên
cứu vào thực tiễn. Một ontology Dầu khí Anh-Việt thực nghiệm đã được xây
dựng.
7
Bố cục của luận án gồm phần mở đầu và năm chương nội dung, phần kết
luận và danh mục các tài liệu tham khảo. Hình 0.2 cung cấp một khung nhìn sơ
bộ về phân bố các chủ đề trong năm chương nội dung của luận án.
Chương 1 của luận án cung cấp một nghiên cứu khảo sát khái quát về
ontology, xây dựng và học ontology và các kỹ thuật học ontology. Chương này
cũng trình bày về độ đo khoảng cách Google, một độ đo thông tin được luận án
sử dụng trong một số mô hình học ontology.
Hình 0.2. Phân bố các chủ đề trong các chương của luận án
Chương 2 của luận án trình bày chi tiết một mô hình học ontology nhận
diện thể hiện miền ứng dụng Y sinh dựa trên học máy Maximum Entropy-Beam
Search từ tài nguyên có trong hai ontology có trước. Mô hình học máy
Maximum Entropy phụ thuộc vào đặc trưng dữ liệu do đó khung mô hình làm
giàu thể hiện cho hai ontology cũng có khác biệt.
Trong Chương 3, luận án trình bày hai mô hình học ontology dựa trên việc
sử dụng các kỹ thuật khai phá dữ liệu văn bản, học máy kết hợp với các độ đo.
8
- Xem thêm -