Tài liệu Luận văn cntt nghiên cứu một số mô hình học ontology và ứng dụng trong miền dầu khí

  • Số trang: 150 |
  • Loại file: PDF |
  • Lượt xem: 167 |
  • Lượt tải: 0

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Ngọc Trình NGHIÊN CỨU MỘT SỐ MÔ HÌNH HỌC ONTOLOGY VÀ ỨNG DỤNG TRONG MIỀN DẦU KHÍ LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Ngọc Trình NGHIÊN CỨU MỘT SỐ MÔ HÌNH HỌC ONTOLOGY VÀ ỨNG DỤNG TRONG MIỀN DẦU KHÍ Chuyên ngành: Hệ thống Thông tin Mã số: 9480104. 01 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS. Hà Quang Thụy 2. PGS.TSKH. Nguyễn Hùng Sơn Hà Nội – 2019 LỜI CAM ĐOAN Tôi xin cam đoan luận án này là công trình nghiên cứu của riêng tôi. Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của các đồng tác giả trước khi đưa vào luận án. Các kết quả nêu trong luận án là trung thực và chưa từng được công bố trong các công trình nào khác. Nghiên cứu sinh Vũ Ngọc Trình i LỜI CẢM ƠN Luận án được thực hiện tại Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin – Trường Đại học Công nghệ - Đại học quốc gia Hà Nội dưới sự hướng dẫn khoa học của PGS.TS. Hà Quang Thụy và PGS.TSKH. Nguyễn Hùng Sơn. Trước tiên tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy Hà Quang Thụy và thầy Nguyễn Hùng Sơn, những người đã đưa tôi tiếp cận và đạt được những thành công trong lĩnh vực nghiên cứu của mình. Tôi đặc biệt gửi lời cảm ơn tới thầy Hà Quang Thụy đã luôn tận tâm, động viên, khuyến khích và chỉ dẫn tôi hoàn thành được bản luận án này. Tôi xin bày tỏ lòng biết ơn tới PGS.TS. Nguyễn Ngọc Hóa, TS. Trần Mai Vũ, TS. Trần Trọng Hiếu, đã nhiệt tình giúp đỡ, chia sẻ các kinh nghiệm nghiên cứu trong quá trình tôi thực hiện luận án. Tôi xin chân thành cảm ơn tới tập thể các thầy cô giáo, các nhà khoa học thuộc Trường Đại học Công nghệ (đặc biệt là các thành viên của Phòng thí nghiệm khoa học dữ liệu và công nghệ tri thức – DS&KTlab, và Bộ môn Các Hệ thống Thông tin) - Đại học Quốc gia Hà Nội đã giúp đỡ về chuyên môn và tạo điều kiện thuận lợi cho tôi trong suốt thời gian học tập và nghiên cứu. Tôi xin bày tỏ lòng cảm ơn chân thành tới các cộng sự đã cùng tôi thực hiện các công trình nghiên cứu và các bạn đồng nghiệp đã giúp đỡ, trao đổi và chia sẻ những kinh nghiệm về chuyên môn, đóng góp các ý kiến quý báu cho tôi trong quá trình nghiên cứu. Tôi xin trân trọng cảm ơn các thầy cô trong hội đồng chuyên môn đã đóng góp các ý kiến quý báu để tôi hoàn thiện luận án. Tôi cũng bày tỏ lòng cảm ơn sâu sắc tới TS. Nguyễn Anh Đức, Viện trưởng Viện Dầu khí Việt Nam và Ban lãnh đạo Viện Dầu khí Việt Nam (Tập đoàn Dầu khí Quốc gia Việt Nam) đã tạo kiện thuận lợi cho tôi trong quá trình nghiên cứu; cảm ơn các đồng nghiệp trong Ban CNTT thuộc Viện Dầu khí Việt Nam đã luôn ủng hộ, quan tâm và động viên tôi. Tôi luôn biết ơn những người thân trong gia đình, bố mẹ nội, bố mẹ ngoại, các anh chị em đã luôn chia sẻ khó khăn, động viên và là chỗ dựa tinh thần vững chắc cho tôi trong suốt thời gian qua. ii MỤC LỤC LỜI CAM ĐOAN........................................................................................................ I LỜI CẢM ƠN ........................................................................................................... II MỤC LỤC ................................................................................................................ III DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .............................................. VI DANH MỤC CÁC BẢNG.................................................................................... VIII DANH MỤC CÁC HÌNH VẼ.................................................................................. IX MỞ ĐẦU .................................................................................................................... 1 CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ ONTOLOGY, HỌC ONTOLOGY VÀ ĐỘ ĐO GOOGLE ....................................................................................... 10 1.1. GIỚI THIỆU CHUNG VỀ ONTOLOGY ..................................................... 10 1.1.1. Khái niệm ontology ................................................................................. 10 1.1.2. Phân loại ontology ................................................................................... 12 1.1.3. Một ví dụ về ontology miền .................................................................... 14 1.1.4. Nguyên lý và quy trình thiết kế ontology miền....................................... 17 1.1.5. Công cụ xây dựng ontology .................................................................... 20 1.2. GIỚI THIỆU CHUNG VỀ HỌC ONTOLOGY ........................................... 21 1.2.1. Khung nhìn học ontology ........................................................................ 21 1.2.2. Kỹ thuật và tài nguyên được sử dụng trong học ontology ...................... 25 1.2.3. Liên hệ nghiên cứu của luận án vào các khung nhìn khái quát về học ontology ........................................................................................................ 26 1.2.4. Bộ các độ đo đánh giá mô hình phân lớp ................................................ 27 1.3. ĐỘ ĐO KHOẢNG CÁCH GOOGLE ........................................................... 29 1.3.1. Độ phức tạp Kolmogorov, khoảng cách thông tin và khoảng cách thông tin chuẩn hóa ...................................................................................... 30 1.3.2. Khoảng cách nén chuẩn hóa .................................................................... 32 1.3.3. Khoảng cách Google và tính chất ........................................................... 33 1.4. Kết luận Chương 1 ......................................................................................... 36 CHƯƠNG 2. MÔ HÌNH HỌC ONTOLOGY TÍCH HỢP VÀ ĐOÁN NHẬN THỰC THỂ ................................................................................................. 38 2.1. PHÁT BIỂU BÀI TOÁN VÀ MÔ HÌNH GIẢI QUYẾT ............................. 38 2.1.1. Phát biểu bài toán .................................................................................... 39 2.1.2. Tập tài nguyên xây dựng ontology biểu hiện y sinh mở rộng ................ 39 2.1.3. Ba tài nguyên biểu hiện y sinh làm tập dữ liệu kiểm thử........................ 41 2.1.4. Mô hình hai pha giải quyết bài toán ........................................................ 43 2.2. Thành phần xây dựng và tích hợp các kho ngữ liệu thực thể biểu hiện y sinh ................................................................................................................... 44 iii 2.2.1. Mô hình tích hợp hai ontology biểu hiện y sinh ..................................... 44 2.2.2. Thành phần xây dựng kho ngữ liệu HPO_NC ........................................ 44 2.2.3. Thành phần xây dựng kho ngữ liệu MPO_NC ....................................... 47 2.2.4. Thành phần phát hiện quan hệ bắc cầu (bổ sung quan hệ) trong ontology kết quả ........................................................................................... 49 2.2.5. Kết quả tích hợp hai ontology ................................................................. 51 2.3. XÂY DỰNG MÔ HÌNH HỌC MÁY MAXIMUM ENTROPY – BEAM SEARCH NHẬN DẠNG THỰC THỂ BIỂU HIỆN Y SINH ........................ 51 2.3.1. Mô hình học máy Maximum Entropy ..................................................... 52 2.3.2. Mô hình học máy Maximum Entropy - Beam Search nhận dạng thực thể biểu hiện y sinh....................................................................................... 57 2.3.3. Dữ liệu thực nghiệm và công cụ ............................................................. 57 2.3.4. Kết quả và đánh giá ................................................................................. 59 2.3.5. Phân tích lỗi ............................................................................................. 60 2.4. KẾT LUẬN CHƯƠNG 2 .............................................................................. 62 CHƯƠNG 3. KỸ THUẬT HỌC ONTOLOY DỰA TRÊN CÁC ĐỘ ĐO ............. 63 3.1. MỘT MÔ HÌNH HỌC ONTOLOGY THEO TỪ VỰNG DỰA TRÊN ĐỘ ĐO KHOẢNG CÁCH GOOGLE.................................................................... 63 3.1.1. Phát biểu bài toán .................................................................................... 63 3.1.2. Mô hình đối sánh các thuộc tính của hai khái niệm thuộc hai ontology miền .............................................................................................................. 64 3.1.3. Mô hình đối sánh các khái niệm và học hai ontology dựa trên độ đo khoảng cách Google ..................................................................................... 65 3.1.4. Ví dụ minh họa đối sánh khái niệm ........................................................ 69 3.2. MÔ HÌNH HỌC ONTOLOGY ANH - VIỆT DỰA TRÊN KỸ THUẬT HỌC MÁY VỚI CHỈ DỮ LIỆU DƯƠNG ...................................................... 71 3.2.1. Wikipedia là một nguồn tài nguyên xây dựng ontology ......................... 71 3.2.2. Phát biểu bài toán .................................................................................... 72 3.2.3. Chiến lược hai bước phân lớp dữ liệu với chỉ dữ liệu dương ................. 74 3.2.4. Mô hình đề xuất....................................................................................... 78 3.2.5. Thực nghiệm và đánh giá kết quả ........................................................... 86 3.2.6. Phát triển mô hình đề xuất....................................................................... 92 3.3. KẾT LUẬN CHƯƠNG 3 .............................................................................. 96 CHƯƠNG 4. KHUNG HỢP NHẤT NIỀM TIN THU NHẬN Ý KIẾN CHUYÊN GIA MIỀN ................................................................................. 97 4.1. THU NHẬN Ý KIẾN CHUYÊN GIA TRONG XÂY DỰNG ONTOLOGY ................................................................................................... 97 4.1.1. Vai trò của chuyên gia trong xây dựng ontology .................................... 97 4.1.2. Mô hình tranh luận trong xây dựng ontology ......................................... 98 iv 4.2. CƠ SỞ NIỀM TIN PHÂN TẦNG, HỢP NHẤT NIỀM TIN VÀ KHUNG TRANH LUẬN................................................................................................ 99 4.2.1. Cơ sở niềm tin phân tầng......................................................................... 99 4.2.2. Hợp nhất niềm tin .................................................................................. 101 4.2.3. Khung tranh luận ................................................................................... 102 4.3. KHUNG HỢP NHẤT NIỀM TIN DỰA TRÊN TRANH LUẬN .............. 104 4.3.1. Giao thức tranh luận cho hợp nhất niềm tin .......................................... 104 4.3.2. Lập luận hợp nhất niềm tin.................................................................... 104 4.3.3. Mô hình hợp nhất niềm tin dựa trên tranh luận..................................... 106 4.4. ÁP DỤNG VÀO ONTOLOGY DẦU KHÍ ANH - VIỆT ........................... 111 4.5. KẾT LUẬN CHƯƠNG 4 ............................................................................ 115 CHƯƠNG 5. MỘT QUY TRÌNH XÂY DỰNG ONTOLOGY DẦU KHÍ ANH VIỆT TẠI VIỆN DẦU KHÍ VIỆT NAM ................................................. 116 5.1. ĐẶT VẤN ĐỀ ............................................................................................. 116 5.2. MỘT QUY TRÌNH BẢY BƯỚC XÂY DỰNG ONTOLOGY DẦU KHÍ ANH - VIỆT .................................................................................................. 119 5.2.1. Bước 1. Xác định mục đích và phạm vi của Ontology dầu khí Anh Việt ............................................................................................................. 119 5.2.2. Bước 2. Thu thập tài nguyên Ontology dầu khí Anh – Việt sẵn có ...... 121 5.2.3. Bước 3. Tích hợp các ontology dầu khí Tiếng Anh .............................. 121 5.2.4. Bước 4. Làm giàu khái niệm dầu khí Tiếng Việt tiềm năng ................. 121 5.2.5. Bước 5. Đối sánh khái niệm miền dầu khí Tiếng Việt.......................... 122 5.2.6. Bước 6. Bổ sung thành phần Tiếng Việt vào ontology dầu khí Tiếng Anh ............................................................................................................. 122 5.2.7. Bước 7. Hiệu chỉnh ontology dựa trên khung hợp nhất niềm tin qua tranh luận thu thập ý kiến chuyên gia ........................................................ 122 5.3. TRIỂN KHAI THỰC HIỆN ........................................................................ 123 5.3.1. Thu thập và tiền xử lý dữ liệu ............................................................... 123 5.3.2. Thực thi ontology dầu khí Anh - Việt trên hệ thống máy tính.............. 125 5.4. KẾT QUẢ .................................................................................................... 126 5.5. KẾT LUẬN CHƯƠNG 5 ............................................................................ 126 KẾT LUẬN ............................................................................................................ 127 DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI LUẬN ÁN ................................................................................................. 130 TÀI LIỆU THAM KHẢO ...................................................................................... 131 Tài liệu tiếng Việt ............................................................................................ 131 Tài liệu tiếng Anh ............................................................................................ 131 v DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Kí hiệu Tiếng Anh Tiếng Việt AI Artificial Intelligence Trí tuệ nhân tạo ML Machine Learning Học máy OL Ontology Learning Học ontology TM Text Mining Khai phá văn bản DO Domain Ontology Ontology miền Knowledge Management System Hệ thống quản lý tri thức KS Knowledge Sharing Chia sẻ tri thức SE Search Engine Máy tìm kiếm Maximum Entropy - Beam Search Entropy cực đại – Tìm kiếm chùm Support Vector Machine Máy vectơ hỗ trợ Iterative-SVM Lặp - SVM NB Naive Bayes Thống kê Naive Bayes kNN k Nearest Neighbour k láng giềng gần nhất POS Part of Speech Từ loại LPU Learning with Positive and Unlabeled data Học với dữ liệu dương và dữ liệu chưa gán nhãn P Precision Độ chính xác R Recall Độ hồi tưởng Harmonic mean Trung bình điều hòa, là sự kết hợp của độ chính xác và độ hồi tưởng Reliable Negative Dữ liệu âm tin cậy KMS ME-BS SVM I-SVM F1; F1-Score RN vi TF-IDF NID NCD NCDG PVN VPI Term Frequency – Inverse Document Frequency Trọng số về tần suất và độ quan trọng của từ Normalized Information Distance Khoảng cách thông tin được chuẩn hóa Normalized Compress Distance Khoảng cách nén được chuẩn hóa Normalized Compress Google Distance Khoảng cách nén Google được chuẩn hóa (Khoảng cách Goolge chuẩn) Petrovietnam; Vietnam Oil and Gas Group Tập đoàn Dầu khí quốc gia Việt Nam Vietnam Petroleum Institute Viện dầu khí Việt Nam vii DANH MỤC CÁC BẢNG Bảng 1.1. Ma trận nhầm lẫn của một bộ phân lớp ...............................................27 Bảng 2.1. Quan hệ giữa tài liệu OMIM có chỉ số OMIM ID: 600361 với các thực thể biểu hiện người (theo chỉ số) nhận được từ phenotype_annotation.tab ...................................................................45 Bảng 2.2. Một số thông tin thống kê về các ontology HPO_NC, MPO_NC và HPO_MPO_NC ...................................................................................51 Bảng 2.3. Các đặc trưng biểu diễn dữ liệu được sử dụng trong luận án ..............58 Bảng 2.4. Đánh giá các kết quả (tính theo %)......................................................60 Bảng 2.5. Số lượng trung bình của các thẻ trên thực thể biểu hiện trong tất cả các tập dữ liệu ............................................................................................61 Bảng 3.1. Ma trận khoảng cách giữa các thuộc tính trong hai ontology .............70 Bảng 3.2. Kết quả các độ đo P, R, F của các thuật toán ......................................88 Bảng 3.3. Sự phụ thuộc của độ đo F trong thuật toán ROC/ISVM và DISTANCE vào tỷ lệ  ............................................................................................88 Bảng 3.4. Ví dụ về một số khái niệm mới và mô tả có thể đưa thêm vào từ điển dầu khí. ................................................................................................89 Bảng 4.1. Phương thức thi hành các pha xây dựng ontology cơ sở miền [38] ....98 Bảng 4.2. Thứ tự ưu tiên đối với các yêu cầu của các chuyên gia (lớp cao hơn thì được ưu tiên hơn) ..............................................................................108 viii DANH MỤC CÁC HÌNH VẼ Hình 0.1. Một biểu diễn số lượng ấn phẩm khoa học có chứa chính xác cụm từ “ontology learning” trên ScienceDirect, Springer và Google Scholar .................. 4 Hình 0.2. Phân bố các chủ đề trong các chương của luận án................................. 8 Hình 1.1. Các tầng đối tượng trong ontology và ví dụ [11][17], [32] .................11 Hình 1.2. Ví dụ về ontology dầu khí tiếng Việt ...................................................14 Hình 1.3. Hai khung quy trình xây dựng ontology phổ biến và liên hệ giữa chúng [39] .......................................................................................................................18 Hình 1.4. Một khung nhìn học ontology theo các nhiệm vụ [79] ........................22 Hình 1.5. Một khung nhìn các thành phần trong một hệ thống học ontology [17], [35], [78]...............................................................................................................24 Hình 1.6. Minh họa độ hồi tưởng và độ chính xác. R là tập ví dụ kiểm thử được bộ phân lớp gán nhãn dương, L là tập vị dụ kiểm thử thực tế có nhãn dương [5]. ..............................................................................................................................28 Hình 2.1. Mô hình hai pha giải quyết bài toán .....................................................43 Hình 2.2. Mô hình xây dựng và tích hợp các kho ngữ liệu thực thể biểu hiện ....44 Hình 2.3. Mô hình xây dựng kho ngữ liệu HPO_NC các thực thể biểu hiện người ..............................................................................................................................45 Hình 2.4. OMIMID 600361 có quan hệ với chín PubMedID ..............................46 Hình 2.5. Mô hình xây dựng kho ngữ liệu MPO_NC về các thực thể biểu hiện động vật có vú ......................................................................................................48 Hình 2.6. Mô hình xây dựng kho ngữ liệu MPO_NC về các thực thể biểu hiện động vật có vú ......................................................................................................49 Hình 2.7. Suy diễn quan hệ giữa các thực thể thông qua kết nối hai kho ngữ liệu ..............................................................................................................................50 Hình 2.8. Mô hình học máy ME-BS nhận dạng thực thể y sinh từ văn bản PubMed ................................................................................................................56 ix Hình 3.1. Mô hình đối sánh tập thuộc tính của hai khái niệm thuộc hai ontology miền (Procedure Matching (c1, c2)) ....................................................................64 Hình 3.2. Mô hình đối sánh các khái niệm thuộc hai ontology miền ..................66 Hình 3.3. Minh họa Wikipedia Tiếng Việt ..........................................................72 Hình 3.4. Minh họa từ điển dầu khí Anh – Việt: Cột bên phải mô tả một khái niệm dầu khí tiếng Việt ........................................................................................73 Hình 3.5. Lược đồ tìm tập dữ liệu “âm tin cậy” trong chiến lược hai bước [56] 77 Hình 3.6. Mô hình học ontology khái niệm dầu khí Wikipedia tiếng Việt .........78 Hình 3.7. Sự phụ thuộc của độ đo F trong thuật toán ROC/ISVM và DISTANCE vào tỷ lệ .............................................................................................................87 Hình 3.8. Mô hình triển khai thu nhận ý kiến chuyên gia ...................................94 Hình 4.1. Thủ tục xây dựng một ontology cơ sở miền [38].................................97 Hình 5.1. Quy trình bảy bước xây dựng ontology dầu khí Anh - Việt ..............118 x MỞ ĐẦU Tính cấp thiết của luận án Ontology (được một số nhà nghiên cứu người Việt gọi là “bản thể học” hoặc “bản thể luận” 1) là một thành phần tri thức nền tảng và mọi tri thức khác cần được dựa trên và tham chiếu đến nó. Chính vì vậy, ontology được áp dụng rộng khắp trong lĩnh vực trí tuệ nhân tạo (Artificial Intelligence: AI), quản lý tri thức (Knowledge Management: KM), trong nhiều hệ thống ứng dụng và trong rất nhiều miền ứng dụng khác nhau. Một khu vực ứng dụng ontology vô cùng rộng lớn là trong các công cụ tìm kiếm (search engine) và chia sẻ tri thức (knowledge sharing), ở đó, ontology hỗ trợ đắc lực hoạt động tìm kiếm có cấu trúc, so sánh được và tùy chỉnh cao [7], [19], [32], [40], [76], [77]. Thuật ngữ “ontology” được các cộng đồng nghiên cứu – triển khai khác nhau hiểu theo các ý nghĩa khác nhau. Có sự phân biệt thuật ngữ “Ontology” là danh từ riêng (chữ cái “O” đầu tiên viết hoa) với “ontology” là danh từ chung (chữ cái “o” đầu tiên viết thường và đây là một danh từ đếm được) [35]. Danh từ riêng “Ontology” là được dành riêng cho cộng đồng nghiên cứu triết học, danh từ chung “ontology” là được dành cho mọi cộng đồng sử dụng thuật ngữ này như một kiểu thông tin đặc biệt hoặc một tạo tác (artifact) tính toán trình diễn tri thức. Luận án này nghiên cứu “ontology” theo phương án danh từ chung, hay “ontology” được hiểu là ontology tính toán (computational ontologies). Định nghĩa ontology tính toán là một công việc hết sức khó khăn và nhiều định nghĩa đã được đưa ra. Theo một khung nhìn phổ quát, ontology là một sản phẩm trình diễn với thành phần đặc thù là một bảng phân loại biểu diễn tường minh một tổ hợp các kiểu, các lớp và một số quan hệ giữa chúng [7]. Trong một khung nhìn khoa học máy tính, ontology là một mô tả một cách hệ thống các thực thể và các phương thức của chúng, các quy tắc cho phép mô tả một mô hình cụ thể phù hợp với các thực thể và quy trình cho phép mô tả "tất cả" các thực thể và quy trình này [71]. Theo cách hiểu thông dụng nhất, một ontology bao gồm 1 Do thuật ngữ “bản thể học” hoặc “bản thể luận” là các thuật ngữ có nguồn gốc vay mượn từ ngôn ngữ khác mà không gợi nghĩa nhiều hơn thuật ngữ “ontology” cho nên luận án này sử dụng nguyên gốc “ontology”. 1 các thuật ngữ, các khái niệm quan trọng, phân loại các khái niệm, phân cấp các khái niệm, các quan hệ giữa các khái niệm (bao gồm các ràng buộc quan trọng), các tiên đề ứng dụng và các thể hiện cho các đối tượng kể trên. Ontology được phân loại thành ontology triết học (philosophical ontology), ontology miền (domain ontology), ontology mức cao (top-level ontology), ontology tham chiếu (reference ontology) và ontology ứng dụng (application ontology) [7]. Ngoại trừ ontology triết học, tất cả các loại ontology đều thuộc về loại ontology miền. Do phạm vi ứng dụng rộng rãi của ontology, xây dựng ontology là một bài toán có tầm quan trọng đặc biệt, là một chủ đề nghiên cứu nhận được sự quan tâm đặc biệt của các cộng đồng nghiên cứu – triển khai thuộc các ngành khoa học đa dạng. Nhìn chung, quá trình xây dựng ontology bao gồm ba giai đoạn (xác định mục đích và phạm vi, nắm bắt ontology và thực thi ontology) [39]. Các nội dung đặc biệt quan trọng trong xây dựng ontology là (i) xác định mục đích và phạm vi của ontology cần xây dựng, (ii) xác định các khái niệm/lớp, thực thể/cá thể, quan hệ/phân cấp trong phạm vi ontology cần xây dựng, (iii) khai thác các ontology sẵn có, và (iv) huy động tri thức và sự tham gia của các chuyên gia miền [7], [39]. Hiện chưa có ontology tiếng Việt cho miền dầu khí, song một vài ontology tiếng Việt cho các miền ứng dụng khác đã được xây dựng, điển hình là ontology VN-KIM và thành phần ontology tiếng Việt trong hệ thống BioCasster. VN-KIM [3], [63] được phát triển tại Đại học Bách khoa, Đại học Quốc gia Tp. Hồ Chí Minh. Ontology này bao gồm 347 lớp thực thể và 114 quan hệ và thuộc tính. Ontology VN-KIM bao gồm các lớp thực thể có tên phổ biến như Con_người (Person), Tổ_chức (Organization), Tỉnh (Province), Thành_phố (City)…, các quan hệ giữa các lớp thực thể và các thuộc tính của mỗi lớp thực thể. Cơ sở tri thức của VN-KIM là một tập hợp các thực thể có tên phổ biến ở Việt Nam và Quốc tế. Các thực thể thuộc về các miền chính như: Con người (các nguyên thủ quốc gia, các giám đốc công ty, bác sỹ, nhà giáo, văn nghệ sỹ…); Tổ chức, công ty (các tổ chức xã hội, giáo dục, công ty…); Đơn vị hành chính (các tỉnh, thành phố, quận, huyện, phường, xã ở Việt Nam và các thành phố lớn trên thế giới); Sông, núi (các sông, núi lớn ở Việt Nam và thế giới); Đường (các đường lớn ở Hà Nội, TP. Hồ Chí Minh, các tỉnh lộ, quốc lộ); Điểm đặc biệt (các 2 di tích lịch sử, danh lam thắng cảnh, khu vui chơi giải trí nổi tiếng). BioCaster [22], [23], [24], là một ontology trong lĩnh vực y tế được viết dưới nhiều ngôn ngữ như Nhật, Thái, và Việt Nam. BioCaster là một dự án nghiên cứu nhằm cung cấp chức năng tìm kiếm nâng cao và phân tích các tin tức trên Internet và các tài liệu nghiên cứu liên quan, cho các nhân viên làm việc trong lĩnh vực y tế cộng đồng, các thầy thuốc lâm sàng, và các nhà nghiên cứu trong lĩnh vực các bệnh truyền nhiễm. Ontology BioCaster được Nigel Collier thuộc Viện Thông tin Quốc gia Nhật Bản cùng các đồng nghiệp tại Viện các bệnh lây nhiễm Quốc gia Nhật Bản, Viện Di truyền học Quốc gia Nhật Bản, Đại học Okayama, Đại học Quốc gia TP.HCM và Đại học Kasetsarat phát triển. Dựa vào công nghệ khai phá dữ liệu văn bản, dự án cung cấp các công cụ thông minh giúp người sử dụng có được cái nhìn rõ ràng hơn về các đợt dịch bệnh đã xảy ra cũng như khả năng bùng phát dịch. Ontology BioCaster chứa các thuật ngữ trên nhiều ngôn ngữ, trong đó có 371 thuật ngữ tiếng Việt (các thuật ngữ liên quan đến bệnh, virus, và các triệu chứng tại Việt Nam). Mặc dù ontology này có xử lý trích chọn thông tin tiếng Việt, tuy nhiên, các quan hệ trong thành phần ontology này lại được mô tả bằng tiếng Anh. Theo C. Sammut và G.I. Webb [70], xây dựng ontology là một bài toán đầy thách thức, nhiều tiếp cận xây dựng ontology khác nhau đã được sử dụng, tuy nhiên, hầu hết các tiếp cận này cho đến nay chủ yếu vẫn sử dụng các phương pháp thủ công. Học ontology (ontology learning) là cách tiếp cận bán tự động xây dựng ontology dựa trên việc sử dụng các kỹ thuật khai phá văn bản (text mining) hoặc/và học máy (machine learning). Học ontology phục vụ việc xác định các khái niệm/lớp, thực thể/cá thể, quan hệ/phân cấp trong phạm vi tri thức miền. Học ontology là một xu hướng có tính hiện đại và đầy thách thức trong nghiên cứu xây dựng ontology [6], [17], [21], [25], [27], [35], [40], [46], [58], [62], [67], [74], [78], [79], [80]. Học ontology là chủ để nghiên cứu nhận được sự quan tâm của cộng đồng nghiên cứu. Hình 0.1 cung cấp một biểu diễn số lượng các công trình khoa học trên ScienceDirect, Springer và Google Scholar giai đoạn 2006 – 2019 có chứa chính xác cụm từ “ontology learning” trong tiêu đề ấn phẩm (với ScienceDirect 3 và Google Scholar Advanced Search “not include patents, not include citations”) hoặc trong thông tin mô tả ấn phẩm (với Springer)2. Kết quả thống kê chỉ ra hàng năm có tới hàng chục ấn phẩm chứa chính xác cụm từ “ontology learning” ở tiêu đề (ScienceDirect và Google Scholar) hoặc ở thông tin mô tả (Springer). Số lượng công bố là khá ổn định qua thống kê với ScienceDirect và Google Scholar. Trong khi đó, số lượng công bố với Springer có xu thế giảm có thể có nguyên nhân từ nguồn chứa cụm từ “ontology learning” hoặc sự phân chia chủ đề “ontology learning” thành các chủ đề con chi tiết hơn. Hình 0.1. Một biểu diễn số lượng ấn phẩm khoa học có chứa chính xác cụm từ “ontology learning” trên ScienceDirect, Springer và Google Scholar Xây dựng ontology và học ontology là chủ đề nghiên cứu của một số luận án Tiến sỹ trên thế giới, chẳng hạn như [29], [34], [1]. Luận án Tiến sỹ của Z. Dragisic [29] đề cập tới việc giải quyết vấn đề chưa hoàn thiện các ontology và mạng ontology theo ba câu hỏi về cách thức hoàn thiện ontology và mạng ontology chưa hoàn thiện, về thuận lợi và hạn chế khi sử dụng tương tác người dùng vào việc hoàn thiện ontology và mạng ontology, về khả năng tích hợp thành phần hoàn thiện ontology vào quá trình phát triển ontology. Tác giả hình thức hóa vấn đề hoàn thiện cấu trúc “chung-riêng” (“is-a”) dựa trên logic mô tả 2 Kết quả trả về theo truy vấn cụm từ chính xác “ontology learning” vào ngày 20/6/2019. 4 (description logic) và phát triển hai thuật toán giải quyết vấn đề, phân tích thực nghiệm đối với việc sử dụng tương tác người dùng và phát triển một phương pháp dựa trên thuật toán phân cụm để giảm không gian tìm kiếm khi tích hợp thành phần hoàn thiện vào quá trình phát triển ontology. Luận án Tiến sỹ của Saira Andleeb Gillani [34] đề xuất một khung khai phá dữ liệu văn bản ProMine (Prokex Text Mining) với dữ liệu đầu vào là mô hình quy trình nghiệp vụ được trình diễn bằng các tệp tin XML. Dựa trên một ontology miền hạt giống (seed domain ontology, còn được gọi là ontology miền mồi), bộ công cụ học ontology tiến hành việc lọc và phân loại tri thức kết quả để làm giàu ontology miền hạt giống nói trên [33]. Đến lượt mình, ontology miền hạt giống được sử dụng để diễn giải và tư vấn về mô hình quy trình nghiệp vụ. Luận án Tiến sỹ của Trương Hải Bằng [1] đề cập tới các giải pháp liên quan đến ontology mờ (chứa các khái niệm, quan hệ... chưa rõ ràng, nhập nhằng, mâu thuẫn với nhau) dựa trên cơ sở lý thuyết đồng thuận; luận án này chưa đề cập tới yếu tố tiếng Việt trong ontology. Tính chất thách thức cao của chủ đề nghiên cứu xây dựng ontology, yêu cầu các phương pháp bán tự động xây dựng ontology hiện đại dựa trên khai phá văn bản và học máy, tình trạng nghiên cứu xây dựng ontology tiếng Việt còn mỏng đã tạo động lực nghiên cứu đối với luận án “Nghiên cứu một số mô hình học ontology và ứng dụng trong miền dầu khí”. Bài toán cần giải quyết trong luận án được phát biểu như sau: Cho trước một từ điển Anh – Việt một miền ứng dụng, cần xây dựng một ontology AnhViêt miền ứng dụng nói trên. Luận án sử dụng tiếp cận học ontology dựa trên việc khai thác các tài nguyên sẵn có (từ điển Anh-Việt miền, các ontology tiếng Anh miền) để xác định các khái niệm/lớp, thực thể/cá thể, quan hệ/phân cấp trong phạm ontology cần xây dựng với việc huy động tri thức và sự tham gia của các chuyên gia miền. W. Wong và cộng sự [79] cung cấp một khung nhìn khái quát về học ontology từ văn bản. Khung nhìn này chứa ba khu vực là khu vực kết quả đầu ra, khu vực bài toán học ontology và khu vực kỹ thuật và tài nguyên được sử dụng để phục vụ các bài toán học ontology. Khu vực kết quả đầu ra của học ontology bao gồm các thuật ngữ, các khái niệm, các quan hệ (quan hệ thứ bậc, quan hệ không thứ bậc) và các tiên đề. Có bảy bài toán học ontology chính là Xử lý văn 5 bản và Trích xuất thuật ngữ cho kết quả là các thuật ngữ, Hình thức hóa khái niệm và Gán nhãn khái niệm cho kết quả là các khái niệm, Xây dựng kiến trúc cho kết quả là các quan hệ thứ bậc, bài toán Phát hiện quan hệ không thứ bậc và Gán nhãn quan hệ không thứ bậc cho kết quả là các quan hệ không thứ bậc, Trích xuất tiên đề kết quả là các tiên đề. Khu vực Kỹ thuật/Tài nguyên bao gồm ba thành phần chính là kỹ thuật/tài nguyên logic, kỹ thuật/tài nguyên ngôn ngữ học và kỹ thuật/tài nguyên thống kê. Với sáu lập luận, các tác giả nhận định rằng sự đan xen giữa học ontology và sử dụng web là một xu thế tự nhiên và sử dụng thông tin trên web để học ontology có nhiều triển vọng. Xu thế trên đây đã định hướng vào các mô hình học ontology có sử dụng các tài nguyên Web trong luận án (độ đo khoảng cách Googe, thông tin từ Wikipedia tiếng Việt, các công cụ sánh thuật ngữ miền ứng dụng có sử dụng Web, v.v.). Do đặc điểm bán tự động, học ontology thường bao gồm các thành phần huy động sự tham gia của con người vào quá trình xây dựng ontology. Ví dụ, khung xây dựng ontology cơ sở miền của S-H. Hsieh và cộng sự [38] chứa một thành phần quan trọng thực hiện việc huy động các chuyên gia tham gia vào công việc hiệu chỉnh lại các quan hệ thuật ngữ. Tích hợp ý kiến của nhiều chuyên gia vào việc hiệu chỉnh quan hệ thuật ngữ để nhận được các quan hệ phù hợp nhất là một bài toán rất có ý nghĩa. Theo định hướng này, luận án đề nghị một khung hợp nhất niềm tin dựa trên tranh luận, cung cấp một cơ sở lý thuyết nền tảng để triển khai các thành phần hệ thống trong thực tiễn. Nghiên cứu của luận án hướng tới một số mục tiêu sau đây. Thứ nhất, luận án hướng tới việc đề xuất một số mô hình học ontplogy dựa trên khai phá dữ liệu văn bản và học máy kết hợp với việc sử dụng một số độ đo. Theo định hướng này, luận án tập trung đề xuất các mô hình học ontology phát sinh thể hiện và quan hệ, học ontology thông qua việc kết hợp các ontology sẵn có. Thứ hai, luận án hướng tới việc đề xuất các mô hình hợp nhất được tri thức từ các chuyên gia miền vào xây dựng ontology. Cuối cùng, luận án hướng tới việc xây dựng được một ontology Anh – Việt miền dầu khí phục vụ công tác nghiệp vụ tại Tập đoàn Dầu khí quốc gia Việt Nam. Đối tượng nghiên cứu của luận án là mô hình học ontology dựa trên các kỹ thuật khai phá dữ liệu văn bản, học máy và thu nhận tri thức chuyên gia miền ứng dụng vào xây dựng ontology miền. 6 Phạm vi nghiên cứu của luận án được giới hạn trong phạm vi các mô hình học ontology theo phương thức bán tự động dựa trên các kỹ thuật khai phá dữ liệu, học máy và tích hợp tri thức. Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết đề xuất các mô hình bán tự động xây dựng ontology (dựa trên các kỹ thuật khai phá dữ liệu, học máy và tích hợp tri thức), nghiên cứu thực nghiệm để kiểm chứng đánh giá các mô hình được đề xuất và công bố các kết quả nghiên cứu trên các ấn phẩm khoa học có uy tín. Luận án tham gia vào dòng nghiên cứu học ontology trên thế giới và đạt được một số đóng góp bước đầu, tập trung vào các nghiên cứu, đề xuất các mô hình học ontology miền. Về phương diện lý thuyết, luận án có hai đóng góp chính vào dòng nghiên cứu học ontology. Thứ nhất, luận án đề xuất ba mô hình học ontology gồm (i) mô hình học ontology xây dựng một ontology kết hợp dữ liệu từ các ontology sẵn có sử dụng học máy Maximum Entropy và Beam Search nhận dạng thực thể miền [VNTrinh1], [VNTrinh4], (ii) mô hình học ontology sử dụng độ đo Google để tích hợp một số tập khái niệm miền sẵn có thành một tập khái niệm miền mới lớn hơn [VNTrinh2], [VNTrinh4], (iii) mô hình học ontology dựa trên học máy với chỉ dữ liệu dương và dữ liệu không gán nhãn để bổ sung các khái niệm miền mới từ kho tài nguyên Wikipedia tiếng Việt vào tập khái niệm miền tiếng Việt sẵn có [VNTrinh4]. Luận án cũng đề xuất thuật toán học máy với chỉ dữ liệu dương và dữ liệu không gán nhãn DISTANCE cho mô hình thứ ba. Thứ hai, luận án đề xuất một mô hình thu nhận ý kiến chuyên gia miền vào quá trình xây dựng ontology miền dựa trên một khung hợp nhất niềm tin dựa trên tranh luận (bao gồm giao thức tranh luận hợp nhất niềm tin và lập luận hợp nhất niềm tin) và một thuật toán xây dựng giải pháp tranh luận hợp nhất niềm tin tương ứng [VNTrinh3]. Về phương diện ứng dụng, luận án đề nghị một quy trình bảy bước xây dựng một ontology dầu khí Anh-Việt. Quy trình này vừa tổng hợp các kết quả nghiên cứu của luận án vừa cung cấp một phương án thực thi các kết quả nghiên cứu vào thực tiễn. Một ontology Dầu khí Anh-Việt thực nghiệm đã được xây dựng. 7 Bố cục của luận án gồm phần mở đầu và năm chương nội dung, phần kết luận và danh mục các tài liệu tham khảo. Hình 0.2 cung cấp một khung nhìn sơ bộ về phân bố các chủ đề trong năm chương nội dung của luận án. Chương 1 của luận án cung cấp một nghiên cứu khảo sát khái quát về ontology, xây dựng và học ontology và các kỹ thuật học ontology. Chương này cũng trình bày về độ đo khoảng cách Google, một độ đo thông tin được luận án sử dụng trong một số mô hình học ontology. Hình 0.2. Phân bố các chủ đề trong các chương của luận án Chương 2 của luận án trình bày chi tiết một mô hình học ontology nhận diện thể hiện miền ứng dụng Y sinh dựa trên học máy Maximum Entropy-Beam Search từ tài nguyên có trong hai ontology có trước. Mô hình học máy Maximum Entropy phụ thuộc vào đặc trưng dữ liệu do đó khung mô hình làm giàu thể hiện cho hai ontology cũng có khác biệt. Trong Chương 3, luận án trình bày hai mô hình học ontology dựa trên việc sử dụng các kỹ thuật khai phá dữ liệu văn bản, học máy kết hợp với các độ đo. 8
- Xem thêm -