Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Công nghệ thông tin Luận văn cntt nghiên cứu và đề xuất phương pháp mô hình hóa tri thức cho hệ thốn...

Tài liệu Luận văn cntt nghiên cứu và đề xuất phương pháp mô hình hóa tri thức cho hệ thống văn bản luật

.PDF
56
154
68

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN HÀ THANH NGHIÊN CỨU VÀ ĐỀ XUẤT PHƯƠNG PHÁP MÔ HÌNH HÓA TRI THỨC CHO HỆ THỐNG VĂN BẢN LUẬT LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2017 i ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN HÀ THANH NGHIÊN CỨU VÀ ĐỀ XUẤT PHƯƠNG PHÁP MÔ HÌNH HÓA TRI THỨC CHO HỆ THỐNG VĂN BẢN LUẬT Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS. NGUYỄN VIỆT HÀ HÀ NỘI - 2017 ii LỜI CAM ĐOAN Tôi xin cam đoan công việc trong luận văn này được thực hiện bởi chính tôi. Các số liệu, kết quả được trình bày trong luận văn là hoàn toàn trung thực. Tất cả các tài liệu tham khảo, công trình nghiên cứu, kết quả công việc của người khác được sử dụng trong đề tài đều được ghi rõ nguồn. Nếu như những gì tôi nói trên đây là trái sự thật, tôi xin chịu mọi trách nhiệm theo pháp luật và quy định của nhà trường. Hà Nội, ngày ... tháng ... năm ...... Chữ ký .......................................... i LỜI CẢM ƠN Thực hiện luận văn là việc cá nhân của mỗi học viên cao học để có thể lấy bằng Thạc sỹ nhưng để luận văn có được chất lượng tốt và có đóng góp thực tiễn cho xã hội thì đó là công sức của nhiều người. Đầu tiên, tôi xin cảm ơn gia đình tôi, những người đã ủng hộ tôi tuyệt đối trên nhiều phương diện để tôi có thể theo đuổi sự lựa chọn của mình. Tôi cũng xin cảm ơn Thầy Nguyễn Việt Hà, người Thầy đã truyền cho tôi động lực, cho tôi nhiều kiến thức và kinh nghiệm quý báu trong nghiên cứu khoa học nói chung và trong thực hiện đề tài nói riêng. Tôi xin cảm ơn các thầy cô tại Trường Đại học Công nghệ và Khoa Luật, Đại học Quốc gia Hà Nội, những người đã đào tạo và giúp tôi trưởng thành trong năng lực nghề và năng lực nghiên cứu. Tôi xin cảm ơn các bạn sinh viên trong nhóm nghiên cứu Skylab, Trường Đại học Công nghệ, ĐHQGHN đã cùng tham gia đóng góp ý kiến cho đề tài và giúp sức cho tôi trong việc thu thập dữ liệu cũng như thử nghiệm phương pháp được đề xuất trong luận văn. Tôi xin chân thành cảm ơn! ii MỤC LỤC CHƯƠNG 1. ĐẶT VẤN ĐỀ ........................................................................... 1 1.1. Lý do chọn đề tài ....................................................................................... 1 1.2. Các nghiên cứu liên quan........................................................................... 2 1.2.1. Các nghiên cứu về biểu diễn tri thức.................................................. 2 1.2.2. Các nghiên cứu về Legal Engineering ............................................... 4 1.3. Nhiệm vụ của luận văn .............................................................................. 5 1.4. Cấu trúc luận văn ....................................................................................... 5 CHƯƠNG 2. CƠ SỞ LÝ THUYẾT ............................................................... 7 2.1. Mô hình hóa tri thức .................................................................................. 7 2.1.1. Tri thức và biểu diễn tri thức .............................................................. 7 2.1.2. Mô hình tri thức .................................................................................. 8 2.1.3. Phương pháp mô hình hóa tri thức bằng ngôn ngữ khung ................. 8 2.1.4. Phương pháp mô hình hóa tri thức bằng luật sinh ............................. 9 2.1.5. Phương pháp mô hình hóa tri thức bằng mạng ngữ nghĩa ...............10 2.2. Văn bản pháp luật ....................................................................................12 2.2.1. Văn bản pháp luật và vai trò của văn bản pháp luật.........................12 2.2.2. Các loại văn bản pháp luật ...............................................................12 2.2.3. Đặc trưng về hiệu lực của văn bản pháp luật ...................................14 CHƯƠNG 3. MÔ HÌNH HÓA TRI THỨC CHO VĂN BẢN LUẬT ...... 15 3.1. Mô tả bài toán ..........................................................................................15 3.2. Phân tích tính chất của văn bản pháp luật................................................15 3.3. Mô tả phương pháp ..................................................................................17 3.3.1. Phân tích và lựa chọn kỹ thuật biểu diễn .........................................17 3.3.2. Cấu trúc khung .................................................................................18 3.3.3. Các luật suy diễn ..............................................................................23 3.5. Đánh giá phương pháp .............................................................................24 3.5.1. Điểm mạnh của phương pháp...........................................................24 iii 3.5.2. Hạn chế của phương pháp ................................................................25 CHƯƠNG 4. THỰC NGHIỆM .................................................................... 26 4.1. Phương pháp và dữ liệu thực nghiệm ......................................................26 4.2. Kết quả thực nghiệm và phân tích ...........................................................29 4.3. Xây dựng hệ thống hướng dịch vụ ..........................................................31 4.4. Đánh giá thực nghiệm ..............................................................................35 CHƯƠNG 5. KẾT LUẬN ............................................................................. 36 PHỤ LỤC A. CÁC CĂN CỨ PHÁP LÝ........................................................ 37 PHỤ LỤC B. CÀI ĐẶT CÁC LUẬT SINH .................................................. 42 TÀI LIỆU THAM KHẢO ............................................................................... 43 iv Danh sách hình vẽ Hình 1.1. Kiến trúc phân tầng của web ngữ nghĩa [39]........................................ 3 Hình 2.1. Dữ liệu, thông tin và tri thức [30] ......................................................... 7 Hình 2.2. Ví dụ về mạng ngữ nghĩa....................................................................10 Hình 2.3. Ví dụ về nhược điểm của mạng ngữ nghĩa .........................................11 Hình 3.1. Minh họa quan hệ trích dẫn giữa các VBPL ......................................21 Hình 3.2. Minh họa quan hệ hướng dẫn giữa các VBPL ...................................22 Hình 3.3. Minh họa quan hệ thay thế giữa các VBPL ........................................22 Hình 4.1. Dữ liệu thu thập được .........................................................................26 Hình 4.2. Tình trạng văn bản 01/2000/NQ-HĐTP theo CSDLQG ....................31 Hình 4.3. Kiến trúc của hệ cơ sở tri thức ............................................................32 Hình 4.4. Truy vấn và phản hồi giữa client và server ........................................33 Hình 4.5. Ứng dụng Hỗ trợ soạn thảo văn bản luật IEE.....................................34 Hình 4.6. Ứng dụng hỗ trợ đọc văn bản luật ......................................................34 Danh sách bảng Bảng 3.1. Mức lương tối thiểu vùng thay đổi qua từng năm..............................17 Bảng 3.2. Các loại văn bản pháp luật .................................................................18 Bảng 3.3. Khung về loại văn bản........................................................................19 Bảng 3.4. Khung về văn bản pháp luật ...............................................................20 Bảng 3.5. Khung về quan hệ...............................................................................23 Bảng 3.6. Danh sách các luật suy diễn ...............................................................24 Bảng 4.1. Thống kê dữ liệu theo loại văn bản ....................................................27 Bảng 4.2. Thống kê dữ liệu theo năm ban hành .................................................28 Bảng 4.3. Kết quả thực nghiệm ..........................................................................29 v Các ký hiệu viết tắt AMD BLDS CPU CSDLQG GPU IEE KMP MHz MIPS NĐ NQ QPPL RAM REST TT VBADPL VBHC VBPL VBQPPL Advanced Micro Devices Bộ luật dân sự Central Processing Unit Cơ sở dữ liệu quốc gia Graphic processing unit Integrated editing environment Thuật toán Knuth–Morris–Pratt Megahertz. Million instructions per second Nghị định Nghị quyết Quy phạm pháp luật Random Access Memory Representaion State Transfer Thông tư Văn bản áp dụng pháp luật Văn bản hành chính Văn bản pháp luật Văn bản quy phạm pháp luật vi Tóm tắt Văn bản pháp luật đóng một vai trò quan trọng trong hệ thống pháp luật của mọi quốc gia. Với mục tiêu xử lý tự động các thông tin và phát huy hiệu quả của các tri thức từ văn bản pháp luật, chúng ta cần một phương pháp mô hình hóa tri thức phù hợp cho chúng. Trong phạm vi của nghiên cứu này, chúng tôi khảo sát kỹ lưỡng các đặc tính của hệ thống văn bản pháp luật Việt Nam và đề xuất phương pháp mô hình hóa cho các văn bản và quan hệ giữa chúng. Thách thức chính của công việc này là xử lý được tính chất luôn thay đổi của các văn bản luật, khoảng thời gian có hiệu lực và các mối liên hệ chặt chẽ giữa chúng. Các tính chất và các mối quan hệ được biểu diễn trong cơ sở tri thức mà chúng tôi thiết kế được lựa chọn để thông tin trong các văn bản pháp luật trở nên hữu dụng nhất. Khi biểu diễn cơ sở tri thức của mình, chúng tôi so sánh ba phương pháp biểu diễu tri thức phổ biến là: Mạng ngữ nghĩa, Luật sinh và Ngôn ngữ khung, trên cơ sở đó, các điểm mạnh của các phương pháp này được kế thừa trong phương pháp được đề xuất trong nghiên cứu. Bên cạnh đó, chúng tôi cài đặt một hệ thống hướng dịch vụ cung cấp dịch vụ truy vấn tri thức cho các hệ thống khác. Từ khóa Mô hình hóa tri thức, Văn bản pháp luật Việt Nam, Ngôn ngữ Khung, Luật sinh. vii Abstract Legal documents play an important role in legal system of every nation. In order to automated process information and make use of knowledge from legal documents, we need an appropriate knowledge representation for them. In this research, we investigate properties of Vietnamese legal document system and propose a representation for the documents and their relationships. The main challenge for this task is dynamic charateristics, validity period and binding relationships among legal documents. Properties and relationships which we design to represent in our knowlege base are selective in order to make use of information within legal documents. In order to represent our knowlege base, we compare three methods: Semantic Network, Production Rules, Frame Language and make use of their advantages in our representation. Moreover, we implement a service-oriented system providing knowledge querying service for other application systems based on our research result. Keywords Knowledge representation, Vietnamese Legal Document System, Frame language, Production rule. viii CHƯƠNG 1. ĐẶT VẤN ĐỀ 1.1. Lý do chọn đề tài Mặc dù được xây dựng bởi những người được đào tạo bài bản về pháp luật nhưng với khối lượng tri thức đồ sộ chứa trong các bộ luật và các văn bản hướng dẫn thì việc xảy ra sai sót là chuyện không tránh khỏi [2]. Ngoài ra, hệ thống pháp luật không phải là một hệ thống bất biến, khi có một sửa đổi nhỏ tại một văn bản nào đó, để giữ được tính thống nhất, những phần liên quan khác trong toàn bộ hệ thống cũng cần được sửa đổi theo, đây là công việc nhàm chán và dễ sai sót đối với con người [41]. Vì những lý do trên, việc tin học hóa hệ thống văn bản pháp luật sẽ góp phần nâng cao kỹ thuật lập pháp, đảm bảo cơ chế bảo hiến [1] trong hệ thống pháp luật Việt Nam cũng như giải quyết được sự chồng chéo trong hệ thống văn bản pháp luật [3]. Xã hội của chúng ta được điều chỉnh bởi các quy phạm pháp luật có mối quan hệ ràng buộc lẫn nhau [8]. Trong định hướng xây dựng một xã hội thông minh có sự phục vụ và hỗ trợ của hệ thống máy tính (e-Society), luật pháp đóng vai trò rất quan trọng [28]. Từ kinh nghiệm của các quốc gia, những nghiên cứu và ứng dụng khoa học máy tính, kỹ thuật phần mềm và trí tuệ nhân tạo vào pháp luật sẽ giúp nâng cao chất lượng của hệ thống pháp luật [41]. Để thực hiện điều đó, các tri thức trong miền ứng dụng này cần được sắp xếp và biểu diễn dưới hình thức thuận tiện tối đa cho máy tính trong việc hiểu và áp dụng hiệu quả trong các giải thuật tự động [33]. Vì vậy, chúng tôi nghiên cứu và đề xuất một mô hình tri thức cho hệ thống văn bản luật Việt Nam dựa trên phân tích đặc điểm, tính chất của hệ thống này. Phương pháp của chúng tôi kế thừa một số kỹ thuật biểu diễn tri thức đã có và cải tiến chúng hướng tới mục tiêu đáp ứng được sự thay đổi không ngừng của hệ thống văn bản luật. Đây là tiền đề cho các nghiên cứu khác về trí tuệ nhân tạo có thể tiếp cận tốt hơn, giải quyết triệt để hơn các bài toán đặt ra trong miền tri thức này. 1 1.2. Các nghiên cứu liên quan 1.2.1. Các nghiên cứu về biểu diễn tri thức Biểu diễn và mô hình hóa tri thức là bài toán cơ sở trong trí tuệ nhân tạo. Bài toán này đầu tiên được khởi xướng để phục vụ cho Hệ giải Bài toán Tổng quát [34] của Allen Newell và Herbert A. Simon. Cho đến nay, biểu diễn tri thức là chủ đề nghiên cứu của nhiều nhà khoa học và các tổ chức nghiên cứu phát triển trên thế giới. Dưới đây là những nghiên cứu biểu diễn tri thức trong các hệ chuyên gia, trong cuộc cách mạng web ngữ nghĩa và trong các ứng dụng trợ lý ảo. Vào những năm 70, 80 của thế kỷ XX, các hệ trí tuệ nhân tạo sử dụng nền tảng tri thức của một miền ứng dụng cụ thể phát triển dưới tên là các hệ chuyên gia [27]. Tri thức được xây dựng trong các hệ chuyên gia bao gồm các thông tin về thế giới và áp dụng các cơ chế suy diễn trên tập tri thức để có thể trả lời các câu hỏi. Vào cùng thời điểm đó, các nhà nghiên cứu phát triển khái niệm mang tên ngôn ngữ khung [22] và luật suy diễn [25]. Sự kết hợp của chúng tạo nên các hệ thống mạnh mẽ, tiêu biểu là hệ thống KL-ONE [11] thời bấy giờ. Được đề xuất năm 2001 bởi Berners-Lee, Hendler, và Lassila, công nghệ web ngữ nghĩa [10] đã trở thành một phong trào toàn cầu. Công nghệ này cung cấp cho chúng ta một cách tiếp cận mới trong việc quản lý thông tin, các quá trình phát triển cũng như các nguyên tắc trong tạo lập và sử dụng siêu dữ liệu ngữ nghĩa [18]. Dẫn đầu bởi W3C, phong trào này khuyến khích các nhà phát triển web tái cấu trúc nội dung của website thành dữ liệu web ngữ nghĩa. Thay vì chỉ mục website dựa trên từ khóa, web ngữ nghĩa tạo nên các mô hình tri thức lớn tập hợp các khái niệm [19]. Công nghệ này cải thiện kết quả tìm kiếm của người dùng web cũng như hoạt động xử lý thông tin tự động của các tác tử [7]. Các máy tìm kiếm sử dụng các tác tử tự động truy cập vào các trang web để tiến hành xếp hạng chúng với những từ khóa cho trước [24]. Mặc dù vậy, do chúng không thể can thiệp được vào cấu trúc và nội dung các trang web nên đôi lúc kết quả trả về không đúng với nhu cầu tìm kiếm của người dùng. Web ngữ nghĩa với nền móng là các phương pháp biểu diễn tri thức đã góp phần giải quyết vấn đề này. Với mục tiêu như vậy, W3C đưa ra những ngôn ngữ chuẩn có thể biểu diễn được mô hình tri thức (ontology) giữa các website như OWL [12] , RDF [42] và RDF shema [13] . Hình 1.1 [39] thể hiện kiến trúc phân tầng của web ngữ nghĩa. 2 Hình 1.1. Kiến trúc phân tầng của web ngữ nghĩa [39] Năm 2011, trợ lý ảo Siri trên dòng sản phẩm iPhone và iPad của Apple thu hút được sự chú ý của những người dùng điện thoại thông minh trên toàn thế giới với khả năng nhận yêu cầu của người sử dụng thông qua giọng nói. Kể từ đó trở đi, phát triển các ứng dụng trợ lý ảo trở thành xu hướng của các hãng công nghệ hàng đầu thế giới [9]. Để các chương trình trợ lý ảo có thể xử lý tự động các công việc và thực hiện chức năng của mình, trong quá trình cài đặt chúng, việc mô hình hóa tri thức là tối quan trọng. Những tri thức cần được mã hóa là các nhà hàng, các bộ phim, các sự kiện, những lời đánh giá, danh sách các địa điểm, các yêu cầu [16]. Các chương trình này thực hiện các phép suy diễn để có thể tìm ra phương án tốt nhất, thực hiện những hành động phù hợp nhất đối với người sử dụng. Ngoài ra chương trình có thể tự mở rộng và tái cấu trúc khi có thêm những nguồn thông tin mới từ phía các hệ thống mà nó tương tác cũng như từ người dùng. 3 1.2.2. Các nghiên cứu về Legal Engineering Legal Engineering (LE) [38] là một hướng nghiên cứu mới dựa trên ý tưởng nếu coi xã hội là một hệ thống thì pháp luật là đặc tả của hệ thống ấy. Một hệ thống pháp luật tốt sẽ góp phần tạo nên một xã hội tốt đẹp hơn. Các nghiên cứu này sử dụng khoa học máy tính để áp dụng vào pháp luật để giảm tải công sức trong việc xây dựng và sửa đổi luật, cũng như thiết kế các hệ thống thông tin phục vụ trong lĩnh vực này. Dưới đây là một số nghiên cứu tiêu biểu về Legal Engineering trên thế giới. Tại Viện Khoa học và Công nghệ tiên tiến Nhật Bản (JAIST), nhóm của giáo sư Takuya Katayama có những nghiên cứu trong việc kiểm chứng sự vận hành của xã hội điện tử thông qua các kỹ thuật kiểm chứng mô hình [29]. Các yêu cầu đối với một xã hội điện tử bao gồm: Tính đúng đắn, Tính giải trình, Tính bảo mật, Tính kháng lỗi, Tính tiến hóa và Tính tin cậy của cơ sở hạ tầng. Những nghiên cứu này dựa trên ý tưởng vai trò của luật pháp đối với một xã hội tương ứng với vai trò của bản đặc tả hình thức đối với một xã hội điện tử, vì vậy khi hình thức hóa pháp luật, ta có thể sử dụng các kỹ thuật kiểm chứng phần mềm để kiểm chứng xã hội điện tử. Cũng tại đây, nhóm của giáo sư Shimazu và PGS TS. Nguyễn Lê Minh có những nghiên cứu về xử lý ngôn ngữ tự nhiên đối với cấu trúc của văn bản luật như: Đưa ra mô hình cấu trúc logic của một đoạn văn bản luật [15], Phát hiện phần giả định và phần hiệu lực trong một câu luật [14], Chuyển đổi các câu luật sang hình thức logic [31]. Các phương pháp đưa ra trong các nghiên cứu dựa trên phân tích đặc trưng của đoạn văn bản luật, cấu trúc của câu luật để áp dụng các thuật toán phù hợp. Tại đại học Exeter của vương quốc Anh, giáo sư Ajit Narayanan và giáo sư Mervyn Bennun đã viết cuốn “Law, Computer Science, and Artificial Intelligence” [32] gồm tập hợp các quan điểm của những nhà nghiên cứu về luật, khoa học máy tính và trí tuệ nhân tạo. Cuốn sách này đề cao vai trò của việc kết hợp những ngành khoa học đó để có được những nghiên cứu thiết thực hơn. Đại học Toronto của Canada có bài tổng hợp các quan điểm trong việc kết hợp Luật và Khoa học máy tính [41]. Giáo sư Benjamin Alarie, Khoa Luật đại học Toronto phân tích con người khả năng ghi nhớ giới hạn và sự thiếu khách quan trong tiếp cận các vấn đề pháp lý, do đó một hệ thống như Watson [26] rất hữu ích trong các bài toán trong 4 lĩnh vực này, hệ thống có thể đọc mọi thứ và đưa ra quan điểm một cách không thiên vị. Nghiên cứu về Legal Engineering là hướng nghiên cứu nhận được sự quan tâm của các nhà khoa học trên thế giới. Tại mỗi quốc gia, hệ thống luật có những đặc trưng riêng nên cần những giải pháp tương ứng. Chúng tôi mong muốn rằng kết quả nghiên cứu được đề xuất trong luận văn có thể góp phần giúp cho các nghiên cứu về Legal Engineering tại Việt Nam phát triển mạnh mẽ hơn. 1.3. Nhiệm vụ của luận văn Trên thế giới, đặc biệt là các nước theo truyền thống pháp luật dân sự [40] như Việt Nam, hệ thống văn bản luật là nguồn chính yếu trong việc điều chỉnh các mối quan hệ xã hội. Trong hệ thống này, các văn bản luật có mối quan hệ chặt chẽ và mật thiết với nhau. Một văn bản không thể tự nó quy định đầy đủ các khía cạnh của các quy phạm pháp luật mà phải được kế thừa, trích dẫn, giải thích bởi một hay nhiều văn bản pháp luật khác. Bên cạnh đó, hệ thống văn bản pháp luật là hệ thống luôn vận động, một sự thay đổi nhỏ tại một văn bản cũng có thể ảnh hưởng đến tính nhất quán trong toàn hệ thống. Tính chất đặc thù này của văn bản pháp luật khiến cho việc mô hình hóa tri thức và giải tự động các bài toán đối với văn bản pháp luật có những thử thách nhất định so với các loại văn bản khác. Nhận thấy tầm quan trọng của việc mô hình hóa tri thức hệ thống văn bản luật, trong phạm vi luận văn này, chúng tôi nghiên cứu và đề xuất một mô hình biểu diễn tri thức cho hệ thống văn bản pháp luật tiếng Việt, sau đó cài đặt mô hình vào một hệ thống hướng dịch vụ, cung cấp dịch vụ tri thức cho các hệ thống ứng dụng. Phương pháp được sử dụng trong luận văn là phương pháp biểu diễn tri thức sử dụng cấu trúc khung [22] kết hợp với phương pháp mô hình hóa tri thức bằng luật sinh [25]. Cấu trúc khung và tập các luật sinh được đề xuất dựa trên tính chất đặc trưng của văn bản luật. 1.4. Cấu trúc luận văn Luận văn được trình bày trong 5 chương gồm các nội dung tổng quan về lĩnh vực nghiên cứu, mô tả bài toán, cơ sở lý thuyết, phương pháp đề xuất, kết quả thực nghiệm và hướng phát triển trong tương lai. Ngoài chương 1 đã được trình bày, các phần còn lại luận văn có nội dung như sau: 5 Chương 2 nêu ra những cơ sở lý thuyết quan trọng làm nền móng cho việc đề xuất phương pháp mô hình hóa tri thức của luận văn. Phần đầu chương nêu lên những lý thuyết về tri thức và mô hình hóa tri thức gồm những khái niệm và phương pháp chung của lĩnh vực. Tiếp đó là những lý thuyết về văn bản pháp luật, phân loại và đặc trưng của chúng. Chương 3 của luận văn phân tích kỹ những đặc điểm riêng có của hệ thống văn bản pháp luật Việt Nam và đề xuất phương pháp mô hình hóa tri thức cho hệ thống này dựa trên những phân tích và cơ sở đã có. Phần cuối chương nêu ra những đánh giá sơ bộ về phương pháp trên phương diện những điểm mạnh, hạn chế và nguyên nhân của chúng. Chương 4 trình bày phương pháp thực nghiệm, dữ liệu dùng cho thực nghiệm, kết quả thực nghiệm và phân tích các kết quả đó để đưa ra được những nhận xét và hướng phát triển trong tương lai. Bên cạnh, chúng tôi cũng trình bày những kết quả bước đầu trong việc áp dụng hệ thống vào các ứng dụng thực tế. Chương 5 tổng kết toàn bộ những kết quả đã đạt được trong luận văn. Các nội dung về xuất xứ bài toán, phương pháp, kết quả thực nghiệm, ý nghĩa và hướng phát triển của nghiên cứu được thể hiện trong chương này. 6 CHƯƠNG 2. CƠ SỞ LÝ THUYẾT 2.1. Mô hình hóa tri thức 2.1.1. Tri thức và biểu diễn tri thức Tri thức hay kiến thức là những sự kiện, thông tin hay kỹ năng thu được thông qua trải nghiệm hoặc giáo dục, những hiểu biết lý thuyết hay thực tiễn về một vấn đề [35]. Trong khi tri thức hiện có thể được giải thích, mã hóa dưới dạng ngôn ngữ, văn bản, âm thanh, phim, ảnh thì tri thức ẩn là những tri thức thu được từ trải nghiệm thực tế, ẩn trong mỗi cá nhân và khó mã hóa cũng như chuyển giao ví dụ như niềm tin, thái độ, kỹ năng. Trong lĩnh vực trí tuệ nhân tạo, biểu diễn tri trức là biểu diễn được trạng thái của một miền bài toán như các đối tượng, thuộc tính của các đối tượng và quan hệ giữa chúng [36]. Biểu diễn tri thức nhằm thể hiện thông tin về thế giới dưới hình thức thuận tiện cho các hệ thống máy tính sử dụng. Biểu diễn tri thức được đặt trên nền tảng nghiên cứu về con người, cách con người giải quyết các vấn đề, và biểu diễn tri thức với mục đích đưa ra được mô hình giúp đơn giản hóa việc thiết kế và xây dựng các hệ thống phức tạp. Biểu diễn tri thức có mối liên hệ chặt chẽ với logic để có thể thực thi tự động các phép suy diễn, phổ biến là các phép suy diễn trên tập hợp [17]. Giá trị của dữ liệu tăng lên khi nó được chuyển thành tri thức, là cơ sở đưa ra các quyết định phù hợp. Hình 2.1 là lược đồ thể hiện quan hệ giữa Dữ liệu, Thông tin và Tri thức. Hình 2.1. Dữ liệu, thông tin và tri thức [30] 7 2.1.2. Mô hình tri thức Mô hình tri thức là đặc tả hình thức một cách rõ ràng của các khái niệm, các biến số cần cho quá trình tính toán và thiết lập mối quan hệ giữa chúng [23]. Mô hình tri thức được sử dụng như một khung trình bày tri thức về thế giới hay một phần của nó. Các mô hình tri thức mô tả: - Các cá thể: Các đối tượng cơ bản, nền tảng - Các lớp: Các tập hợp, hay kiểu của các đối tượng - Các thuộc tính: Thuộc tính, tính năng, đặc điểm, tính cách, hay các thông số của các đối tượng. - Các mối liên hệ: Cách thức mà các đối tượng liên hệ tới một đối tượng khác. 2.1.3. Phương pháp mô hình hóa tri thức bằng ngôn ngữ khung Ngôn ngữ khung [22] cho phép các đối tượng trong thế giới thực được biểu diễn một cách đầy đủ và linh hoạt. Sử dụng ngôn ngữ khung, các đối tượng được đóng gói thành một thực thể có cấu trúc, bên cạnh đó các thao tác trên tri thức cũng được định nghĩa trên cấu trúc đó, ví dụ khi mô tả khái niệm về một ma trận, các thao tác có thể định nghĩa thêm có thể là phép tính định thức, tính ma trận nghịch đảo hay véc tơ riêng của ma trận đã cho. Khung (Frame) là cấu trúc tổng quát nhất bao gồm hai thành phần là Slot và Facet. Slot thể hiện một thuộc tính của đối tượng được đặc tả bằng Khung. Mỗi Slot lại được đặc tả chi tiết hơn bởi các Facet, đó là các thông tin hoặc thủ tục của thuộc tính đặc tả bởi Slot. Facet có thể được định nghĩa gồm nhiều loại khác nhau: - Value (giá trị) : thể hiện giá trị hiện tại của thuộc tính mô tả bởi Slot Default (giá trị mặc định): giá trị này được lấy nếu như Slot có giá trị rỗng Range (miền giá trị): cho biết miền giá trị hợp lệ mà Slot có thể nhận If added: thủ tục được gọi khi Slot được thêm vào hoặc cập nhật If needed: Facet này mô tả một hàm để tính giá trị của slot 8 Các hệ thống trí tuệ nhân tạo trong thực tế thường sử dụng nhiều Khung, chúng được liên kết với nhau theo một quan hệ nhất định. Đặc tính phân cấp và kế thừa của Khung giúp cho ngữ nghĩa được thể hiện tốt hơn. Trong cây kế thừa, gốc cây thể hiện mức độ trừu tượng cao nhất, các nút lá thể hiện Khung có mức độ trừu tượng thấp nhất. Các Khung ở mức thấp có thể kế thừa tất cả những tính chất của những Khung cao hơn. Đặc tính này của Khung đã được kế thừa và tạo thành lợi thế của các ngôn ngữ hướng đối tượng. Cấu trúc phân cấp của khung cho phép giảm bớt độ phức tạp trong quá trình xây dựng cơ sở tri thức và cho phép dễ dàng phân loại tri thức. 2.1.4. Phương pháp mô hình hóa tri thức bằng luật sinh Biểu diễn tri thức bằng luật sinh [25] là một kiểu biểu diễn tri thức có cấu trúc. Ý tưởng cơ bản của phương pháp này là mô tả tri thức dưới một cấu trúc nhân quả: “Nếu A thì B”. Luật sinh là công cụ mô tả tri thức phổ biến và được áp dụng rộng rãi trong nhiều hệ thống thông minh vì nó có thể giải quyết các vấn đề thực tế. Các luật sinh giúp giảm không gian tìm kiếm từ đó giảm độ phức tạp tính toán cho các hệ thống. Bên cạnh đó, luật sinh có thể sử dụng để mã hóa các quyết định của chuyên gia. Một cách tổng quát luật sinh có dạng như công thức 2.1 : (2.1) Trong đó mệnh đề điều kiện và là các biểu thức logic. Trong đó là là mệnh đề kết luận. Mệnh đề điều kiện không chứa toán tử OR ( ) giữa các biểu thức, trong trường hợp mệnh đề điều kiện chứa toán tử OR thì luật ban đầu sẽ được tách thành hai luật mới không chứa toán tử OR. Mệnh đề kết luận chỉ gồm duy nhất một biểu thức logic. Bên cạnh những ưu điểm được nêu phía trên, biểu diễn tri thức bằng luật sinh có những hạn chế riêng của nó. Đối với hệ thống luật chứa vòng lặp hoặc chứa mâu thuẫn, quá trình suy diễn sẽ không dừng hoặc cho ra sai kết quả. Ngoài ra, phương pháp biểu diễn bằng luật sinh mang lại sự khó khăn nếu muốn bổ sung cập nhật cơ sở tri thức. 9 2.1.5. Phương pháp mô hình hóa tri thức bằng mạng ngữ nghĩa Mạng ngữ nghĩa [37] là phương pháp biểu diễn tri thức dưới dạng một đồ thị như một mô hình của bộ nhớ con người. Trong đồ thị, các đỉnh là các đối tượng (khái niệm) còn các cung chỉ ra mối liên kết (quan hệ) giữa chúng. Đây là cách biểu diễn tri thức phù hợp với nhu cầu giao tiếp của con người. Hình 2.2 là một ví dụ của mạng ngữ nghĩa. Chúng ta có những khái niệm như “Họa mi”, “Chim”, “Lông vũ”, “Tổ”, “Cánh” được kết nối bằng các quan hệ như trong đồ thị. Bằng việc tìm kiếm trên đồ thị này, ta có được những kết luận như “Họa mi có cánh”, “Họa mi có lông vũ” hay “Họa mi làm tổ”. Ta thấy rằng cách biểu diễn này dễ hiểu đối với con người. Họa mi Lông vũ là có Chim làm có Tổ Cánh Hình 2.2. Ví dụ về mạng ngữ nghĩa Điểm mạnh của mạng ngữ nghĩa chính là điểm mạnh của công cụ đồ thị trong việc thực hiện các giải thuật tìm kiếm. Các thuật toán như tìm đồ thị liên thông, tìm chu trình, tìm đường đi ngắn nhất đều có thể được áp dụng trên mạng 10
- Xem thêm -

Tài liệu liên quan