i
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG
NGUYỄN DUY DŨNG
Các thuật toán phân lớp dữ liệu và ứng dụng xây dựng hệ thống
hỏi đáp tự động về một số bệnh thường gặp
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái Nguyên 2015
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
ii
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn là kết quả nghiên cứu của riêng tôi. Các số liệu, kết
quả nêu trong luận văn là trung thực. Được các tác giả cho phép tham khảo và sử
dụng các tài liệu đăng tải trên các tác phẩm, tạp chí và các trang web theo danh mục
tài liệu tham khảo của luận văn.
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
iii
LỜI CẢM ƠN
Tôi xin được gửi lời cảm ơn trân trọng và sâu sắc nhất đến thầy giáo PGS.TS.
Đoàn Văn Ban – thầy đã tận tình giúp đỡ, hướng dẫn cho tôi trong suốt quá trình
học tập và nghiên cứu, thực hiện đề tài này.
Tôi cũng xin gửi lời biết ơn chân thành đến quý Thầy giáo, cô giáo Viện Công
nghệ thông tin và quý Thầy cô trường Đại học Công nghệ thông tin & truyền thông
Đại học Thái Nguyên đã tận tình giảng dạy, trang bị cho tôi những kiến thức quý
báu trong suốt quá trình học tập tại trường.
Tôi cũng xin gửi lời biết ơn chân thành đến Ban giám hiệu, các phòng ban
trường Cao đẳng Y tế Thanh Hóa đã tạo điều kiện cho tôi tham gia lớp học này.
Tôi cũng xin gửi lời biết ơn chân thành đến cơ quan Bắc Trung Bộ đã giúp đỡ
hỗ trợ cho tôi tham gia khóa học này.
Tôi xin được cảm ơn, chia sẻ niềm vui này với gia đình, bạn bè đồng nghiệp và
các y bác sĩ cùng anh chị em lớp Cao học K12G trường Đại học Công nghệ thông
tin & truyền thông Đại học Thái Nguyên, những người đã luôn ở bên tôi, giúp đỡ và
tạo điều kiện thuận lợi để cho tôi được học tập, nghiên cứu, hoàn thành luận văn.
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
iv
MỤC LỤC
LỜI CAM ĐOAN ...................................................................................................... i
MỤC LỤC ................................................................................................................ iv
DANH MỤC CÁC CHỮ VIẾT TẮT ...................................................................... vi
DANH MỤC BẢNG BIỂU ..................................................................................... vi
DANH MỤC CÁC HÌNH ........................................................................................ vi
1.
ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU ..................................................2
2.
PHƯƠNG PHÁP NGHIÊN CỨU ......................................................................2
3.
4.
HƯỚNG NGHIÊN CỨU CỦA ĐỀ TÀI ............................................................2
BỐ CỤC LUẬN VĂN ........................................................................................2
5. Ý NGHĨA KHOA HỌC CỦA ĐỀ TÀI ..............................................................3
Chương 1. Giới thiệu về hệ thống hỏi đáp ...........................................................4
1.1. Hệ thống hỏi – đáp tự động ........................................................................... 4
1.2. Phân loại các hệ thống hỏi đáp tự động .......................................................... 6
1.2.1. Phân loại theo miền ứng dụng ........................................................... 6
1.2.2. Phân loại theo khả năng trả lời câu hỏi ............................................ 7
1.2.3. Phân loại theo hướng tiếp cận ........................................................... 8
1.3. Cơ sở tri thức và máy suy diễn ...................................................................... 8
1.3.1. Cơ sở tri thức ........................................................................................ 8
1.3.1.1. Khái niệm hệ cơ sở tri thức ......................................................... 8
1.3.1.2. Hệ phân loại tri thức .................................................................... 9
1.3.1.3. Các phương pháp biểu diễn tri thức ........................................ 10
1.3.2. Máy suy diễn ........................................................................................ 15
1.4. Kiến trúc hệ thống hỏi – đáp ........................................................................ 18
1.4.1. Giao diện người dùng ......................................................................... 19
1.4.2. Phân tích câu hỏi ................................................................................. 19
1.4.3. Tìm kiếm dữ liệu ................................................................................. 19
1.4.4. Rút trích câu trả lời ............................................................................ 20
1.4.5. Xác minh câu trả lời ........................................................................... 20
1.5. Kết chương 1 .................................................................................................. 20
Chương 2. Kỹ thuật phân lớp dữ liệu trong khai phá dữ liệu ..........................21
2.1.
2.2.
2.3.
2.4.
Khai phá dữ liệu và phát hiện tri thức .......................................................... 21
Khai phá luật kết hợp ..................................................................................... 24
Phân lớp, phân cụm dữ liệu ........................................................................... 25
Cây quyết định................................................................................................. 29
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
v
2.5. Các thuật toán phân lớp dữ liệu phổ biến .................................................... 30
2.5.1. Thuật toán cây quyết định ID3 .......................................................... 30
2.5.2. Thuật toán C4.5 ................................................................................... 33
2.5.3. Thuật toán SVM .................................................................................. 36
2.5.4. Thuật toán phân lớp K người láng giềng gần nhất .......................... 36
2.6. Các vấn đề liên quan đến phân lớp dữ liệu................................................... 37
2.6.1. Chuẩn bị dữ liệu cho việc phân lớp ................................................... 37
2.6.2. So sánh các mô hình phân lớp ............................................................ 38
2.6.3. Các phương pháp đánh giá độ chính xác của mô hình phân lớp ... 39
2.7. Kết chương 2 .................................................................................................... 40
Chương 3. Xây dựng hệ thống hỏi đáp tự động về một số bệnh thương gặp ..41
3.1. Các loại bệnh thường gặp ............................................................................. 41
3.1.1. Bệnh lao ................................................................................................ 41
3.1.2. Viêm phổi ............................................................................................. 46
3.2. Xây dựng cơ sở luật (KB) ............................................................................. 52
3.3. Xây dựng cơ chế suy diễn để khai thác, tìm câu trả lời ............................. 56
3.4. Thiết kế hệ thống hỏi đáp ............................................................................. 59
3.5. Cài đặt thử nghiệm hệ thống hỏi đáp .......................................................... 60
3.5.1. Môi trường phát triển hệ thống ......................................................... 60
3.5.2. Cấu trúc các thành phần để triển khai hệ thống .............................. 60
3.5.3. Cài đặt chương trình ........................................................................... 61
3.5.4. Thử nghiệm hệ thống .......................................................................... 61
3.5.4.1. Chức năng khai phá dữ liệu ...................................................... 61
3.5.4.2. Giao diện chẩn đoán bệnh ......................................................... 62
3.5.4.3. Danh mục các triệu chứng bệnh thông thường ....................... 64
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ...............................................................65
DANH MỤC TÀI LIỆU THAM KHẢO ................................................................ 66
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
vi
DANH MỤC CÁC CHỮ VIẾT TẮT
Chữ viết tắt
Tiếng anh
Tiếng việt
Q&A
Question Answering
Hỏi - đáp
Cơ sở dữ liệu
CSDL
DANH MỤC BẢNG BIỂU
Tên bảng
Trang
Bảng 3.2a. Bảng dữ liệu da rám nắng
52
Bảng 3.2b. Phân hoạch
54
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
vii
DANH MỤC CÁC HÌNH
Hình 1.1. Xu hướng trong nghiên cứu về Q&A .........................................................7
Hình 1.2. Mô hình đồ thị biểu diễn tri thức nhờ mạng ngữ nghĩa ...........................11
Hình 1.3. Mô hình đồ thị thêm vào các nút và cung biểu diễn tri thức nhờ mạng NN
...................................................................................................................................12
Hình 1.4. Mô hình biểu diễn tri thức nhờ bộ ba liên hợp O.A.V .............................14
Hình 1.5. Hệ thống tìm kiếm thông tin .....................................................................18
Hình 1.6. Kiến trúc hệ thống hỏi đáp .......................................................................19
Hình 2.1 Quá trình phát hiện tri thức ......................................................................21
Hình 2.2. Phân lớp dữ liệu .......................................................................................26
Hình 2.3. Phân cụm dữ liệu ......................................................................................28
Hình 2.4. Siêu phẳng h phân chia dữ liệu huấn luyện thành 2 lớp + và – với khoảng
cách biên lớn nhất. Các biên gần h nhất là các vector hỗ trợ (Support Vector –
được khoanh tròn) ....................................................................................................36
Hình 2.5. Ước lượng độ chính xác của mô hình phân lớp với phương pháp holdout
...................................................................................................................................39
Hình 3.1 Phân hoạch các thuộc tính ........................................................................54
Hình 3.2 Phân hoạch các thuộc tính ........................................................................55
Hình 3.3 Mô hình kiến trúc của hệ thống ................................................................59
Hình 3.4. Giao diện khai phá dữ liệu .......................................................................61
Hình 3.5 Chẩn đoán bệnh của hệ thống ...................................................................62
Hình 3.6 Chẩn đoán ................................................................................................62
Hình 3.7 Giao diện câu hỏi của hệ thống .................................................................63
Hình 3.8 Giao diện kết quả chẩn đoán của .............................................................63
Hình 3.9 Giao diện hỗ trợ của hệ thống .................................................................64
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
viii
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
1
ĐẶT VẤN ĐỀ
Ngày nay với sự phát triển mạnh mẽ của khoa học kỹ thuật từ lý thuyết đến
ứng dụng, người ta đang cố gắng đưa công nghệ thông tin vào các ngành nghề
như: khoa học kỹ thuật, giáo dục, y tế, v.v, trong đó lĩnh vực y tế ngày càng được
nhiều người quan tâm. Các nhà nghiên cứu về hệ thống hỏi đáp cũng bắt đầu khai
thác web như là một nguồn dữ liệu cho việc tìm kiếm câu trả lời.
Phân tích câu hỏi là phần đầu tiên trong kiến trúc chung của một hệ thống
hỏi đáp, có nhiệm vụ tìm ra các thông tin cần thiết làm đầu vào cho quá trình xử lý
của các phần sau (trích chọn tài liệu, trích xuất câu trả lời, v.v). Vì vậy,việc phân
tích câu hỏi có vai trò hết sức quan trọng, ảnh hưởng trực tiếp đến hoạt động của
toàn bộ hệ thống. Nếu phân tích câu hỏi không tốt thì sẽ không thể tìm ra được câu
trả lời.
Hệ thống hỏi - đáp tự động là một công cụ hữu hiệu phục vụ cho nhu cầu
tìm kiếm trao đổi thông tin ngày càng cao của con người, trong hệ thống hỏi đáp
có rất nhiều dạng câu hỏi như: Câu hỏi dạng định nghĩa (What), câu hỏi về nơi
chốn (Where), câu hỏi như thế nào (How), câu hỏi đúng/sai (Yes/No). Nhưng hệ
thống hỏi - đáp (Yes/No) lại mới chỉ được quan tâm trong vài năm gần đây. Như
vậy,việc xây dựng một hệ thống hỏi - đáp (Yes/No) là một nhu cầu cần thiết.
Hướng tới mục tiêu này, chúng tôi muốn xây dựng một mô hình hệ thống hỏi - đáp
tự động (Yes/No) nhằm phục vụ cho một lĩnh vực cụ thể là hỗ trợ việc chẩn đoán
và khuyến nghị điều trị các bệnh lý thông thường trong cuộc sống.
Trong cuộc sống hằng ngày, có rất nhiều các loại bệnh thường xuyên đe
dọa đến sức khỏe của con người chúng ta. Thường các loại bệnh này xuất phát từ
các triệu chứng, nhưng không phải ai cũng biết. Cho nên yêu cầu của con người
chúng ta cần có một hệ thống hỏi - đáp giúp họ chẩn đoán được các bệnh và giúp
họ hướng giải quyết để đảm bảo được sức khỏe cho chính mình.
Như vậy, mục tiêu của đề tài này là tìm hiểu các tri thức cơ bản của y khoa
về các loại bệnh thông thường, thu thập tri thức để xây dựng một hệ thống hỏi đáp
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
2
nhằm hổ trợ chẩn đoán và phân loại các bệnh thường gặp, cho người sử dụng
những lời khuyên hữu ích trong việc phòng và điều trị bệnh.
Nhận thấy tính thiết thực của vấn đề này và được sự gợi ý của giảng viên
hướng dẫn, tôi đã chọn đề tài “Các thuật toán phân lớp dữ liệu và ứng dụng xây
dựng hệ thống hỏi đáp tự động về một số bệnh thường gặp".
1. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
- Nghiên cứu kỹ thuật phân lớp dữ liệu trong khai phá dữ liệu.
- Tìm hiểu về các bệnh thường gặp và xây dựng cơ sở tri thức về các biểu
hiện của bệnh dựa trên cơ sở dữ liệu thu thập được tại Bệnh viện Đa khoa tỉnh
Thanh Hóa để phân lớp các loại bệnh.
2. PHƯƠNG PHÁP NGHIÊN CỨU
Phương pháp nghiên cứu lý thuyết: Nghiên cứu qua các tài liệu, sách,
sách điện tử, các bài báo, thông tin tài liệu trên các website và các tài liệu liên
quan và công nghệ liên quan, tổng hợp các tài liệu, phân tích và thiết kế hệ thống
thông tin theo quy trình xây dựng ứng dụng phần mềm.
Phương pháp nghiên cứu thực nghiệm: Phân tích hiện trạng và yêu cầu
thực tế của bài toán và xây dựng các bước phân tích hệ thống để hỗ trợ việc lập
trình, xây dựng ứng dụng,vận dụng các vấn đề nghiên cứu về mã hóa thông tin
trong tiến trình xây dựng hệ thống, đánh giá kết quả đạt được.
3. HƯỚNG NGHIÊN CỨU CỦA ĐỀ TÀI
- Nghiên cứu phương pháp phân lớp dữ liệu trong KPDL, các thuật toán
liên quan đến quy nạp cây quyết định, tìm hiểu các ngôn ngữ mã lệnh siêu tìm kiếm.
- Tìm hiểu hệ thống hỏi đáp tự động, ứng dụng công nghệ tri thức hỗ trợ
phục vụ chẩn đoán và đưa ra khuyến nghị điều trị một số bệnh thường gặp.
4. BỐ CỤC LUẬN VĂN
Sau phần mở đầu, nội dung chính của luận văn được chia thành 3 chương:
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
3
Chương 1 trình bày lý thuyết về hỏi đáp tự động, cơ sở tri thức, máy suy
diễn và ứng dụng máy suy diễn trong hỏi đáp tự động.
Chương 2 trình bày các thuật toán phân lớp dữ liệu và trình bày về khai phá
dữ liệu. Trên cơ sở lý thuyết đã trình bày ở chương 1, xây dựng ứng dụng cho việc
chẩn đoán và đưa ra lời khuyến nghị điều trị các loại bệnh thông thường.
Chương 3 trình bày một số vấn đề liên quan đến việc chẩn đoán các loại bệnh
thông thường, mô tả cài đặt và thử nghiệm ứng dụng.
5. Ý NGHĨA KHOA HỌC CỦA ĐỀ TÀI
Đề tài đưa ra một phương thức ứng dụng cây quyết định, ID3 trong chẩn
đoán được các loại bệnh,và đưa ra khuyến nghị điều trị các loại bệnh thông thường.
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
4
Chương 1. Giới thiệu về hệ thống hỏi đáp
1.1.
Hệ thống hỏi – đáp tự động
Hệ thống hỏi đáp tự động là một hệ thống tự động trả lời câu hỏi của người
dùng dựa trên quá trình tự động nhận diện, phân tích câu hỏi, trên cơ sở kết quả
phân tích dữ liệu, hệ thống sẽ tìm kiếm các nội dung có liên quan đến câu hỏi và
cuối cùng, hệ thống xử lý các nội dung này để trích chọn câu trả lời.
Nghiên cứu về hệ thống hỏi đáp tự động hiện đang thu hút sự quan tâm của
rất nhiều các nhà nghiên cứu từ các trường đại học, các viện nghiên cứu và cả các
doanh nghiệp lớn trong ngành công nghệ thông tin, có ý nghĩa khoa học lẫn ý
nghĩa thực tế.
Một hệ thống hỏi đáp tự động (QA) thường gồm 3 bước chung như sau [7]:
Phân tích câu hỏi (Question Analysis).
Tìm kiếm tài liệu (Document Retrieval).
Lựa chọn câu trả lời (Answer Extraction).
Bước 1. Phân tích câu hỏi:
Phân tích câu hỏi là pha đầu tiên trong kiến trúc chung của một hệ thống
hỏi đáp, có nhiệm vụ tìm ra các thông tin cần thiết làm đầu vào cho quá trình xử lý
của các pha sau (trích chọn tài liệu, trích xuất câu trả lời, v.v). Vì vậy,việc phân
tích câu hỏi có vai trò hết sức quan trọng, ảnh hưởng trực tiếp đến hoạt động của
toàn bộ hệ thống. Nếu phân tích câu hỏi không tốt thì sẽ ảnh hưởng lớn đến chất
lượng, sự thỏa mãn của người dùng về câu trả lời của hệ thống.
Nếu các câu hỏi là độc lập lẫn nhau người ta thường dùng các kỹ thuật phân
tích cú pháp và phân loại, giới hạn câu hỏi để xác định loại câu trả lời tương ứng.
Tuy nhiên, trên thực tế, người sử dụng đặt các câu hỏi thường liên quan với nhau
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
5
(câu hỏi tình huống). Trong trường hợp này, tri thức, phạm vi của câu hỏi trước đó
cần được lưu trữ và xử lý; hay nói cách khác các câu hỏi trước đó là cơ sở cho việc
xử lý và lựa chọn câu trả lời phù hợp với câu hỏi đang hỏi.
Vai trò của quá trình phân tích câu
- Tạo ra các câu truy vấn thông tin làm cơ sở đáp ứng cho quá trình tìm
kiếm tài liệu liên quan.
- Xác định, phân loại câu hỏi giúp cho quá trình lựa chọn câu trả lời xác
định đúng loại câu trả lời phù hợp.
Bước 2. Tìm kiếm nguồn tài liệu liên quan
Vai trò chính của thành phần tìm kiếm tài liệu liên quan là rút trích ra một
tập con từ tập tài liệu cha. Tập tài liệu con này sẽ làm đầu vào cho bộ lựa chọn câu
trả lời. Vấn đề chính ở đây là mô hình nào là phù hợp với khối lượng và cấu trúc
của văn bản rút trích. Nhiều hướng tiếp cận sử dụng cơ chế sắp xếp các tài liệu
đang được rất nhiều nghiên cứu quan tâm và cải tiến [8]. Với hướng tiếp cận này,
kết quả trả về là một tập các tài liệu được sắp xếp giảm dần độ liên quan của chúng
với câu hỏi đã cho. Để đánh giá kết quả tìm kiếm, hai thông số được sử dụng là độ
chính xác và độ bao phủ. Gaizauskas [7] đã đưa ra nhận định: nếu tăng số lượng
các tài liệu tìm kiếm được; tức là làm tăng độ bao phủ nhưng lại làm giảm độ
chính xác của quá trình lựa chọn câu trả lời. Vì thế, trong quá trình tìm kiếm cần
phải cân đối hai thông số này.
Ngoài ra, hướng tiếp cận sử dụng mô hình logic để biểu diễn và rút trích tài
liệu cho kết quả tìm kiếm rất khó để đánh giá mức độ liên quan với câu trả lời vì
nó xem các thuật ngữ là tách biệt, không có quan hệ với nhau về mặt ngữ nghĩa.
Tài liệu đầu vào của bộ lựa chọn câu trả lời có thể tồn tại ở nhiều cấu trúc
khác nhau. Đối với hệ thống hoạt động tốt với số lượng văn bản nhỏ, nếu sử dụng
tất cả nội dung của kết quả tìm kiếm thì rõ ràng không phù hợp và có thể cho kết
quả không tốt mà lại mất nhiều thời gian xử lý hơn là trả về các đoạn ngắn của tài
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
6
liệu có liên quan [8]. Vì thế, nhiều bài báo đã nghiên cứu việc ngắt đoạn văn bản
từ một tài liệu nguyên bản với mục đích có thể nâng cao độ bao phủ mà vẫn giữ
được số lượng kết quả tìm kiếm ở mức nhỏ nhất, [5], [6] đề xuất cách thức chọn
các đoạn trong tài liệu và sắp xếp chúng; trong khi [4] không dựa trên kích thước
cố định của đoạn văn và chỉ chọn đoạn có kích thước nhỏ nhất có chứa các từ khóa
của câu hỏi.
Bước 3. Lựa chọn câu trả lời:
Đầu vào của quá trình này bao gồm hai thành phần:
Tập các tài liệu có liên quan chứa câu trả lời ứng viên.
Loại câu trả lời mong đợi được trả về trong quá trình phân tích câu hỏi.
Dựa trên các tài liệu đầu vào, quá trình lựa chọn câu trả lời sẽ thực hiện các
xử lý như: tách câu, gán nhãn, nhận diện tên riêng, v.v. Việc lựa chọn các kỹ thuật
và sự kết hợp các kỹ thuật tùy thuộc vào hướng tiếp cận và phương thức xử lý của
từng hệ thống hỏi đáp cụ thể.
Hướng tiếp cận sử dụng các mẫu để lựa chọn câu trả lời được rất nhiều bài
báo đề xuất [6]. Theo đó, quá trình lựa chọn câu trả lời thường không đi sâu vào
xử lý tài liệu mà chỉ so khớp mẫu.
1.2. Phân loại các hệ thống hỏi đáp tự động
Có nhiều cách phân loại hệ thống hỏi đáp dựa trên các tiêu chí khác nhau
như: phân loại theo miền ứng dụng, theo việc xử lý trên tài liệu rút trích nhiều
hơn; vì thế tốn nhiều thời gian hơn.
1.2.1. Phân loại theo miền ứng dụng
Hệ thống hỏi đáp miền mở (open domain Question answering): Hệ thống trả
lời bất kỳ câu hỏi nào được đưa vào. Khó khăn cho hệ thống miền mở đó chính là
việc xây dựng các tri thức nên cho việc trả lời cũng như phân tích câu hỏi, các
phương pháp hiện nay thường sử dụng một số các bản thể khái quát hay các mạng
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
7
tri thức như: wikipedia, bách khoa từ điển, v.v. Tuy nhiên, dữ liệu cho việc trích
rút câu trả lời là phong phú, dễ thu thập.
Hệ thống hỏi đáp miền đóng (close domain Question answering): Hệ thống
tập trung vào trả lời các câu hỏi liên quan đến một miền cụ thể (giáo dục, y tế, thể
thao, v.v). Xây dựng hệ thống hỏi đáp miền đóng được coi là bài toán dễ hơn so
với xây dựng hệ thống hỏi đáp miền mở vì có thể sử dụng các tri thức miền
(thường là ontology của miền cụ thể).
Hệ thống hỏi đáp
Miền đóng
Miền mở
Dữ liệu có cấu trúc
Web
Dữ liệu phi cấu trúc (Text)
Tập dữ liệu lớn
Một văn bản đơn
Hình 1.1. Xu hướng trong nghiên cứu về Q&A
Các nghiên cứu hiện nay về Q&A đang tập trung vào xây dựng hệ thống
hỏi đáp trên miền mở, sử dụng nguồn dữ liệu phi cấu trúc (kho văn bản lớn hay dữ
liệu web) để tìm câu trả lời. Các nghiên cứu mới và cải tiến những phương pháp
cũ để có thể áp dụng cho nguồn dữ liệu web vốn đa dạng, nhiều “nhiễu” và trùng
lặp đang rất được quan tâm (Hình 1.1).
1.2.2. Phân loại theo khả năng trả lời câu hỏi
Hệ thống có khả năng trả lời các câu hỏi liên quan đến sự vật, hiện
tượng,v.v dựa trên việc trích ra câu trả lời có sẵn trong tập tài liệu. Câu trả lời là
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
8
các chuỗi ký tự trong một tài liệu. Kỹ thuật chính được sử dụng là xử lý chuỗi và
từ khóa.
Hệ thống có cơ chế lập luận đơn giản: Trích xuất các câu trả lời có sẵn
trong tập tài liệu sau đó sử dụng các suy luận để tìm mối liên kết giữa câu trả lời
và câu hỏi. Hệ thống sử dụng các nguồn tri thức như bản thể về từng miền cụ thể
và bản thể chung.
Hệ thống trả lời các câu hỏi yêu cầu khả năng tổng hợp: Các phần của câu
trả lời được trích rút từ nhiều tài liệu sau đó được tổng hợp lại thành câu trả lời
hoàn chỉnh. Câu hỏi thường là về danh sách, về cách thức, nguyên nhân, v.v.
Hệ thống có khả năng giao tiếp với người dùng: Trả lời chuỗi các câu hỏi
của người dùng về cùng một vấn đề. Ví dụ các câu hỏi của người dùng như: “Giáo
sư A sinh năm nào? Ở đâu? Ông ấy đang công tác ở đâu?”.
Hệ thống có khả năng lập luận tương tự: Có thể trả lời các câu hỏi có tính
chất suy đoán, câu trả lời ẩn trong tập tài liệu. Hệ thống cần trích ra các luận
chứng và sử dụng lập luận tương tự để tìm ra câu trả lời.
1.2.3. Phân loại theo hướng tiếp cận
Hướng tiếp cận nông: Nhiều phương pháp sử dụng trong Q&A dùng các kĩ
thuật dựa trên từ khóa để định vị các câu, đọan văn có khả năng chứa câu trả lời từ
các văn bản được trích chọn về. Sau đó giữ lại các câu, đoạn văn có chứa chuỗi ký
tự cùng loại với loại câu trả lời mong muốn (ví dụ các câu hỏi về tên người, địa
danh, số lượng, v.v).
Hướng tiếp cận sâu: Trong những trường hợp khi mà hướng tiếp cận bề mặt
không thể tìm ra câu trả lời, những quá trình xử lý về ngữ pháp, ngữ nghĩa và ngữ
cảnh là cần thiết để trích xuất hoặc tạo ra câu trả lời. Các kĩ thuật thường dùng như
nhận dạng thực thể, trích xuất mối quan hệ, loại bỏ nhập nhằng ngữ nghĩa, v.v. Hệ
thống thường sử dụng các nguồn tri thức như Wordnet, bản thể để làm giàu thêm
khả năng lập luận thông qua các định nghĩa và mối liên hệ ngữ nghĩa. Các hệ
thống hỏi đáp dựa theo mô hình ngôn ngữ thống kê cũng đang ngày càng phổ biến.
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
9
1.3. Cơ sở tri thức và máy suy diễn
1.3.1 . Cơ sở tri thức
1.3.1.1 . Khái niệm hệ cơ sở tri thức
Hệ cơ sở tri thức (CSTT) là chương trình máy tính được thiết kế để mô hình
hoá khả năng giải quyết vấn đề của chuyên gia con người.
Hệ CSTT là hệ thống dựa trên tri thức, cho phép mô hình hoá các tri thức của
chuyên gia, dùng tri thức này để giải quyết vấn đề phức tạp thuộc cùng lĩnh vực.
Hai yếu tố quan trọng trong Hệ CSTT là: tri thức chuyên gia và lập luận,
tương ứng với hệ thống có hai khối chính là Cơ sở tri thức và mô tơ suy diễn.
Hệ Chuyên gia là một loại cơ sở tri thức được thiết kế cho một lĩnh vực ứng
dụng cụ thể.
Ví dụ: Hệ Chuyên gia về chẩn đoán bệnh trong Y khoa, Hệ Chuyên gia
chẩn đoán hỏng hóc của đường dây điện thoại, v.v.
- Hệ Chuyên gia làm việc như một chuyên gia thực thụ và cung cấp các ý
kiến dựa trên kinh nghiệm của chuyên gia con người đã được đưa vào Hệ Chuyên gia.
- Cơ sở tri thức: Chứa các tri thức chuyên sâu về lĩnh vực như chuyên gia.
Cơ sở tri thức bao gồm: các sự kiện, các luật, các khái niệm và các quan hệ.
- Mô tơ suy diễn: bộ xử lý tri thức theo mô hình hoá theo cách lập luận của
chuyên gia. Mô tơ hoạt động trên thông tin về vấn đề đang xét, so sánh với tri thức
lưu trong cơ sở tri thức rồi rút ra kết luận.
- Kỹ sư tri thức: người thiết kế, xây dựng và thử nghiệm Hệ Chuyên gia.
1.3.1.2 . Hệ phân loại tri thức
Tri thức tồn tại dưới hai dạng cơ bản:
1. Tri thức định lượng: Thường gắn với các loại kinh nghiệm khác nhau. Ở
đây chúng ta xét về tri thức định tính.
2. Tri thức định tính. Được chia làm 3 loại:
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
10
Tri thức mô tả
Cho những thông tin về một sự kiện, hiện tượng hay quá trình mà không đưa
ra thông tin về cấu trúc bên trong cũng như phương pháp sử dụng bên trong của tri
thức đó. Ví dụ: Khẳng định “Việt Nam là đất nước tươi đẹp”. Đây là một khẳng
định bất biến, không phụ thuộc vào tình huống, không gian và thời gian. Các tri thức
phụ thuộc không gian và thời gian đòi hỏi những mô hình biểu diễn đặc biệt, cho
phép thể hiện các tương quan giữa các sự kiện, quá trình không gian và thời gian.
Ngoài ra các tri thức mô tả còn cho phép miêu tả các mối liên hệ, các ràng buộc
giữa các đối tượng, các sự kiện và các quá trình. Ví dụ: “Tôi muốn mua ô tô” miêu
tả mối quan hệ giữa đối tượng “tôi” và “ô tô” thông qua quan hệ “muốn mua”.
Tri thức thủ tục
Mô tả cách thức giải quyết một vấn đề. Loại tri thức này đưa ra giải pháp để
thực hiện một công việc nào đó. Các dạng tri thức thủ tục tiêu biểu thường là các
luật, chiến lược, lịch trình và thủ tục.
Tri thức điều khiển
Dùng để điều khiển, phối hợp các nguồn tri thức thủ tục và tri thức mô tả
khác nhau.
1.3.1.3 . Các phương pháp biểu diễn tri thức
Biểu diễn tri thức nhờ logic
Dựa vào các khái niệm cơ bản về logic mệnh đề và logic vị từ,với một số
bài toán, các trạng thái được mô tả qua các biểu thức logic. Khi đó bài toán được
phát biểu dưới dạng:
Chứng minh: Từ GT1 GT2 … GTm suy ra một trong các kết luận:
KL1,…, KLn.
Ở đây: GTi, KLj là các biểu thức logic (mệnh đề hoặc vị từ)
Tìm ghép: Gán cho các biến tự do sao cho từ GT1,…, GTm suy ra một
trong các kết luận KL1,…, KLn.
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
11
Cơ sở tri thức gồm hai phần: Các sự kiện và Các luật.
Các sự kiện được cho bởi các luật đặc biệt dạng:
p q1;
p q2;
……
p qk;
Tập F = (p1,…, pn) tạo nên giả thiết cho quá trình suy diễn.
Các luật ở dạng chuẩn Horn: p1 … pn q
Cơ sở tri thức được cấu tạo bởi hai phần:
(1) Tập các sự kiện F.
(2) Tập các luật R.
Các sự kiện được cho bởi: p qi (x,y,z,…), i =
, ở đây qi (x,y,z, …) là
các vị từ phụ thuộc vào các hạng thức x, y, z,…
Logic vị từ cho phép biểu diễn hầu hết các khái niệm và các phát biểu định
lý, định luật trong các bộ môn khoa học. Cách biểu diễn này khá trực quan và ưu
điểm căn bản của nó là có một cơ sở lý thuyết vững chắc cho những thủ tục suy
diễn nhằm tìm kiếm và sản sinh ra những tri thức mới, dựa trên các sự kiện và các
luật đã cho.
Biểu diễn tri thức nhờ mạng ngữ nghĩa
Mạng ngữ nghĩa là một phương pháp biểu diễn tri thức dùng đồ thị trong đó
nút biểu diễn đối tượng cung biểu diễn quan hệ giữa các đối tượng. Các nút và các
cung đều được gắn nhãn.
Ví dụ 1.1: để thể hiện tri thức “sáo là một loài chim có cánh và biết bay”,
người ta vẽ một đồ thị (xem Hình 1.2):
Có
Sáo
Là
Cánh
Loài chim
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
Bay
Biết
12
Hình 1.2. Mô hình đồ thị biểu diễn tri thức nhờ mạng ngữ nghĩa
Bằng cách thêm nút mới và các cung mới vào đồ thị người ta có thể mở rộng
mạng ngữ nghĩa. Các cung mới được thêm thể hiện các đối tượng tương tự (với các
nút đã có trong đồ thị), hoặc tổng quát hơn. Chẳng hạn để thể hiện “chim là một loài
động vật đẻ trứng” và “cánh cụt là loài chim biết lặn”, người ta vẽ thêm (Hình 1.3):
Có
Sáo
Là
Là
Loài chim
Là
Biết
Cánh cụt
Biết
Cánh
Động vật
Đẻ
Trứng
Bay
Lặn
Hình 1.3. Mô hình đồ thị thêm vào các nút và cung biểu diễn tri thức nhờ mạng ngữ nghĩa
Biểu diễn tri thức nhờ các luật
Để có thể tận dụng những điểm mạnh trong suy diễn logic nhờ nguyên lý
Modun Ponens, các hệ chuyên gia trí tuệ nhân tạo đưa ra các luật sản xuất có dạng:
Nếu
Điều kiện 1
Điều kiện 2
…
Điều kiện m
Thì
Kết luận 1
…
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
- Xem thêm -