Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Mô hình khai thác khái niệm và quan hệ trong văn bản lâm sàng...

Tài liệu Mô hình khai thác khái niệm và quan hệ trong văn bản lâm sàng

.PDF
28
818
145

Mô tả:

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN HUỲNH HỮU NGHĨA MÔ HÌNH KHAI THÁC KHÁI NIỆM VÀ QUAN HỆ TRONG VĂN BẢN LÂM SÀNG Chuyên ngành : HỆ THỐNG THÔNG TIN Mã số : 62.48.05.01 TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Tp. Hồ Chí Minh – Năm 2017 Công trình được hoàn thành tại: ĐẠI HỌC QUỐC GIA TP-HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Người hướng dẫn khoa học: PGS. TS. HỒ BẢO QUỐC TS. NGUYỄN AN TẾ Phản biện 1 : PGS.TS. Lê Anh Cường Phản biện 2 : TS. Võ Thị Ngọc Châu Phản biện 3 : TS. Nguyễn Tuấn Đăng Phản biện độc lập 1 : TS. Võ Thị Ngọc Châu Phản biện độc lập 2 : TS. Nguyễn Tuấn Đăng Luận án sẽ được bảo vệ trước Hội đồng chấm luận án họp tại ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN vào lúc giờ ngày tháng năm Có thể tìm hiểu luận án tại thư viện: - Thư viện Khoa học Tổng hợp Tp.HCM - Thư viện Trường Đại học Khoa học Tự Nhiên MỞ ĐẦU Dẫn nhập Trong lĩnh vực y tế, các khái niệm thường đề cập đến các đối tượng như: bệnh, rối loạn, thuốc (tên thuốc, liều lượng, phương thức quản lý, tần xuất quản lý …), điều trị (thủ tục, biện pháp điều trị, thuốc điều trị …), các vấn đề y tế, xét nghiệm, protein, di truyền (gien)… còn mối quan hệ cho biết mối liên quan giữa các khái niệm như: điều trị giải quyết được vấn đề y tế, điều trị làm xấu đi vấn đề y tế, xét nghiệm phát hiện ra vấn đề y tế… việc nhận diện khái niệm là tiền đề để xác định mối quan hệ giữa chúng, các khái niệm và mối quan hệ có ý nghĩa rất quan trọng đối với người dùng như: bác sĩ, nhà nghiên cứu, sinh viên y khoa, nhân viên y tế, bệnh nhân cũng như thân nhân… Một số trường hợp cụ thể cho thấy ý nghĩa của khái niệm và mối quan hệ đối với người dùng như sau: các bác sĩ muốn biết mối quan hệ giữa các khái niệm điều trị và vấn đề y tế để giúp họ đưa ra quyết định điều trị hiệu quả và hạn chế những sai sót, các nhà nghiên cứu muốn tìm hiểu về mối quan hệ giữa các khái niệm di truyền (gien) và bệnh nhằm giải thích những căn bệnh liên quan đến yếu tố di truyền, và còn rất nhiều trường hợp khác nữa. Những khái niệm và mối quan hệ đang nằm ẩn trong các tài liệu y tế như: các tóm tắt xuất viện, các kết quả xét nghiệm, các công trình nghiên cứu khoa học… Những tài liệu này đang được tạo ra liên tục, người dùng không thể nào đọc một khối lượng lớn tài liệu để cập nhật thông tin hữu ích (khái niệm và mối quan hệ) hàng ngày. Vì vậy, mà họ rất cần một hệ thống máy tính rút trích thông tin hữu ích từ các nguồn tài liệu y tế để cung cấp cho họ. Thời gian qua, một số công trình nghiên cứu đã đề xuất một số giải pháp và công cụ hỗ trợ việc rút trích thông tin hữu ích từ các tài liệu y tế để đáp ứng nhu cầu thông tin của người dùng như: phân loại hồ sơ y tế của bệnh nhân [55], rút trích thông tin liên quan đến bệnh [56] và rút trích thông tin liên quan đến thuốc [63]. Tuy nhiên, những kết quả chưa đạt được như mong muốn, bằng chứng là một số diễn đàn nghiên cứu 1 quốc tế đang tiếp tục mời gọi cộng đồng nghiên cứu đề xuất những giải pháp mới nhằm khai thác thông tin từ tài liệu y tế thông qua các hình thức như: “Bài toán chia sẻ” (Shared tasks) và “Các thách thức” (Chellenges), cụ thể một số diễn đàn như: I2B2, BioNLP, CLEF eHealth và SemEval. Sở dĩ kết quả còn hạn chế là do việc khai thác thông tin y tế có nhiều thách thức, một số thách thức có thể kể đến như sau: dữ liệu văn bản không có cấu trúc hoặc bán cấu trúc, tính đồng nghĩa của các từ hoặc cụm từ, các cụm từ thường không đúng ngữ pháp, nhiều ký tự/chữ viết tắt, lỗi chính tả, sự đa dạng về mặt từ vựng, hình thức thể hiện của khái niệm, chuẩn hoá khái niệm và các mối quan hệ phức tạp. Với mong muốn tham gia đóng góp cùng với cộng động nghiên cứu, chúng tôi định hướng nghiên cứu mô hình khai thác thông tin y tế dựa trên khái niệm (xem hình 1). Trong mô hình khai thác thông tin y tế bao gồm nhiều bài toán con bên trong nó, chẳng hạn như: nhận diện khái niệm, rút trích mối quan hệ giữa các khái niệm, quản lý tri thức và các chương trình ứng dụng khác, trong đó nhận diện khái niệm và rút trích Hình 1. Mô hình khai thác thông tin y tế mối quan hệ là hai bài toán cốt lõi trong mô hình khai thác thông tin y tế, nó là thành phần rút trích thông tin hữu ích từ tài liệu, còn là nguồn cung cấp thông tin để xây dựng các cơ sở tri thức và từ đó phát triển các chương trình ứng dụng (hệ thống hỗ trợ ra quyết định). Những nghiên cứu liên quan đến hai bài toán này chưa đạt được kết quả như mong muốn, cho nên mục tiêu của luận án sẽ tập trung nghiên cứu đề xuất một số giải pháp liên quan đến hai bài toán nhận diện khái niệm và rút trích mối quan hệ giữa các khái niệm trước, sau đó chúng tôi mở rộng nghiên 2 cứu cho những bài toán còn lại để hoàn thiện mô hình khai thác thông tin y tế. Mục tiêu của đề tài Trong phạm vi của luận án, từ mục tiêu định hướng nêu trên, chúng tôi xác định 3 mục tiêu mà luận án nghiên cứu giải quyết gồm: (1) Nghiên cứu các phương pháp rút trích khái niệm và đề xuất một hướng tiếp cận rút trích khái niệm nhằm giải quyết thách thức liên quan đến thể hiện của khái niệm trong tài liệu, khái niệm gồm những token liên tục, không liên tục, hoặc lồng nhau và thách thức chuẩn hoá khái niệm. (2) Nghiên cứu các phương pháp rút trích mối quan hệ và đề xuất một hướng tiếp cận rút trích mối quan hệ trên bài toán cụ thể là rút trích giá trị cho các thuộc tính của từng khái niệm (còn gọi là bài toán điền mẫu). (3) Nghiên cứu đề xuất mô hình (khung kiến trúc) khai thác khái niệm và mối quan hệ trong văn bản lâm sàng và định hướng phát triển một khung kiến trúc chung khai thác thông tin văn bản trong lĩnh vực y tế. Những đóng góp chính của luận án Đối với bài toán rút trích khái niệm, luận án đã đề xuất một bộ nhãn BIEO (Begin, Inside, End và Outside) dùng để phân lớp cho token và tập đặc trưng phân lớp nhằm rút trích khái niệm và chuẩn hoá khái niệm dựa trên phương pháp máy học và từ điển. Kết quả được công bố trong công trình ([CT5], [CT10]). Trong bài toán rút trích mối quan hệ, đóng góp của luận án là những đề xuất gồm: tập luật xác định mối quan hệ giữa các khái niệm dựa trên phân tích cú pháp phụ thuộc; tập đặc trưng phân lớp mối quan hệ thời gian giữa khái niệm và thời điểm viết tài liệu; một hướng tiếp cận kết hợp các phương pháp dựa trên luật, từ điển và máy học để xác định giá trị cho các thuộc tính của khái niệm y tế và một số cải tiến hiệu quả cho hệ 3 thống được công bố trong các công trình ([CT2], [CT3], [CT4], [CT7], [CT8], [CT9]). Bên cạnh đó, luận án đã đưa ra một hướng tiếp cận lai ghép giữa máy học và luật để rút trích sự kiện y sinh, phương pháp máy học được áp dụng để phân lớp sự kiện và dựa trên luật để xác định các tham số liên quan đến sự kiện, tập luật được hệ thống học tự động từ tập dữ liệu huấn luyện. Kết quả được thể hiện trong công trình ([CT1]). Đóng góp cuối cùng của luận án là sử dụng các kết quả trên để xây dựng một mẫu ban đầu (prototype) cho hệ thống khai thác thông tin y tế dựa trên khái niệm. Kết quả trình bày trong công trình ([CT6]). Chương 1 GIỚI THIỆU 1.1. Dữ liệu y tế Luận án trình bày loại dữ liệu được sử dụng cho quá trình nghiên cứu liên quan đến tài liệu lâm sàng và các tài liệu là các bài báo nghiên cứu khoa học trong lĩnh vực y tế (xem phần phụ lục A). 1.2. Khai thác văn bản tổng quát Luận án tìm hiểu bài toán rút trích thực thể và mối quan hệ trên văn bản tổng quát cũng như những phương pháp đánh giá hiệu quả của hệ thống rút trích thực thể và mối quan hệ. 1.3. Khai thác văn bản y tế Luận án khảo sát hiện trạng khai thác văn bản y tế gồm xử lý ngôn ngữ tự nhiên trong lĩnh vực y tế, những thách thức trong bài toán rút trích khái niệm và mối quan hệ giữa các khái niệm cũng như các phương pháp rút trích, các nguồn tài nguyên hỗ trợ khai thác văn bản y tế. Từ đó làm cơ sở cho luận án nghiên cứu và giải quyết ba mục tiêu nghiên cứu đề ra. Chương 2 RÚT TRÍCH KHÁI NIỆM Y TẾ 2.1. Giới thiệu Bài toán rút trích khái niệm có nhiều thách thức, tuy nhiên luận án tập trung nghiên cứu giải quyết thách thức thể hiện của khái niệm trong văn 4 bản lâm sàng (các khái niệm thể hiện gồm những token liên tục, không liên tục, hoặc lồng nhau). Thể hiện của khái niệm trong văn bản rất đa dạng, một khái niệm có thể được thể hiện gồm những token liên tục, không liên tục hoặc lồng nhau. Cụ thể, xét câu văn bản “The rhythm appears to be atrial fibrillation.” (Nhịp tim chứng tỏ là rung tâm nhĩ.), có khái niệm gồm những token liên tục là “atrial fibrillation”; xét câu văn bản “The left atrium is moderately dilated.” (Tâm nhĩ trái đã bị giãn.), có một khái niệm xuất hiện trong văn bản là “left atrium … dilated” (giãn tâm nhĩ trái) gồm 2 cụm token không liên tục; xét câu văn bản “Abdomen: Soft, nontender, nondistended, normal active bowel sounds.”, có hai khái niệm lồng nhau cần được rút trích là “Abdomen … nontender” (bụng cứng) và “Abdomen … nondistended” (bụng không bị sưng to) và cả hai khái niệm này có chung token là “Abdomen”. Như vậy, việc rút trích chính xác những khái niệm xuất hiện trong văn bản ngôn ngữ tự nhiên không có cấu trúc là một thách thức đối với các phương pháp tiếp cận. 2.2. Những đề xuất liên quan Trong chương khảo sát hiện trạng cho thấy việc rút trích thực thể có thể dựa trên các phương pháp như: từ điển, luật, máy học và lai ghép, xu hướng là dùng phương pháp máy học và thuật toán máy học được sử dụng phổ biến là thuật toán gán nhãn chuỗi tuần tự CRFs với bộ nhãn BIO, cho nên luận án cũng áp dụng phương pháp máy học và sử dụng thuật toán CRFs để rút trích khái niệm y tế. Tuy nhiên, khi áp dụng nó phát sinh một số vấn đề như: bộ nhãn BIO không phù hợp với những thể hiện thực tế của khái niệm và tập đặc trưng phân lớp cũng khác nhau, vì thế chúng tôi đã nghiên cứu đề xuất bộ nhãn, tập đặc trưng và thiết kế một hệ thống phù hợp với bài toán hơn được trình bày trong phần tiếp theo. 2.2.1. Bộ nhãn phân lớp Token 5 Các khái niệm cần rút trích có nhiều thể hiện khác nhau trong tài liệu y tế, một khái niệm có thể gồm nhiều token liên tục, không liên tục hoặc lồng nhau, bộ nhãn BIO chỉ phù hợp cho khái niệm gồm những token liên tục còn các trường hợp khác thì không phù hợp, cho nên chúng tôi đề xuất bộ nhãn BIEO được sử dụng như sau: nhãn B (Begin) gán cho token bắt đầu khái niệm, nhãn I (Inside) gán cho token bên trong khái niệm, nhãn E (End) gán cho token cuối cùng của khái niệm và nhãn O (Outside) gán cho token không thuộc khái niệm. Với bộ nhãn mà luận án đề xuất dùng để gán nhãn token có thể phủ hết những dạng thể hiện của khái niệm trong tài liệu. 2.2.2. Tập đặc trưng phân lớp Token Trong phương pháp máy học, tập đặc trưng có vai trò quan trọng và ảnh hưởng đến hiệu quả của phương pháp, đặc trưng chính là đặc điểm để nhận diện và phân lớp, trong bài toán này chúng tôi đã nghiên cứu đặc điểm của dữ liệu y tế và đề xuất tập đặc trưng phù hợp dùng để phân lớp nhãn token cho bài toán rút trích khái niệm như sau:  Đặc trưng ngữ cảnh: chỉ token hiện tại đang xét và hai token liền trước và liền sau của token đang xét. Các token xung quanh token đang xét đóng vai trò là thông tin ngữ cảnh.  Đặc trưng mặt chữ (Orthographic): token đang xét là chữ thường, in hoa, hoa ký tự đầu và chữ có số.  Đặc trưng từ loại (Part of Speech): từ loại của token đang xét, các từ loại bao gồm danh từ, động từ, tính từ, giới từ, trạng từ, cụm danh từ, cụm động từ và cụm giới từ.  Đặc trưng thứ tự nhãn (label sequences): là thứ tự nhãn được gán cho từng token. Ý nghĩa của đặc trưng này là giá trị nhãn phân lớp của token thứ i phụ thuộc vào giá trị nhãn phân lớp của token thứ i – 1. 2.2.3. Hệ thống rút trích và chuẩn hoá khái niệm Tiếp theo, luận án đã kết hợp các đề xuất nêu trên để thiết kế một hệ thống rút trích và chuẩn hoá khái niệm (xem hình 2.1), trong hệ thống 6 được thiết kế gồm hai bước: (1) xây dựng mô hình và tập từ vựng từ dữ liệu huấn luyện và (2) áp dụng kết quả của (1) để rút trích và chuẩn hoá khái niệm. 2.3. Áp dụng các đề xuất Luận án sử dụng hệ thống trên tham gia giải quyết bài toán “Rút trích và chuẩn hoá khái niệm liên quan đến bệnh/rối loạn xuất hiện trong tài liệu lâm sàng” được tổ chức trên diễn đàn nghiên cứu SemEval 2015. Bộ dữ liệu sử dụng thực nghiệm do SemEval cung cấp thông qua kho ngữ liệu ShARe, gồm 431 tài liệu được sử dụng là dữ liệu huấn luyện và 100 Hình 2.1 Hệ thống rút trích và chuẩn hoá khái niệm tài liệu được dùng để đánh giá hiệu quả hệ thống, việc đánh giá và công bố kết quả là do SemEval thực hiện. 2.4. Đánh giá hiệu quả đề xuất Dựa trên kết quả của các hệ thống cùng tham gia do SemEval công bố chúng tôi có một số bàn luận như sau: nhìn chung hướng tiếp cận của luận án (HCMUS) tương đồng với hướng tiếp cận của các nhóm cùng tham gia, tuy nhiên khi đối chiếu chi tiết giữa các hệ thống thì nó có những khác biệt, sự khác biệt đầu tiên là bộ nhãn sử dụng cụ thể: nhóm LIST-LUX dùng bộ nhãn BIESTO, nhóm HCMUS dùng bộ nhãn BIEO và nhóm HITACHI dùng bộ nhãn BIO; sự khác biệt tiếp theo là tập đặc trưng phân lớp: hai nhóm LIST-LUX và HCMUS cùng dùng thuật toán CRFs, tập đặc trưng gần giống nhau và hệ thống chạy một lần để rút trích khái niệm nhưng hiệu quả của HCMUS cao hơn LIST-LUX dựa trên độ đo F-score (xem bảng 2.5), trong khi đó số đặc trưng của nhóm ezDl sử 7 dụng nhiều hơn và hệ thống phức tạp hơn do lần đầu họ dùng thuật toán CRFs để rút trích các khái niệm thể hiện những token liên tục và lần hai họ dùng thuật toán SVM để phân lớp mối quan hệ giữa các khái niệm nhằm xác định những khái niệm thể hiện những token không liên tục hoặc lồng nhau cho nên hệ thống của họ có kết quả cao nhất trong tất cả các nhóm tham gia trên độ đo F-score (xem bảng 2.5). Như vậy, có thể thấy rằng những đề xuất của luận án cũng mang lại được những hiệu quả nhất định, tuy nhiên cũng cần có những nghiên cứu cải tiến trong lai. Chương 3 RÚT TRÍCH MỐI QUAN HỆ GIỮA CÁC KHÁI NIỆM 3.1. Giới thiệu Mối quan hệ trong y tế rất rộng, có nhiều loại khác nhau cho nên không thể rút trích hết tất cả các mối quan hệ, mà chỉ có thể tập trung rút trích trên một số mối quan hệ được xác định bởi chuyên gia. Ngay cả việc rút trích một số mối quan hệ cụ thể cũng không dễ dàng do mối quan hệ thể hiện trên nhiều câu khác nhau. Vì vậy, trong luận án chúng tôi chỉ tập trung nghiên cứu xử lý rút trích mối quan hệ trên cùng câu. Để có một khung nhìn tổng quát hơn về bài toán rút trích mối quan hệ, phần tiếp theo chúng tôi trình bày một số bài toán liên quan đến rút trích mối quan hệ trong lĩnh vực y tế. 3.2. Các bài toán rút trích mối quan hệ trong lĩnh vực y tế Thời gian qua, cộng đồng tham gia nghiên cứu đã giải quyết một số bài toán liên quan đến rút trích mối quan hệ trong lĩnh vực y tế gồm phân lớp mối quan hệ giữa các khái niệm, đồng tham chiếu, phân lớp mối quan hệ thời gian, xác định giá trị cho các thuộc tính liên quan trên từng khái niệm y tế (còn gọi là bài toán điền mẫu) và rút trích sự kiện y sinh. Trong 8 số những bài toán nêu trên, luận án chỉ nghiên cứu đề xuất một số giải pháp liên quan đến hai bài toán điền mẫu và rút trích sự kiện y sinh. 3.3. Đề xuất liên quan đến bài toán điền mẫu Đối với bài toán điền mẫu luận án có một số đề xuất như sau: tập luật xác định mối quan hệ giữa hai khái niệm, tập đặc trưng phân lớp mối quan hệ thời gian và kiến trúc hệ thống điền mẫu, từng đề xuất lần lược được trình bày ở phần tiếp theo. 3.3.1. Tập luật xác định mối quan hệ Việc xác định hai khái niệm có mối quan hệ với nhau hay không có thể sử dụng những phương pháp như: dựa trên luật, máy học hoặc kernel, trong hướng tiếp cận của luận án chúng tôi muốn kết hợp giữa tri thức của chuyên gia và phân tích đặc điểm của tài liệu y tế để xây dựng tập luật nhằm xác định mối quan hệ giữa hai khái niệm. Tri thức chuyên gia được thể hiện trong tập dữ liệu gán nhãn khái niệm và mối quan hệ giữa các khái niệm trên 300 tài liệu lâm sàng, cơ sở để xây dựng tập luật là dựa trên mối quan hệ phụ thuộc giữa các từ trong cùng câu văn bản chứa hai khái niệm, tập luật đươc xây dựng bằng thủ công dựa vào kết quả phân tích phụ thuộc trên đồ thị phụ thuộc. Ví dụ, xét câu văn bản đầu vào “Her sternal wound developed purulent draiange, and the wound was opened and a vac dressing was applied there as well.”, kết quả đầu ra biểu diễn phụ thuộc xem hình 3.1. Mỗi dòng thể hiện mối quan hệ trực tiếp giữa hai từ trong câu văn bản, ví dụ xét nsubj(developed-4, wound3) trong đó số 3 và 4 cho biết thứ tự của từ xuất hiện trong câu, nếu xét về vai trò ngữ pháp thì hai từ “developed” và “wound” có mối quan hệ trực tiếp là chủ từ-động từ (nsubj), từ “developed” với vai trò là từ chính (governor) và từ “wound” có vai trò là từ phụ thuộc (dependent). Để dễ dàng hiểu các mối quan hệ ngữ pháp trong câu, những phụ thuộc được ánh xạ trên một đồ thị có hướng, trong đó các từ trong câu là các nút trên đồ thị và các mối quan hệ ngữ pháp là các nhãn cạnh. Hình 3.2 biểu diễn đồ thị phụ thuộc cho câu ví dụ trên, các mối quan hệ được 9 định nghĩa trong [47], các định nghĩa sử dụng nhãn từ loại (POS) và nhãn cụm từ của Penn Treebank. nmod:poss(wound-3, Her-1) amod(wound-3, sternal-2) nsubj(developed-4, wound-3) root(ROOT-0, developed-4) amod(draiange-6, purulent-5) dobj(developed-4, draiange-6) cc(developed-4, and-8) det(wound-10, the-9) nsubjpass(opened-12, wound-10) auxpass(opened-12, was-11) conj:and(developed-4, opened-12) cc(opened-12, and-13) det(dressing-16, a-14) compound(dressing-16, vac-15) nsubjpass(applied-18, dressing-16) auxpass(applied-18, was-17) conj:and(developed-4, applied-18) conj:and(opened-12, applied-18) advmod(well-21, there-19) advmod(well-21, as-20) advmod(applied-18, well-21) Hình 3.1 Kết quả đầu ra của phân tích phụ thuộc Trong hình 3.3 tại dòng 2, nếu xét về vai trò ngữ pháp thì danh từ chính “stenosis” thể hiện mối quan hệ chủ từ của động từ chính “present” với nhãn quan hệ ngữ pháp là “nsubj”, đây chinh là cơ sở để xây dựng luật thể hiện mối quan Hình 3.2 Biểu diễn đồ thị phụ thuộc hệ. Để dễ dàng biểu diễn hình thức tập luật, chúng tôi đặt tên cho 3 tham số gồm governor là từ chính, dependent là từ phụ thuộc và rel_label là nhãn mối quan hệ ngữ pháp (xem minh họa ở hình 3.3). Một trường hợp cụ thể minh họa việc xây dựng tập luật như sau: dựa trên kết quả phân tích phụ thuộc ở hình 3.3 cho thấy dòng thứ 2 thể hiện cặp khái niệm (Mitral stenosis, not 10 present) có quan hệ phụ thuộc với nhau và dòng thứ 8 thể hiện mối quan hệ phụ thuộc giữa cặp khái niệm (mitral regurgitation, not seen), từ đây chúng tôi xây dựng được hai luật xác định mối quan hệ giữa hai khái niệm được minh họa ở hình 3.4. Hình 3.4 Luật xác định mối quan hệ giữa một cặp khái niệm. Luật biểu diễn trên là cho trường hợp hai khái niệm thể hiện mối quan hệ trực tiếp với nhau, tuy nhiên có những trường hợp hai khái niệm không thể hiện mối quan hệ trực tiếp mà phải thông qua các từ (nút) trung gian trong câu văn bản. Ví dụ, xét câu văn bản “Very minimal atelectatic changes are noted at the lung bases with otherwise clear lungs.”, trong đó cặp khái niệm (minimal atelectatic, lung bases) không thể hiện mối quan hệ trực Hình 3.5 Đồ thị phụ thuộc cho câu văn bản tiếp mà phải thông qua nút trung gian là từ “noted” (xem đồ thị minh họa hình 3.5). Tập luật xác định mối quan hệ giữa hai khái niệm thông qua một nút trung gian dựa trên kết quả đầu ra của phân tích phụ thuộc tại dòng 4 và 10 ở hình 3.6 được xây dựng để xác định mối quan hệ Hình 3.6 Kết quả đầu ra phân tích phụ thuộc. cho cặp khái niệm (minimal 11 atelectatic, lung bases) được minh họa trong hình 3.7. Tập luật được mở rộng để xác định mối quan hệ giữa hai khái niệm thông qua nhiều nút trung gian, trong kho ngữ liệu được khảo sát thì số nút Hình 3.7 Biểu diễn luật thông qua nút trung gian tối đa là 3, tuy nhiên số nút trung trung gian gian. có thể phụ thuộc vào kho ngữ liệu gán nhãn, tập luật này được dùng trong kiến trúc hệ thống điền mẫu được trình bày ở phần sau. 3.3.2. Tập đặc trưng phân lớp mối quan hệ thời gian Tập đặc trưng phân lớp mối quan hệ thời gian được luận án nghiên cứu đề xuất là nhằm giải quyết cho vấn đề phân lớp mối quan hệ thời gian giữa khái niệm và thời điểm tài liệu lâm sàng được tạo ra, việc phân lớp này không hiệu quả khi tiếp cận bằng phương pháp dựa trên luật, bởi vì rất khó dùng tri thức chuyên gia để xây dựng tập luật phân lớp, cho nên luận án tiếp cận dựa trên phương pháp máy học tốt hơn. Đối với phương pháp máy học, vấn đề quan trọng là xác định tập đặc trưng phân lớp, vì vậy mà luận án đã nghiên cứu đề xuất tập đặc trưng phân lớp như sau: loại tài liệu, phân mục, thì – thể của động từ, mối quan hệ với các mốc thời gian lâm sàng, phân đoạn đặc biệt, các động từ chỉ dấu hiệu và cụm từ đặc biệt (cue phrase). Tập đặc trưng này được áp dụng trong kiến trúc hệ thống điền mẫu được trình bày trong phần tiếp theo. 3.3.3. Hệ thống điền mẫu Bài toán điền mẫu được đánh giá là khá phức tạp, một mẫu bao gồm nhiều thuộc tính, mà mỗi thuộc tính có yêu cầu khác nhau, nó đòi hỏi phải áp dụng nhiều kỹ thuật và phương pháp để giải quyết, đây chính là lý do mà chúng tôi chọn nghiên cứu bài toán điền mẫu với mục tiêu là nghiên cứu được các phương pháp giải quyết bài toán. 12 Bài toán được yêu cầu là dựa trên danh sách khái niệm cho trước hãy xác định giá trị cho các thuộc tính của từng khái niệm. Mỗi khái niệm (bệnh/ rối loạn) được định nghĩa gồm 10 thuộc tính như sau: chỉ định âm tính (Negation Indicator), chủ thể (Subject Class), chỉ định không chắc chắn (Uncertainty Indicator), quá trình diễn biến (Course Class), tính nghiêm trọng (Severity Class), điều kiện lâm sàng (Conditional Class), đặc điểm chung (Generic Class), vị trí cơ thể (Body Location), thời gian tài liệu (DocTime Class) và biểu thức thời gian (Temporal Expression). Sau khi phân tích yêu cầu của từng thuộc tính, luận án đề xuất hướng tiếp cận như sau: sử dụng tập luật đã đề xuất (phần 3.3.1.1.) để rút trích giá trị cho 8 thuộc tính đầu tiên; đối với thuộc tính thứ 9 thì sử dụng phương pháp lai ghép đầu tiên dùng thuật Hình 3.10 Kiến trúc hệ thống điền mẫu toán máy học để phân lớp mối quan hệ giữa bệnh/rối loạn và thời điểm viết tài liệu dựa trên tập đặc trưng được đề xuất (phần 3.3.1.2); sang bước hai, luận án đề xuất tập luật (khác với tập luật đã đề xuất ở phần 3.3.1.1) để cải tiến kết quả của máy học; và ở thuộc tính thứ 10, luận án đã xây dựng những luật theo dạng biểu thức chính quy để rút trích giá trị cho thuộc tính. Tiếp theo chúng tôi đề xuất một kiến trúc cho hệ thống xử lý xác định giá trị cho các thuộc tính của từng khái niệm tương ứng (xem hình 3.7). 3.3.4. Đánh giá tính hiệu quả của đề xuất Hệ thống điền mẫu được chúng tôi sử dụng tham gia cuộc thi ở diễn đàn nghiên cứu ShARe/CLF eHealth Lab 2014 với mục đích là đánh giá 13 hiệu quả của những đề xuất liên quan. Dữ liệu (huấn luyện và đánh giá), đánh giá và công bố kết quả do diễn đàn thực hiện, hệ thống của chúng tôi (HCMUS) được xếp thứ hai trong mười nhóm tham gia dựa trên độ đo chính xác (accuracy) (xem bảng 3.5), nhìn chung có thể thấy những đề xuất của luận án đã có hiệu quả tốt. Tiếp theo chúng tôi trích kết quả đánh giá trên từng thuộc tính của ba nhóm có kết quả tốt nhất (xem bảng 3.6) và có một số bàn luận về phương pháp sử dụng như sau: nhóm RelAgent chỉ áp dụng phương pháp dựa trên luật và tập luật này xuất phát từ sản phẩm thương mại được xây dựng trước đây nhiều năm được áp dụng để rút trích sự kiện y sinh, cho nên độ chính xác trên hầu hết các thuộc tính khá cao, tuy nhiên riêng thuộc tính DocTime Class cho kết quả rất thấp; còn nhóm HITACHI lai ghép 2 phương pháp máy học và luật trên hầu hết các thuộc tính, chỉ riêng thuộc tính DocTime Class (thuộc tính thứ chín) chỉ dùng phương pháp máy học; và nhóm HCMUS lai ghép phương pháp máy học và luật cho thuộc tính DocTime Class, những thuộc tính còn lại chỉ dùng luật. Như vậy, có thể thấy là hướng tiếp cận Bảng 3.5 Kết quả đánh giá của các hệ thống Bảng 3.6Kết quả từng thuộc tính của 3 nhóm đầu lai ghép cho kết quả tốt hơn; xét trên thuộc tính DocTime Class, hướng tiếp cận lai ghép cho kết quả tốt nhất (0.519) của nhóm HCMUS, hướng tiếp cận máy học cho kết quả thấp hơn (0.328), còn dựa trên luật thì cho 14 kết quả thấp nhất (0.024). Điều này phù hợp với nhận định ban đầu của chúng tôi khi đề xuất tập đặc trưng phân lớp mối quan hệ thời gian. Như kết quả trình bày trong bảng 3.6 cho thấy, tập luật mà luận án đề xuất kết quả tốt nhất so với các nhóm tham gia trên thuộc tính Subject Class, còn tập đặc trưng phân lớp mối quan hệ thời gian giữa khác niệm và thời điểm viết tài liệu được luận án đề xuất cũng có hiệu quả cho kết quả tốt nhất so với các nhóm trên thuộc tính DocTime Class, hiệu quả của những thuộc tính còn lại chỉ chênh lệch đôi chút so với nhóm đứng đầu. 3.4. Đề xuất liên quan đến bài toán rút trích sự kiện y sinh Bài toán đề cập Bảng 3.9 Các loại sự kiện và tham số sự kiện đến việc rút trích các loại sự kiện liên quan đến thực thể sinh học protein từ các tài liệu y sinh trên MedLine. Một sự kiện được mô tả bởi “dấu hiệu” (thường là động từ) và các tham số (thường là danh từ), các tham số được gán nhãn vai trò ngữ nghĩa thể hiện nguyên nhân (cause) và kết quả (theme) của sự kiện. Các loại sự kiện cần rút trích được trình bày trong bảng 3.9, ba loại sự kiện đầu tiên liên quan đến sự chuyển hóa của protein (nghĩa là việc sản xuất và phân hủy của protein), loại sự kiện Phosphorylation được miêu tả như một sự kiện biến đổi protein, loại sự kiện Localization và Binding miêu tả các sự kiện thuộc phân tử cơ bản, và loại sự kiện Regulation (bao gồm cả Positive và Negative regulation) biểu diễn các sự kiện kiểm soát và các mối quan hệ nguyên nhân, trong đó tham số chỉ kết quả (theme) của tất cả sự kiện được xem là các tham số chính (đây là những tham số rất quan trọng để xác định sự kiện), ngoài ra những thực thể hay sự kiện chỉ nguyên nhân 15 (cause) của sự kiện Regulation cũng được xem là tham số chính, với một số loại sự kiện có thêm tham số tham số phụ. Đối với bài toán rút trích sự kiện y sinh luận án đề xuất một hướng tiếp cận lai ghép giữa luật và máy học, phương pháp máy học được áp dụng cho phân lớp sự kiện và phương pháp luật dùng để xác định các tham số cho sự kiện. Trong phần này, luận án có những đề xuất như: tập đặc trưng phân lớp sự kiện, tập luật xác định tham số cho sự kiện và kiến trúc hệ thống rút trích sự kiện lần lược được trình bày trong phần tiếp theo. 3.4.1. Đặc trưng phân lớp sự kiện Sau khi nghiên cứu kho ngữ liệu gán nhãn sự kiện y sinh và một số công trình nghiên cứu liên quan luận án đã đề xuất tập đặc trưng dùng để phân lớp sự kiện như sau: mặt chữ, nhãn từ loại, về từ phụ thuộc trên cây cú pháp, loại phụ thuộc, từ đơn có chứa Protein, từ đơn có chứa các kí tự đặc biệt và từ đơn có chứa các kí tự số.Tập đặc trưng này được sử dụng trong kiến trúc hệ thống rút trích sự kiện y sinh. 3.4.2. Rút trích luật Luận án đã xây dựng một chương trình rút trích luật tự động từ kho ngữ liệu gán nhãn sự kiện y sinh, tập luật được chia làm 2 loại: (1) dùng cho sự kiện có 1 tham số và (2) dùng cho sự kiện có 2 tham số và được biểu diễn hình thức như sau: Loại (1): themeOf Loại (2): themeOf causeOf Tập luật chỉ mới xác định các tham số chính cho sự kiện, sau khi rút trích tập luật được áp dụng cho kiến trúc hệ thống rút trích sự kiện được mô tả ở phần tiếp theo. 3.4.3. Hệ thống rút trích sự kiện y sinh 16 Hệ thống được thiết kế dựa trên yêu cầu của bài toán thực hiện gồm hai giai đoạn: (1) tự động rút trích tập luật theo mô tả ở phần 3.3.2.2., loại bỏ những luật trùng nhau và rút trích tập đặc trung được mô tả ở phần 3.3.2.1. từ tập dữ liệu huấn luyện và (2) áp dụng kết quả của (1) để thực hiện rút trích các sự kiện y sinh từ tài liệu y sinh. Hình 3.20 Hệ thống rút trích sự kiện y sinh 3.4.4. Đánh giá hiệu quả của đề xuất Luận án đã sử dụng dữ liệu thực nghiệm do diễn đàn nghiên cứu BioNLP 2013 cung cấp gồm 2 bộ là dữ liệu huấn luyện và dữ liệu đánh giá (dữ liệu phát triển), mỗi bộ dữ liệu là các bài báo hoàn chỉnh được chia thành nhiều phần khác nhau theo từng mục: Title–Abstract, Introducction, Material and method, Result, Discussion và Conclusion, mỗi mục được xem như một tài liệu trong kho ngữ liệu. Chúng tôi sử dụng công cụ đánh giá trực tuyến của diễn đàn cung cấp để đánh giá hiệu quả của hệ thống, kết quả đánh giá thể hiện ở bảng 3.10 và 3.11. Dựa trên kết quả chúng tôi có vài bàn luận như sau: trên kết quả phân lớp sự kiện (xem bảng 3.10) cho thấy nhóm năm sự kiện đầu tiên có độ đo F-score trung bình là 78.54 đây là nhóm sự kiện đơn giản nên tập đặc trưng luận án đề xuất đạt kết quả tương đối tốt, nhóm sự kiện phức tạp hơn là Binding có F-score là 30.53 cho thấy tập đặc trưng đề xuất chưa nhận diện tốt ở nhóm này, và nhóm ba sự kiện cuối cùng là phức tạp nhất nên độ đo F-score trung bình chỉ đạt được 19.96 cho thấy tập đặc trưng sử dụng thật sự không tốt. Xét trên kết quả xác định tham số kết quả (Theme) của sự kiện (xem bảng 3.11), nhóm năm sự kiện đầu tiên có kết quả trung bình trên độ đo F-score là 79.40 cho thấy tập luật mà luận án 17 đề xuất cho kết quả tương đối tốt trên nhóm sự kiện mà tham số chính chỉ có một tham số, bên cạnh đó tập luật này cũng cho kết quả tương đối tốt trên sự kiện Binding với F-score là 71.09 đây là sự kiện mà tham số chính có nhiều hơn một tham số và nhóm ba sự kiện cuối với độ đo trung bình F-score là 21.13 cho thấy tập luật chưa tốt trên nhóm này. Xét trên tham số chính chỉ nguyên nhân (causeOf) của ba sự kiện cuối thì tập luật không phát hiện ra bất kỳ một trường hợp đúng nào. Như vậy, có thể thấy rằng rút trích sự kiện y sinh là một thách thức đặc biệt đối với những sự kiện phức tạp, tập đặc trưng và tập luật mà luận án đề xuất thì chưa đạt kết quả tốt trên hai nhóm sự kiện cuối, cho nên cần phải có những nghiên cứu sâu hơn để đề xuất những cải tiến tốt hơn trong tương lai. Bảng 3.10 Kết quả phân lớp sự kiện trên dữ liệu phát triển Bảng 3.11 Kết quả gán nhãn tham số sự kiện trên dữ liệu phát triển Chương 4 KIẾN TRÚC KHAI THÁC KHÁI NIỆM VÀ QUAN HỆ 4.1. Giới thiệu Hiện nay, các hệ thống rút trích khái niệm, rút trích mối quan hệ, rút trích sự kiện, … đang được phát triển riêng biệt trong khi đó để đáp ứng được nhu cầu thực tế cần phải có sự gắn kết giữa các hệ thống này lại với nhau thành một thể thống nhất. Ví dụ, bệnh nhân và thân nhân gặp khó khăn trong việc đọc hiểu được nội dung hồ sơ bệnh án, vì hồ sơ bệnh án có nhiều ký tự/chữ viết tắt và thuật ngữ chuyên ngành, việc bệnh nhân và thân hiểu biết về bệnh án sẽ giúp cho quá trình điều trị được tốt hơn. Như 18
- Xem thêm -

Tài liệu liên quan