ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
HUỲNH HỮU NGHĨA
MÔ HÌNH KHAI THÁC KHÁI NIỆM VÀ QUAN HỆ
TRONG VĂN BẢN LÂM SÀNG
Chuyên ngành : HỆ THỐNG THÔNG TIN
Mã số
: 62.48.05.01
TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
Tp. Hồ Chí Minh – Năm 2017
Công trình được hoàn thành tại: ĐẠI HỌC QUỐC GIA TP-HCM
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Người hướng dẫn khoa học: PGS. TS. HỒ BẢO QUỐC
TS. NGUYỄN AN TẾ
Phản biện 1
: PGS.TS. Lê Anh Cường
Phản biện 2
: TS. Võ Thị Ngọc Châu
Phản biện 3
: TS. Nguyễn Tuấn Đăng
Phản biện độc lập 1 : TS. Võ Thị Ngọc Châu
Phản biện độc lập 2 : TS. Nguyễn Tuấn Đăng
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án họp tại
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
vào lúc giờ
ngày
tháng
năm
Có thể tìm hiểu luận án tại thư viện:
-
Thư viện Khoa học Tổng hợp Tp.HCM
-
Thư viện Trường Đại học Khoa học Tự Nhiên
MỞ ĐẦU
Dẫn nhập
Trong lĩnh vực y tế, các khái niệm thường đề cập đến các đối tượng
như: bệnh, rối loạn, thuốc (tên thuốc, liều lượng, phương thức quản lý,
tần xuất quản lý …), điều trị (thủ tục, biện pháp điều trị, thuốc điều trị
…), các vấn đề y tế, xét nghiệm, protein, di truyền (gien)… còn mối quan
hệ cho biết mối liên quan giữa các khái niệm như: điều trị giải quyết
được vấn đề y tế, điều trị làm xấu đi vấn đề y tế, xét nghiệm phát hiện ra
vấn đề y tế… việc nhận diện khái niệm là tiền đề để xác định mối quan
hệ giữa chúng, các khái niệm và mối quan hệ có ý nghĩa rất quan trọng
đối với người dùng như: bác sĩ, nhà nghiên cứu, sinh viên y khoa, nhân
viên y tế, bệnh nhân cũng như thân nhân… Một số trường hợp cụ thể cho
thấy ý nghĩa của khái niệm và mối quan hệ đối với người dùng như sau:
các bác sĩ muốn biết mối quan hệ giữa các khái niệm điều trị và vấn đề y
tế để giúp họ đưa ra quyết định điều trị hiệu quả và hạn chế những sai
sót, các nhà nghiên cứu muốn tìm hiểu về mối quan hệ giữa các khái
niệm di truyền (gien) và bệnh nhằm giải thích những căn bệnh liên quan
đến yếu tố di truyền, và còn rất nhiều trường hợp khác nữa. Những khái
niệm và mối quan hệ đang nằm ẩn trong các tài liệu y tế như: các tóm tắt
xuất viện, các kết quả xét nghiệm, các công trình nghiên cứu khoa học…
Những tài liệu này đang được tạo ra liên tục, người dùng không thể nào
đọc một khối lượng lớn tài liệu để cập nhật thông tin hữu ích (khái niệm
và mối quan hệ) hàng ngày. Vì vậy, mà họ rất cần một hệ thống máy tính
rút trích thông tin hữu ích từ các nguồn tài liệu y tế để cung cấp cho họ.
Thời gian qua, một số công trình nghiên cứu đã đề xuất một số giải
pháp và công cụ hỗ trợ việc rút trích thông tin hữu ích từ các tài liệu y tế
để đáp ứng nhu cầu thông tin của người dùng như: phân loại hồ sơ y tế
của bệnh nhân [55], rút trích thông tin liên quan đến bệnh [56] và rút
trích thông tin liên quan đến thuốc [63]. Tuy nhiên, những kết quả chưa
đạt được như mong muốn, bằng chứng là một số diễn đàn nghiên cứu
1
quốc tế đang tiếp tục mời gọi cộng đồng nghiên cứu đề xuất những giải
pháp mới nhằm khai thác thông tin từ tài liệu y tế thông qua các hình
thức như: “Bài toán chia sẻ” (Shared tasks) và “Các thách thức”
(Chellenges), cụ thể một số diễn đàn như: I2B2, BioNLP, CLEF eHealth
và SemEval. Sở dĩ kết quả còn hạn chế là do việc khai thác thông tin y tế
có nhiều thách thức, một số thách thức có thể kể đến như sau: dữ liệu văn
bản không có cấu trúc hoặc bán cấu trúc, tính đồng nghĩa của các từ
hoặc cụm từ, các cụm từ thường không đúng ngữ pháp, nhiều ký tự/chữ
viết tắt, lỗi chính tả, sự đa dạng về mặt từ vựng, hình thức thể hiện của
khái niệm, chuẩn hoá khái niệm và các mối quan hệ phức tạp.
Với mong muốn tham gia đóng góp cùng với cộng động nghiên cứu,
chúng tôi định hướng nghiên cứu mô hình khai thác thông tin y tế dựa
trên khái niệm (xem hình 1). Trong mô hình khai thác thông tin y tế bao
gồm nhiều bài toán con bên
trong nó, chẳng hạn như:
nhận diện khái niệm, rút
trích mối quan hệ giữa các
khái niệm, quản lý tri thức
và các chương trình ứng
dụng khác, trong đó nhận
diện khái niệm và rút trích
Hình 1. Mô hình khai thác thông tin y tế
mối quan hệ là hai bài toán cốt lõi trong mô hình khai thác thông tin y tế,
nó là thành phần rút trích thông tin hữu ích từ tài liệu, còn là nguồn cung
cấp thông tin để xây dựng các cơ sở tri thức và từ đó phát triển các
chương trình ứng dụng (hệ thống hỗ trợ ra quyết định). Những nghiên
cứu liên quan đến hai bài toán này chưa đạt được kết quả như mong
muốn, cho nên mục tiêu của luận án sẽ tập trung nghiên cứu đề xuất một
số giải pháp liên quan đến hai bài toán nhận diện khái niệm và rút trích
mối quan hệ giữa các khái niệm trước, sau đó chúng tôi mở rộng nghiên
2
cứu cho những bài toán còn lại để hoàn thiện mô hình khai thác thông tin
y tế.
Mục tiêu của đề tài
Trong phạm vi của luận án, từ mục tiêu định hướng nêu trên, chúng
tôi xác định 3 mục tiêu mà luận án nghiên cứu giải quyết gồm:
(1) Nghiên cứu các phương pháp rút trích khái niệm và đề xuất một
hướng tiếp cận rút trích khái niệm nhằm giải quyết thách thức liên
quan đến thể hiện của khái niệm trong tài liệu, khái niệm gồm
những token liên tục, không liên tục, hoặc lồng nhau và thách thức
chuẩn hoá khái niệm.
(2) Nghiên cứu các phương pháp rút trích mối quan hệ và đề xuất một
hướng tiếp cận rút trích mối quan hệ trên bài toán cụ thể là rút
trích giá trị cho các thuộc tính của từng khái niệm (còn gọi là bài
toán điền mẫu).
(3) Nghiên cứu đề xuất mô hình (khung kiến trúc) khai thác khái niệm
và mối quan hệ trong văn bản lâm sàng và định hướng phát triển
một khung kiến trúc chung khai thác thông tin văn bản trong lĩnh
vực y tế.
Những đóng góp chính của luận án
Đối với bài toán rút trích khái niệm, luận án đã đề xuất một bộ nhãn
BIEO (Begin, Inside, End và Outside) dùng để phân lớp cho token và tập
đặc trưng phân lớp nhằm rút trích khái niệm và chuẩn hoá khái niệm dựa
trên phương pháp máy học và từ điển. Kết quả được công bố trong công
trình ([CT5], [CT10]).
Trong bài toán rút trích mối quan hệ, đóng góp của luận án là những
đề xuất gồm: tập luật xác định mối quan hệ giữa các khái niệm dựa trên
phân tích cú pháp phụ thuộc; tập đặc trưng phân lớp mối quan hệ thời
gian giữa khái niệm và thời điểm viết tài liệu; một hướng tiếp cận kết hợp
các phương pháp dựa trên luật, từ điển và máy học để xác định giá trị cho
các thuộc tính của khái niệm y tế và một số cải tiến hiệu quả cho hệ
3
thống được công bố trong các công trình ([CT2], [CT3], [CT4], [CT7],
[CT8], [CT9]). Bên cạnh đó, luận án đã đưa ra một hướng tiếp cận lai
ghép giữa máy học và luật để rút trích sự kiện y sinh, phương pháp máy
học được áp dụng để phân lớp sự kiện và dựa trên luật để xác định các
tham số liên quan đến sự kiện, tập luật được hệ thống học tự động từ tập
dữ liệu huấn luyện. Kết quả được thể hiện trong công trình ([CT1]).
Đóng góp cuối cùng của luận án là sử dụng các kết quả trên để xây
dựng một mẫu ban đầu (prototype) cho hệ thống khai thác thông tin y tế
dựa trên khái niệm. Kết quả trình bày trong công trình ([CT6]).
Chương 1
GIỚI THIỆU
1.1. Dữ liệu y tế
Luận án trình bày loại dữ liệu được sử dụng cho quá trình nghiên cứu
liên quan đến tài liệu lâm sàng và các tài liệu là các bài báo nghiên cứu
khoa học trong lĩnh vực y tế (xem phần phụ lục A).
1.2. Khai thác văn bản tổng quát
Luận án tìm hiểu bài toán rút trích thực thể và mối quan hệ trên văn
bản tổng quát cũng như những phương pháp đánh giá hiệu quả của hệ
thống rút trích thực thể và mối quan hệ.
1.3. Khai thác văn bản y tế
Luận án khảo sát hiện trạng khai thác văn bản y tế gồm xử lý ngôn
ngữ tự nhiên trong lĩnh vực y tế, những thách thức trong bài toán rút trích
khái niệm và mối quan hệ giữa các khái niệm cũng như các phương pháp
rút trích, các nguồn tài nguyên hỗ trợ khai thác văn bản y tế. Từ đó làm
cơ sở cho luận án nghiên cứu và giải quyết ba mục tiêu nghiên cứu đề ra.
Chương 2
RÚT TRÍCH KHÁI NIỆM Y TẾ
2.1. Giới thiệu
Bài toán rút trích khái niệm có nhiều thách thức, tuy nhiên luận án tập
trung nghiên cứu giải quyết thách thức thể hiện của khái niệm trong văn
4
bản lâm sàng (các khái niệm thể hiện gồm những token liên tục, không
liên tục, hoặc lồng nhau).
Thể hiện của khái niệm trong văn bản rất đa dạng, một khái niệm có
thể được thể hiện gồm những token liên tục, không liên tục hoặc lồng
nhau. Cụ thể, xét câu văn bản “The rhythm appears to be atrial
fibrillation.” (Nhịp tim chứng tỏ là rung tâm nhĩ.), có khái niệm gồm
những token liên tục là “atrial fibrillation”; xét câu văn bản “The left
atrium is moderately dilated.” (Tâm nhĩ trái đã bị giãn.), có một khái
niệm xuất hiện trong văn bản là “left atrium … dilated” (giãn tâm nhĩ
trái) gồm 2 cụm token không liên tục; xét câu văn bản “Abdomen: Soft,
nontender, nondistended, normal active bowel sounds.”, có hai khái niệm
lồng nhau cần được rút trích là “Abdomen … nontender” (bụng cứng) và
“Abdomen … nondistended” (bụng không bị sưng to) và cả hai khái niệm
này có chung token là “Abdomen”. Như vậy, việc rút trích chính xác
những khái niệm xuất hiện trong văn bản ngôn ngữ tự nhiên không có
cấu trúc là một thách thức đối với các phương pháp tiếp cận.
2.2. Những đề xuất liên quan
Trong chương khảo sát hiện trạng cho thấy việc rút trích thực thể có
thể dựa trên các phương pháp như: từ điển, luật, máy học và lai ghép, xu
hướng là dùng phương pháp máy học và thuật toán máy học được sử
dụng phổ biến là thuật toán gán nhãn chuỗi tuần tự CRFs với bộ nhãn
BIO, cho nên luận án cũng áp dụng phương pháp máy học và sử dụng
thuật toán CRFs để rút trích khái niệm y tế. Tuy nhiên, khi áp dụng nó
phát sinh một số vấn đề như: bộ nhãn BIO không phù hợp với những thể
hiện thực tế của khái niệm và tập đặc trưng phân lớp cũng khác nhau, vì
thế chúng tôi đã nghiên cứu đề xuất bộ nhãn, tập đặc trưng và thiết kế
một hệ thống phù hợp với bài toán hơn được trình bày trong phần tiếp
theo.
2.2.1. Bộ nhãn phân lớp Token
5
Các khái niệm cần rút trích có nhiều thể hiện khác nhau trong tài liệu
y tế, một khái niệm có thể gồm nhiều token liên tục, không liên tục hoặc
lồng nhau, bộ nhãn BIO chỉ phù hợp cho khái niệm gồm những token
liên tục còn các trường hợp khác thì không phù hợp, cho nên chúng tôi đề
xuất bộ nhãn BIEO được sử dụng như sau: nhãn B (Begin) gán cho token
bắt đầu khái niệm, nhãn I (Inside) gán cho token bên trong khái niệm,
nhãn E (End) gán cho token cuối cùng của khái niệm và nhãn O
(Outside) gán cho token không thuộc khái niệm. Với bộ nhãn mà luận án
đề xuất dùng để gán nhãn token có thể phủ hết những dạng thể hiện của
khái niệm trong tài liệu.
2.2.2. Tập đặc trưng phân lớp Token
Trong phương pháp máy học, tập đặc trưng có vai trò quan trọng và
ảnh hưởng đến hiệu quả của phương pháp, đặc trưng chính là đặc điểm
để nhận diện và phân lớp, trong bài toán này chúng tôi đã nghiên cứu đặc
điểm của dữ liệu y tế và đề xuất tập đặc trưng phù hợp dùng để phân lớp
nhãn token cho bài toán rút trích khái niệm như sau:
Đặc trưng ngữ cảnh: chỉ token hiện tại đang xét và hai token liền
trước và liền sau của token đang xét. Các token xung quanh token đang
xét đóng vai trò là thông tin ngữ cảnh.
Đặc trưng mặt chữ (Orthographic): token đang xét là chữ thường,
in hoa, hoa ký tự đầu và chữ có số.
Đặc trưng từ loại (Part of Speech): từ loại của token đang xét, các
từ loại bao gồm danh từ, động từ, tính từ, giới từ, trạng từ, cụm danh từ,
cụm động từ và cụm giới từ.
Đặc trưng thứ tự nhãn (label sequences): là thứ tự nhãn được gán
cho từng token. Ý nghĩa của đặc trưng này là giá trị nhãn phân lớp của
token thứ i phụ thuộc vào giá trị nhãn phân lớp của token thứ i – 1.
2.2.3. Hệ thống rút trích và chuẩn hoá khái niệm
Tiếp theo, luận án đã kết hợp các đề xuất nêu trên để thiết kế một hệ
thống rút trích và chuẩn hoá khái niệm (xem hình 2.1), trong hệ thống
6
được thiết kế gồm hai bước: (1) xây dựng mô hình và tập từ vựng từ dữ
liệu huấn luyện và (2) áp dụng kết quả của (1) để rút trích và chuẩn hoá
khái niệm.
2.3. Áp dụng các đề xuất
Luận án sử dụng hệ thống trên
tham gia giải quyết bài toán “Rút
trích và chuẩn hoá khái niệm liên
quan đến bệnh/rối loạn xuất hiện
trong tài liệu lâm sàng” được tổ
chức trên diễn đàn nghiên cứu
SemEval 2015. Bộ dữ liệu sử
dụng thực nghiệm do SemEval
cung cấp thông qua kho ngữ liệu
ShARe, gồm 431 tài liệu được sử
dụng là dữ liệu huấn luyện và 100
Hình 2.1 Hệ thống rút trích và chuẩn
hoá khái niệm
tài liệu được dùng để đánh giá
hiệu quả hệ thống, việc đánh giá
và công bố kết quả là do SemEval thực hiện.
2.4. Đánh giá hiệu quả đề xuất
Dựa trên kết quả của các hệ thống cùng tham gia do SemEval công bố
chúng tôi có một số bàn luận như sau: nhìn chung hướng tiếp cận của
luận án (HCMUS) tương đồng với hướng tiếp cận của các nhóm cùng
tham gia, tuy nhiên khi đối chiếu chi tiết giữa các hệ thống thì nó có
những khác biệt, sự khác biệt đầu tiên là bộ nhãn sử dụng cụ thể: nhóm
LIST-LUX dùng bộ nhãn BIESTO, nhóm HCMUS dùng bộ nhãn BIEO
và nhóm HITACHI dùng bộ nhãn BIO; sự khác biệt tiếp theo là tập đặc
trưng phân lớp: hai nhóm LIST-LUX và HCMUS cùng dùng thuật toán
CRFs, tập đặc trưng gần giống nhau và hệ thống chạy một lần để rút trích
khái niệm nhưng hiệu quả của HCMUS cao hơn LIST-LUX dựa trên độ
đo F-score (xem bảng 2.5), trong khi đó số đặc trưng của nhóm ezDl sử
7
dụng nhiều hơn và hệ thống phức tạp hơn do lần đầu họ dùng thuật toán
CRFs để rút trích các khái niệm thể hiện những token liên tục và lần hai
họ dùng thuật toán SVM
để phân lớp mối quan hệ
giữa các khái niệm nhằm
xác định những khái niệm
thể hiện những token
không liên tục hoặc lồng nhau cho nên hệ thống của họ có kết quả cao
nhất trong tất cả các nhóm tham gia trên độ đo F-score (xem bảng 2.5).
Như vậy, có thể thấy rằng những đề xuất của luận án cũng mang lại được
những hiệu quả nhất định, tuy nhiên cũng cần có những nghiên cứu cải
tiến trong lai.
Chương 3
RÚT TRÍCH MỐI QUAN HỆ GIỮA CÁC KHÁI NIỆM
3.1. Giới thiệu
Mối quan hệ trong y tế rất rộng, có nhiều loại khác nhau cho nên
không thể rút trích hết tất cả các mối quan hệ, mà chỉ có thể tập trung rút
trích trên một số mối quan hệ được xác định bởi chuyên gia. Ngay cả
việc rút trích một số mối quan hệ cụ thể cũng không dễ dàng do mối quan
hệ thể hiện trên nhiều câu khác nhau. Vì vậy, trong luận án chúng tôi chỉ
tập trung nghiên cứu xử lý rút trích mối quan hệ trên cùng câu. Để có
một khung nhìn tổng quát hơn về bài toán rút trích mối quan hệ, phần
tiếp theo chúng tôi trình bày một số bài toán liên quan đến rút trích mối
quan hệ trong lĩnh vực y tế.
3.2. Các bài toán rút trích mối quan hệ trong lĩnh vực y tế
Thời gian qua, cộng đồng tham gia nghiên cứu đã giải quyết một số
bài toán liên quan đến rút trích mối quan hệ trong lĩnh vực y tế gồm phân
lớp mối quan hệ giữa các khái niệm, đồng tham chiếu, phân lớp mối quan
hệ thời gian, xác định giá trị cho các thuộc tính liên quan trên từng khái
niệm y tế (còn gọi là bài toán điền mẫu) và rút trích sự kiện y sinh. Trong
8
số những bài toán nêu trên, luận án chỉ nghiên cứu đề xuất một số giải
pháp liên quan đến hai bài toán điền mẫu và rút trích sự kiện y sinh.
3.3. Đề xuất liên quan đến bài toán điền mẫu
Đối với bài toán điền mẫu luận án có một số đề xuất như sau: tập luật
xác định mối quan hệ giữa hai khái niệm, tập đặc trưng phân lớp mối
quan hệ thời gian và kiến trúc hệ thống điền mẫu, từng đề xuất lần lược
được trình bày ở phần tiếp theo.
3.3.1. Tập luật xác định mối quan hệ
Việc xác định hai khái niệm có mối quan hệ với nhau hay không có
thể sử dụng những phương pháp như: dựa trên luật, máy học hoặc kernel,
trong hướng tiếp cận của luận án chúng tôi muốn kết hợp giữa tri thức
của chuyên gia và phân tích đặc điểm của tài liệu y tế để xây dựng tập
luật nhằm xác định mối quan hệ giữa hai khái niệm. Tri thức chuyên gia
được thể hiện trong tập dữ liệu gán nhãn khái niệm và mối quan hệ giữa
các khái niệm trên 300 tài liệu lâm sàng, cơ sở để xây dựng tập luật là
dựa trên mối quan hệ phụ thuộc giữa các từ trong cùng câu văn bản chứa
hai khái niệm, tập luật đươc xây dựng bằng thủ công dựa vào kết quả
phân tích phụ thuộc trên đồ thị phụ thuộc. Ví dụ, xét câu văn bản đầu vào
“Her sternal wound developed purulent draiange, and the wound was
opened and a vac dressing was applied there as well.”, kết quả đầu ra
biểu diễn phụ thuộc xem hình 3.1. Mỗi dòng thể hiện mối quan hệ trực
tiếp giữa hai từ trong câu văn bản, ví dụ xét nsubj(developed-4, wound3) trong đó số 3 và 4 cho biết thứ tự của từ xuất hiện trong câu, nếu xét
về vai trò ngữ pháp thì hai từ “developed” và “wound” có mối quan hệ
trực tiếp là chủ từ-động từ (nsubj), từ “developed” với vai trò là từ chính
(governor) và từ “wound” có vai trò là từ phụ thuộc (dependent).
Để dễ dàng hiểu các mối quan hệ ngữ pháp trong câu, những phụ
thuộc được ánh xạ trên một đồ thị có hướng, trong đó các từ trong câu là
các nút trên đồ thị và các mối quan hệ ngữ pháp là các nhãn cạnh. Hình
3.2 biểu diễn đồ thị phụ thuộc cho câu ví dụ trên, các mối quan hệ được
9
định nghĩa trong [47], các định nghĩa sử dụng nhãn từ loại (POS) và nhãn
cụm từ của Penn Treebank.
nmod:poss(wound-3, Her-1)
amod(wound-3, sternal-2)
nsubj(developed-4, wound-3)
root(ROOT-0, developed-4)
amod(draiange-6, purulent-5)
dobj(developed-4, draiange-6)
cc(developed-4, and-8)
det(wound-10, the-9)
nsubjpass(opened-12, wound-10)
auxpass(opened-12, was-11)
conj:and(developed-4, opened-12)
cc(opened-12, and-13)
det(dressing-16, a-14)
compound(dressing-16, vac-15)
nsubjpass(applied-18, dressing-16)
auxpass(applied-18, was-17)
conj:and(developed-4, applied-18)
conj:and(opened-12, applied-18)
advmod(well-21, there-19)
advmod(well-21, as-20)
advmod(applied-18, well-21)
Hình 3.1 Kết quả đầu ra của phân tích phụ thuộc
Trong hình 3.3 tại dòng 2, nếu xét về vai trò ngữ pháp thì danh từ
chính “stenosis” thể hiện
mối quan hệ chủ từ của
động từ chính “present”
với nhãn quan hệ ngữ
pháp
là
“nsubj”,
đây
chinh là cơ sở để xây
dựng luật thể hiện mối quan
Hình 3.2 Biểu diễn đồ thị phụ thuộc
hệ. Để dễ dàng biểu diễn
hình thức tập luật, chúng tôi đặt
tên cho 3 tham số gồm governor
là từ chính, dependent là từ phụ
thuộc và rel_label là nhãn mối
quan hệ ngữ pháp (xem minh
họa ở hình 3.3). Một trường hợp
cụ thể minh họa việc xây dựng
tập luật như sau: dựa trên kết
quả phân tích phụ thuộc ở hình
3.3 cho thấy dòng thứ 2 thể hiện cặp khái niệm (Mitral stenosis, not
10
present) có quan hệ phụ thuộc với nhau và dòng thứ 8 thể hiện mối quan
hệ phụ thuộc giữa cặp khái niệm (mitral regurgitation, not seen), từ đây
chúng tôi xây dựng được hai luật xác định mối quan hệ giữa hai khái
niệm được minh họa ở hình 3.4.
Hình 3.4 Luật xác định mối quan hệ giữa một cặp khái niệm.
Luật biểu diễn trên là cho trường hợp hai khái niệm thể hiện mối quan
hệ trực tiếp với nhau, tuy nhiên có những trường hợp hai khái niệm
không thể hiện mối quan hệ trực tiếp mà phải thông qua các từ (nút)
trung gian trong câu văn bản. Ví
dụ, xét câu văn bản “Very minimal
atelectatic changes are noted at the
lung bases with otherwise clear
lungs.”, trong đó cặp khái niệm
(minimal atelectatic, lung bases)
không thể hiện mối quan hệ trực
Hình 3.5 Đồ thị phụ thuộc cho câu văn bản
tiếp mà phải thông qua nút trung
gian là từ “noted” (xem đồ thị
minh họa hình 3.5).
Tập luật xác định mối quan hệ
giữa hai khái niệm thông qua một
nút trung gian dựa trên kết quả
đầu ra của phân tích phụ thuộc tại
dòng 4 và 10 ở hình 3.6 được xây
dựng để xác định mối quan hệ
Hình 3.6 Kết quả đầu ra phân tích phụ thuộc.
cho cặp khái niệm (minimal
11
atelectatic, lung bases) được
minh họa trong hình 3.7.
Tập luật được mở rộng để
xác định mối quan hệ giữa hai
khái niệm thông qua nhiều nút
trung gian, trong kho ngữ
liệu được khảo sát thì số nút
Hình 3.7 Biểu diễn luật thông qua nút
trung gian tối đa là 3, tuy nhiên số nút trung trung
gian gian.
có thể phụ thuộc vào
kho ngữ liệu gán nhãn, tập luật này được dùng trong kiến trúc hệ thống
điền mẫu được trình bày ở phần sau.
3.3.2. Tập đặc trưng phân lớp mối quan hệ thời gian
Tập đặc trưng phân lớp mối quan hệ thời gian được luận án nghiên
cứu đề xuất là nhằm giải quyết cho vấn đề phân lớp mối quan hệ thời
gian giữa khái niệm và thời điểm tài liệu lâm sàng được tạo ra, việc phân
lớp này không hiệu quả khi tiếp cận bằng phương pháp dựa trên luật, bởi
vì rất khó dùng tri thức chuyên gia để xây dựng tập luật phân lớp, cho
nên luận án tiếp cận dựa trên phương pháp máy học tốt hơn. Đối với
phương pháp máy học, vấn đề quan trọng là xác định tập đặc trưng phân
lớp, vì vậy mà luận án đã nghiên cứu đề xuất tập đặc trưng phân lớp như
sau: loại tài liệu, phân mục, thì – thể của động từ, mối quan hệ với các
mốc thời gian lâm sàng, phân đoạn đặc biệt, các động từ chỉ dấu hiệu và
cụm từ đặc biệt (cue phrase). Tập đặc trưng này được áp dụng trong kiến
trúc hệ thống điền mẫu được trình bày trong phần tiếp theo.
3.3.3. Hệ thống điền mẫu
Bài toán điền mẫu được đánh giá là khá phức tạp, một mẫu bao gồm
nhiều thuộc tính, mà mỗi thuộc tính có yêu cầu khác nhau, nó đòi hỏi
phải áp dụng nhiều kỹ thuật và phương pháp để giải quyết, đây chính là
lý do mà chúng tôi chọn nghiên cứu bài toán điền mẫu với mục tiêu là
nghiên cứu được các phương pháp giải quyết bài toán.
12
Bài toán được yêu cầu là dựa trên danh sách khái niệm cho trước hãy
xác định giá trị cho các thuộc tính của từng khái niệm. Mỗi khái niệm
(bệnh/ rối loạn) được định nghĩa gồm 10 thuộc tính như sau: chỉ định âm
tính (Negation Indicator), chủ thể (Subject Class), chỉ định không chắc
chắn (Uncertainty Indicator), quá trình diễn biến (Course Class), tính
nghiêm trọng (Severity Class), điều kiện lâm sàng (Conditional
Class), đặc điểm chung (Generic Class), vị trí cơ thể (Body Location),
thời gian tài liệu (DocTime Class) và biểu thức thời gian (Temporal
Expression).
Sau khi phân tích yêu
cầu của từng thuộc tính,
luận án đề xuất hướng tiếp
cận như sau: sử dụng tập
luật đã đề xuất (phần
3.3.1.1.) để rút trích giá trị
cho 8 thuộc tính đầu tiên;
đối với thuộc tính thứ 9 thì
sử dụng phương pháp lai
ghép đầu tiên dùng thuật
Hình 3.10 Kiến trúc hệ thống điền mẫu
toán máy học để phân lớp
mối quan hệ giữa bệnh/rối loạn và thời điểm viết tài liệu dựa trên tập đặc
trưng được đề xuất (phần 3.3.1.2); sang bước hai, luận án đề xuất tập luật
(khác với tập luật đã đề xuất ở phần 3.3.1.1) để cải tiến kết quả của máy
học; và ở thuộc tính thứ 10, luận án đã xây dựng những luật theo dạng
biểu thức chính quy để rút trích giá trị cho thuộc tính. Tiếp theo chúng tôi
đề xuất một kiến trúc cho hệ thống xử lý xác định giá trị cho các thuộc
tính của từng khái niệm tương ứng (xem hình 3.7).
3.3.4. Đánh giá tính hiệu quả của đề xuất
Hệ thống điền mẫu được chúng tôi sử dụng tham gia cuộc thi ở diễn
đàn nghiên cứu ShARe/CLF eHealth Lab 2014 với mục đích là đánh giá
13
hiệu quả của những đề xuất liên quan. Dữ liệu (huấn luyện và đánh giá),
đánh giá và công bố kết quả do diễn đàn thực hiện, hệ thống của chúng
tôi (HCMUS) được xếp thứ hai trong mười nhóm tham gia dựa trên độ
đo chính xác (accuracy) (xem bảng 3.5), nhìn chung có thể thấy những đề
xuất của luận án đã có hiệu quả tốt. Tiếp theo chúng tôi trích kết quả
đánh giá trên từng thuộc tính của ba nhóm có kết quả tốt nhất (xem bảng
3.6) và có một số bàn luận về phương pháp sử dụng như sau: nhóm
RelAgent chỉ áp dụng phương pháp dựa trên luật và tập luật này xuất
phát từ sản phẩm thương mại được xây dựng trước đây nhiều năm được
áp dụng để rút trích sự kiện y sinh, cho nên độ chính xác trên hầu hết các
thuộc tính khá cao, tuy nhiên riêng thuộc tính DocTime Class cho kết quả
rất thấp; còn nhóm HITACHI lai ghép 2 phương pháp máy học và luật
trên hầu hết các thuộc tính, chỉ riêng thuộc tính DocTime Class (thuộc
tính thứ chín) chỉ dùng phương pháp máy học; và nhóm HCMUS lai
ghép phương pháp máy học và luật cho thuộc tính DocTime Class, những
thuộc tính còn lại chỉ dùng luật. Như vậy, có thể thấy là hướng tiếp cận
Bảng 3.5 Kết quả đánh giá của các
hệ thống
Bảng 3.6Kết quả từng thuộc tính của 3
nhóm đầu
lai ghép cho kết quả tốt hơn; xét trên thuộc tính DocTime Class, hướng
tiếp cận lai ghép cho kết quả tốt nhất (0.519) của nhóm HCMUS, hướng
tiếp cận máy học cho kết quả thấp hơn (0.328), còn dựa trên luật thì cho
14
kết quả thấp nhất (0.024). Điều này phù hợp với nhận định ban đầu của
chúng tôi khi đề xuất tập đặc trưng phân lớp mối quan hệ thời gian.
Như kết quả trình bày trong bảng 3.6 cho thấy, tập luật mà luận án đề
xuất kết quả tốt nhất so với các nhóm tham gia trên thuộc tính Subject
Class, còn tập đặc trưng phân lớp mối quan hệ thời gian giữa khác niệm
và thời điểm viết tài liệu được luận án đề xuất cũng có hiệu quả cho kết
quả tốt nhất so với các nhóm trên thuộc tính DocTime Class, hiệu quả
của những thuộc tính còn lại chỉ chênh lệch đôi chút so với nhóm đứng
đầu.
3.4. Đề xuất liên quan đến bài toán rút trích sự kiện y sinh
Bài toán đề cập
Bảng 3.9 Các loại sự kiện và tham số sự kiện
đến việc rút trích
các loại sự kiện liên
quan đến thực thể
sinh học protein từ
các tài liệu y sinh
trên MedLine. Một
sự kiện được mô tả
bởi “dấu hiệu” (thường là động từ) và các tham số (thường là danh từ),
các tham số được gán nhãn vai trò ngữ nghĩa thể hiện nguyên nhân
(cause) và kết quả (theme) của sự kiện. Các loại sự kiện cần rút trích
được trình bày trong bảng 3.9, ba loại sự kiện đầu tiên liên quan đến sự
chuyển hóa của protein (nghĩa là việc sản xuất và phân hủy của protein),
loại sự kiện Phosphorylation được miêu tả như một sự kiện biến đổi
protein, loại sự kiện Localization và Binding miêu tả các sự kiện thuộc
phân tử cơ bản, và loại sự kiện Regulation (bao gồm cả Positive và
Negative regulation) biểu diễn các sự kiện kiểm soát và các mối quan hệ
nguyên nhân, trong đó tham số chỉ kết quả (theme) của tất cả sự kiện
được xem là các tham số chính (đây là những tham số rất quan trọng để
xác định sự kiện), ngoài ra những thực thể hay sự kiện chỉ nguyên nhân
15
(cause) của sự kiện Regulation cũng được xem là tham số chính, với một
số loại sự kiện có thêm tham số tham số phụ.
Đối với bài toán rút trích sự kiện y sinh luận án đề xuất một hướng
tiếp cận lai ghép giữa luật và máy học, phương pháp máy học được áp
dụng cho phân lớp sự kiện và phương pháp luật dùng để xác định các
tham số cho sự kiện. Trong phần này, luận án có những đề xuất như: tập
đặc trưng phân lớp sự kiện, tập luật xác định tham số cho sự kiện và kiến
trúc hệ thống rút trích sự kiện lần lược được trình bày trong phần tiếp
theo.
3.4.1. Đặc trưng phân lớp sự kiện
Sau khi nghiên cứu kho ngữ liệu gán nhãn sự kiện y sinh và một số
công trình nghiên cứu liên quan luận án đã đề xuất tập đặc trưng dùng để
phân lớp sự kiện như sau: mặt chữ, nhãn từ loại, về từ phụ thuộc trên cây
cú pháp, loại phụ thuộc, từ đơn có chứa Protein, từ đơn có chứa các kí tự
đặc biệt và từ đơn có chứa các kí tự số.Tập đặc trưng này được sử dụng
trong kiến trúc hệ thống rút trích sự kiện y sinh.
3.4.2. Rút trích luật
Luận án đã xây dựng một chương trình rút trích luật tự động từ kho
ngữ liệu gán nhãn sự kiện y sinh, tập luật được chia làm 2 loại: (1) dùng
cho sự kiện có 1 tham số và (2) dùng cho sự kiện có 2 tham số và được
biểu diễn hình thức như sau:
Loại (1): themeOf
Loại (2): themeOf
causeOf
Tập luật chỉ mới xác định các tham số chính cho sự kiện, sau khi rút
trích tập luật được áp dụng cho kiến trúc hệ thống rút trích sự kiện được
mô tả ở phần tiếp theo.
3.4.3. Hệ thống rút trích sự kiện y sinh
16
Hệ thống được thiết kế dựa trên yêu cầu của bài toán thực hiện gồm
hai giai đoạn: (1) tự động rút
trích tập luật theo mô tả ở
phần 3.3.2.2., loại bỏ những
luật trùng nhau và rút trích
tập đặc trung được mô tả ở
phần 3.3.2.1. từ tập dữ liệu
huấn luyện và (2) áp dụng kết
quả của (1) để thực hiện rút
trích các sự kiện y sinh từ tài
liệu y sinh.
Hình 3.20 Hệ thống rút trích sự kiện y
sinh
3.4.4. Đánh giá hiệu quả của đề xuất
Luận án đã sử dụng dữ liệu thực nghiệm do diễn đàn nghiên cứu
BioNLP 2013 cung cấp gồm 2 bộ là dữ liệu huấn luyện và dữ liệu đánh
giá (dữ liệu phát triển), mỗi bộ dữ liệu là các bài báo hoàn chỉnh được
chia thành nhiều phần khác nhau theo từng mục: Title–Abstract,
Introducction, Material and method, Result, Discussion và Conclusion,
mỗi mục được xem như một tài liệu trong kho ngữ liệu. Chúng tôi sử
dụng công cụ đánh giá trực tuyến của diễn đàn cung cấp để đánh giá hiệu
quả của hệ thống, kết quả đánh giá thể hiện ở bảng 3.10 và 3.11.
Dựa trên kết quả chúng tôi có vài bàn luận như sau: trên kết quả phân
lớp sự kiện (xem bảng 3.10) cho thấy nhóm năm sự kiện đầu tiên có độ
đo F-score trung bình là 78.54 đây là nhóm sự kiện đơn giản nên tập đặc
trưng luận án đề xuất đạt kết quả tương đối tốt, nhóm sự kiện phức tạp
hơn là Binding có F-score là 30.53 cho thấy tập đặc trưng đề xuất chưa
nhận diện tốt ở nhóm này, và nhóm ba sự kiện cuối cùng là phức tạp nhất
nên độ đo F-score trung bình chỉ đạt được 19.96 cho thấy tập đặc trưng
sử dụng thật sự không tốt. Xét trên kết quả xác định tham số kết quả
(Theme) của sự kiện (xem bảng 3.11), nhóm năm sự kiện đầu tiên có kết
quả trung bình trên độ đo F-score là 79.40 cho thấy tập luật mà luận án
17
đề xuất cho kết quả tương đối tốt trên nhóm sự kiện mà tham số chính chỉ
có một tham số, bên cạnh đó tập luật này cũng cho kết quả tương đối tốt
trên sự kiện Binding với F-score là 71.09 đây là sự kiện mà tham số
chính có nhiều hơn một tham số và nhóm ba sự kiện cuối với độ đo trung
bình F-score là 21.13 cho thấy tập luật chưa tốt trên nhóm này. Xét trên
tham số chính chỉ nguyên nhân (causeOf) của ba sự kiện cuối thì tập luật
không phát hiện ra bất kỳ một trường hợp đúng nào. Như vậy, có thể thấy
rằng rút trích sự kiện y sinh là một thách thức đặc biệt đối với những sự
kiện phức tạp, tập đặc trưng và tập luật mà luận án đề xuất thì chưa đạt
kết quả tốt trên hai nhóm sự kiện cuối, cho nên cần phải có những nghiên
cứu sâu hơn để đề xuất những cải tiến tốt hơn trong tương lai.
Bảng 3.10 Kết quả phân lớp sự kiện trên dữ
liệu phát triển
Bảng 3.11 Kết quả gán nhãn tham số sự kiện trên
dữ liệu phát triển
Chương 4
KIẾN TRÚC KHAI THÁC KHÁI NIỆM VÀ QUAN HỆ
4.1. Giới thiệu
Hiện nay, các hệ thống rút trích khái niệm, rút trích mối quan hệ, rút
trích sự kiện, … đang được phát triển riêng biệt trong khi đó để đáp ứng
được nhu cầu thực tế cần phải có sự gắn kết giữa các hệ thống này lại với
nhau thành một thể thống nhất. Ví dụ, bệnh nhân và thân nhân gặp khó
khăn trong việc đọc hiểu được nội dung hồ sơ bệnh án, vì hồ sơ bệnh án
có nhiều ký tự/chữ viết tắt và thuật ngữ chuyên ngành, việc bệnh nhân và
thân hiểu biết về bệnh án sẽ giúp cho quá trình điều trị được tốt hơn. Như
18