Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Hệ tư vấn dựa trên phân tích hàm ý thống kế...

Tài liệu Hệ tư vấn dựa trên phân tích hàm ý thống kế

.PDF
141
488
66

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG PHAN QUỐC NGHĨA HỆ TƢ VẤN DỰA TRÊN PHÂN TÍCH HÀM Ý THỐNG KÊ LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng - Năm 2018 ii BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG PHAN QUỐC NGHĨA HỆ TƢ VẤN DỰA TRÊN PHÂN TÍCH HÀM Ý THỐNG KÊ Chuyên ngành: Khoa học máy tính Mã số: 62.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT Cán bộ hƣớng dẫn: 1. PGS. TS. Huỳnh Xuân Hiệp 2. TS. Đặng Hoài Phƣơng Đà Nẵng - Năm 2018 i LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện, dưới sự hướng dẫn của PGS.TS. Huỳnh Xuân Hiệp và TS. Đặng Hoài Phương. Tôi cam đoan các kết quả nghiên cứu được trình bày trong luận án là trung thực và không sao chép từ bất kỳ công trình nghiên cứu nào khác. Một số kết quả nghiên cứu là thành quả tập thể và đã được các đồng tác giả đồng ý cho sử dụng trong luận án. Mọi trích dẫn trong luận án đều có ghi nguồn gốc xuất xứ rõ ràng và đầy đủ. Tác giả Phan Quốc Nghĩa ii MỤC LỤC LỜI CAM ĐOAN ........................................................................................................ i MỤC LỤC ...................................................................................................................ii DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT ..................................................... vi DANH MỤC CÁC BẢNG...................................................................................... viii DANH MỤC CÁC HÌNH ........................................................................................... x MỞ ĐẦU ..................................................................................................................... 1 1. Tính cấp thiết của luận án ............................................................................ 1 2. Mục tiêu, phƣơng pháp, đối tƣợng và phạm vi nghiên cứu của luận án ...... 3 3. Các đóng góp của luận án ............................................................................ 4 4. Bố cục của luận án ....................................................................................... 5 CHƢƠNG 1. TỔNG QUAN ....................................................................................... 9 1.1. Phân tích hàm ý thống kê ..................................................................................... 9 1.2. Khuynh hƣớng biến thiên hàm ý thống kê ......................................................... 11 1.3. Mô hình tƣ vấn ................................................................................................... 13 1.3.1. Các khái niệm cơ bản ............................................................................. 13 1.3.2. Mô hình tƣ vấn dựa trên lọc nội dung .................................................... 14 1.3.2.1. Bài toán tƣ vấn lọc nội dung ............................................................ 14 1.3.2.2. Các nhƣợc điểm của mô hình tƣ vấn dựa trên lọc nội dung............. 16 1.3.3. Mô hình tƣ vấn dựa trên lọc cộng tác ..................................................... 17 1.3.3.1. Bài toán tƣ vấn dựa trên lọc cộng tác ............................................... 18 1.3.3.2. Lọc cộng tác dựa trên bộ nhớ ........................................................... 18 1.3.3.3. Lọc cộng tác dựa trên mô hình ......................................................... 20 1.3.3.4. Các nhƣợc điểm của mô hình tƣ vấn lọc cộng tác ........................... 20 1.3.4. Mô hình tƣ vấn dựa trên các đặc tính nhân khẩu học............................. 21 1.3.5. Mô hình tƣ vấn dựa trên tri thức ............................................................ 22 1.3.6. Mô hình tƣ vấn dựa trên luật kết hợp ..................................................... 24 1.3.7. Mô hình tƣ vấn dựa trên phân tích hàm ý thống kê ............................... 25 iii 1.3.8. Mô hình tƣ vấn tích hợp ......................................................................... 26 1.4. Đánh giá mô hình tƣ vấn .................................................................................... 27 1.4.1. Phƣơng pháp xây dựng dữ liệu đánh giá ................................................ 28 1.4.2. Phƣơng pháp đánh giá mô hình tƣ vấn ................................................... 29 1.4.2.1. Đánh giá dựa trên giá trị xếp hạng dự đoán ..................................... 29 1.4.2.2. Đánh giá dựa trên kết quả tƣ vấn ..................................................... 29 1.5. Ứng dụng của mô hình tƣ vấn ............................................................................ 30 1.6. Hƣớng phát triển của mô hình tƣ vấn ................................................................ 31 1.7. Kết luận chƣơng 1 .............................................................................................. 32 CHƢƠNG 2. PHÂN LỚP ĐỘ ĐO HẤP DẪN KHÁCH QUAN THEO THAM SỐ HÀM Ý THỐNG KÊ ................................................................................................ 34 2.1. Độ đo hấp dẫn khách quan ................................................................................. 34 2.2. Phân lớp độ đo hấp dẫn khách quan ................................................................... 36 2.2.1. Phân lớp độ đo dựa trên khảo sát các thuộc tính .................................... 36 2.2.2. Phân lớp độ đo dựa trên khảo sát các hành vi ........................................ 37 2.3. Phân lớp độ đo hấp dẫn khách quan theo tham số hàm ý thống kê ................... 37 2.3.1. Quy tắc xác định giá trị biến thiên của độ đo dựa trên đạo hàm riêng ... 38 2.3.2. Quy tắc phân lớp độ đo dựa trên thuộc tính biến thiên .......................... 40 2.4. Kết quả phân lớp các độ đo hấp dẫn khách quan bất đối xứng .......................... 41 2.4.1. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n ................... 43 2.4.2. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n ................ 45 2.4.3. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n ................ 47 2.4.4. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n .............. 48 2.5. So sánh và đánh giá kết quả phân lớp theo tham số hàm ý thống kê ................. 51 2.6. Kết luận chƣơng 2 .............................................................................................. 52 CHƢƠNG 3. MÔ HÌNH TƢ VẤN DỰA TRÊN CHỈ SỐ HÀM Ý THỐNG KÊ .... 53 3.1. Luật kết hợp dựa trên thuộc tính quyết định ...................................................... 53 3.1.1. Định nghĩa luật kết hợp dựa trên thuộc tính quyết định ......................... 53 3.1.2. Thuật toán sinh luật kết hợp dựa trên thuộc tính quyết định .................. 54 iv 3.2. Tham số hàm ý thống kê của luật kết hợp ......................................................... 56 3.2.1. Tham số hàm ý thống kê ........................................................................ 56 3.2.2. Tham số hàm ý thống kê dựa trên ma trận nhị phân .............................. 57 3.2.2.1. Chuyển tập dữ liệu giao dịch sang ma trận thƣa nhị phân .............. 57 3.2.2.2. Chuyển tập luật kết hợp sang ma trận thƣa nhị phân ...................... 58 3.2.2.3. Xác định giá trị cho các tham hàm ý thống kê của từng luật kết hợp59 3.3. Tính giá trị chỉ số hàm ý thống kê và giá trị đạo hàm riêng dựa trên các tham số hàm ý thống kê .......................................................................................................... 61 3.4. Mô hình tƣ vấn dựa trên chỉ số hàm ý thống kê................................................. 61 3.4.1. Định nghĩa mô hình tƣ vấn dựa trên chỉ số hàm ý thống kê .................. 61 3.4.2. Thuật toán tƣ vấn dựa trên chỉ số hàm ý thống kê ................................. 63 3.5. Thực nghiệm ...................................................................................................... 64 3.5.1. Dữ liệu thực nghiệm ............................................................................... 64 3.5.2. Đánh giá độ chính xác của mô hình trên tập dữ liệu chuẩn ................... 67 3.5.3. Đánh giá độ chính xác của mô hình trên tập dữ liệu thực ...................... 68 3.6. Kết luận chƣơng 3 .............................................................................................. 72 CHƢƠNG 4. MÔ HÌNH TƢ VẤN LỌC CỘNG TÁC DỰA TRÊN CƢỜNG ĐỘ HÀM Ý THỐNG KÊ............................................................................................................ 73 4.1. Luật kết hợp dựa trên cƣờng độ hàm ý thống kê ............................................... 73 4.1.1. Định nghĩa luật kết hợp dựa trên cƣờng độ hàm ý thống kê .................. 73 4.1.2. Thuật toán sinh luật kết hợp dựa trên cƣờng độ hàm ý thống kê ........... 74 4.2. Mô hình tƣ vấn lọc cộng tác dựa trên cƣờng độ hàm ý thống kê ...................... 76 4.2.1. Định nghĩa mô hình tƣ vấn dựa trên cƣờng độ hàm ý thống kê ............. 76 4.2.2. Thuật toán tƣ vấn dựa trên cƣờng độ hàm ý thống kê............................ 78 4.2.3. Đánh giá độ chính xác của mô hình ....................................................... 79 4.3. Thực nghiệm ...................................................................................................... 81 4.3.1. Dữ liệu thực nghiệm ............................................................................... 81 4.3.2. So sánh độ chính xác của mô hình trên dữ liệu xếp hạng dạng nhị phân và dữ liệu xếp hạng dạng số thực .................................................................. 81 v 4.3.3. Độ chính xác của mô hình so với các mô hình tƣ vấn lọc cộng tác khác82 4.4. Kết luận chƣơng 4 .............................................................................................. 84 CHƢƠNG 5. MÔ HÌNH TƢ VẤN LỌC CỘNG TÁC DỰA TRÊN TƢƠNG ĐỒNG HÀM Ý THỐNG KÊ .................................................................................... 85 5.1. Độ đo tƣơng đồng dựa trên cƣờng độ hàm ý thống kê ...................................... 85 5.1.1. Độ đo tƣơng đồng hàm ý thống kê giữa hai ngƣời dùng ....................... 86 5.1.2. Thuật toán đo độ tƣơng đồng hàm ý thống kê giữa hai ngƣời dùng ...... 86 5.1.3. Tính chất của độ đo tƣơng đồng hàm ý thống kê giữa hai ngƣời dùng . 87 5.2. Mô hình tƣ vấn lọc cộng tác dựa trên tƣơng đồng hàm ý thống kê ................... 89 5.2.1. Định nghĩa mô hình tƣ vấn dựa trên tƣơng đồng hàm ý thống kê ......... 89 5.2.2. Thuật toán tƣ vấn lọc cộng tác dựa trên tƣơng đồng hàm ý thống kê .... 90 5.3. Thực nghiệm ...................................................................................................... 92 5.3.1. Dữ liệu thực nghiệm ............................................................................... 92 5.3.2. Đánh giá mô hình trên dữ liệu xếp hạng dạng số thực ........................... 92 5.3.2.1. Đánh giá mô hình dựa trên kết quả xếp hạng ................................. 93 5.3.2.2. Đánh giá mô hình dựa trên kết quả tƣ vấn ...................................... 94 5.3.3. Đánh giá mô hình trên dữ liệu xếp hạng dạng nhị phân ........................ 94 5.4. Kết luận chƣơng 5 .............................................................................................. 97 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ................................................................ 98 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ TÀI LIỆU THAM KHẢO PHỤ LỤC vi DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT Thuật ngữ Tiếng Anh Viết tắt Phân tích hàm ý thống kê Statistical implicative analysis Khuynh hƣớng biến thiên hàm ý Tendency of variation in statistical thống kê implications Độ đo hấp dẫn khách quan Objective interestingness measures Độ đo hấp dẫn chủ quan Subjective interestingness measures Độ đo chỉ số hàm ý thống kê Implication index Độ đo cƣờng độ hàm ý thống kê Implication intensity Độ đo tƣơng đồng Similarity measures Độ đo tƣơng đồng hàm ý thống Statistical implicative similarity kê measures Hệ tƣ vấn Recommender systems RS Mô hình tƣ vấn Recommender models RM Content-based recommender models CB Mô hình tƣ vấn dựa trên lọc nội dung Hồ sơ ngƣời dùng User profile Mô hình tƣ vấn dựa trên lọc Collaborative filtering recommender cộng tác models Mô hình tƣ vấn lọc cộng tác dựa User-based collaborative filtering trên ngƣời dùng recommender models Mô hình tƣ vấn lọc cộng tác dựa Item-based collaborative filtering trên sản phẩm recommender models Mô hình tƣ vấn dựa trên luật kết Recommender based on association hợp rule models Mô hình tƣ vấn dựa trên đặc tính nhân khẩu học Mô hình tƣ vấn dựa trên tri thức Demographic recommender models Knowledge-based recommender models ASI CF UBCF IBCF AR DRM KRM vii Mô hình tƣ vấn dựa trên phân Recommender model based on tích hàm ý thống kê statistical implicative analysis Mô hình tƣ vấn tích hợp Hybrid recommender models Mô hình tƣ vấn dựa trên tính Computational Intelligence-based toán thông minh recommender models Mô hình tƣ vấn dựa trên mạng Social network-based recommender xã hội models Mô hình tƣ vấn dựa trên ngữ Context awareness-based cảnh recommender models Đánh giá dựa trên giá trị xếp hạng Đánh giá dựa trên kết quả tƣ vấn Evaluation based on the ratings Evaluation based on recommendation results ASICF HRM CIRM SNRM CARM viii DANH CÁC MỤC BẢNG Bảng 1.1. Ma trận hỗn độn ........................................................................................30 Bảng 2.1. Kết quả khảo sát các độ đo dựa trên đạo hàm riêng 4 tham số ................42 Bảng 2.2. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n .....................43 Bảng 2.3. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo ...................45 Bảng 2.4. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo ...................47 Bảng 2.5. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo ̅ .................49 Bảng 3.1. Tập dữ liệu phân nhóm thí sinh ................................................................55 Bảng 3.2. Kết quả sinh tập phổ biến 1 phần tử .........................................................55 Bảng 3.3. Kết quả sinh tập phổ biến 2 phần tử .........................................................55 Bảng 3.4. Kết quả sinh tập phổ biến 3 phần tử .........................................................56 Bảng 3.5. Kết quả sinh luật kết hợp dựa trên thuộc tính quyết định.........................56 Bảng 3.6. Kết quả chuyển từ dữ liệu giao dịch sang dạng ma trận nhị phân ............57 Bảng 3.7. Kết quả chuyển từ luật kết hợp sang dạng ma trận nhị phân....................58 Bảng 3.8. Kết quả chuyển vế trái của luật kết hợp sang dạng ma trận nhị phân ......59 Bảng 3.9. Kết quả chuyển vế phải của luật kết hợp sang dạng ma trận nhị phân .....59 Bảng 3.10. Giá trị các tham số ̅ cho từng luật kết hợp .......................60 Bảng 3.11. Giá trị chỉ số hàm ý thống kê và giá trị đạo hàm riêng theo các tham số hàm ý thống kê của từng luật kết hợp .......................................................................61 Bảng 3.12. Nội dụng chi tiết của tập dữ liệu Lenses ................................................65 Bảng 3.13. Mẫu dữ liệu tuyển sinh đã xử lý .............................................................66 Bảng 3.14. Tập luật kết hợp sinh ra trên tập dữ liệu Lenses .....................................67 Bảng 3.15. Kết quả xác định các tham số hàm ý thống kê ̅ ...............67 Bảng 3.16. Kết quả tính giá trị của độ đo chỉ số hàm ý thống kê và giá trị đạo hàm riêng theo các tham số hàm ý thống kê cho từng luật kết hợp ..................................68 Bảng 3.17. Kết quả tƣ vấn với các thuộc tính điều kiện {i1=1, i2=2, i3=2, i4=1} ...68 Bảng 3.18. Kết quả sinh luật kết hợp cho mô hình trên tập dữ liệu DVT-Data .......69 Bảng 3.19. Kết quả xác định các tham số , , , ̅ của 10 luật kết hợp đầu tiên của mô hình tƣ vấn ....................................................................................................69 ix Bảng 3.20. Danh sách 10 luật kết hợp có giá trị chỉ số hàm ý thống kê cao nhất ....70 Bảng 3.21. Kết quả tƣ vấn ngành học dựa trên chỉ số hàm ý thống kê.....................71 Bảng 4.1. Ma trận xếp hạng của ngƣời dùng cho các sản phẩm ...............................79 Bảng 4.2. Tập luật cho từng ngƣời dùng và các sản phẩm tƣ vấn ............................80 Bảng 4.3. So sánh độ chính xác của các mô hình trên hai kịch bản dữ liệu .............82 Bảng 5.1. Ma trận xếp hạng của hai ngƣời dùng ......................................................88 Bảng 5.2. Danh sách luật kết hợp cho hai ngƣời dùng , ..................................88 Bảng 5.3. Kết quả xác định các tham số và tính giá trị cƣờng độ hàm ý thống kê của từng luật kết hợp........................................................................................................88 Bảng 5.4. So sánh các thông số lỗi của hai mô hình .................................................93 x DANH MỤC CÁC HÌNH Hình 1. Mối quan hệ giữa các chƣơng của luận án .....................................................7 Hình 1.1. Mô hình biểu diễn phƣơng pháp phân tích hàm ý thống kê ......................9 Hình 1.2. Mô hình tƣ vấn tổng quát ..........................................................................13 Hình 2.1. Bản số của một luật kết hợp ...........................................................35 Hình 2.2. So sánh sự biến thiên của độ đo Implication index và độ đo Implication intensity theo tham số n ( ̅ ) ...........44 Hình 2.3. Biểu diễn sự biến thiên giảm của độ đo Implication index theo tham số v n ̅ .......................................46 Hình 2.4. Biểu diễn sự độc lập của độ đo Laplace theo tham số v n .......................................................48 ̅ Hình 2.5. Biểu diễn sự phụ thuộc giá trị của độ đo J-measures theo tham số v n ̅ ̅ .........................................50 Hình 3.1. Mô hình tƣ vấn dựa trên chỉ số hàm ý thống kê........................................62 Hình 4.1. Mô hình tƣ vấn lọc cộng tác dựa trên cƣờng độ hàm ý thống kê .............78 Hình 4.2. Biểu đồ cho thấy mô hình có độ chính xác cao trên dữ liệu xếp hạng dạng nhi phân .....................................................................................................................82 Hình 4.3. So sánh độ chính xác của các mô hình tƣ vấn ..........................................83 Hình 4.4. Biểu đồ so sánh đƣờng tỷ lệ Precision/Recall của các mô hình ...............84 Hình 5.1. Mô hình tƣ vấn lọc cộng tác dựa trên tƣơng đồng hàm ý thống kê ..........89 Hình 5.2. Ví dụ minh họa mô hình tƣ vấn lọc cộng tác dựa trên tƣơng đồng hàm ý thống kê (A) Ma trận xếp hạng và tính toán danh sách các sản phẩm dự đoán cho ngƣời dùng u ; (B) Xác định danh sách ngƣời dùng tƣơng đồng với ngƣời dùng u ...................................................................................................................................91 Hình 5.3. Các phim đƣợc mô hình chọn để tƣ vấn của 4 ngƣời dùng đầu tiên ........92 Hình 5.4. Biểu đồ cho thấy thông số lỗi trên từng ngƣời dùng của mô hình sử dụng độ đo SIS thấp hơn so với mô hình sử dụng độ đo Pearson .....................................93 Hình 5.5. So sánh kết quả đánh giá độ chính xác của hai mô hình ...........................94 xi Hình 5.6. Các trang web đƣợc mô hình chọn tƣ vấn cho 6 ngƣời dùng đầu tiên .....95 Hình 5.7. So sánh kết quả đánh giá trung bình của k-fold = 5 khi số trang web đƣợc giới thiệu tăng dần từ 1 đến 15 ..................................................................................96 Hình 5.8. Biểu đồ ROC so sánh tỷ số precision - recall trên hai mô hình ................96 1 MỞ ĐẦU 1. Tính cấp thiết của luận án Vấn đề quá tải thông tin (information overload) [6] thật sự trở nên phổ biến với sự phát triển mạnh mẽ của Internet và các mạng xã hội, lƣợng thông tin mà con ngƣời đƣợc tiếp cận đang ngày càng mở rộng. Mỗi ngày, chúng ta sẽ tiếp xúc với nhiều nguồn thông tin: các thông tin trao đổi qua email, các bài báo trên mạng Internet, các bài đăng tải trên mạng xã hội, các thông tin quảng cáo từ các trang thƣơng mại điện tử. Với sự mở rộng thông tin từ Internet và các mạng xã hội nhƣ hiện này, việc lựa chọn thông tin hữu ích để ra quyết định của ngƣời dùng máy tính và các thiết bị thông minh sẽ ngày một khó khăn hơn. Mô hình tƣ vấn (recommender models) [27] đƣợc xem là một giải pháp hỗ trợ ngƣời dùng lựa chọn thông tin hiệu quả và đƣợc ứng dụng rộng rãi trong nhiều lĩnh vực. Mô hình tƣ vấn có khả năng tự động phân tích thông tin, phân loại, lựa chọn và cung cấp cho ngƣời dùng những sản phẩm, hàng hóa, dịch vụ đƣợc quan tâm thông qua việc ứng dụng các kỹ thuật thống kê và trí tuệ nhân tạo (hệ chuyên gia, hệ mờ, hệ hỗ trợ quyết định). Trong đó, các giải thuật học máy có vai trò quan trọng [12], [38]. Dựa trên kỹ thuật tính toán kết quả tƣ vấn từ dữ liệu, ngƣời ta chia mô hình tƣ vấn thành nhiều loại khác nhau. Mô hình tƣ vấn dựa trên lọc cộng tác (collaborative filtering recommender models) đƣợc sử dụng rộng rãi trong các lĩnh vực thƣơng mại [27], [44], [58], tƣ vấn các sản phẩm cho ngƣời dùng dựa trên sự tƣơng đồng giữa ngƣời dùng và cộng đồng ngƣời dùng sử dụng sản phẩm. Khi đó, ngƣời dùng đƣợc tƣ vấn sử dụng sản phẩm khi đa số ngƣời dùng sử dụng sản phẩm có cùng sở thích trên các sản phẩm đó. Ngƣợc lại, mô hình tƣ vấn dựa trên lọc nội dụng (content-based recommender models) đƣa ra các sản phẩm gợi ý cho ngƣời dùng khi sản phẩm đó tƣơng đồng với các sản phẩm khác đã đƣợc ngƣời dùng thích trong quá khứ [36], [54]. Mô hình tƣ vấn dựa trên các đặc tính nhân khẩu học (demographic recommender models) đƣa ra các sản phẩm gợi ý cho ngƣời dùng bằng cách sử dụng các thông tin nhân khẩu học của ngƣời dùng nhƣ giới tính, độ tuổi, quốc tịch [8], [53]. Mô hình tƣ vấn dựa trên tri thức (knowledge-based 2 recommender models) đƣa ra các sản phẩm gợi ý cho ngƣời dùng dựa trên tri thức chuyên ngành, xác định sự phù hợp của sản phẩm (dựa trên các thuộc tính mô tả) với nhu cầu hay sở thích của ngƣời dùng, nhằm đạt đƣợc mục tiêu sản phẩm hữu dụng với ngƣời dùng [2], [69], [78]. Mô hình tƣ vấn tích hợp (hybrid recommender models) đƣợc đề xuất nhằm hạn chế các khuyết điểm của các phƣơng pháp trên [13], [45], [71]. Thông thƣờng, các giải pháp tƣ vấn tích hợp sử dụng từ hai hoặc nhiều giải pháp tƣ vấn khác nhau nhằm khắc phục các yếu điểm của từng giải pháp đơn lẻ. Nhiều nghiên cứu chứng mình rằng các mô hình tƣ vấn tích hợp cho kết quả chính xác hơn các mô hình tƣ vấn đơn lẻ [12]. Tuy nhiên, các mô hình này cũng yêu cầu cao hơn về chi phí tài nguyên và thời gian tính toán. Với sự đa dạng của các mô hình và giải pháp tƣ vấn, các mô hình tƣ vấn đã đƣợc triển khai và ứng dụng thực tế trong nhiều lĩnh vực (quản lý, thƣơng mại, y tế, giáo dục, giải trí). Tuy nhiên, trong các mô hình tƣ vấn hiện tại vẫn tồn tại các vấn đề kỹ thuật cần đƣợc tiếp tục nghiên cứu và hoàn thiện. Mô hình tƣ vấn dựa trên lọc nội dung có một số nhƣợc điểm: quá tập trung chuyên ngành (over-Specialization), vấn đề trích chọn đặc trƣng (feature extraction), vấn đề ngƣời dùng mới (cold-Start); Mô hình tƣ vấn dựa trên lọc cộng tác gặp phải những hạn chế: vấn đề ngƣời dùng mới/sản phẩm mới (cold-Start), vấn đề dữ liệu thƣa (sparsity), vấn đề thích ứng quy mô của hệ thống (scalability problem); Mô hình tƣ vấn dựa trên các đặc tính nhân khẩu có một số nhƣợc điểm: xác định nhóm ngƣời dùng (user groups), xác định sở thích của nhóm ngƣời dùng (preferences of users), thu thập thông tin cá nhân (demographic of users); Mô hình tƣ vấn dựa trên tri thức có một số nhƣợc điểm: vấn đề chi phí cho việc thu thập tri thức (cost of knowledge acquisition), vấn đề tƣơng tác với ngƣời dùng (interaction with users), vấn đề tính độc lập sở thích ngƣời dùng (independence preferences of users). Đề tài “Hệ tƣ vấn dựa trên phân tích hàm ý thống kê” đƣợc thực hiện trong khuôn khổ luận án tiến sĩ chuyên ngành khoa học máy tính với mong muốn đƣợc đóng góp một phần vào lĩnh vực nghiên cứu hệ tƣ vấn, cụ thể là mô hình tƣ vấn lọc cộng tác. 3 2. Mục tiêu, phƣơng pháp, đối tƣợng và phạm vi nghiên cứu của luận án 2.1. Mục tiêu nghiên cứu Luận án đƣợc thực hiện nhằm nghiên cứu các độ đo hấp dẫn khách quan (objective interestingness measures) [5], phƣơng pháp phân tích hàm ý thống kê (statistical implicative analysis) [73] và khuynh hƣớng biến thiên hàm ‎ý thống kê [74] nhằm cải tiến độ chính xác của mô hình tƣ vấn lọc cộng tác dựa trên cách tiếp cận bất đối xứng. Cụ thể hơn, luận án hƣớng đến hai mục tiêu chính sau: - Nghiên cứu cách tiếp cận bất đối xứng của phƣơng pháp phân tích hàm ý thống kê, trong đó quan tâm đến độ đo chỉ số hàm ý thống kê (implication index), độ đo cƣờng độ hàm ý thống kê (implication intensity) và khuynh hƣớng biến thiên hàm ‎ý thống kê. Từ đó xác định mối quan hệ hàm ý thống kê giữa các sản phẩm cần tƣ vấn cũng nhƣ mức độ hàm ý giữa các nhóm ngƣời dùng dựa trên phƣơng pháp phân tích hàm ý thống kê. - Nghiên cứu các mô hình tƣ vấn hiện tại nhƣ: tƣ vấn dựa trên nội dung, tƣ vấn dựa trên lọc công tác, tƣ vấn dựa trên tri thức, tƣ vấn dựa trên đặc tính nhân khẩu học và mô hình tƣ vấn tích hợp, quan tâm đến mô hình tƣ vấn dựa trên lọc cộng tác sử dụng các độ đo tƣơng đồng. Trên cơ sở đó, đề xuất các mô hình tƣ vấn lọc cộng tác dựa trên các độ đo đƣợc đề xuất từ phƣơng pháp tiếp cận bất đối xứng: chỉ số hàm ý thống kê, cƣờng độ hàm ý thống kê, tƣơng đồng hàm ý thống kê và luật kết hợp. 2.2. Đối tương nghiên cứu - Thứ nhất, các độ đo hấp dẫn khách quan. - Thứ hai, phƣơng pháp phân tích hàm ý thống kê, khuynh hƣớng biến thiên hàm ‎ý thống kê. - Thứ ba, các mô hình tƣ vấn dựa trên phân tích hàm ý thống kê. 2.3. Phương pháp nghiên cứu - Phƣơng pháp nghiên cứu lý thuyết: phân tích, tổng hợp các nghiên cứu có liên quan đến nội dung nghiên cứu từ tài liệu tham khảo: sách, bài báo công bố trên tạp chí và kỷ yếu hội thảo để đề xuất các mô hình. 4 - Phƣơng pháp nghiên cứu thực nghiệm: cài đặt và chạy thử nghiệm các mô hình đề xuất trên dữ liệu chuẩn đã công bố và dữ liệu thực tế. 2.4. Phạm vi nghiên cứu - Thứ nhất là nghiên cứu cách tiếp cận dựa trên bất đối xứng của phƣơng pháp phân tích hàm ý thống kê, các phƣơng pháp phân lớp độ đo. Từ đó đề xuất một phƣơng pháp phân lớp mới dựa trên tiếp cận bất đối xứng để phân lớp các độ đo hấp dẫn khách quan. - Thứ hai là nghiên cứu độ đo chỉ số hàm ý thống kê, khuynh hƣớng biến thiên hàm ý ‎thống kê đề xuất mô hình tƣ vấn dựa trên tiếp cận bất đối xứng sử dụng luật kết hợp và độ đo chỉ số hàm ý thống kê. - Thứ ba là nghiên cứu mô hình tƣ vấn lọc cộng tác dựa trên luật kết hợp, độ đo cƣờng độ hàm ý thống kê đề xuất mô hình tƣ vấn lọc cộng tác dựa trên tiếp cận bất đối xứng sử dụng luật kết hợp và độ đo cƣờng độ hàm ý thống kê. - Thứ tƣ là nghiên cứu mô hình tƣ vấn lọc công tác dựa trên ngƣời dùng, độ đo cƣờng độ hàm ý thống kê đề xuất độ đo tƣơng đồng giữa hai ngƣời dùng dựa trên tiếp cận bất đối xứng sử dụng độ đo cƣờng độ hàm ý thống kê, nhằm cải thiện độ chính xác của mô hình tƣ vấn lọc cộng tác dựa trên ngƣời dùng. 3. Các đóng góp của luận án - Thứ nhất là đề xuất phƣơng pháp phân lớp các độ đo hấp dẫn khách quan dựa trên tiếp cận bất đối xứng sử dụng các tham số hàm ý thống kê. Phƣơng pháp này giúp biểu thị mối quan hệ biến thiên giữa của các độ đo hấp dẫn khách quan với các tham số hàm ý thống kê. Từ đó, chọn đƣợc độ đo phù hợp cho ứng dụng cụ thể. - Thứ hai là đề xuất mô hình tƣ vấn dựa trên tiếp cận bất đối xứng sử dụng luật kết hợp và độ đo chỉ số hàm ý thống kê. Mô hình này giải quyết một lớp bài toán tƣ vấn khi các thuộc tính điều kiện và thuộc tính quyết định trên cùng một đối tƣợng dựa trên luật kết hợp, chỉ số hàm ý thống kê và khuynh hƣớng biến thiên hàm ý thống kê. Ngƣời dùng cung cấp các thuộc tính điều kiện để mô hình đƣa ra các gợi ý giúp ngƣời dùng chọn các giá trị cho các thuộc tính quyết định. Mô hình đƣợc thực nghiệm trên hai tập dữ liệu: tập dữ liệu chuẩn gồm 5 thuộc tính và chỉ có 3 lớp 5 (Lenses) [18] và tập dữ liệu thực tế gồm nhiều thuộc tính và có số lớp xác định theo từng năm (dữ liệu tuyển sinh trong 5 năm liên tục của Trƣờng Đại học Trà Vinh). Kết quả thực nghiệm cho thấy mô hình đƣa ra các luật tƣ vấn cho ngƣời dùng có thuộc tính quyết định chính xác so với dữ liệu thực tế. - Thứ ba là đề xuất mô hình tƣ vấn lọc cộng tác dựa trên tiếp cận bất đối xứng sử dụng luật kết hợp và độ đo cƣờng độ hàm ý thống kê. Mô hình này dựa trên tập luật kết hợp có độ ngạc nhiên cao (tập luật kết hợp đƣợc chọn dựa trên độ đo cƣờng độ hàm ý thống kê) để đƣa ra các kết quả tƣ vấn. Mô hình đƣợc thực nghiệm trên hai tập dữ liệu: tập dữ liệu xếp hạng dạng số thực (MovieLens) [23] và tập dữ liệu xếp hạng dạng nhị phân (MSWeb) [46]. Kết quả thực nghiệm cho thấy mô hình tƣ vấn lọc cộng tác sử dụng luật kết hợp với độ đo cƣờng độ hàm ý thống kê có độ chính xác cao trên tập dữ liệu xếp hạng dạng nhị phân. - Thứ tƣ là đề xuất độ đo tƣơng đồng hàm ý thống kê dựa trên tiếp cận bất đối xứng để cải thiện độ chính xác của mô hình tƣ vấn lọc cộng tác dựa trên ngƣời dùng. Độ đo này đƣợc xây dựng dựa trên luật kết hợp và độ đo cƣờng độ hàm ý thống kê. Độ đo đƣợc ứng dụng cho mô hình tƣ vấn lọc cộng tác dựa trên ngƣời dùng. Qua kết quả thực nghiệm trên hai tập dữ liệu: tập dữ liệu xếp hạng dạng số thực (MovieLens) và tập dữ liệu xếp hạng dạng nhị phân (MSWeb) cho thấy mô hình sử dụng độ đo tƣơng đồng hàm ý thống kê có độ chính xác cao hơn so với mô hình sử dụng độ đo tƣơng đồng Pearson, Jaccard [57]. - Thứ năm là xây dựng đƣợc bộ công cụ thực nghiệm ARQAT (Association Rule Quality Analysis Tool) trên ngôn ngữ R. Bộ công cụ này gồm các chức năng: xử lý dữ liệu, sinh luật kết hợp, xác định các tham số hàm ý thống kê, tính giá trị hấp dẫn cho luật kết hợp dựa trên 4 tham số hàm ý thống kê, tính độ tƣơng đồng của hai đối tƣợng dựa trên cƣờng độ hàm ý thống kê, các chức năng xây dựng và đánh giá các mô hình tƣ vấn lọc cộng tác. 4. Bố cục của luận án Dựa trên mục tiêu, đối tƣợng và phạm vi nghiên cứu nêu trên, ngoài phần mở đầu và phần kết luận và hƣớng phát triển, luận án đƣợc cấu trúc gồm 5 chƣơng và 6 6 phụ lục, trong đó mối quan hệ về kiến thức giữa các chƣơng trong luận án đƣợc trình bày chi tiết trong Hình 1. Chƣơng 1: Giới thiệu tổng quan về phƣơng pháp phân tích hàm ý thống kê, khuynh hƣớng biến thiên hàm ý thống kê và mô hình tƣ vấn. Nghiên cứu các mô hình tƣ vấn, tập trung phân tích ƣu nhƣợc của từng mô hình, phƣơng pháp đánh giá mô hình và ứng dụng của chúng trong các lĩnh vực. Chƣơng 2: Trình bày tổng quan về độ đo hấp dẫn khách quan, phân lớp các độ đo hấp dẫn khách quan: phân lớp dựa trên thuộc tính của độ đo và phân lớp dựa trên hành vi của độ đo. Trên cơ sở nghiên cứu và khảo sát giá trị biến thiên của các độ đo hấp dẫn khách quan bằng cách lấy đạo hàm riêng của hàm tính giá trị hấp dẫn của độ đo theo các tham số hàm ý thống kê, luận án đề xuất một phƣơng pháp mới dùng để phân lớp các độ đo. Phƣơng pháp phân lớp các độ đo hấp dẫn khách quan dựa trên tiếp cận bất đối xứng sử dụng các tham số hàm ý thống kê. Sau đó, tiến hành phân lớp trên 39 độ đo hấp dẫn khách quan thỏa tính chất bất đối xứng (gọi tắt là độ đo hấp dẫn khách quan bất đối xứng). Kết quả phân lớp cho thấy một số khả năng ứng dụng hỗ trợ cho ngƣời dùng lựa chọn đƣợc độ đo hấp dẫn khách quan phù hợp dựa trên: tính biến thiên tăng, giảm của từng độ đo theo các tham số hàm ý ‎thống kê, mối quan hệ giữa sự biến thiên giá trị của các độ đo với giá trị tham số hàm ý thông kê và sự phụ thuộc lẫn nhau giữa các tham số trong công thức tính giá trị hấp dẫn của các độ đo. Chƣơng 3: Trình bày mô hình tƣ vấn dựa trên tiếp cận bất đối xứng sử dụng luật kết hợp và độ đo chỉ số hàm ý thống kê. Mô hình này dựa trên luật kết hợp, chỉ số hàm ý thống kê và đạo hàm riêng của độ đo theo từng tham số để đƣa ra kết quả tƣ vấn cho ngƣời dùng. Để khắc phục các nhƣợc điểm của mô hình tƣ vấn truyền thống, mô hình này đặc biệt quan tâm đến tỷ lệ, mối quan hệ hàm ý giữa các thuộc tính điều kiện và các thuộc tính quyết định trên cùng một đối tƣợng ngƣời dùng bằng cách kết hợp giá trị chỉ số hàm ý thống kê và khuynh hƣớng biến thiên theo giá trị đạo hàm riêng theo từng tham số. Thông qua thực nghiệm trên hai tập dữ liệu: tập dữ liệu chuẩn (Lenses) và tập dữ liệu tuyển sinh của Trƣờng Đại học Trà Vinh, 7 mô hình đƣa ra các luật kết hợp có giá trị hỗ trợ ngƣời dùng lựa chọn đƣợc thuộc tính quyết định. Hình 1.1Mối quan hệ giữa các chƣơng của luận án Chƣơng 4: Trình bày mô hình tƣ vấn lọc cộng tác mới, mô hình tƣ vấn lọc cộng tác dựa trên cƣờng độ hàm ý thống kê. Mô hình này dựa trên tiếp cận bất đối xứng sử dụng luật kết hợp và độ đo cƣờng độ hàm ý thống kê. Trong đó, mô hình sử dụng luật kết hợp có độ ngạc nhiên cao đƣợc lựa chọn dựa trên độ đo cƣờng độ hàm ý thống kê. Phần thực nghiệm đƣợc triển khai trên hai tập dữ liệu thực tế và so sánh kết quả với các mô hình tƣ vấn hiệu quả khác. Kết quả so sánh cho thấy mô hình tƣ vấn lọc cộng tác dựa trên cƣờng độ hàm ý thống kê có độ chính xác cao hơn so với các mô hình tƣ vấn lọc cộng tác khác. Đặc biệt, mô hình đề xuất có độ chính xác cao trên tập dữ liệu xếp hạng dạng nhị phân. Chƣơng 5: Trình bày các bƣớc xây dựng một độ đo tƣơng đồng mới cho mô hình tƣ vấn lọc cộng tác dựa trên ngƣời dùng. Độ đo tƣơng đồng giữa hai ngƣời dùng đƣợc xây dựng dựa trên tiếp cận bất đối xứng sử dụng độ đo cƣờng độ hàm ý thống kê (gọi là độ đo tƣơng đồng hàm ý thống kê). Từ độ đo tƣơng đồng này, mô hình tƣ vấn lọc cộng tác dựa trên ngƣời dùng đƣợc xây dựng để kiểm tra độ chính
- Xem thêm -

Tài liệu liên quan