BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
PHAN QUỐC NGHĨA
HỆ TƢ VẤN DỰA TRÊN PHÂN TÍCH HÀM Ý
THỐNG KÊ
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Đà Nẵng - Năm 2018
ii
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
PHAN QUỐC NGHĨA
HỆ TƢ VẤN DỰA TRÊN PHÂN TÍCH HÀM Ý
THỐNG KÊ
Chuyên ngành: Khoa học máy tính
Mã số: 62.48.01.01
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Cán bộ hƣớng dẫn:
1. PGS. TS. Huỳnh Xuân Hiệp
2. TS. Đặng Hoài Phƣơng
Đà Nẵng - Năm 2018
i
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện, dưới sự
hướng dẫn của PGS.TS. Huỳnh Xuân Hiệp và TS. Đặng Hoài Phương. Tôi cam
đoan các kết quả nghiên cứu được trình bày trong luận án là trung thực và không
sao chép từ bất kỳ công trình nghiên cứu nào khác. Một số kết quả nghiên cứu là
thành quả tập thể và đã được các đồng tác giả đồng ý cho sử dụng trong luận án.
Mọi trích dẫn trong luận án đều có ghi nguồn gốc xuất xứ rõ ràng và đầy đủ.
Tác giả
Phan Quốc Nghĩa
ii
MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................ i
MỤC LỤC ...................................................................................................................ii
DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT ..................................................... vi
DANH MỤC CÁC BẢNG...................................................................................... viii
DANH MỤC CÁC HÌNH ........................................................................................... x
MỞ ĐẦU ..................................................................................................................... 1
1. Tính cấp thiết của luận án ............................................................................ 1
2. Mục tiêu, phƣơng pháp, đối tƣợng và phạm vi nghiên cứu của luận án ...... 3
3. Các đóng góp của luận án ............................................................................ 4
4. Bố cục của luận án ....................................................................................... 5
CHƢƠNG 1. TỔNG QUAN ....................................................................................... 9
1.1. Phân tích hàm ý thống kê ..................................................................................... 9
1.2. Khuynh hƣớng biến thiên hàm ý thống kê ......................................................... 11
1.3. Mô hình tƣ vấn ................................................................................................... 13
1.3.1. Các khái niệm cơ bản ............................................................................. 13
1.3.2. Mô hình tƣ vấn dựa trên lọc nội dung .................................................... 14
1.3.2.1. Bài toán tƣ vấn lọc nội dung ............................................................ 14
1.3.2.2. Các nhƣợc điểm của mô hình tƣ vấn dựa trên lọc nội dung............. 16
1.3.3. Mô hình tƣ vấn dựa trên lọc cộng tác ..................................................... 17
1.3.3.1. Bài toán tƣ vấn dựa trên lọc cộng tác ............................................... 18
1.3.3.2. Lọc cộng tác dựa trên bộ nhớ ........................................................... 18
1.3.3.3. Lọc cộng tác dựa trên mô hình ......................................................... 20
1.3.3.4. Các nhƣợc điểm của mô hình tƣ vấn lọc cộng tác ........................... 20
1.3.4. Mô hình tƣ vấn dựa trên các đặc tính nhân khẩu học............................. 21
1.3.5. Mô hình tƣ vấn dựa trên tri thức ............................................................ 22
1.3.6. Mô hình tƣ vấn dựa trên luật kết hợp ..................................................... 24
1.3.7. Mô hình tƣ vấn dựa trên phân tích hàm ý thống kê ............................... 25
iii
1.3.8. Mô hình tƣ vấn tích hợp ......................................................................... 26
1.4. Đánh giá mô hình tƣ vấn .................................................................................... 27
1.4.1. Phƣơng pháp xây dựng dữ liệu đánh giá ................................................ 28
1.4.2. Phƣơng pháp đánh giá mô hình tƣ vấn ................................................... 29
1.4.2.1. Đánh giá dựa trên giá trị xếp hạng dự đoán ..................................... 29
1.4.2.2. Đánh giá dựa trên kết quả tƣ vấn ..................................................... 29
1.5. Ứng dụng của mô hình tƣ vấn ............................................................................ 30
1.6. Hƣớng phát triển của mô hình tƣ vấn ................................................................ 31
1.7. Kết luận chƣơng 1 .............................................................................................. 32
CHƢƠNG 2. PHÂN LỚP ĐỘ ĐO HẤP DẪN KHÁCH QUAN THEO THAM SỐ
HÀM Ý THỐNG KÊ ................................................................................................ 34
2.1. Độ đo hấp dẫn khách quan ................................................................................. 34
2.2. Phân lớp độ đo hấp dẫn khách quan ................................................................... 36
2.2.1. Phân lớp độ đo dựa trên khảo sát các thuộc tính .................................... 36
2.2.2. Phân lớp độ đo dựa trên khảo sát các hành vi ........................................ 37
2.3. Phân lớp độ đo hấp dẫn khách quan theo tham số hàm ý thống kê ................... 37
2.3.1. Quy tắc xác định giá trị biến thiên của độ đo dựa trên đạo hàm riêng ... 38
2.3.2. Quy tắc phân lớp độ đo dựa trên thuộc tính biến thiên .......................... 40
2.4. Kết quả phân lớp các độ đo hấp dẫn khách quan bất đối xứng .......................... 41
2.4.1. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n ................... 43
2.4.2. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n ................ 45
2.4.3. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n ................ 47
2.4.4. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n
.............. 48
2.5. So sánh và đánh giá kết quả phân lớp theo tham số hàm ý thống kê ................. 51
2.6. Kết luận chƣơng 2 .............................................................................................. 52
CHƢƠNG 3. MÔ HÌNH TƢ VẤN DỰA TRÊN CHỈ SỐ HÀM Ý THỐNG KÊ .... 53
3.1. Luật kết hợp dựa trên thuộc tính quyết định ...................................................... 53
3.1.1. Định nghĩa luật kết hợp dựa trên thuộc tính quyết định ......................... 53
3.1.2. Thuật toán sinh luật kết hợp dựa trên thuộc tính quyết định .................. 54
iv
3.2. Tham số hàm ý thống kê của luật kết hợp ......................................................... 56
3.2.1. Tham số hàm ý thống kê ........................................................................ 56
3.2.2. Tham số hàm ý thống kê dựa trên ma trận nhị phân .............................. 57
3.2.2.1. Chuyển tập dữ liệu giao dịch sang ma trận thƣa nhị phân .............. 57
3.2.2.2. Chuyển tập luật kết hợp sang ma trận thƣa nhị phân ...................... 58
3.2.2.3. Xác định giá trị cho các tham hàm ý thống kê của từng luật kết hợp59
3.3. Tính giá trị chỉ số hàm ý thống kê và giá trị đạo hàm riêng dựa trên các tham số
hàm ý thống kê .......................................................................................................... 61
3.4. Mô hình tƣ vấn dựa trên chỉ số hàm ý thống kê................................................. 61
3.4.1. Định nghĩa mô hình tƣ vấn dựa trên chỉ số hàm ý thống kê .................. 61
3.4.2. Thuật toán tƣ vấn dựa trên chỉ số hàm ý thống kê ................................. 63
3.5. Thực nghiệm ...................................................................................................... 64
3.5.1. Dữ liệu thực nghiệm ............................................................................... 64
3.5.2. Đánh giá độ chính xác của mô hình trên tập dữ liệu chuẩn ................... 67
3.5.3. Đánh giá độ chính xác của mô hình trên tập dữ liệu thực ...................... 68
3.6. Kết luận chƣơng 3 .............................................................................................. 72
CHƢƠNG 4. MÔ HÌNH TƢ VẤN LỌC CỘNG TÁC DỰA TRÊN CƢỜNG ĐỘ HÀM
Ý THỐNG KÊ............................................................................................................ 73
4.1. Luật kết hợp dựa trên cƣờng độ hàm ý thống kê ............................................... 73
4.1.1. Định nghĩa luật kết hợp dựa trên cƣờng độ hàm ý thống kê .................. 73
4.1.2. Thuật toán sinh luật kết hợp dựa trên cƣờng độ hàm ý thống kê ........... 74
4.2. Mô hình tƣ vấn lọc cộng tác dựa trên cƣờng độ hàm ý thống kê ...................... 76
4.2.1. Định nghĩa mô hình tƣ vấn dựa trên cƣờng độ hàm ý thống kê ............. 76
4.2.2. Thuật toán tƣ vấn dựa trên cƣờng độ hàm ý thống kê............................ 78
4.2.3. Đánh giá độ chính xác của mô hình ....................................................... 79
4.3. Thực nghiệm ...................................................................................................... 81
4.3.1. Dữ liệu thực nghiệm ............................................................................... 81
4.3.2. So sánh độ chính xác của mô hình trên dữ liệu xếp hạng dạng nhị phân
và dữ liệu xếp hạng dạng số thực .................................................................. 81
v
4.3.3. Độ chính xác của mô hình so với các mô hình tƣ vấn lọc cộng tác khác82
4.4. Kết luận chƣơng 4 .............................................................................................. 84
CHƢƠNG 5. MÔ HÌNH TƢ VẤN LỌC CỘNG TÁC DỰA TRÊN TƢƠNG
ĐỒNG HÀM Ý THỐNG KÊ .................................................................................... 85
5.1. Độ đo tƣơng đồng dựa trên cƣờng độ hàm ý thống kê ...................................... 85
5.1.1. Độ đo tƣơng đồng hàm ý thống kê giữa hai ngƣời dùng ....................... 86
5.1.2. Thuật toán đo độ tƣơng đồng hàm ý thống kê giữa hai ngƣời dùng ...... 86
5.1.3. Tính chất của độ đo tƣơng đồng hàm ý thống kê giữa hai ngƣời dùng . 87
5.2. Mô hình tƣ vấn lọc cộng tác dựa trên tƣơng đồng hàm ý thống kê ................... 89
5.2.1. Định nghĩa mô hình tƣ vấn dựa trên tƣơng đồng hàm ý thống kê ......... 89
5.2.2. Thuật toán tƣ vấn lọc cộng tác dựa trên tƣơng đồng hàm ý thống kê .... 90
5.3. Thực nghiệm ...................................................................................................... 92
5.3.1. Dữ liệu thực nghiệm ............................................................................... 92
5.3.2. Đánh giá mô hình trên dữ liệu xếp hạng dạng số thực ........................... 92
5.3.2.1. Đánh giá mô hình dựa trên kết quả xếp hạng ................................. 93
5.3.2.2. Đánh giá mô hình dựa trên kết quả tƣ vấn ...................................... 94
5.3.3. Đánh giá mô hình trên dữ liệu xếp hạng dạng nhị phân ........................ 94
5.4. Kết luận chƣơng 5 .............................................................................................. 97
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ................................................................ 98
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ
TÀI LIỆU THAM KHẢO
PHỤ LỤC
vi
DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT
Thuật ngữ
Tiếng Anh
Viết tắt
Phân tích hàm ý thống kê
Statistical implicative analysis
Khuynh hƣớng biến thiên hàm ý
Tendency of variation in statistical
thống kê
implications
Độ đo hấp dẫn khách quan
Objective interestingness measures
Độ đo hấp dẫn chủ quan
Subjective interestingness measures
Độ đo chỉ số hàm ý thống kê
Implication index
Độ đo cƣờng độ hàm ý thống kê
Implication intensity
Độ đo tƣơng đồng
Similarity measures
Độ đo tƣơng đồng hàm ý thống
Statistical implicative similarity
kê
measures
Hệ tƣ vấn
Recommender systems
RS
Mô hình tƣ vấn
Recommender models
RM
Content-based recommender models
CB
Mô hình tƣ vấn dựa trên lọc nội
dung
Hồ sơ ngƣời dùng
User profile
Mô hình tƣ vấn dựa trên lọc
Collaborative filtering recommender
cộng tác
models
Mô hình tƣ vấn lọc cộng tác dựa
User-based collaborative filtering
trên ngƣời dùng
recommender models
Mô hình tƣ vấn lọc cộng tác dựa
Item-based collaborative filtering
trên sản phẩm
recommender models
Mô hình tƣ vấn dựa trên luật kết
Recommender based on association
hợp
rule models
Mô hình tƣ vấn dựa trên đặc tính
nhân khẩu học
Mô hình tƣ vấn dựa trên tri thức
Demographic recommender models
Knowledge-based recommender
models
ASI
CF
UBCF
IBCF
AR
DRM
KRM
vii
Mô hình tƣ vấn dựa trên phân
Recommender model based on
tích hàm ý thống kê
statistical implicative analysis
Mô hình tƣ vấn tích hợp
Hybrid recommender models
Mô hình tƣ vấn dựa trên tính
Computational Intelligence-based
toán thông minh
recommender models
Mô hình tƣ vấn dựa trên mạng
Social network-based recommender
xã hội
models
Mô hình tƣ vấn dựa trên ngữ
Context awareness-based
cảnh
recommender models
Đánh giá dựa trên giá trị xếp
hạng
Đánh giá dựa trên kết quả tƣ vấn
Evaluation based on the ratings
Evaluation based on
recommendation results
ASICF
HRM
CIRM
SNRM
CARM
viii
DANH CÁC MỤC BẢNG
Bảng 1.1. Ma trận hỗn độn ........................................................................................30
Bảng 2.1. Kết quả khảo sát các độ đo dựa trên đạo hàm riêng 4 tham số ................42
Bảng 2.2. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n .....................43
Bảng 2.3. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo
...................45
Bảng 2.4. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo
...................47
Bảng 2.5. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo
̅
.................49
Bảng 3.1. Tập dữ liệu phân nhóm thí sinh ................................................................55
Bảng 3.2. Kết quả sinh tập phổ biến 1 phần tử .........................................................55
Bảng 3.3. Kết quả sinh tập phổ biến 2 phần tử .........................................................55
Bảng 3.4. Kết quả sinh tập phổ biến 3 phần tử .........................................................56
Bảng 3.5. Kết quả sinh luật kết hợp dựa trên thuộc tính quyết định.........................56
Bảng 3.6. Kết quả chuyển từ dữ liệu giao dịch sang dạng ma trận nhị phân ............57
Bảng 3.7. Kết quả chuyển từ luật kết hợp sang dạng ma trận nhị phân....................58
Bảng 3.8. Kết quả chuyển vế trái của luật kết hợp sang dạng ma trận nhị phân ......59
Bảng 3.9. Kết quả chuyển vế phải của luật kết hợp sang dạng ma trận nhị phân .....59
Bảng 3.10. Giá trị các tham số
̅
cho từng luật kết hợp .......................60
Bảng 3.11. Giá trị chỉ số hàm ý thống kê và giá trị đạo hàm riêng theo các tham số
hàm ý thống kê của từng luật kết hợp .......................................................................61
Bảng 3.12. Nội dụng chi tiết của tập dữ liệu Lenses ................................................65
Bảng 3.13. Mẫu dữ liệu tuyển sinh đã xử lý .............................................................66
Bảng 3.14. Tập luật kết hợp sinh ra trên tập dữ liệu Lenses .....................................67
Bảng 3.15. Kết quả xác định các tham số hàm ý thống kê
̅
...............67
Bảng 3.16. Kết quả tính giá trị của độ đo chỉ số hàm ý thống kê và giá trị đạo hàm
riêng theo các tham số hàm ý thống kê cho từng luật kết hợp ..................................68
Bảng 3.17. Kết quả tƣ vấn với các thuộc tính điều kiện {i1=1, i2=2, i3=2, i4=1} ...68
Bảng 3.18. Kết quả sinh luật kết hợp cho mô hình trên tập dữ liệu DVT-Data .......69
Bảng 3.19. Kết quả xác định các tham số ,
,
,
̅
của 10 luật kết hợp đầu tiên
của mô hình tƣ vấn ....................................................................................................69
ix
Bảng 3.20. Danh sách 10 luật kết hợp có giá trị chỉ số hàm ý thống kê cao nhất ....70
Bảng 3.21. Kết quả tƣ vấn ngành học dựa trên chỉ số hàm ý thống kê.....................71
Bảng 4.1. Ma trận xếp hạng của ngƣời dùng cho các sản phẩm ...............................79
Bảng 4.2. Tập luật cho từng ngƣời dùng và các sản phẩm tƣ vấn ............................80
Bảng 4.3. So sánh độ chính xác của các mô hình trên hai kịch bản dữ liệu .............82
Bảng 5.1. Ma trận xếp hạng của hai ngƣời dùng ......................................................88
Bảng 5.2. Danh sách luật kết hợp cho hai ngƣời dùng
,
..................................88
Bảng 5.3. Kết quả xác định các tham số và tính giá trị cƣờng độ hàm ý thống kê của
từng luật kết hợp........................................................................................................88
Bảng 5.4. So sánh các thông số lỗi của hai mô hình .................................................93
x
DANH MỤC CÁC HÌNH
Hình 1. Mối quan hệ giữa các chƣơng của luận án .....................................................7
Hình 1.1. Mô hình biểu diễn phƣơng pháp phân tích hàm ý thống kê ......................9
Hình 1.2. Mô hình tƣ vấn tổng quát ..........................................................................13
Hình 2.1. Bản số của một luật kết hợp
...........................................................35
Hình 2.2. So sánh sự biến thiên của độ đo Implication index và độ đo Implication
intensity theo tham số n (
̅
) ...........44
Hình 2.3. Biểu diễn sự biến thiên giảm của độ đo Implication index theo tham số
v
n
̅
.......................................46
Hình 2.4. Biểu diễn sự độc lập của độ đo Laplace theo tham số
v
n
.......................................................48
̅
Hình 2.5. Biểu diễn sự phụ thuộc giá trị của độ đo J-measures theo tham số
v
n
̅
̅
.........................................50
Hình 3.1. Mô hình tƣ vấn dựa trên chỉ số hàm ý thống kê........................................62
Hình 4.1. Mô hình tƣ vấn lọc cộng tác dựa trên cƣờng độ hàm ý thống kê .............78
Hình 4.2. Biểu đồ cho thấy mô hình có độ chính xác cao trên dữ liệu xếp hạng dạng
nhi phân .....................................................................................................................82
Hình 4.3. So sánh độ chính xác của các mô hình tƣ vấn ..........................................83
Hình 4.4. Biểu đồ so sánh đƣờng tỷ lệ Precision/Recall của các mô hình ...............84
Hình 5.1. Mô hình tƣ vấn lọc cộng tác dựa trên tƣơng đồng hàm ý thống kê ..........89
Hình 5.2. Ví dụ minh họa mô hình tƣ vấn lọc cộng tác dựa trên tƣơng đồng hàm ý
thống kê (A) Ma trận xếp hạng và tính toán danh sách các sản phẩm dự đoán cho
ngƣời dùng u ; (B) Xác định danh sách ngƣời dùng tƣơng đồng với ngƣời dùng u
...................................................................................................................................91
Hình 5.3. Các phim đƣợc mô hình chọn để tƣ vấn của 4 ngƣời dùng đầu tiên ........92
Hình 5.4. Biểu đồ cho thấy thông số lỗi trên từng ngƣời dùng của mô hình sử dụng
độ đo SIS thấp hơn so với mô hình sử dụng độ đo Pearson .....................................93
Hình 5.5. So sánh kết quả đánh giá độ chính xác của hai mô hình ...........................94
xi
Hình 5.6. Các trang web đƣợc mô hình chọn tƣ vấn cho 6 ngƣời dùng đầu tiên .....95
Hình 5.7. So sánh kết quả đánh giá trung bình của k-fold = 5 khi số trang web đƣợc
giới thiệu tăng dần từ 1 đến 15 ..................................................................................96
Hình 5.8. Biểu đồ ROC so sánh tỷ số precision - recall trên hai mô hình ................96
1
MỞ ĐẦU
1. Tính cấp thiết của luận án
Vấn đề quá tải thông tin (information overload) [6] thật sự trở nên phổ biến
với sự phát triển mạnh mẽ của Internet và các mạng xã hội, lƣợng thông tin mà con
ngƣời đƣợc tiếp cận đang ngày càng mở rộng. Mỗi ngày, chúng ta sẽ tiếp xúc với
nhiều nguồn thông tin: các thông tin trao đổi qua email, các bài báo trên mạng
Internet, các bài đăng tải trên mạng xã hội, các thông tin quảng cáo từ các trang
thƣơng mại điện tử. Với sự mở rộng thông tin từ Internet và các mạng xã hội nhƣ
hiện này, việc lựa chọn thông tin hữu ích để ra quyết định của ngƣời dùng máy tính
và các thiết bị thông minh sẽ ngày một khó khăn hơn. Mô hình tƣ vấn
(recommender models) [27] đƣợc xem là một giải pháp hỗ trợ ngƣời dùng lựa chọn
thông tin hiệu quả và đƣợc ứng dụng rộng rãi trong nhiều lĩnh vực.
Mô hình tƣ vấn có khả năng tự động phân tích thông tin, phân loại, lựa chọn
và cung cấp cho ngƣời dùng những sản phẩm, hàng hóa, dịch vụ đƣợc quan tâm
thông qua việc ứng dụng các kỹ thuật thống kê và trí tuệ nhân tạo (hệ chuyên gia, hệ
mờ, hệ hỗ trợ quyết định). Trong đó, các giải thuật học máy có vai trò quan trọng
[12], [38]. Dựa trên kỹ thuật tính toán kết quả tƣ vấn từ dữ liệu, ngƣời ta chia mô
hình tƣ vấn thành nhiều loại khác nhau. Mô hình tƣ vấn dựa trên lọc cộng tác
(collaborative filtering recommender models) đƣợc sử dụng rộng rãi trong các lĩnh
vực thƣơng mại [27], [44], [58], tƣ vấn các sản phẩm cho ngƣời dùng dựa trên sự
tƣơng đồng giữa ngƣời dùng và cộng đồng ngƣời dùng sử dụng sản phẩm. Khi đó,
ngƣời dùng đƣợc tƣ vấn sử dụng sản phẩm khi đa số ngƣời dùng sử dụng sản phẩm
có cùng sở thích trên các sản phẩm đó. Ngƣợc lại, mô hình tƣ vấn dựa trên lọc nội
dụng (content-based recommender models) đƣa ra các sản phẩm gợi ý cho ngƣời
dùng khi sản phẩm đó tƣơng đồng với các sản phẩm khác đã đƣợc ngƣời dùng thích
trong quá khứ [36], [54]. Mô hình tƣ vấn dựa trên các đặc tính nhân khẩu học
(demographic recommender models) đƣa ra các sản phẩm gợi ý cho ngƣời dùng
bằng cách sử dụng các thông tin nhân khẩu học của ngƣời dùng nhƣ giới tính, độ
tuổi, quốc tịch [8], [53]. Mô hình tƣ vấn dựa trên tri thức (knowledge-based
2
recommender models) đƣa ra các sản phẩm gợi ý cho ngƣời dùng dựa trên tri thức
chuyên ngành, xác định sự phù hợp của sản phẩm (dựa trên các thuộc tính mô tả)
với nhu cầu hay sở thích của ngƣời dùng, nhằm đạt đƣợc mục tiêu sản phẩm hữu
dụng với ngƣời dùng [2], [69], [78]. Mô hình tƣ vấn tích hợp (hybrid recommender
models) đƣợc đề xuất nhằm hạn chế các khuyết điểm của các phƣơng pháp trên [13],
[45], [71]. Thông thƣờng, các giải pháp tƣ vấn tích hợp sử dụng từ hai hoặc nhiều
giải pháp tƣ vấn khác nhau nhằm khắc phục các yếu điểm của từng giải pháp đơn lẻ.
Nhiều nghiên cứu chứng mình rằng các mô hình tƣ vấn tích hợp cho kết quả chính
xác hơn các mô hình tƣ vấn đơn lẻ [12]. Tuy nhiên, các mô hình này cũng yêu cầu
cao hơn về chi phí tài nguyên và thời gian tính toán.
Với sự đa dạng của các mô hình và giải pháp tƣ vấn, các mô hình tƣ vấn đã
đƣợc triển khai và ứng dụng thực tế trong nhiều lĩnh vực (quản lý, thƣơng mại, y tế,
giáo dục, giải trí). Tuy nhiên, trong các mô hình tƣ vấn hiện tại vẫn tồn tại các vấn
đề kỹ thuật cần đƣợc tiếp tục nghiên cứu và hoàn thiện. Mô hình tƣ vấn dựa trên lọc
nội dung có một số nhƣợc điểm: quá tập trung chuyên ngành (over-Specialization),
vấn đề trích chọn đặc trƣng (feature extraction), vấn đề ngƣời dùng mới (cold-Start);
Mô hình tƣ vấn dựa trên lọc cộng tác gặp phải những hạn chế: vấn đề ngƣời dùng
mới/sản phẩm mới (cold-Start), vấn đề dữ liệu thƣa (sparsity), vấn đề thích ứng quy
mô của hệ thống (scalability problem); Mô hình tƣ vấn dựa trên các đặc tính nhân
khẩu có một số nhƣợc điểm: xác định nhóm ngƣời dùng (user groups), xác định sở
thích của nhóm ngƣời dùng (preferences of users), thu thập thông tin cá nhân
(demographic of users); Mô hình tƣ vấn dựa trên tri thức có một số nhƣợc điểm:
vấn đề chi phí cho việc thu thập tri thức (cost of knowledge acquisition), vấn đề
tƣơng tác với ngƣời dùng (interaction with users), vấn đề tính độc lập sở thích
ngƣời dùng (independence preferences of users).
Đề tài “Hệ tƣ vấn dựa trên phân tích hàm ý thống kê” đƣợc thực hiện trong
khuôn khổ luận án tiến sĩ chuyên ngành khoa học máy tính với mong muốn đƣợc
đóng góp một phần vào lĩnh vực nghiên cứu hệ tƣ vấn, cụ thể là mô hình tƣ vấn lọc
cộng tác.
3
2. Mục tiêu, phƣơng pháp, đối tƣợng và phạm vi nghiên cứu của luận án
2.1. Mục tiêu nghiên cứu
Luận án đƣợc thực hiện nhằm nghiên cứu các độ đo hấp dẫn khách quan
(objective interestingness measures) [5], phƣơng pháp phân tích hàm ý thống kê
(statistical implicative analysis) [73] và khuynh hƣớng biến thiên hàm ý thống kê
[74] nhằm cải tiến độ chính xác của mô hình tƣ vấn lọc cộng tác dựa trên cách tiếp
cận bất đối xứng. Cụ thể hơn, luận án hƣớng đến hai mục tiêu chính sau:
- Nghiên cứu cách tiếp cận bất đối xứng của phƣơng pháp phân tích hàm ý
thống kê, trong đó quan tâm đến độ đo chỉ số hàm ý thống kê (implication index),
độ đo cƣờng độ hàm ý thống kê (implication intensity) và khuynh hƣớng biến thiên
hàm ý thống kê. Từ đó xác định mối quan hệ hàm ý thống kê giữa các sản phẩm cần
tƣ vấn cũng nhƣ mức độ hàm ý giữa các nhóm ngƣời dùng dựa trên phƣơng pháp
phân tích hàm ý thống kê.
- Nghiên cứu các mô hình tƣ vấn hiện tại nhƣ: tƣ vấn dựa trên nội dung, tƣ
vấn dựa trên lọc công tác, tƣ vấn dựa trên tri thức, tƣ vấn dựa trên đặc tính nhân
khẩu học và mô hình tƣ vấn tích hợp, quan tâm đến mô hình tƣ vấn dựa trên lọc
cộng tác sử dụng các độ đo tƣơng đồng. Trên cơ sở đó, đề xuất các mô hình tƣ vấn
lọc cộng tác dựa trên các độ đo đƣợc đề xuất từ phƣơng pháp tiếp cận bất đối xứng:
chỉ số hàm ý thống kê, cƣờng độ hàm ý thống kê, tƣơng đồng hàm ý thống kê và
luật kết hợp.
2.2. Đối tương nghiên cứu
- Thứ nhất, các độ đo hấp dẫn khách quan.
- Thứ hai, phƣơng pháp phân tích hàm ý thống kê, khuynh hƣớng biến thiên
hàm ý thống kê.
- Thứ ba, các mô hình tƣ vấn dựa trên phân tích hàm ý thống kê.
2.3. Phương pháp nghiên cứu
- Phƣơng pháp nghiên cứu lý thuyết: phân tích, tổng hợp các nghiên cứu có
liên quan đến nội dung nghiên cứu từ tài liệu tham khảo: sách, bài báo công bố trên
tạp chí và kỷ yếu hội thảo để đề xuất các mô hình.
4
- Phƣơng pháp nghiên cứu thực nghiệm: cài đặt và chạy thử nghiệm các mô
hình đề xuất trên dữ liệu chuẩn đã công bố và dữ liệu thực tế.
2.4. Phạm vi nghiên cứu
- Thứ nhất là nghiên cứu cách tiếp cận dựa trên bất đối xứng của phƣơng
pháp phân tích hàm ý thống kê, các phƣơng pháp phân lớp độ đo. Từ đó đề xuất
một phƣơng pháp phân lớp mới dựa trên tiếp cận bất đối xứng để phân lớp các độ
đo hấp dẫn khách quan.
- Thứ hai là nghiên cứu độ đo chỉ số hàm ý thống kê, khuynh hƣớng biến
thiên hàm ý thống kê đề xuất mô hình tƣ vấn dựa trên tiếp cận bất đối xứng sử dụng
luật kết hợp và độ đo chỉ số hàm ý thống kê.
- Thứ ba là nghiên cứu mô hình tƣ vấn lọc cộng tác dựa trên luật kết hợp, độ
đo cƣờng độ hàm ý thống kê đề xuất mô hình tƣ vấn lọc cộng tác dựa trên tiếp cận
bất đối xứng sử dụng luật kết hợp và độ đo cƣờng độ hàm ý thống kê.
- Thứ tƣ là nghiên cứu mô hình tƣ vấn lọc công tác dựa trên ngƣời dùng, độ
đo cƣờng độ hàm ý thống kê đề xuất độ đo tƣơng đồng giữa hai ngƣời dùng dựa
trên tiếp cận bất đối xứng sử dụng độ đo cƣờng độ hàm ý thống kê, nhằm cải thiện
độ chính xác của mô hình tƣ vấn lọc cộng tác dựa trên ngƣời dùng.
3. Các đóng góp của luận án
- Thứ nhất là đề xuất phƣơng pháp phân lớp các độ đo hấp dẫn khách quan
dựa trên tiếp cận bất đối xứng sử dụng các tham số hàm ý thống kê. Phƣơng pháp
này giúp biểu thị mối quan hệ biến thiên giữa của các độ đo hấp dẫn khách quan với
các tham số hàm ý thống kê. Từ đó, chọn đƣợc độ đo phù hợp cho ứng dụng cụ thể.
- Thứ hai là đề xuất mô hình tƣ vấn dựa trên tiếp cận bất đối xứng sử dụng
luật kết hợp và độ đo chỉ số hàm ý thống kê. Mô hình này giải quyết một lớp bài
toán tƣ vấn khi các thuộc tính điều kiện và thuộc tính quyết định trên cùng một đối
tƣợng dựa trên luật kết hợp, chỉ số hàm ý thống kê và khuynh hƣớng biến thiên hàm
ý thống kê. Ngƣời dùng cung cấp các thuộc tính điều kiện để mô hình đƣa ra các
gợi ý giúp ngƣời dùng chọn các giá trị cho các thuộc tính quyết định. Mô hình đƣợc
thực nghiệm trên hai tập dữ liệu: tập dữ liệu chuẩn gồm 5 thuộc tính và chỉ có 3 lớp
5
(Lenses) [18] và tập dữ liệu thực tế gồm nhiều thuộc tính và có số lớp xác định theo
từng năm (dữ liệu tuyển sinh trong 5 năm liên tục của Trƣờng Đại học Trà Vinh).
Kết quả thực nghiệm cho thấy mô hình đƣa ra các luật tƣ vấn cho ngƣời dùng có
thuộc tính quyết định chính xác so với dữ liệu thực tế.
- Thứ ba là đề xuất mô hình tƣ vấn lọc cộng tác dựa trên tiếp cận bất đối
xứng sử dụng luật kết hợp và độ đo cƣờng độ hàm ý thống kê. Mô hình này dựa trên
tập luật kết hợp có độ ngạc nhiên cao (tập luật kết hợp đƣợc chọn dựa trên độ đo
cƣờng độ hàm ý thống kê) để đƣa ra các kết quả tƣ vấn. Mô hình đƣợc thực nghiệm
trên hai tập dữ liệu: tập dữ liệu xếp hạng dạng số thực (MovieLens) [23] và tập dữ
liệu xếp hạng dạng nhị phân (MSWeb) [46]. Kết quả thực nghiệm cho thấy mô hình
tƣ vấn lọc cộng tác sử dụng luật kết hợp với độ đo cƣờng độ hàm ý thống kê có độ
chính xác cao trên tập dữ liệu xếp hạng dạng nhị phân.
- Thứ tƣ là đề xuất độ đo tƣơng đồng hàm ý thống kê dựa trên tiếp cận bất
đối xứng để cải thiện độ chính xác của mô hình tƣ vấn lọc cộng tác dựa trên ngƣời
dùng. Độ đo này đƣợc xây dựng dựa trên luật kết hợp và độ đo cƣờng độ hàm ý
thống kê. Độ đo đƣợc ứng dụng cho mô hình tƣ vấn lọc cộng tác dựa trên ngƣời
dùng. Qua kết quả thực nghiệm trên hai tập dữ liệu: tập dữ liệu xếp hạng dạng số
thực (MovieLens) và tập dữ liệu xếp hạng dạng nhị phân (MSWeb) cho thấy mô
hình sử dụng độ đo tƣơng đồng hàm ý thống kê có độ chính xác cao hơn so với mô
hình sử dụng độ đo tƣơng đồng Pearson, Jaccard [57].
- Thứ năm là xây dựng đƣợc bộ công cụ thực nghiệm ARQAT (Association
Rule Quality Analysis Tool) trên ngôn ngữ R. Bộ công cụ này gồm các chức năng:
xử lý dữ liệu, sinh luật kết hợp, xác định các tham số hàm ý thống kê, tính giá trị
hấp dẫn cho luật kết hợp dựa trên 4 tham số hàm ý thống kê, tính độ tƣơng đồng của
hai đối tƣợng dựa trên cƣờng độ hàm ý thống kê, các chức năng xây dựng và đánh
giá các mô hình tƣ vấn lọc cộng tác.
4. Bố cục của luận án
Dựa trên mục tiêu, đối tƣợng và phạm vi nghiên cứu nêu trên, ngoài phần mở
đầu và phần kết luận và hƣớng phát triển, luận án đƣợc cấu trúc gồm 5 chƣơng và 6
6
phụ lục, trong đó mối quan hệ về kiến thức giữa các chƣơng trong luận án đƣợc trình
bày chi tiết trong Hình 1.
Chƣơng 1: Giới thiệu tổng quan về phƣơng pháp phân tích hàm ý thống kê,
khuynh hƣớng biến thiên hàm ý thống kê và mô hình tƣ vấn. Nghiên cứu các mô
hình tƣ vấn, tập trung phân tích ƣu nhƣợc của từng mô hình, phƣơng pháp đánh giá
mô hình và ứng dụng của chúng trong các lĩnh vực.
Chƣơng 2: Trình bày tổng quan về độ đo hấp dẫn khách quan, phân lớp các
độ đo hấp dẫn khách quan: phân lớp dựa trên thuộc tính của độ đo và phân lớp dựa
trên hành vi của độ đo. Trên cơ sở nghiên cứu và khảo sát giá trị biến thiên của các
độ đo hấp dẫn khách quan bằng cách lấy đạo hàm riêng của hàm tính giá trị hấp dẫn
của độ đo theo các tham số hàm ý thống kê, luận án đề xuất một phƣơng pháp mới
dùng để phân lớp các độ đo. Phƣơng pháp phân lớp các độ đo hấp dẫn khách quan
dựa trên tiếp cận bất đối xứng sử dụng các tham số hàm ý thống kê. Sau đó, tiến
hành phân lớp trên 39 độ đo hấp dẫn khách quan thỏa tính chất bất đối xứng (gọi tắt
là độ đo hấp dẫn khách quan bất đối xứng). Kết quả phân lớp cho thấy một số khả
năng ứng dụng hỗ trợ cho ngƣời dùng lựa chọn đƣợc độ đo hấp dẫn khách quan phù
hợp dựa trên: tính biến thiên tăng, giảm của từng độ đo theo các tham số hàm ý
thống kê, mối quan hệ giữa sự biến thiên giá trị của các độ đo với giá trị tham số
hàm ý thông kê và sự phụ thuộc lẫn nhau giữa các tham số trong công thức tính giá
trị hấp dẫn của các độ đo.
Chƣơng 3: Trình bày mô hình tƣ vấn dựa trên tiếp cận bất đối xứng sử dụng
luật kết hợp và độ đo chỉ số hàm ý thống kê. Mô hình này dựa trên luật kết hợp, chỉ
số hàm ý thống kê và đạo hàm riêng của độ đo theo từng tham số để đƣa ra kết quả
tƣ vấn cho ngƣời dùng. Để khắc phục các nhƣợc điểm của mô hình tƣ vấn truyền
thống, mô hình này đặc biệt quan tâm đến tỷ lệ, mối quan hệ hàm ý giữa các thuộc
tính điều kiện và các thuộc tính quyết định trên cùng một đối tƣợng ngƣời dùng
bằng cách kết hợp giá trị chỉ số hàm ý thống kê và khuynh hƣớng biến thiên theo
giá trị đạo hàm riêng theo từng tham số. Thông qua thực nghiệm trên hai tập dữ liệu:
tập dữ liệu chuẩn (Lenses) và tập dữ liệu tuyển sinh của Trƣờng Đại học Trà Vinh,
7
mô hình đƣa ra các luật kết hợp có giá trị hỗ trợ ngƣời dùng lựa chọn đƣợc thuộc
tính quyết định.
Hình 1.1Mối quan hệ giữa các chƣơng của luận án
Chƣơng 4: Trình bày mô hình tƣ vấn lọc cộng tác mới, mô hình tƣ vấn lọc
cộng tác dựa trên cƣờng độ hàm ý thống kê. Mô hình này dựa trên tiếp cận bất đối
xứng sử dụng luật kết hợp và độ đo cƣờng độ hàm ý thống kê. Trong đó, mô hình
sử dụng luật kết hợp có độ ngạc nhiên cao đƣợc lựa chọn dựa trên độ đo cƣờng độ
hàm ý thống kê. Phần thực nghiệm đƣợc triển khai trên hai tập dữ liệu thực tế và so
sánh kết quả với các mô hình tƣ vấn hiệu quả khác. Kết quả so sánh cho thấy mô
hình tƣ vấn lọc cộng tác dựa trên cƣờng độ hàm ý thống kê có độ chính xác cao hơn
so với các mô hình tƣ vấn lọc cộng tác khác. Đặc biệt, mô hình đề xuất có độ chính
xác cao trên tập dữ liệu xếp hạng dạng nhị phân.
Chƣơng 5: Trình bày các bƣớc xây dựng một độ đo tƣơng đồng mới cho mô
hình tƣ vấn lọc cộng tác dựa trên ngƣời dùng. Độ đo tƣơng đồng giữa hai ngƣời
dùng đƣợc xây dựng dựa trên tiếp cận bất đối xứng sử dụng độ đo cƣờng độ hàm ý
thống kê (gọi là độ đo tƣơng đồng hàm ý thống kê). Từ độ đo tƣơng đồng này, mô
hình tƣ vấn lọc cộng tác dựa trên ngƣời dùng đƣợc xây dựng để kiểm tra độ chính
- Xem thêm -