BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------
ĐÀO THỊ THÚY QUỲNH
NÂNG CAO ĐỘ CHÍNH XÁC TRA CỨU ẢNH
DỰA VÀO NỘI DUNG SỬ DỤNG KỸ THUẬT
ĐIỀU CHỈNH TRỌNG SỐ HÀM KHOẢNG CÁCH
LUẬN ÁN TIẾN SỸ CÔNG NGHỆ THÔNG TIN
HÀ NỘI – 2019
BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------
ĐÀO THỊ THÚY QUỲNH
NÂNG CAO ĐỘ CHÍNH XÁC TRA CỨU ẢNH
DỰA VÀO NỘI DUNG SỬ DỤNG KỸ THUẬT
ĐIỀU CHỈNH TRỌNG SỐ HÀM KHOẢNG CÁCH
LUẬN ÁN TIẾN SỸ CÔNG NGHỆ THÔNG TIN
Chuyên ngành: Khoa học máy tính
Mã số: 62 48 01 01
Ngƣời hƣớng dẫn khoa học:
1. PGS.TS. Ngô Quốc Tạo
2. PGS.TS. Nguyễn Hữu Quỳnh
Hà Nội – 2019
LỜI CAM ĐOAN
Tôi xin cam đoan luận án “Nâng cao độ chính xác tra cứu ảnh dựa vào nội
dung sử dụng kỹ thuật điều chỉnh trọng số hàm khoảng cách” là công trình
nghiên cứu của riêng tôi. Các số liệu, kết quả được trình bày trong luận án hoàn
toàn trung thực và chưa từng được công bố trong bất kỳ một công trình nào
khác.
Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên
quan trong nước và quốc tế. Ngoại trừ các tài liệu tham khảo này, luận án hoàn
toàn là công việc của riêng tôi.
Trong các công trình khoa học được công bố trong luận án, tôi đã thể hiện
rõ ràng và chính xác đóng góp của các đồng tác giả và những gì do tôi đã đóng
góp.
Luận án được hoàn thành trong thời gian tôi làm Nghiên cứu sinh tại
phòng Nhận dạng và Công nghệ tri thức, Viện Công nghệ thông tin, Viện Hàn
lâm Khoa học và Công nghệ Việt Nam.
Tác giả luận án
NCS. Đào Thị Thúy Quỳnh
i
LỜI CẢM ƠN
Luận án Tiến sĩ ―Nâng cao độ chính xác tra cứu ảnh dựa vào nội dung
sử dụng kỹ thuật điều chỉnh trọng số hàm khoảng cách‖ được hoàn thiện
bằng sự cố gắng của bản thân và sự giúp đỡ của Thầy hướng dẫn khoa học, Ban
lãnh đạo Học viện Khoa học và Công nghệ Việt Nam, Ban lãnh đạo Khoa ToánTin, trường Đại học Khoa học - Đại học Thái Nguyên, Ban lãnh đạo Khoa Công
nghệ thông tin 1, Học viện Công nghệ Bưu chính Viễn thông, các chuyên gia và
các nhà khoa học, đồng nghiệp, bạn bè và những người thân trong gia đình.
Trước tiên, nghiên cứu sinh xin được bày tỏ lòng biết ơn chân thành đến
Thầy hướng dẫn khoa học PGS.TS. Ngô Quốc Tạo và PGS.TS. Nguyễn Hữu
Quỳnh. Nghiên cứu sinh đã nhận được những định hướng khoa học, những bài
học quý báu, sự hướng dẫn tận tình và kinh nghiệm nghiên cứu khoa học quý giá
trong nghiên cứu.
Tôi xin chân thành cảm ơn phòng Nhận dạng và Công nghệ tri thức, Viện
Công nghệ thông tin, Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa
học và Công nghệ Việt Nam đã tạo điều kiện thuận lợi trong suốt quá trình
nghiên cứu và thực hiện luận án.
Tôi xin chân thành cảm ơn Ban giám đốc Học viện Công nghệ Bưu chính
Viễn thông, Ban lãnh đạo Khoa, Bộ môn Khoa học máy tính và các Thầy Cô
Khoa Công nghệ thông tin 1 đã quan tâm giúp đỡ để tôi hoàn thành nhiệm vụ
học tập. Xin chân thành cảm ơn sự quan tâm, động viên và những đóng góp quý
báu của quý đồng nghiệp.
Cuối cùng, tôi xin bày tỏ lòng biết ơn vô hạn tới mọi thành viên trong gia
đình, sự khuyến khích động viên của gia đình là động lực để tôi hoàn thành luận
án này.
ii
MỤC LỤC
MỞ ĐẦU............................................................................................. ix
CHƢƠNG 1 ..........................................................................................1
TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG......................1
1.1. Giới thiệu ........................................................................................1
1.1.1. Tra cứu dựa vào văn bản ...............................................................2
1.1.2. Tra cứu ảnh dựa vào nội dung ........................................................2
1.2. Trích rút đặc trƣng trong tra cứu ảnh ..............................................5
1.2.1 Đặc trƣng mầu ...............................................................................5
1.2.2. Đặc trƣng kết cấu ..........................................................................8
1.2.3. Đặc trƣng hình ............................................................................11
1.2.4. Thông tin không gian...................................................................13
1.3. Đo khoảng cách .............................................................................15
1.4. Phân cụm ......................................................................................19
1.5. Một số nghiên cứu liên quan về giảm khoảng cách ngữ nghĩa trong tra
cứu ảnh ...............................................................................................20
1.6. Đánh giá hiệu năng ........................................................................24
1.7. Kết luận Chƣơng 1 và định hƣớng nghiên cứu .................................25
CHƢƠNG 2 PHƢƠNG PHÁP TRA CỨU ẢNH .....................................27
LIÊN QUAN NGỮ NGHĨA ..................................................................27
2.1. Giới thiệu ......................................................................................27
2.2. Sơ đồ và ý tƣởng phƣơng pháp đề xuất ............................................32
2.3. Phản hồi liên quan với truy vấn đa điểm ..........................................36
2.4. Thuật toán tra cứu ảnh đề xuất .......................................................38
iii
2.4.1. Phân cụm tập ảnh phản hồi ..........................................................38
2.4.2. Thuật toán đề xuất cho phân cụm gia tăng ....................................42
2.4.3. Công thức đề xuất cho tính khoảng cách cải tiến ............................47
2.4.4. Công thức đề xuất cho tính trọng số ngữ nghĩa của truy vấn ...........47
2.4.5. Thuật toán đề xuất cho tính độ quan trọng đặc trƣng.....................48
2.4.6. Thuật toán đề xuất cho gộp các danh sách kết quả .........................50
2.4.7. Thuật toán đề xuất chung cho tra cứu ảnh liên quan ngữ nghĩa ......52
2.5. Đánh giá thực nghiệm ....................................................................56
2.5.1. Môi trƣờng thực nghiệm ..............................................................56
2.5.2. Chiến lƣợc mô phỏng phản hồi liên quan ......................................58
2.5.3. Thực hiện truy vấn và đánh giá ....................................................58
2.6. Kết luận Chƣơng 2 .........................................................................61
CHƢƠNG 3 PHƢƠNG PHÁP TRA CỨU ẢNH SỬ DỤNG TRỌNG SỐ
THÍCH NGHI .....................................................................................63
3.1. Giới thiệu ......................................................................................63
3.2. Thuật toán xác định điểm truy vấn tối ƣu và bộ trọng số thích nghi của
hàm khoảng cách cải tiến. .....................................................................68
3.3. Đề xuất thuật toán tra cứu ảnh sử dụng bộ trọng số thích nghi ..........73
3.4. Thử nghiệm và đánh giá kết quả .....................................................75
3.4.1. Môi trƣờng thực nghiệm ..............................................................75
3.4.2. Các kết quả thực nghiệm và thảo luận ..........................................76
3.5. Kết luận Chƣơng 3 .........................................................................83
KẾT LUẬN .........................................................................................84
iv
DANH MỤC HÌNH VẼ
Hình 1.1. Khoảng cách ngữ nghĩa ...................................................................... 3
Hình 1.2. Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung. ............................... 4
Hình 1.3: Sơ đồ phản hồi liên quan. ................................................................... 5
Hình 2.1. Hình dạng truy vấn. (a) Dịch chuyển điểm truy vấn. (b) Hình dạng lồi
(đa điểm). (c) Hình dạng lõm (đa điểm) ........................................................... 29
Hình 2.2. Ba cụm khác nhau (mầu đỏ, mầu vàng và mầu trắng) cho cùng một
chủ đề hoa hồng ............................................................................................... 30
Hình 2.3: Khoảng cách từ một điểm đến một truy vấn ..................................... 31
Hình 2.4: Các điểm dữ liệu trên không gian hai chiều. ..................................... 32
Hình 2.5. Cấu trúc phương pháp đề xuất. ......................................................... 33
Hình 2.6. Bốn biểu diễn của cùng một ảnh ....................................................... 35
Hình 2.7. Không gian đặc trưng ảnh xám. ........................................................ 36
Hình 2.8. Minh họa tính trọng số ngữ nghĩa từ một ảnh đến 3 truy vấn. ........... 48
Hình 2.9. Mô hình hệ thống. ............................................................................. 59
Hình 2.10. So sánh độ chính xác. ..................................................................... 61
Hình 3.1: Giao diện điển hình của hệ thống CBIR với phản hồi liên quan. ....... 64
Hình 3.2. Minh họa vùng truy vấn tối ưu ngang bằng nhau. (a) Hình bên trái:
điểm truy vấn thứ nhất. (b) Hình bên phải: điểm truy vấn thứ hai. .................... 64
Hình 3.3. Sơ đồ của tra cứu ảnh sử dụng các trọng số thích nghi. ..................... 66
Hình 3.4. Một hình ellip sinh ra từ các mẫu phản hồi dương ............................ 71
Hình 3.5. Minh họa đưa danh sách kết quả bao gồm nhiều ảnh ........................ 72
không liên quan ................................................................................................ 72
Hình 3.6. Minh họa tính toán hàm khoảng cách từ một điểm trong hình ellip
tương ứng với điểm truy vấn tối ưu. ................................................................. 72
Hình 3.7. So sánh độ chính xác của 5 phương pháp. ......................................... 79
Hình 3.8. So sánh độ lệch chuẩn của 5 phương pháp ........................................ 79
Hình 3.9. So sánh độ chính xác trung bình của phương pháp Aweight với tập
thực sự và Aweight sử dụng nhận thức trực quan của sinh viên........................ 80
v
Hình 3.10. So sánh độ chính xác trung bình của phương pháp Aweight,
Aweight_WLNR, Aweight_WIDF và FGSSH. ................................................ 81
Hình 3.11. Thời gian thực hiện tra cứu của phương pháp đề xuất với hai trường
hợp ................................................................................................................... 82
Hình B.1. Giao diện frm_Class_Images. ........................................................ 100
Hình B.2.Giao diện frm_Type_of_Features. ................................................... 100
Hình B.3. Giao diện frm_Images_Database.................................................... 101
Hình B.4. Giao diện frm_Upload_Images. ..................................................... 101
Hình B.5. Giao diện frm_Trainning. ............................................................... 102
Hình B.6. Giao diện frm_Features. ................................................................. 102
Hình B.7. Giao diện bước biến đổi ảnh và tra cứu đa biểu diễn. ..................... 103
Hình B.8. Giao diện bước gộp và phản hồi lần 1. ........................................... 103
Hình B.9. Giao diện bước phân cụm và tra cứu trên mỗi cụm. ....................... 104
Hình B.10. Giao diện bước gộp kết quả tra cứu phản hồi lần 1. ...................... 104
Hình B.11. Giao diện chính của hệ thống ....................................................... 105
Hình B.12. Giao diện Load Dataset ................................................................ 105
Hình B.13. Giao diện đưa vào ảnh truy vấn và chọn số lượng ảnh trả về ........ 106
Hình B.14. Kết quả truy vấn khởi vào và người dùng phản hồi (ảnh có viền mầu
đỏ) .................................................................................................................. 107
Hình B.15. Thực hiện phân cụm tập ảnh người dùng chọn và hiển thị tập ảnh của
cụm 1 ............................................................................................................. 107
Hình B.16. Thực hiên tra cứu với trọng số thích nghi lần lặp thứ nhất ............ 108
Hình B.17. Thực hiên tra cứu với trọng số thích nghi lần lặp thứ hai.............. 108
Hình B.18. Thực hiên tra cứu với trọng số thích nghi lần lặp thứ ba ............... 109
vi
DANH MỤC BẢNG BIỂU
Bảng 2.1: Kết quả phân cụm của ba phương pháp. ........................................... 46
Bảng 2.2. Các loại đặc trưng ............................................................................ 57
Bảng 2.3. Bảng kết quả của 3 phương pháp theo số truy vấn trong một lần phản
hồi. ................................................................................................................... 60
Bảng 3.1. Các loại đặc trưng ............................................................................ 75
Bảng 3.2. Bảng kết quả trung bình độ chính xác của 5 phương pháp theo số điểm
truy vấn trong ba lần phản hồi. ......................................................................... 78
Bảng A1. Độ chính xác trung bình của 34 loại truy vấn với một lần lặp phản hồi
của phương pháp SRIR đề xuất ở chương 2...................................................... 94
Bảng A2. Độ chính xác trung bình của 80 loại truy vấn với 3 lần lặp phản hồi
của phương pháp đề xuất ở chương 3. .............................................................. 96
vii
TỪ VIẾT TẮT
Dạng viết tắt
ARP
AWEIGHT
CBIR
CLUE
Diễn giải
Average Retrieval Precision (Độ chính xác trung bình)
An efficient image retrieval method using adaptive
weights (Phương pháp tra cứu ảnh sử dụng trọng số thích
nghi)
Cotent-based image retrieval (Tra cứu ảnh dựa vào nội
dung)
Cluster-based Retrieval of Images by Unsupervised
Learning
CSDL
Cơ sở dữ liệu
EM
Expectation maximization
FQM
Finding an Optimal Query Point and Weight Matrix of
the Distance Function (xác định truy vấn tối ưu và ma
trận trọng số của hàm khoảng cách)
GMM
Gaussian mixture models
IF
Importance of Feature (độ quan trọng đặc trưng)
INC
Incremental Clustering (phân cụm gia tăng)
Phương pháp JF
Phương pháp đề xuất bởi tác giả Jin&French
Precision
Độ chính xác
Recall
Độ triệu hồi
RF
Relevant feedback (Phản hồi liên quan)
RGB
Red, green, blue (Đỏ, xanh lá, xanh dương)
SRIR
Semantic–Related Image Retrieval method (Phương pháp
tra cứu ảnh dựa vào ngữ nghĩa)
SVM
Support Vector Machine (máy véc tơ hỗ trợ)
viii
MỞ ĐẦU
1. Tính cấp thiết của luận án
Cơ sở dữ liệu ảnh ngày càng trở nên phổ biến trong các lĩnh vực ứng dụng
khác nhau như viễn thám, thời trang, phòng chống tội phạm, xuất bản, y học, kiến
trúc,… Sự tiến triển của các kỹ thuật thu, truyền và lưu trữ ảnh đã cho phép xây
dựng các cơ sở dữ liệu ảnh rất lớn. Các nhân tố này đã thúc đẩy sự quan tâm
nghiên cứu các phương pháp khai thác hiệu quả cơ sở dữ liệu ảnh rất lớn này.
Tra cứu ảnh có thể được thực hiện dựa vào các mô tả ngắn của ảnh. Các
ảnh có thể được mô tả bởi một tập các thuộc tính độc lập nội dung (tên file,
khuôn dạng, loại, kích cỡ, tên tác giả, thiết bị thu nhận, ngày tạo và vị trí ổ đĩa)
mà có thể được quản lý thông qua hệ quản trị cơ sở dữ liệu truyền thống. Hạn
chế chính của cách tiếp cận này đó là các truy vấn bị giới hạn vào các thuộc tính
hiện có của tệp ảnh. Một cách tiếp cận thay thế là sử dụng các từ khóa hoặc các
chú thích ảnh. Trong cách tiếp cận này, trước tiên các ảnh được chú thích thủ
công bằng các từ khóa. Sau đó, các ảnh có thể được tra cứu bởi các chú thích
tương ứng của chúng. Cách tiếp cận này ít giới hạn hơn cách tiếp cận trước. Tuy
nhiên, có ba khó khăn chính với cách tiếp cận này, đó là yêu cầu số lượng lớn
các nhân công trong việc phát triển các chú thích, sự khác biệt trong giải thích
nội dung ảnh, và sự không nhất quán của cách gán từ khóa giữa những người
thực hiện chú thích khác nhau. Cách tiếp cận chú thích từ khóa này trở nên
không khả thi khi cỡ của các tập ảnh gia tăng nhanh chóng.
Để khắc phục các khó khăn của cách tiếp cận dựa vào chú thích, một cách
tiếp cận thay thế là tra cứu ảnh dựa vào nội dung đã được đề xuất từ đầu những
năm 1990. Bên cạnh sử dụng các từ khóa được con người gán, các hệ thống tra
cứu ảnh dựa vào nội dung sử dụng nội dung trực quan của các ảnh, như các đặc
trưng mầu sắc, kết cấu, và hình dạng, làm chỉ số ảnh. Điều này làm giảm đáng
kể những khó khăn của cách tiếp cận thuần túy dựa trên chú thích, bởi vì quá
trình trích rút đặc trưng có thể được thực hiện tự động. Kể từ khi ra đời, tra cứu
ảnh dựa vào nội dung đã thu hút sự quan tâm nghiên cứu rất lớn, phạm vi từ
ix
nghiên cứu tới thương mại. Cho đến nay, một số hệ thống nguyên mẫu thực
nghiệm và các sản phẩm thương mại đã được đề xuất và xây dựng như QBIC
[71], MARS [85].
Đến nay, đã có nhiều thuật toán phức tạp được thiết kế để mô tả các đặc
trưng mầu, hình dạng và kết cấu, các thuật toán này không thể mô hình tương
đương các ngữ nghĩa ảnh và có nhiều giới hạn khi giải quyết cơ sở dữ liệu ảnh
nội dung rộng [61]. Các thực nghiệm trên các hệ thống CBIR chỉ ra rằng các nội
dung mức thấp thường thất bại trong mô tả các khái niệm ngữ nghĩa mức cao
của ảnh [111]. Do đó, hiệu năng của tra cứu ảnh dựa vào nội dung vẫn còn xa so
với kỳ vọng của người dùng.
Để khắc phục được hạn chế ở trên, những năm gần đây các hướng nghiên
cứu tập trung đi tìm các phương pháp giảm khoảng cách ngữ nghĩa giữa đặc
trưng mức thấp và khái niệm mức cao. Giảm khoảng cách ngữ nghĩa thường
được thực hiện thông qua phản hồi liên quan. Phản hồi liên quan (RF Relevance Feedback) là một quá trình học trực tuyến mà cố gắng học mục đích
của người dùng trong quá trình tương tác; RF là một công cụ mạnh được sử
dụng trong các hệ thống tra cứu thông tin [74,78]. Mục đích của nó là mang
người dùng vào lặp tra cứu để giảm khoảng cách ngữ nghĩa giữa những gì mà
truy vấn biểu diễn và những gì người dùng nghĩ. Bằng việc tiếp tục học thông
qua tương tác với người dùng, giảm khoảng cách thông qua phản hồi liên quan
đã được chỉ ra là cải tiến độ chính xác đáng kể trong các hệ thống tra cứu ảnh
dựa vào nội dung [58,59,64,80,90,118,119,126].
Tuy nhiên, hầu hết các phương pháp đề cập ở trên đều gặp phải các vấn
đề như sau: (1) yêu cầu người dùng phải cung cấp đồng thời nhiều ảnh truy vấn
đa dạng (các ảnh khác nhau nhưng cùng một chủ đề ), tức là, tăng gánh nặng cho
người dùng. (2) chưa tận dụng được thông tin phản hồi của người dùng vào việc
xác định độ quan trọng ngữ nghĩa của từng truy vấn và độ quan trọng của từng
đặc trưng. (3) sử dụng chung một véc tơ trọng số của hàm khoảng cách cho tất
cả các điểm truy vấn tối ưu mà không xét đến tính chất địa phương của các điểm
x
truy vấn khác nhau (vị trí các điểm truy vấn khác nhau, tính chất dữ liệu của các
điểm lân cận của mỗi điểm truy vấn tương ứng cũng khác nhau). (4) mỗi lần lặp
phản hồi, phương pháp phải phân cụm lại từ đầu tất cả các ảnh. Bốn vấn đề này
dẫn đến hiệu năng của hệ thống tra cứu thấp.
Do đó, việc đề xuất các giải pháp tra cứu ảnh để khắc phục các hạn chế ở
trên là một nhu cầu cấp thiết. Đó cũng là lý do mà luận án chọn đề tài ―Nâng
cao độ chính xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh
trọng số hàm khoảng cách‖. Các phương pháp tra cứu ảnh trong luận án được
giới hạn trong phạm vi tìm các ảnh đa dạng cùng chủ đề với ảnh truy vấn, chẳng
hạn: tìm tất cả các ảnh thuộc chủ đề hoa hồng bao gồm cả ảnh hoa hồng đỏ, hoa
hồng trắng và hoa hồng vàng.
2. Mục tiêu của luận án
Mục tiêu chung của luận án:
Đề xuất được phương pháp tra cứu ảnh nhằm nâng cao độ chính xác tra
cứu.
Mục tiêu cụ thể của luận án:
- Đề xuất được phương pháp tra cứu các ảnh liên quan ngữ nghĩa nằm rải
rác trong không gian đặc trưng để nâng cao độ chính xác mà không tăng thời
gian thực hiện tra cứu.
- Tận dụng thông tin phản hồi của người dùng để xác định độ quan trọng
ngữ nghĩa của mỗi truy vấn, độ quan trọng của mỗi đặc trưng nhằm đề xuất
phương pháp tra cứu ảnh hiệu quả.
- Đề xuất phương pháp khai thác mức độ phản hồi của người dùng, tính
chất địa phương của mỗi vùng chứa điểm truy vấn điều chỉnh để nâng cao độ
chính xác tra cứu.
3. Các đóng góp của luận án
Trong luận án này, tác giả nghiên cứu đề xuất các phương pháp tra cứu
ảnh liên quan ngữ nghĩa gồm: phương pháp SRIR (Semantic–Related Image
xi
Retrieval method) [CT5], phương pháp AWEIGHT (An efficient image
retrieval method using adaptive weights) [CT6]:
- Phương pháp SRIR giải quyết được các hạn chế: (1) Chỉ sử dụng một
truy vấn để tạo ra kết quả tra cứu khởi tạo gồm các ảnh nằm trong các vùng khác
nhau; (2) Không thực hiện phân cụm lại tập ảnh phản hồi; (3) xác định được độ
quan trọng ngữ nghĩa của từng truy vấn và (4) xác định độ quan trọng theo từng
đặc trưng. Những đóng góp này làm cho độ chính xác được cải tiến đáng kể.
- Phương pháp AWEIGHT khai thác mức độ phản hồi để xác định các
điểm truy vấn tối ưu. Bên cạnh đó, phương pháp đề xuất cũng khai thác đầy đủ
tính chất địa phương của mỗi điểm truy vấn tối ưu. Ngoài ra, phương pháp trong
chương này tận dụng được nhiều phản hồi từ phía người dùng mà không tăng
tốc độ tính toán.
4. Bố cục của luận án
Luận án này được bố cục thành ba chương:
Chương 1 giới thiệu tổng quan về tra cứu ảnh dựa vào nội dung.
Chương 2 trình bày phương pháp tra cứu ảnh liên quan ngữ nghĩa được
tác giả để xuất, có tên là SRIR.
Chương 3 trình bày phương pháp tra cứu ảnh sử dụng trọng số thích nghi
được tác giả đề xuất, có tên là AWEIGHT.
Cuối cùng, luận án đưa ra một số kết luận và định hướng nghiên cứu trong
tương lai.
xii
CHƢƠNG 1
TỔNG QUAN VỀ
TRA CỨU ẢNH DỰA VÀO NỘI DUNG
Chương này trình bày tổng quan về tra cứu ảnh dựa vào nội dung bao
gồm các đặc trưng mức thấp của ảnh, cấu trúc hệ thống tra cứu ảnh dựa vào đặc
trưng mức thấp và phân tích một số phương pháp tra cứu ảnh dựa vào đặc trưng
mức thấp. Bên cạnh đó, chương này trình bày một số nghiên cứu giảm khoảng
cách ngữ nghĩa theo cách tiếp cận phản hồi liên quan. Ngoài ra, chương này
cũng phân tích một số kỹ thuật tra cứu ảnh với ngữ nghĩa mức cao. Cuối cùng,
chương này đưa ra một số kết luận và định hướng cho nghiên cứu.
1.1. Giới thiệu
Các dạng nguồn đa phương tiện khác nhau (văn bản, tiếng nói, ảnh,
video) đang tăng lên nhanh chóng, chẳng hạn dữ liệu được trực quan trong các
điện thoại thông minh, các ứng dụng 2D/3D, nội dung web,... Thế giới đang
chứng kiến một sự tiến hóa về lượng, sự sẵn có, độ phức tạp, sự đa dạng và sự
quan trọng của các ảnh trong tất cả các lĩnh vực. Do đó, nhu cầu về các dịch vụ
ảnh trở nên quan trọng hơn bao giờ hết. Các ảnh đóng một vai trò quan trọng
trong một phạm vi rộng các ứng dụng và các lĩnh vực như giáo dục, chăm sóc y
tế, dự báo thời tiết, nghiên cứu về tội phạm, quảng cáo, thiết kế nghệ thuật, web,
phương tiện xã hội và giải trí. Tuy nhiên, phương tiện trực quan yêu cầu một
lượng xử lý và lưu trữ đáng kể, cần có các phương pháp hiệu quả cao để đánh
chỉ số, lưu trữ, phân tích và tra cứu thông tin trực quan từ các cơ sở dữ liệu ảnh.
Do đó, tra cứu các ảnh nhanh, chính xác và hiệu quả cho tất cả các loại tập ảnh
trở thành một trong những nhiệm vụ thách thức nhất.
1
1.1.1. Tra cứu dựa vào văn bản
Cách tiếp cận ban đầu cho tra cứu ảnh là dựa vào văn bản, trong đó các
ảnh được đánh chỉ số bằng các từ khóa, chủ đề hoặc mã phân loại. Các từ khóa,
chủ đề hoặc mã phân loại này được sử dụng trong quá trình tra cứu [41]. Tuy
nhiên, với cơ sở dữ liệu ảnh lớn và tăng lên nhanh chóng, các khó khăn phải đối
mặt của cách tiếp cận tra cứu dựa vào văn bản ngày càng trở nên nghiêm trọng
hơn. Bên cạnh đó, quá trình này tốn nhiều nhân lực và thời gian, từ khóa lại
mang tính chủ quan và không duy nhất, những người khác nhau có các nhận
thức khác nhau về cùng một ảnh.
Để khắc phục các vấn đề này, các nội dung của ảnh (gồm mầu, kết cấu và
hình dạng) được trích rút tự động từ bản thân các ảnh đã được sử dụng cho tra
cứu ảnh. Phương pháp này được gọi là tra cứu ảnh dựa vào nội dung (CBIR content-based image retrieval) [69]. CBIR cho phép loại đi các khó khăn của tra
cứu dựa vào văn bản trong các cơ sở dữ liệu ảnh lớn và hệ thống CBIR cung cấp
các kết quả chính xác hơn.
1.1.2. Tra cứu ảnh dựa vào nội dung
Tra cứu ảnh dựa vào nội dung (CBIR) là một ứng dụng của các kỹ thuật
thị giác máy tính đối với bài toán tra cứu ảnh [70]. Mục tiêu của hệ thống CBIR
là sử dụng nội dung trực quan của các ảnh để tìm các ảnh quan tâm từ một cơ sở
dữ liệu ảnh lớn. Tra cứu ảnh dựa vào nội dung có nghĩa là tra cứu sẽ phân tích
nội dung của ảnh thay vì dựa vào các siêu dữ liệu như từ khóa, thẻ và các mô tả
văn bản đi kèm với ảnh. Thuật ngữ nội dung ở đây được hiểu là mầu, hình dạng,
kết cấu hoặc bất cứ một thông tin nào mà có thể lấy ra từ bản thân ảnh.
Trong CBIR, các ảnh có thể được tra cứu thông qua việc sử dụng các đặc
trưng mức thấp (tức là mầu sắc, hình dạng, và kết cấu) hoặc sử dụng các đặc
trưng mức cao hay các đặc trưng ngữ nghĩa. Hình 1.1 chỉ ra khoảng cách ngữ
nghĩa của hai đối tượng ảnh. Như Hình 1.1 cho thấy, véc tơ đặc trưng (hai lược
đồ) của ảnh phía trên và véc tơ đặc trưng của ảnh phía dưới là rất giống nhau.
2
Do đó, nếu chỉ dựa vào đặc trưng mức thấp (véc tơ đặc trưng) thì hệ thống sẽ kết
luận ảnh phía trên và phía dưới là giống nhau. Tuy nhiên, khi ta nhìn vào hai ảnh
này thì lại thấy chúng rất khác nhau (ảnh phía trên là cây trong rừng còn ảnh
phía dưới là một bông hồng). Tra cứu ảnh dựa vào ngữ nghĩa đối sánh một truy
vấn người dùng dựa vào các nội dung nhận thức nào đó hơn là sự tương tự giữa
các đặc trưng.
Hình 1.1. Khoảng cách ngữ nghĩa
Thành phần chính của CBIR là kỹ thuật tra cứu ảnh được sử dụng để lấy
ra các ảnh tương tự nhất đối với ảnh truy vấn mà người dùng đưa vào [101]. Một
hệ thống tra cứu dựa vào nội dung tiêu biểu được chia thành hai pha: trích rút
đặc trưng ngoại tuyến và tra cứu ảnh trực tuyến. Trong pha ngoại tuyến, hệ
thống trích rút tự động các thuộc tính trực quan ở mức thấp (mầu, kết cấu và
hình dạng) hoặc ở mức cao. Trong pha tra cứu ảnh trực tuyến, người dùng có thể
cung cấp một ảnh mẫu cho hệ thống tra cứu để tìm kiếm các ảnh mong muốn.
Hệ thống tra cứu ảnh biểu diễn ảnh mẫu này bởi véc tơ đặc trưng và khoảng
cách (hoặc độ tương tự) giữa các véc tơ đặc trưng của ảnh mẫu và của ảnh trong
cơ sở dữ liệu đặc trưng được tính toán. Cuối cùng hệ thống phân hạng các ảnh
theo thứ tự tăng dần của khoảng cách hay giảm dần của độ tương tự và trả về tập
ảnh kết quả cho người dùng. Nếu không thỏa mãn với kết quả tra cứu, người
dùng có thể cung cấp phản hồi liên quan cho hệ thống tra cứu, hệ thống sẽ học
3
nhu cầu thông tin của người dùng. Kiến trúc của hệ thống tra cứu ảnh dựa vào
nội dung được chỉ ra trên Hình 1.2.
Phản hồi liên quan
Tập ảnh
Trích rút
đặc trưng
Cơ sở dữ liệu
đặc trưng
Độ tương tự
Kết quả tra cứu
Sắp xếp
Ảnh truy vấn
Trích rút
đặc trưng
Đầu ra
Véc tơ
đặc trưng
Hình 1.2. Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung.
Phản hồi liên quan (RF - Relevance Feedback) là một quá trình trực tuyến
mà cố gắng học mục đích của người dùng trong quá trình tương tác. Phản hồi
liên quan được sử dụng rộng rãi trong các hệ thống tra cứu thông tin [74,78].
Mục đích của nó là mang người dùng vào lặp tra cứu để giảm khoảng cách ngữ
nghĩa giữa những gì mà truy vấn biểu diễn và những gì người dùng nghĩ. Bằng
việc tiếp tục học thông qua tương tác với các người dùng cuối, phản hồi liên
quan đã được chỉ ra là cung cấp cải tiến hiệu năng đáng kể trong các hệ thống tra
cứu ảnh dựa vào nội dung [103,104,119].
Hình 1.3 chỉ ra cơ chế hoạt động của phản hồi liên quan trong tra cứu ảnh
dựa vào nội dung [2,74,104]. Khi có kết quả tra cứu khởi tạo, người dùng chọn
các ảnh liên quan trong danh sách kết quả này để làm các mẫu có nhãn (dương
hay âm). Dựa trên tập mẫu huấn luyện này, một thuật toán máy học được thực
hiện để điều chỉnh các tham số. Dựa trên các tham số vừa được học, tra cứu ảnh
sẽ tiếp tục được thực hiện. Quá trình được lặp lại cho đến khi người dùng thỏa
mãn.
4
Hình 1.3: Sơ đồ phản hồi liên quan.
Con người có thể mô tả và giải thích các nội dung ảnh một cách thích
hợp, bao gồm cấu trúc liên kết toàn bộ và các đối tượng sử dụng các khái niệm
ngữ nghĩa mức cao. Không giống như con người, máy tính xử lý các đặc trưng
mức thấp được trích rút từ các điểm ảnh, do đó nó cung cấp các mô tả của ảnh ít
ngữ nghĩa hơn so với mô tả của con người. Sự khác nhau giữa máy tính và con
người trong việc mô tả cùng một ảnh được gọi là ―khoảng cách ngữ nghĩa‖.
Người dùng tìm kiếm sự tương tự ngữ nghĩa nhưng cơ sở dữ liệu chỉ có thể cung
cấp các ảnh tương tự bởi một xử lý số. Ngoài ra, khoảng cách ngữ nghĩa giữa
các thuộc tính ảnh và các thuộc tính đối tượng giới hạn nhiều hiệu quả tra cứu.
1.2. Trích rút đặc trƣng trong tra cứu ảnh
1.2.1. Đặc trƣng mầu
Đặc trưng mầu là một trong những đặc trưng thị giác rộng nhất do quan
hệ chặt chẽ với các đối tượng ảnh, tiền cảnh và nền. Mầu cũng là một đặc trưng
trực quan mạnh do nó không phụ thuộc vào trạng thái của các nội dung ảnh như
5
hướng, cỡ và góc. Các biểu diễn mầu phổ biến là lược đồ mầu, mô men mầu
[34], tương quan mầu [43] và ma trận đồng hiện mầu [37].
Không gian mầu được phân lớp thành các không gian mầu tuyến tính (tức
RGB, XYZ, CMY, YIQ và YUV) và các không gian mầu phi tuyến [113] (tức
L*a*b, HSV, Nxyz và L*u*v). Không gian mầu RGB là một không gian mầu
cộng tính dựa vào ba mầu chính: đỏ, xanh lá cây và xanh lam. Các mầu khác có
thể được sinh ra bởi sử dụng các mầu chính, chẳng hạn, sử dụng đỏ với xanh
lam tạo ra đỏ tươi, xanh lá cây và xanh lam ta ra mầu lục và sự kết hợp của mầu
đỏ, xanh lá cây và mầu xanh lam ở cường độ tối đa tạo ra mầu trắng. Tuy nhiên,
không gian RGB không hiệu quả trong việc xử lý các ảnh trong thế giới thực, do
đó nó bị tránh trong nhiều thuật toán tra cứu ảnh vì nó thiếu khả năng đo lường
sự tương tự về nhận thức. Hơn nữa, khoảng cách trong không gian RGB có ít
thông tin ngữ nghĩa về mặt nhận thức thị giác của con người.
Theo đó, không gian mầu HSV được sử dụng thay cho không gian mầu
RGB vì các thành phần mầu sắc và độ bão hòa rất gần với nhận thức thị giác của
con người. Mô hình HSV có ba thành phần cấu thành: ―hue‖ đề cập đến mầu
sắc, ―saturation‖ đề cập đến độ sắc nét của mầu và ―value‖ là độ sáng của mầu
sắc.
Một không gian mầu khác, không gian mầu YCbCr được chia thành độ
chói (Y) và sắc độ (Cb, Cr), trong khi Cb và Cr lần lượt biểu thị sự khác biệt
mầu xanh-vàng và đỏ-lục. Không gian mầu L * a * b * cũng được lấy từ không
gian mầu XYZ để đạt được sự đồng nhất về nhận thức. Như trong YCbCr, L * a
* b bao gồm một chiều độ sáng (L) và hai chiều sắc độ (a *, b *) dựa trên quá
trình đối lập mầu.
Lược đồ mầu không có thông tin về sự phân bố không gian của mầu; do
đó, các biểu diễn khác đã được đề xuất như tương quan mầu sắc và sự tương
quan. Các phương pháp này cung cấp thông tin về tương quan không gian của
6