ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
_____________o0o____________
ĐỒNG THỊ HẢI YẾN
PHÁT HIỆN KHUÔN MẶT NGHIÊNG
TRÊN ẢNH VÀ VIDEO
LUẬN VĂN THẠC SỸ
HÀ NỘI 2011
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
_____________o0o____________
ĐỒNG THỊ HẢI YẾN
PHÁT HIỆN KHUÔN MẶT NGHIÊNG
TRÊN ẢNH VÀ VIDEO
Ngành: Công nghệ thông tin
Chuyên ngành: Công nghệ phần mềm
Mã số: 604810
LUẬN VĂN THẠC SỸ
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. BÙI THẾ DUY
HÀ NỘI 2011
Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video
MỤC LỤC
LỜI CẢM ƠN .................................................................................................... 5
DANH SÁCH CÁC TỪ VIẾT TẮT ................................................................. 4
BẢNG CÁC HÌNH ............................................................................................ 5
MỞ ĐẦU ............................................................................................................ 6
CHƢƠNG I........................................................................................................ 8
CÁC PHƢƠNG PHÁP PHÁT HIỆN KHUÔN MẶT ..................................... 8
1.1.
Tổng quan .............................................................................................. 8
1.1.1.
Lịch sử phát triển ................................................................................ 8
1.1.2.
Các vấn đề gặp phải của bài toán phát hiện mặt ngƣời ........................ 8
1.1.3.
Ứng dụng của bài toán phát hiện mặt ngƣời........................................ 9
1.1.4.
Sơ đồ tổng quát của quá trình phát hiện đối tƣợng ............................ 10
1.1.5.
Các độ đo đánh giá chất lƣợng .......................................................... 12
1.2. Các phƣơng pháp phát hiện khuôn mặt .................................................... 13
1.2.1 Phƣơng pháp dựa trên tri thức ............................................................... 13
1.2.1.1.
Phương pháp của Yang và Huang ................................................. 13
1.2.1.2.
Phương pháp của Kotropoulos và Pitas ........................................ 15
Đánh giá hướng tiếp cận dựa trên tri thức ................................................ 16
1.2.2.
Phƣơng pháp dựa trên đặc trƣng bất biến .......................................... 17
1.2.2.1.
Phương pháp của Leung - Random Graph Matching .................... 17
1.2.2.2.
Phương pháp của Yow và Cipolla – Features Grouping ............... 19
1.2.2.3.
Phương pháp của Graf .................................................................. 19
1.2.2.4.
Phương pháp dựa trên màu da ...................................................... 20
1.2.3.
Phƣơng pháp đối sánh mẫu ............................................................... 23
1.2.3.1.
Dùng mẫu định nghĩa sẵn ............................................................. 23
1.2.3.2.
Dùng mẫu biến dạng ..................................................................... 25
Đánh giá hướng tiếp cận đối sánh mẫu ..................................................... 26
1
Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video
Phƣơng pháp dựa trên diện mạo ....................................................... 27
1.2.4.
1.2.4.1.
Các khuôn mặt riêng ..................................................................... 27
1.2.4.2.
Phương pháp dựa trên sự phân bố ................................................ 28
1.2.4.3.
Dùng mạng Nơ-ron ....................................................................... 29
1.2.4.4.
SVM (Support Vector Machines) ................................................... 31
Đánh giá hướng tiếp cận dựa trên diện mạo.............................................. 33
1.2.5. Kết luận chung ..................................................................................... 34
CHƢƠNG II .................................................................................................... 35
THUẬT TOÁN ĐỀ XUẤT ............................................................................. 35
2.1
Sơ đồ tổng quan ................................................................................... 36
2.2 Một số khái niệm và định nghĩa................................................................ 37
2.2.1. Phân loại sử dụng kỹ thuật Boosting và mô hình Cascade ............... 37
2.2.1.1 Tiếp cận Boosting .......................................................................... 37
2.2.1.2 Adaboost ........................................................................................ 38
Thuật toán AdaBoost: .............................................................................. 41
2.2.1.3 Mô hình Cascade ........................................................................... 43
2.2.1.4 Áp dụng mô hình cascade cho các bộ phân loại AdaBoost ............ 44
2.2.2. Đặc trưng Haar-like ........................................................................ 45
2.2.2.1 Định nghĩa .................................................................................... 45
2.2.2.2. Ảnh tích phân (Integral Image)................................................... 48
2.2.2.3 Tính toán nhanh các đặc trưng Haar-like ................................... 49
2.2.2.4 Lựa chọn đặc trưng ...................................................................... 49
CHƢƠNG III................................................................................................... 54
XÂY DỰNG HỆ THỐNG VÀ THỬ NGHIỆM ............................................. 54
3.1 Sơ đồ khối và nguyên lý hoạt động........................................................... 54
3.2 Tập các tƣ thế khuôn mặt ......................................................................... 54
3.3 THỬ NGHIỆM, ĐÁNH GIÁ VÀ KẾT LUẬN ........................................ 56
3.3.1. Cơ sở dữ liệu ........................................................................................ 56
2
Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video
3.3.1.1. Dữ liệu huấn luyện........................................................................ 56
3.3.1.2. Dữ liệu thử nghiệm ....................................................................... 58
3.3.1.3. Hoạt động của bộ phát hiện một tư thế khuôn mặt ........................ 58
3.3.2. Xây dựng chƣơng trình ......................................................................... 60
3.3.3. Đánh giá kết quả ................................................................................... 64
3.3.3.1. Một số độ đo đánh giá .................................................................. 65
3.3.3.2. Kết quả huấn luyện ....................................................................... 65
3.3.3.3. Thử nghiệm trên cơ sở dữ liệu ảnh................................................ 67
KẾT LUẬN ...................................................................................................... 70
TÀI LIỆU THAM KHẢO............................................................................... 72
3
Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video
DANH SÁCH CÁC TỪ VIẾT TẮT
STT
01
Từ viết tắt
PDM
Ý nghĩa
Point Distribution Model
02
SVM
Support Vector Machines
03
DAB
Discrete AdaBoost
04
RAB
Real AdaBoost
4
Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video
BẢNG CÁC HÌNH
HÌNH 1: SƠ ĐỒ TỔNG QUAN CỦA HỆ THỐNG PHÁT HIỆN ĐỐI TƢỢNG................................................... 10
HÌNH 2: CÁC ẢNH ĐỘ PHÂN GIẢI KHÁC NHAU ......................................................................................... 14
HÌNH 3: MỘT TRI THỨC VỀ KHUÔN MẶT ................................................................................................... 14
HÌNH 4: PHƢƠNG PHÁP CHIẾU..................................................................................................................... 16
HÌNH 5: PHÂN BỐ MÀU DA TRONG MẶT PHẲNG CRCB TRONG KHÔNG GIAN YCRCB.......................... 21
HÌNH 6: MINH HỌA MẪU GỒM CÁC QUAN HỆ ........................................................................................... 25
HÌNH 7: MỖI NHÓM CÓ 6 MẪU CÙNG LOẠI ................................................................................................ 29
HÌNH 8: THÀNH PHẦN ĐẦU CỦA HỆ THỐNG ............................................................................................. 30
HÌNH 9: SIÊU PHẲNG TÁCH VỚI KHOẢNG CÁCH LỀ CỰC ĐẠI................................................................. 31
HÌNH 10: SƠ ĐỒ TỔNG QUAN THUẬT TOÁN............................................................................................... 36
HINH 11: MINH HỌA BOOSTING .................................................................................................................. 38
HÌNH 12: MINH HỌA THUẬT TOÁN ADABOOST ........................................................................................ 39
HÌNH 13: BỘ PHÂN LOẠI MẠNH H(X) XÂY DỰNG BẰNG ADABOOST ..................................................... 40
HÌNH 14: MÔ HÌNH CASCADE ...................................................................................................................... 43
HÌNH 15A: CÁC ĐẶC TRƢNG CẠNH ............................................................................................................. 46
HÌNH 15B: CÁC ĐẶC TRƢNG ĐƢỜNG .......................................................................................................... 46
HÌNH 15C: CÁC ĐẶC TRƢNG BAO QUANH TÂM......................................................................................... 46
HÌNH 15D: ĐẶC TRƢNG ĐƢỜNG CHÉO........................................................................................................ 46
HÌNH 16A: CÁC ĐẶC TRƢNG HAAR MỞ RỘNG MỚI .................................................................................. 47
HÌNH 16B: CÁC ĐẶC TRƢNG HAAR MỞ RỘNG MỚI ................................................................................... 48
HÌNH 17: ẢNH TÍCH PHÂN ............................................................................................................................ 48
HÌNH 18: CÁCH TÍNH TỔNG CÁC ĐIỂM ẢNH TRONG HÌNH CHỮ NHẬT BẤT KÌ..................................... 49
HÌNH 19: CÁC ĐẶC TRƢNG HAAR-LIKE DÙNG TRONG LUẬN VĂN ........................................................ 52
HÌNH 20: ĐẶC TRƢNG LOẠI 1 VÀ SỰ TƢƠNG QUAN MỨC XÁM ............................................................. 52
HÌNH 21: ĐẶC TRƢNG LOẠI 3 VÀ SỰ TƢƠNG QUAN MỨC XÁM .............................................................. 52
HÌNH 22: SƠ ĐỒ KHỐI VÀ NGUYÊN LÝ HOẠT ĐÔNG ................................................................................ 54
HÌNH 23: ẢNH CHỤP CÁC TƢ THẾ KHÁC NHAU......................................................................................... 56
HÌNH 24: ẢNH TRƢỚC KHI CẮT .................................................................................................................... 57
HÌNH 25: ẢNH SAU KHI CẮT ......................................................................................................................... 57
HÌNH 26: ẢNH KHÔNG CHỨA KHUÔN MẶT ............................................................................................... 58
HÌNH 27 : CÁC VÙNG KHÔNG LIÊN QUAN SÉ BỊ LOẠI NGAY TỪ NHỮNG TẦNG ĐẦU TIÊN ................ 59
HÌNH 28: KHẮC PHỤC TRƢỜNG HỢP NHIỀU VÙNG ẢNH KẾ CẬN NHAU ............................................... 59
HÌNH 29: VÙNG ẢNH LỒNG NHAU............................................................................................................... 60
HÌNH 30A: PHÁT HIỆN MẶT NGHIÊNG PHẢI 30 ĐẾN 60 ĐỘ - KHUNG TRÒN ........................................... 61
HÌNH 30B: PHÁT HIỆN MẶT NGHIÊNG PHẢI 30 ĐẾN 60 ĐỘ - KHUNG CHỮ NHẬT .................................. 62
HÌNH 30C: PHÁT HIỆN MẶT NGHIÊNG TRÁI 30-60 ĐỘ - KHUNG CHỮ NHẬT .......................................... 62
HÌNH 31A: PHÁT HIỆN MẶT NGHIÊNG PHẢI 60 ĐẾN 90 ĐỘ -KHUNG TRÒN ........................................... 63
HÌNH 31B: PHÁT HIỆN MẶT NGHIÊNG TRÁI 60 ĐẾN 90 ĐỘ – KHUNG CHỮ NHẬT ................................. 63
HÌNH 32A: PHÁT HIỆN MẶT THẲNG VÀ CHÍNH DIỆN – KHUNG TRÒN ................................................... 64
HÌNH 32B: PHÁT HIỆN MẶT THẲNG VÀ CHÍNH DIỆN – KHUNG CHỮ NHẬT .......................................... 64
HÌNH 33: BIỂU ĐỒ ĐÁNH GIÁ ĐỘ CHÍNH XÁC THEO D1 VÀ F-SCORE ..................................................... 69
5
Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video
MỞ ĐẦU
Ngày nay cùng với sự bùng nổ thông tin, sự phát triển công nghệ cao, sự giao
tiếp giữa con ngƣời và máy tính đang thay đổi rất nhanh, giờ đây giao tiếp này không
còn đơn thuần dùng những thiết bị cơ học nhƣ chuột, bàn phím… mà có thể thông qua
các biểu hiện của khuôn mặt. Bên cạnh đó, công nghệ càng phát triển thì giá cả ngày
càng giảm, thêm vào đó tốc độ xử lý của máy tính ngày càng cao, do đó hệ thống xử lý
khuôn mặt đang đƣợc phát triển rất nhiều.
Trong đó, bài toán phát hiện khuôn mặt thẳng và chính diện đang đạt đƣợc một
kết quả rất khả quan với mô hình “Bộ phân tầng của các lớp” (Cascade of Boosted
Classifiers) do Viola và Jones đề nghị. Mô hình này đạt hiệu quả cao cả về độ chính
xác lẫn thời gian phát hiện. Tuy nhiên, bài toán này vẫn còn là một thử thách rất lớn
bởi phát hiện đƣợc khuôn mặt còn dựa vào nhiều yếu tố nhƣ tỉ lệ, vị trí, hƣớng nhìn (từ
trên xuống, quay…), kiểu chụp (chụp đối diện, chụp ngang …). Ngoài ra, những cảm
xúc của khuôn mặt, một số phần bị che, hoặc hƣớng ánh sáng cũng ảnh hƣởng đến bài
toán phát hiện khuôn mặt. Mục tiêu của luận văn này là thử nghiệm áp dụng mô hình
“Bộ phân tầng của các lớp” lên bài toán phát hiện khuôn mặt nghiêng trên ảnh và video
với hy vọng nó cũng sẽ đạt đƣợc kết quả tốt nhƣ trên bài toán phát hiện khuôn mặt
thẳng và chính diện.
Luận văn này nằm trong khuôn khổ dự án “Nghiên cứu xây dựng một mô hình
môi trƣờng phòng làm việc thông minh” thực hiện bởi phòng thí nghiệm Tƣơng tác
ngƣời – máy, trƣờng Đại học Công Nghệ, Đại học Quốc Gia Hà Nội.
6
Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video
Nội dung luận văn đƣợc trình bày trong 3 chƣơng với bố cục nhƣ sau:
Chƣơng 1: Trình bày về lịch sử phát triển, các vấn đề khó khăn trong bài
toán phát hiện khuôn mặt, ứng dụng của bài toán và độ đo đánh giá chất lƣợng.
Tìm hiểu các hƣớng tiếp cận giải quyết bài toán, đồng thời tóm tắt, sơ lƣợc về các
phƣơng pháp nghiên cứu và thành quả đạt đƣợc của các nhà nghiên cứu trong bài
toán phát hiện khuôn mặt.
Chƣơng 2: Đi sâu vào hƣớng tiếp cận dựa theo thuật toán phân lớp
Adaboost. Giới thiệu về các đặc trƣng Haar-like của khuôn mặt, cách tính các đặc
trƣng Haar-like. Tiếp theo là giới thiệu về mô hình “Bộ phân tầng của các lớp” và
cách áp dụng vào bài toán phát hiện khuôn mặt thẳng và khuôn mặt nghiêng trên
ảnh và video.
Chƣơng 3: Xây dựng ứng dụng với các chức năng phát hiện khuôn mặt
nghiêng trên ảnh tĩnh và trên camera kết hợp với chức năng phát hiện khuôn mặt
thẳng của thƣ viện OpenCV.
7
Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video
CHƢƠNG I
CÁC PHƢƠNG PHÁP PHÁT HIỆN KHUÔN MẶT
1.1. Tổng quan
1.1.1. Lịch sử phát triển
Phát hiện và nhận dạng khuôn mặt trong ảnh có rất nhiều ứng dụng trong cuộc
sống, bài toán này đã đƣợc các nhà khoa học quan tâm và nghiên cứu từ những năm
1970, phát triển mạnh mẽ vào những năm 1990 khi có những tiến bộ trong công nghệ
video. Ngày nay, khi công nghệ phát triển vƣợt bậc thì các ứng dụng về phát hiện và
nhận dạng khuôn mặt đã trở thành phổ biến trong cuộc sống. Tuy nhiên, do tính phức
tạp và đa dạng của thực tế nên việc tìm ra một giải pháp toàn diện và hoàn chỉnh cho
vấn đề này vẫn đang là một thách thức.
Dựa vào tính chất của các phƣơng pháp phát hiện khuôn mặt, cho đến nay, xét
về cơ bản ta có thể chia các giải pháp đó theo 4 hƣớng tiếp cận chính:
-
Hướng tiếp cận dựa trên tri thức (Knowledge-based methods)
-
Hướng tiếp cận dựa trên đặc trưng bất biến (Feature-based methods)
-
Hướng tiếp cận dựa trên đối sánh mẫu (Template matching)
-
Hướng tiếp cận dựa trên thể hiện bề ngoài (Appearance-based methods)
Ngoài ra, còn một số nghiên cứu liên quan nhiều hơn một hướng tiếp cận trên.
1.1.2. Các vấn đề gặp phải của bài toán phát hiện mặt ngƣời
Bài toán phát hiện mặt ngƣời đã đƣợc nghiên cứu từ những năm 70, ngƣời đầu
tiên là Kanade [1]. Tuy nhiên, đây là một bài toán khó nên những nghiên cứu hiện tại
vẫn chƣa đạt đƣợc kết quả mong muốn. Có thể kể đến những khó khăn của bài toán
phát hiện mặt ngƣời nhƣ sau:
Tư thế, góc chụp: Ảnh chụp khuôn mặt có thể thay đổi rất nhiều bởi góc chụp
giữa camera và khuôn mặt. Chẳng hạn nhƣ: chụp thẳng, chụp chéo bên trái 45o
8
Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video
hay chéo bên phải 45o, chụp từ trên xuống, chụp từ dƣới lên ...). Với các tƣ thế
khác nhau, các thành phần trên khuôn mặt nhƣ mắt, mũi, miệng có thể bị khuất
một phần hoặc thậm chí khuất hết.
Sự xuất hiện hoặc thiếu một số thành phần của khuôn mặt: Các đặc trƣng nhƣ:
râu mép, râu hàm, mắt kính ... có thể xuất hiện hoặc không. Vấn đề này làm cho
bài toán càng trở nên khó hơn rất nhiều.
Cảm xúc biểu hiện trên khuôn mặt: Cảm xúc có thể làm ảnh hƣởng đáng kể lên
các thông số của khuôn mặt. Chẳng hạn, cùng một khuôn mặt một ngƣời, nhƣng
có thể sẽ rất khác khi họ cƣời hoặc sợ hãi…
Sự che khuất: Khuôn mặt có thể bị che khuất bởi các đối tƣợng khác hoặc các
khuôn mặt khác.
Hướng của ảnh: Các ảnh của khuôn mặt có thể biến đổi rất nhiều với các góc
quay khác nhau của trục camera. Chẳng hạn chụp với trục máy ảnh nghiêng làm
cho khuôn mặt bị nghiêng so với trục của ảnh.
Điều kiện của ảnh: Ảnh đƣợc chụp trong các điều kiện khác nhau về: chiếu
sáng, về tính chất camera (máy kỹ thuật số, máy hồng ngoại ...) ảnh hƣởng rất
nhiều đến chất lƣợng ảnh khuôn mặt.
1.1.3. Ứng dụng của bài toán phát hiện mặt ngƣời
Ứng dụng của bài toán phát hiện mặt ngƣời có rất nhiều và đã đƣợc triển khai
tƣơng đối hiệu quả trong thực tế. Phát hiện mặt ngƣời là khâu đầu tiên cho tất cả
các ứng dụng phát hiện, theo dõi, nhận dạng …khuôn mặt. Có thể kể đến một số
ứng dụng điển hình sau đây.
Hệ thống tương tác người - máy: thay thế việc tƣơng tác giữa ngƣời và máy theo
những cách truyền thống nhƣ: bàn phím, chuột...bằng cách sử dụng các giao tiếp
trực quan: biểu cảm khuôn mặt, ánh mắt …Nhƣ các ứng dụng điều khiển robot,
ngôi nhà thông minh, hệ thống điều khiển bằng khuôn mặt, cảm xúc dành cho
ngƣời tàn tật …
9
Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video
Hệ thống giám sát, theo dõi: nhằm phát hiện đối tƣợng khả nghi thông qua hệ
thống camera đƣợc đặt tại một số điểm công cộng nhƣ: siêu thị, nhà sách, trạm
xe buýt, sân bay, văn phòng các công ty ...
Hệ thống lưu trữ hình ảnh: lƣu trữ hình ảnh chủ thẻ ATM và so sánh với những
ngƣời rút tiền vào từng thời điểm hay lƣu trữ hình ảnh chủ thẻ căn cƣớc, chứng
minh nhân dân, chủ nhân máy tính …
Hệ thống tìm kiếm thông tin trên ảnh, video: là bƣớc đệm cho việc tìm kiếm dựa
trên nội dung ảnh hay video.
Công nghệ ảnh kỹ thuật số: các hãng điện thoại di động và máy ảnh đã đƣa ứng
dụng về khuôn mặt vào công nghệ chụp ảnh tự động, ví dụ nhƣ khi mặt cƣời
máy tự động chụp ….
1.1.4. Sơ đồ tổng quát của quá trình phát hiện đối tƣợng
Đầu vào
Phát hiện đối tƣợng
Thu tín hiệu, tiền xử lý
vào
Trích chọn đặc trƣng
Phân đoạn
Hình 1 Sơ đồ tổng quan của hệ thống phát hiện đối tượng
Thu nhận tín hiệu, tiền xử lý
Nếu là hệ thống phát hiện đối tƣợng vật lý, ở đầu vào của hệ thống thƣờng là
một loại thiết bị chuyển đổi nhƣ máy ghi hình hay ghi âm… Thiết bị này thu nhận tín
hiệu để phát hiện đối tƣợng. Các tín hiệu này thông thƣờng sẽ đƣợc số hóa, sau đó sẽ
đƣợc tiến hành tiền xử lý nhƣ: lọc nhiễu, tách ngƣỡng…
10
Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video
Phân đoạn
Phân đoạn là một trong những bài toán rất khó trong phát hiện đối tƣợng.
Chẳng hạn, trong bài toán phát hiện văn bản thì giai đoạn phân đoạn chính là việc xác
định đâu là vùng dữ liệu văn bản để phát hiện, tiếp đó ta phải tách đƣợc những vùng có
thể là một từ, rồi lại tách tiếp ra từng ký tự ... Nhƣ vậy, có thể nói việc phân đoạn trong
bài toán phát hiện đối tƣợng là quá trình xác định đƣợc đâu là vùng dữ liệu cần quan
tâm.
Trích chọn đặc trƣng
Ranh giới khái niệm giữa việc trích chọn đặc trƣng và phân lớp ở góc độ nào đó
có phần không thực sự rõ ràng. Một bộ trích chọn đặc trƣng lý tƣởng phải làm cho
công việc còn lại của bộ phân lớp trở nên dễ dàng hơn. Mục tiêu chung của bộ trích
chọn đặc trƣng là dựa trên tín hiệu thu đƣợc để mô tả các đối tƣợng bằng các giá trị xấp
xỉ bằng nhau đối với các đối tƣợng thuộc cùng loại, và khác xa nhau nếu khác loại.
Hơn nữa để tiện xử lý thì số lƣợng đặc trƣng càng ít càng tốt. Điều này dẫn đến việc
phải tìm ra các đặc trƣng khác nhau và chúng không phụ thuộc vào hoàn cảnh thu nhận
tín hiệu về đối tƣợng. Đầu ra của công đoạn này đƣợc gọi là véc-tơ đặc trƣng của đối
tƣợng, thông thƣờng đây là một véc-tơ số thực.
Phát hiện
Nhiệm vụ của phần này trong hệ thống là sử dụng các véc-tơ đặc trƣng đƣợc
cung cấp từ bƣớc trích chọn đặc trƣng để gắn các đối tƣợng vào các lớp hoặc phân tích
hồi quy hay mô tả đối tƣợng. Các kỹ thuật thƣờng đƣợc sử dụng cho công đoạn phát
hiện gồm: thuật toán k-láng giềng gần nhất, mạng nơ-ron, máy hỗ trợ véc-tơ SVM...
Nói chung, ở bƣớc này gần nhƣ đã có công thức xử lý cố định và thƣờng không bị phụ
thuộc vào bài toán phát hiện mẫu cụ thể nào.
Theo quan niệm, cách đơn giản nhất để đánh giá hoạt động của một bộ phát hiện
đối tƣợng là xem tỷ lệ phát hiện đối tƣợng sai với các mẫu mới. Do đó chúng ta cần
phải phát hiện đối tƣợng với tỷ lệ lỗi thấp nhất.
11
Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video
1.1.5. Các độ đo đánh giá chất lƣợng
Để đánh giá chất lƣợng hệ thống phát hiện mặt ngƣời, chúng ta thƣờng đánh giá
trên tiêu chí sau đây:
Độ chính xác:
Độ chính xác là một yêu cầu với bất kỳ hệ thống nào. Độ chính xác thể hiện tính
tin cậy của hệ thống. Ngƣời ta thƣờng đánh giá độ chính xác dựa trên tỉ lệ phát hiện
đúng và tỉ lệ phát hiện sai.
Ví dụ: Tỉ lệ phát hiện đúng = 0.95 có nghĩa là trong số 100 mẫu đối tƣợng thử
nghiệm, hệ thống chỉ nhận ra đƣợc 95 đối tƣợng là khuôn mặt (5 mẫu còn lại đƣợc bộ
phân loại cho không phải khuôn mặt).
Tỉ lệ phát hiện sai là tỉ lệ phát hiện nhầm các đối tƣợng không phải khuôn mặt.
Ví dụ: Tỉ lệ phát hiện sai = 0.01 có nghĩa là cứ 100 mẫu không phải là khuôn mặt thì có
1 mẫu bị hệ thống phát hiện nhầm thành khuôn mặt.
Thời gian
Thời gian phát hiện càng nhanh càng tốt, một hệ thống cần phải đáp ứng yêu cầu
thời gian thực. Phát hiện khuôn mặt trên ảnh và video, ngƣời ta xác định thời gian phát
hiện bằng cách tính số khung hình xử lý đƣợc trên 1 giây.
Tính thích nghi
Một hệ thống phát hiện khuôn mặt cũng cần đáp ứng tính thích nghi, tức là
phải có khả năng đảm bảo độ phát hiện chính xác khi có sự thay đổi của môi trường
và đối tượng đưa vào hệ thống.
12
Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video
1.2. Các phƣơng pháp phát hiện khuôn mặt
1.2.1 Phƣơng pháp dựa trên tri thức
Trong hƣớng tiếp cận này, phƣơng pháp phát hiện khuôn mặt dựa trên các quy
tắc rút ra từ những tri thức về khuôn mặt đƣợc các nhà khoa học mã hóa thành các luật
mô tả quan hệ của các đặc trƣng. Dễ dàng để có đƣợc luật đơn giản để thể hiện các đặc
trƣng mặt ngƣời và mối quan hệ giữa chúng. Chẳng hạn, một khuôn mặt thƣờng có hai
mắt đối xứng nhau, một mũi và một miệng. Quan hệ giữa chúng thể hiện qua quan hệ
khoảng cách hay vị trí. Thƣờng thì các đặc trƣng khuôn mặt của ảnh đầu vào đƣợc trích
chọn trƣớc để đƣa ra các ứng viên, tiếp đó là dùng tập luật trên đây để loại bỏ tiếp các
ứng viên không phải khuôn mặt. Thông thƣờng có một giai đoạn kiểm tra lại kết quả
các ứng viên khuôn mặt đó để tăng độ chính xác của hệ thống.
Tuy nhiên, hƣớng tiếp cận này gặp một khó khăn đó là làm thế nào để chuyển
các tri thức của con ngƣời về khuôn mặt sang các tập luật cho máy tính một cách hiệu
quả. Nếu các tập luật quá chi tiết sẽ rất dễ dẫn đến bỏ sót các khuôn mặt thật, ngƣợc lại
nếu tập luật sơ sài sẽ dẫn đến kết quả có rất nhiều khuôn mặt mà trong số đó có cả các
ứng viên không phải khuôn mặt. Thêm vào đó hƣớng tiếp cận này là khá khó khăn khi
mở rộng bài toán trong các trƣờng hợp tƣ thế chụp khác nhau vì tƣ thế chụp có thể dẫn
đến luật trên đây áp dụng không đúng nữa.
Theo hƣớng tiếp cận này, chúng ta sẽ xem xét 2 nghiên cứu sau đây:
1.2.1.1. Phương pháp của Yang và Huang
Hai nhà khoa học Yang và Huang[4,31] đã dùng phƣơng pháp có thứ tự theo
hƣớng tiếp cận này để phát hiện khuôn mặt. Hệ thống này bao gồm 3 tầng luật:
Tầng thứ nhất: Dùng một khung cửa sổ quét trên ảnh và thông qua một tập luật
để tìm các ứng viên có thể là khuôn mặt.
Tầng thứ hai: Sử dụng các tập luật mô tả chung về khuôn mặt.
13
Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video
Tầng thứ ba: Dùng một tập luật khác để xem xét một cách chi tiết các đặc trƣng
khuôn mặt.
Một hệ thống ảnh đa phân giải đƣợc xây dựng theo các mẫu con với độ xám
của cả mẫu đó đƣợc thay bằng mức xám trung bình của mẫu. Ví dụ nhƣ dƣới đây:
(a)
(b)
(c)
(d)
(a)- ảnh ban đầu có độ phân giải n=1; (b),(c) và (d): ảnh có độ phân giải n=4,8 và 16
Hình 2 Các ảnh với độ phân giải khác nhau
Các mẫu đƣợc mã hóa theo quy tắc nxn điểm có giá trị trung bình của các điểm
trong mẫu. Trái qua phải n=1,4,8,16.
Hình 3 Một tri thức về khuôn mặt
Yang và Huang sử dụng tri thức về khuôn mặt với một số tính chất độ sáng nhƣ
trên hình 3 và phát triển hệ thống dựa trên 3 tầng luật:
Tầng thứ nhất: Tìm ứng viên khuôn mặt trong mức phân giải thấp nhất gồm có
phần trung tâm của mặt với 4 phần có mức sáng tƣơng đối đều nhau, tiếp theo là
phần xung quanh, sáng hơn một chút cũng có độ sáng gần nhƣ nhau (chênh lệch
độ sáng giữa hai vùng nói trên là đủ lớn).
14
Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video
Tầng thứ hai: Dùng biểu đồ historgram để xem xét tiếp các ứng viên trên đây,
đồng thời tìm ra đƣờng cạnh bao xung quanh ứng viên.
Tầng thứ ba: Những ứng viên nào còn lại sẽ đƣợc xem xét các đặc trƣng của
khuôn mặt về mắt và miệng.
Nhận xét: Phƣơng pháp này dùng chiến lƣợc từ thô đến mịn theo kiểu tiếp cận
từ trên xuống, khá đơn giản, dễ thực hiện, tuy nhiên, kết quả lại chƣa cao. Song các ý
tƣởng của phƣơng pháp đã làm nền tảng cho các nghiên cứu sau này.
1.2.1.2. Phương pháp của Kotropoulos và Pitas
Kotropoulos và Pitas đƣa ra một phƣơng pháp tƣơng tự dùng trên độ phân giải
thấp. Hai ông khá thành công trong việc định vị vùng chứa khuôn mặt bằng phƣơng
pháp chiếu. Ảnh đƣợc nghiên cứu là ảnh đa mức xám. Cơ sở của phƣơng pháp có thể
hiểu nhƣ sau:
Giả thiết I(x,y) là độ xám tại vị trí tọa độ (x,y) của ảnh kích thƣớc mxn
Định nghĩa:
HI(x)=
: đặc trưng xám ngang.
VI(y)=
: đặc trưng xám dọc.
Với nhận xét mức xám vùng da mặt chỉ nằm trong 1 khoảng nhất định, từ đó
dựa trên sự thay đổi của đƣờng cong HI(x), tìm ra 2 cực trị địa phƣơng tƣơng
ứng với hai bên của phần đầu ngƣời. Tƣơng tự với sự thay đổi của VI(y), tìm ra
các cực trị địa phƣơng tƣơng ứng với vùng đôi mắt, đôi môi và đỉnh mũi. Các
đặc trƣng này đủ để phát hiện đƣợc các ứng viên khuôn mặt.
Xem ví dụ dƣới đây cho giải thuật này. Hình 4.a minh họa cho cách xác định
biên của khuôn mặt ứng với các cực trị địa phƣơng nhƣ đã nêu trên đây. Sau đó dùng
vài luật đơn giản để kiểm tra lại ví nhƣ việc tồn tại của lông mày/ mắt, lỗ mũi/ mũi hay
cái miệng … Tuy nhiên ở hai hình bên 4.b và 4.c việc xác định các cực trị địa phƣơng
15
Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video
nhƣ đã nêu là rất khó khăn do sự thay đổi của các đƣờng cong HI(x) và VI(y) phụ
thuộc vào nhiều yếu tố.
(a)
(b)
(c)
(a) ảnh có 1 khuôn mặt và hình nền đơn giản; (b): ảnh có 1 khuôn mặt và hình nền
phức tạp; (c): ảnh có nhiều khuôn mặt.
Hình 4 Phương pháp chiếu
Mỗi ảnh chỉ chứa 1 khuôn mặt trên 1 nền không đổi. Phƣơng pháp của họ tìm ra
đƣợc đúng các ứng viên khuôn mặt. Tỷ lệ phát hiện đúng là 86.5% và định vị đúng các
đặc trƣng của khuôn mặt nhƣ mắt, mũi, môi …
Trƣờng hợp hình 4.b rất khó tìm và trƣờng hợp hình 4.c thì sẽ không xác định
đƣợc.
Nhận xét: phƣơng pháp của Kotropoulos Pitas khá đơn giản, dễ thực hiện, tuy
nhiên, phƣơng pháp này lại chỉ cho hiệu quả cao với các ảnh có một khuôn mặt, tƣ thế
chụp thẳng và nền ảnh không quá phức tạp. Sau này, phƣơng pháp này đã đƣợc cải
tiến, kết hợp với ý tƣởng đa phân giải, hay tiền xử lí trƣớc khi chiếu.
Đánh giá hướng tiếp cận dựa trên tri thức
Ưu điểm:
Dễ dàng xây dựng những nguyên tắc đơn giản để mô tả các đặc trƣng của khuôn
mặt và mối quan hệ giữa chúng.
Định vị tốt cho mặt chính diện của khuôn mặt trong ảnh có nền không phức tạp.
Giải thuật đơn giản, dễ triển khai, thời gian xử lí chấp nhận đƣợc.
16
Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video
Nhược điểm:
Việc chuyển đổi tri thức con ngƣời thành những nguyên tắc chính xác là khó
khăn dẫn đến độ chính xác trong phát hiện chƣa cao.
Khó có thể mở rộng phƣơng pháp này cho bài toán phát hiện khuôn mặt trong
các trƣờng hợp, tƣ thế khác nhau.
1.2.2. Phƣơng pháp dựa trên đặc trƣng bất biến
Đây là hƣớng tiếp cận theo kiểu từ dƣới lên. Khác với hƣớng tiếp cận dựa trên
tri thức, theo hƣớng tiếp cận này các nhà khoa học cố gắng tìm ra các đặc trƣng bất
biến của khuôn mặt phục vụ cho việc phát hiện khuôn mặt. Trên tƣ tƣởng các đặc trƣng
bất biến này vẫn tồn tại và có thể nhận biết dễ dàng các khuôn mặt và các đối tƣợng
trong các điều kiện chiếu sáng và tƣ thế khác nhau. Có nhiều nghiên cứu trƣớc nhằm
xác định sự tồn tại đặc trƣng khuôn mặt và sau đó chỉ ra có khuôn mặt hay không. Các
đặc trƣng nhƣ lông mày, mắt, mũi, miệng, và đƣờng viền của tóc đƣợc trích bằng
phƣơng pháp xác định cạnh. Trên cơ sở các đặc trƣng này, xây dựng một mô hình
thống kê để mô tả các quan hệ giữa các đặc trƣng để kiểm tra sự tồn tại của khuôn mặt.
Vấn đề ở đây là các đặc trƣng này có thể bị sai khác đi tùy thuộc điều kiện chiếu sáng,
nhiễu, hay có thể bị che khuất. Bên cạnh đó, bóng của ảnh cũng có thể tạo ra các cạnh
gây lên sự nhầm lẫn, những vấn đề này gây ra khó khăn cho việc xác định khuôn mặt,
do đó cần có sự điều chỉnh phù hợp. Sau đây ta xem xét cụ thể hơn về một số phƣơng
pháp theo hƣớng tiếp cận này:
1.2.2.1. Phương pháp của Leung - Random Graph Matching
Có rất nhiều nghiên cứu về các đặc trƣng của khuôn mặt. Có thể dựa vào các
đặc trƣng nhƣ: hai mắt, hai lỗ mũi, miệng, phần nối giữa mũi và miệng … hoặc dựa
vào đƣờng viền của khuôn mặt.
Leung đã phát triển một mô hình xác suất để định vị khuôn mặt trong ảnh nền
phức tạp dựa vào việc xác định các đặc trƣng cục bộ và bộ so sánh đồ thị ngẫu
nhiên[5].
17
Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video
Ý tƣởng ở đây là:
Đƣa ra quy tắc định vị khuôn mặt thông qua các đặc trƣng của mặt bằng việc
tìm ra một trật tự hình học các đặc trƣng sao cho gần với mẫu khuôn mặt nhất.
Các đặc trƣng đƣợc xác định bởi giá trị trung bình các đáp ứng đa hƣớng, đa tỷ
lệ qua bộ lọc đạo hàm Gauss.
Học các cấu hình của đặc trƣng khuôn mặt với phân bố Gauss của các khoảng
cách qua lại giữa các đặc trƣng.
Dựa trên sự gần giống nhau giữa các đặc trƣng, dùng bộ lọc Gauss để định vị
các đặc trƣng là ứng viên.
Cuối cùng, dùng bộ khớp đồ thị ngẫu nhiên đối với các đặc trƣng ứng viên trên
để xác định khuôn mặt.
Ông xem bài toán phát hiện khuôn mặt nhƣ là bài toán tìm kiếm với mục tiêu là tìm
thứ tự các đặc trƣng không thay đổi của khuôn mặt để tạo ra một mẫu giống khuôn
mặt. Dùng 5 đặc trƣng: hai mắt, hai lỗ mũi, phần nối giữa mũi và miệng …để mô tả
khuôn mặt. Ông luôn tính quan hệ khoảng cách với các đặc trƣng cặp (chẳng hạn mắt
trái và mắt phải), dùng mô hình Gauss để mô hình hóa. Định nghĩa một mẫu khuôn mặt
bởi giá trị trung bình tập kết quả của bộ lọc đạo hàm đa hƣớng, đa tỉ lệ (tại các điểm
trong vùng đặc trƣng mặt) trên tổng số các mặt trong tập dữ liệu. Với 1 ảnh cần kiểm
tra, mỗi đặc trƣng mặt đƣợc chỉ ra bằng cách khớp đáp ứng bộ lọc tại mỗi điểm với đáp
ứng véc-tơ mẫu. Chọn hai đặc trƣng với đáp ứng tốt nhất để làm cơ sở cho việc tìm các
đặc trƣng khác của khuôn mặt. Vì rằng các đặc trƣng không thể xuất hiện tùy tiện nên
có thể dùng mô hình xác xuất để định vị chúng qua khoảng cách. Các hình sao đƣợc
hình thành từ các đặc trƣng ứng viên trong vùng thích hợp. Việc tìm kiếm hình sao tốt
nhất đƣợc xem nhƣ việc khớp đồ thị mà các nút tƣơng ứng với các đặc trƣng khuôn
mặt, còn các cạnh ứng với khoảng cách giữa các đặc trƣng. Hạng của các hình sao
đƣợc tính dựa trên hàm tỉ lệ xác suất mà hình sao đó ứng với khuôn mặt thật và không
phải khuôn mặt rồi đƣa ra kết luận cho ứng viên hình sao đó.
18
- Xem thêm -