ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
------------o0o------------
PHẠM TRUNG KIÊN
TÌM KIẾM VÀ NHẬN DẠNG
KHUÔN MẶT NGƯỜI TRONG ẢNH
LUẬN VĂN CAO HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. NGÔ QUỐC TẠO
Hà Nội - 2007
MỤC LỤC
MỞ ĐẦU ............................................................................................... 7
1 Chương 1 PHÁT BIỂU BÀI TOÁN .................................................... 9
1.1
Tổng quan và các khái niệm liên quan đến nhận dạng khuôn mặt ................................................ 9
1.1.1
Hệ thống sinh trắc học ....................................................................................................... 9
1.1.2
Hệ thống nhận dạng khuôn mặt .......................................................................................... 9
1.1.3
Hệ thống xác minh hay xác thực khuôn mặt là gì? ............................................................... 9
1.1.4
Hệ thống nhận dạng tĩnh - tĩnh, tĩnh - động, động - động.................................................. 10
1.1.4.1
1.1.4.2
1.1.4.3
Hệ thống nhận dạng tĩnh - tĩnh ................................................................................................... 10
Hệ thông nhận dạng tĩnh - động ................................................................................................. 10
Hệ thống nhận dạng động - động ................................................................................................ 10
1.1.5
Những thách thức trong bài toán nhận dạng khuôn mặt .................................................... 10
1.1.6
Sai số trong hệ nhận dạng [20]......................................................................................... 10
1.2
Các ứng dụng tương tác người máy (Human computer interactive) liên quan đến khuôn mặt ..... 11
1.3
Các hướng tiếp cận chính trong lĩnh vực nhận dạng khuôn mặt ................................................. 13
1.3.1
Các công trình nghiên cứu về phương pháp nhận dạng và kiểm chứng chất lượng cho một hệ
thống nhận dạng khuôn mặt ............................................................................................................. 13
1.3.2
Hướng tiếp cận được thử nghiệm trong luận văn............................................................... 15
2 Chương 2 DÒ TÌM KHUÔN MẶT TRONG ẢNH MÀU................ 16
2.1
Giới thiệu ................................................................................................................................ 16
2.1.1
Các thách thức trong việc dò tìm khuôn mặt...................................................................... 16
2.1.2
Một số hướng tiếp cận thường được dùng trong dò tìm khuôn mặt nhanh .......................... 17
2.2
Tìm kiếm khuôn mặt người trong ảnh dựa trên màu da ............................................................. 18
2.2.1
Giới thiệu [16] ................................................................................................................. 18
2.2.2
Dò tìm da trên ảnh màu .................................................................................................... 19
2.2.2.1
2.2.3
2.2.3.1
2.2.4
2.2.4.1
2.2.4.2
2.2.5
2.2.5.1
2.2.5.2
2.2.5.3
2.2.6
Mô hình hóa da.......................................................................................................................... 20
Không gian màu cho mô hình da....................................................................................... 23
Phân tách vùng da trong không gian màu rg................................................................................ 25
Xác định vùng da sử dụng entropy .................................................................................... 28
Khái niệm về entropy................................................................................................................. 28
Phát hiện màu da bằng mô hình Entropy cực đại. ........................................................................ 29
Định vị khuôn mặt bên trong các vùng da ......................................................................... 35
Giới thiệu .................................................................................................................................. 35
Định vị vùng khả năng mặt ........................................................................................................ 36
Ra quyết định sử dụng đối sánh mẫu .......................................................................................... 39
Kết luận về tìm kiếm khuôn mặt dựa trên màu da .............................................................. 41
3 Chương 3 RÚT TRÍCH ĐẶC TRƯNG TỪ KHUÔN MẶT ............ 42
Tiếp cận theo phương pháp phân tích thành phần chính (Principal Component Analysis hay PCA)
42
3.1.1
Vector riêng, Trị riêng và sự chéo hoá của ma trận ........................................................... 42
3.1.2
Kì vọng và phương sai trong thống kê đa chiều ................................................................. 43
3.2
Phương pháp phân tích thành phần chính (Principal Component Anlysis hay PCA)................... 43
3.2.1
Yêu cầu ............................................................................................................................ 43
3.2.2
Trích đặc trưng bằng phương pháp PCA .......................................................................... 44
3.2.3
Kỹ thuật tính đặc trưng bằng PCA .................................................................................... 46
3.3
Phương pháp PCA toàn cục và cục bộ ...................................................................................... 48
3.3.1
Phương pháp PCA toàn cục.............................................................................................. 48
3.3.2
Phương pháp PCA cục bộ................................................................................................. 48
3.4
Đánh giá .................................................................................................................................. 49
3.4.1
Mộ số đánh giá quan trọng về rút trích đặc trưng bằng phương pháp PCA ........................ 49
3.4.2
So sánh phương pháp PCA toàn cục và PCA cục bộ.......................................................... 49
3.1
4
Chương 4 MÔ HÌNH MAKOV ẨN VÀ ỨNG DỤNG NHẬN DẠNG
KHUÔN MẶT .......................................................................................... 50
3
4.1
Giới thiệu mô hình Makov ẩn ................................................................................................... 50
4.1.1
Mô hình Markov ............................................................................................................... 50
4.1.2
Mô hình Markov ẩn [19] .................................................................................................. 51
4.1.2.1
4.1.2.2
4.1.2.3
4.1.2.4
Mô hình Markov ẩn và nhận dạng mặt người .................................................................... 58
4.1.3
4.1.3.1
4.1.3.2
4.1.3.3
4.1.3.4
4.1.3.5
4.1.3.6
4.1.3.7
4.2
Xác suất của chuỗi quan sát ....................................................................................................... 52
Dãy trạng thái tối ưu .................................................................................................................. 54
Hiệu chỉnh các tham số của mô hình .......................................................................................... 55
Khoảng cách giữa các mô hình Markov ẩn ................................................................................. 55
Ý tưởng..................................................................................................................................... 58
Mô hình Markov ẩn biểu diễn ảnh mặt ....................................................................................... 59
Trích chọn đặc trưng.................................................................................................................. 60
Luyện mô hình mặt.................................................................................................................... 64
Nhận dạng khuôn mặt người trong ảnh ....................................................................................... 66
Tìm kiếm khuôn mặt người trong ảnh......................................................................................... 67
Các dạng của mô hình Markov ẩn trong mô tả khuôn mặt ........................................................... 69
Kết chương .............................................................................................................................. 70
5 KẾT LUẬN ......................................................................................... 71
6 TÀI LIỆU THAM KHẢO .................................................................. 72
4
DANH MỤC CÁC HÌNH
Hình 1-1. So sánh hai tác vụ nhận dạng khuôn mặt và xác nhận khuôn mặt ....................... 9
Hình 1-2. Hình biểu diễn hàm FRR và FAR ..................................................................... 11
Hình 2-1. Ảnh màu với da và kết quả của sự dò tìm da ................................................... 18
Hình 2-2. Mẫu da của mỗi người rất khác nhau............................................................... 19
Hình 2-3. Mẫu da bị ảnh hưởng bởi các loại nhiễu và biến dạng ..................................... 19
Hình 2-4. Những mạng SOM với những hệ thống khu lân cận ........................................ 21
Hình 2-5. Phân phối màu cho các màu da khác nhau ...................................................... 27
Hình 2-6. Biểu diễn mô hình màu da bằng phân phối Gauss ............................................ 27
Hình 2-7. Đường cong entropy của biểu diễn biến ngẫu nhiên......................................... 29
Hình 2-8. 4 điểm lân cận và 8 điểm lân cận ..................................................................... 30
Hình 2-9. Một ảnh mẫu từ tập phân phối thỏa mãn D, có năng lượng cực tiểu ................ 33
Hình 2-10. Hình (a): ảnh gốc, hình (b): Baseline, hình (c): HMM, .................................. 35
Hình 2-11. Khuôn mặt mẫu của Chang và Robles ............................................................ 39
Hình 2-12. Khuôn mặt mẫu tổng hợp ............................................................................... 39
Hình 2-13. Khuôn mặt mẫu được điều chỉnh kích thước................................................... 40
Hình 2-14. Khuôn mặt mẫu được xoay và điều chỉnh lại kích thước ................................. 40
Hình 4-5. Tính hội tụ của khoảng cách HMM khi độ dài chuỗi quan sát tăng .................. 58
Hình 4-6.(a) Mô hình ergodic 4 trạng thái (b) Mô hình trái - phải 4 trạng thái................ 59
Hình 4-7. Mô hình mặt 6 trạng thái ................................................................................. 60
Hình 4-8. Ảnh mặt và phương pháp trích chọn khối quan sát. .......................................... 61
Hình 4-9. Chiến lược huấn luyện mô hình Markov ẩn cho biểu diễn khuôn mặt ............... 66
Hình 4-10. Nhận dạng mặt sử dụng mô hình Marov ẩn .................................................... 67
Hình 4-11. Tìm kiếm khuôn mặt sử dụng mô hình Markov ............................................... 68
Hình 4-12. Mô hình Markov ẩn nhúng với 3 siêu trạng thái ............................................. 70
5
BẢNG CÁC TỪ VIẾT TẮT
Kí hiệu
Từ Tiếng Anh
Civil
Giải thích
Aviation Tổ chức Hàng không Dân dụng
Quốc tế
ICAO
International
Organization
FAR
False Acceptance Rate
FMR
False Match Rate
FRR
False Reject Rate
FNMR
False Non Match Rate
TAR
True Accpetance Rate
Độ chính xác
PCA
Principal Component Analysis
Phân tích thành phần chính
HMM
Hidden Markov Model
Mô hình Markov ẩn
LDA
Linear discriminant analysis
Phân tích độc lập tuyến tính
KLT
Karhunen-Loève transform
Phép biến đổi Karhuen-loeve
DCT
Discrete cosine transform
Phép biến đổi Cosin rời rạc
ORL
Olivetti Research Laboratory
PDF
probability density function
Sai số bắt nhầm
Sai số bỏ sót
hàm mật độ xác suất
6
0
MỞ ĐẦU
Ngày nay, cùng với những tiến bộ vượt bậc của khoa học kỹ thuật nói chung,
bộ môn khoa học xử lý ảnh đã và đang thu được những thành tựu lớn lao và chứng
tỏ vài trò không thể thiếu với những ứng dụng sâu rộng trong khoa học kỹ thuật
cũng như đời sống xã hội. Một bộ phận của khoa học xử lý ảnh là lĩnh vực thị giác
máy tính hiện đang thu hút rất nhiều sự quan tâm của các nhà nghiên cứu xử lý ảnh
với mục tiêu xây dựng nên một thế giới trong đó hệ thống thị giác kỳ diệu của con
người có thể được mô phỏng bởi các hệ thống máy tính, đem lại khả năng cảm nhận
bằng thị giác cho các hệ thống về môi trường xung quanh. Mơ ước về một hệ thống
máy tính có thể hoà nhập vào thế giới con người với đầy đủ các giác quan trong đó
thị giác đóng vai trò quan trọng đang dần dần được hiện thực hoá với những đóng
góp nghiên cứu của các nhà khoa học trên phạm vi toàn thế giới.
Đồng thời việc phát triển của các thiết bị phần cứng cả về phương diện thu
nhận, hiển thị, tốc độ xử lý đã mở ra nhiều hướng mới cho công nghệ xử lý ảnh. Nó
có thể giải quyết các bài toán như giám sát tự động phục vụ trong cơ quan, ngân
hàng, kho bạc, ... hoặc trong việc giám sát giao thông tự động, phục vụ tại bãi đỗ xe,
trạm thu phí tự động hoặc việc phát hiện và nhận dạng mặt người phục vụ trong
công tác quân sự, an ninh v.v... Đặc biệt trong lĩnh vực nhận dạng bằng sinh trắc
học, sau sự kiện 11/9/2001, việc nghiên cứu và đưa vào ứng dụng thực tế lĩnh vực
nhận dạng bằng sinh trắc đã được các nhà khoa học và chính phủ nhiều nước chú
trọng. Đơn cử có thể kể tới hệ thống kiểm soát (tự động) tại các cửa khẩu vào /ra ở
Mỹ, Úc, khối EU và ở một số nước châu Á (Singapore, Thái Lan, ...) đã xử dụng
thông tin sinh trắc vào trong quá trình kiểm soát xác định thật giả về giấy tờ và con
người. Cho đến nay, theo Tổ chức hàng không dân dụng thế giới - ICAO cho biết đã
có khoảng 34 quốc gia áp dụng việc đưa các thông tin sinh trắc vào hộ chiếu để
chống làm giả và dùng trong các của kiểm soát tự động tại biên giới. Trong đó,
thông tin ảnh mặt là một thông tin bắt buộc dùng để đối sánh và nhận dạng bởi tuy
các phương pháp nhận dạng bằng ảnh mặt thường cho chất lượng chưa cao bằng các
phương pháp sử dụng các đặc điểm sinh trắc khác như vân tay hoặc tròng mắt do
ảnh mặt thu nhận được thường bị ảnh hướng lớn của nhiễu, đặc biệt là môi trường
và chất lượng của các thiết bị thu nhận hình ảnh song ảnh mặt là một đặc điểm sinh
trắc mà ta có thể thu nhận một cách nhanh chóng và dễ dàng nhất (sử dụng các
camera quan sát tự động).
Tại Việt Nam, việc ứng dụng thông tin sinh trắc vào trong các giấy tờ (hộ
chiếu, chứng minh thư, ...) cũng đang được tích cực nghiên cứu để đưa vào ứng
dụng (hộ chiếu điện tử dự kiến sẽ được thử nghiệm trong năm 2008).
Từ những lý do trên, tôi đã chọn đề tài luận văn: “Tìm kiếm và nhận dạng
khuôn mặt người trong ảnh”.
7
Bố cục của luận văn gồm:
Chương 1: Phát biểu bài toán
Nêu lên một số khái niệm liên quan đến nhận dạng khuôn mặt; các ứng dụng
tương tác người máy liên quan đến nhận dạng khuôn mặt; điểm qua một số phương
pháp nhận dạng khuôn mặt được nghiên cứu và cải tiến trong thời gian gần đây.
Chương 2: Dò tìm khuôn mặt người trong ảnh màu
Giới thiệu một số phương pháp dò tìm khuôn mặt người dựa trên màu da.
Chương 3: Rút trích đặc trưng từ khuôn mặt người
Trình bày phương pháp phân tích các thành phần chính PCA (Principal
Component Analysis) rút trích đặc trưng từ ảnh bản đầu.
Chương 4: Mô hình Markov ẩn và ứng dụng nhận dạng khuôn mặt
Giới thiệu mô hình Markov ẩn, một số bài toán cơ bản của mô hình Markov
và ứng dụng mô hình trong nhận dạng khuôn mặt người.
Chương 5: Kết luận
8
1
Chương 1 PHÁT BIỂU BÀI TOÁN
1.1 Tổng quan và các khái niệm liên quan đến nhận dạng khuôn
mặt
1.1.1 Hệ thống sinh trắc học
Hệ thống sinh trắc học là một hệ thống được thiết kế để xác minh và nhận
dạng một người dựa vào những đặc trưng sinh học duy nhất của người đó.
1.1.2 Hệ thống nhận dạng khuôn mặt
Hệ thống nhận dạng khuôn mặt là một hệ thống được thiết kế để tìm thông
tin của một người. Kĩ thuật nhận dạng là kiểm tra sự phù hợp dựa trên phép so sánh
một-nhiều cụ thể là tìm ra một người là ai trong số những người đã được lưu trữ
trong hệ thống dựa vào thông tin khuôn mặt.
1.1.3 Hệ thống xác minh hay xác thực khuôn mặt là gì?
Hệ thống xác minh/xác thực khuôn mặt là một hệ thống được thiết kế để xác
minh thông tin của một người. Kĩ thuật xác minh là kiểm tra sự phù hợp trên phép
so sánh một-một cụ thể là đối chiếu thông tin mới nhận về một người với thông tin
đã lưu trữ về người này có khớp hay không dựa trên thông tin khuôn mặt.
Hoàn toàn không biết thông tin
Đã biết trước thông tin
ngưòi này là ai ?
Đây là Hùng phải không?
Hùng
Kết quả
Xác minh người
(verification)
Kết quả
Nhận dạng người
(identification)
Đúng / sai
Hình 1-1. So sánh hai tác vụ nhận dạng khuôn mặt và xác nhận khuôn mặt
9
1.1.4 Hệ thống nhận dạng tĩnh - tĩnh, tĩnh - động, động - động
1.1.4.1 Hệ thống nhận dạng tĩnh - tĩnh
Hệ thống nhận dạng tĩnh - tĩnh là hệ thống được thiết kế bằng cách sử dụng
một số ảnh tĩnh làm mẫu để nhận dạng khuôn mặt người trong ảnh tĩnh. Kỹ thuật
nhận dạng này kiểm tra sự phù hợp dựa trên phép so sánh một - nhiều như hệ thống
nhận dạng nói chung ở trên.
1.1.4.2 Hệ thông nhận dạng tĩnh - động
Hệ thống nhận dạng tĩnh - động là hệ thống được thiết kế bằng cách sử dụng
một số ảnh tĩnh làm mẫu để nhận dạng khuôn mặt người trong ảnh động. Kỹ thuật
nhận dạng này kiểm tra sự phù hợp dựa trên phép so sánh một - nhiều như hệ thống
nhận dạng nói chung ở trên, song ảnh cần kiểm tra là các khung ảnh động trong các
đoạn phim từ các máy camera. Kỹ thuật này dĩ nhiên không thể chính xác vì chuyển
động của mặt người trong đoạn phim khá phức tạp song thể hiện trong ảnh tĩnh để
huấn luyện lại ít.
1.1.4.3 Hệ thống nhận dạng động - động
Hệ thống nhận dạng động - động là hệ thống được thiết kế bằng cách sử
dụng các ảnh động làm mẫu để nhận dạng khuôn mặt người trong ảnh động. Kỹ
thuật nhận dạng này kiểm tra sự phù hợp dựa trên phép so sánh một - nhiều như hệ
thống nhận dạng nói chung ở trên. Tuy nhiên, kỹ thuật này chính xác hơn kỹ thuật
sử dụng trong hệ thống nhận dạng tĩnh - động do sự chuyển động phức tạp của
khuôn mặt người cũng được huấn luyện bằng các khung ảnh động.
1.1.5 Những thách thức trong bài toán nhận dạng khuôn mặt
Những biến đổi quá lớn giữa các ảnh khuôn mặt khác nhau từ một người cần
nhận dạng gồm trạng thái cảm xúc trên khuôn mặt, ánh sáng, và các thay đổi vị trí
của khuôn mặt..vv.
Giới hạn về số ảnh cần thiết cho việc nhận dạng, tập học không thể bao quát
được tất cả các biến đổi có thể có trên khuôn mặt của một người cần nhận dạng
trong thế giới thực.
1.1.6 Sai số trong hệ nhận dạng [20]
Hệ nhận dạng bằng sinh trắc luôn có sai số nói cách khác không thể chính
xác tuyệt đối.
Độ chính xác của (đối sánh 1:1, và 1:N) phụ thuộc nhiều yếu tố, ví dụ thông
tin sinh trắc (Sample data), bản thân thuật toán trích chọn đặc điểm (enrollment) và
thuật toán đối sánh (matcher), kích cỡ CSDL - miền đối sánh.
Có 2 đại lượng chính dùng để đo lường sai số của một hệ nhận dạng bằng
sinh trắc:
10
Sai số bắt nhầm – FAR (False Acceptance Rate) có tài liệu gọi là FMR
(False Match Rate)
Sai số bỏ sót – FRR (False Reject Rate) có tài liệu gọi là FNMR (False
Non Match Rate)
Độ chính xác – TAR (True Accpetance Rate) là dẫn xuất của FRR
TAR = 1 - FRR
FAR và FRR là hàm số của t – ngưỡng xét trùng
FAR(t)
FRR(t)
ERR là điểm mà FRR = FAR
Hình 1-2. Hình biểu diễn hàm FRR và FAR
Để đánh giá chất lượng một hệ thống nhận dạng mặt người một cách khách
quan cần:
Số cá nhân đối sánh đủ lớn.
Đo với CSDL đủ lớn.
1.2 Các ứng dụng tương tác người máy (Human computer
interactive) liên quan đến khuôn mặt
Từ những năm 1990 trở lại đây, chúng ta đã chứng kiến sự phát triển như vũ
bão của các ngành công nghiệp, đặc biệt là ngành công nghiệp chế tạo điện tử. Tuy
nhiên hiện nay các thiết bị điện tử cao cấp như máy ảnh số, camera kĩ thuật số, và
nhiều sản phẩm khác dường như chỉ phù hợp cho các phòng thí nghiệm, các công ty
11
sản xuất kinh doanh, thương mại, tài chính, ngân hàng, ... Trong thời gian không xa,
chi phí cho các thiết bị này sẽ giảm đáng kể. Khi đó sẽ mở ra nhiều hướng nghiên
cứu về thị giác máy tính, đồng thời sẽ có nhiều ứng dụng trong giao tiếp giữa người
với máy tính mà trong đó hệ thống nhận dạng mặt người đóng một vai trò không
nhỏ. Dưới đây là một số ứng dụng.
Các ứng dụng chuyên biệt cho ngành hàng không
Đảm bảo sự truy cập và tính hợp lệ trong công việc cho từng nhân viên:
Mỗi nhân viên làm việc tại cảng hàng không cũng như nhân viên phi hành
đoàn được cung cấp quyền truy cập để đến vị trí làm việc. Làm thế nào để
xác minh nhân viên này vào đúng khu vực làm việc hay không?
Làm sao để đảm bảo trong số những hành khách không có sự trà trộn của
một số kẻ khủng bố/tội phạm quốc gia/ quốc tế?
Bảo vệ trẻ em ở nhà trẻ từ bọn bắt cóc
Quy định rằng, chỉ có những nhân viên của nhà trẻ mới được phép dẫn trẻ
em ra ngoài và trao tận tay cho bố mẹ đón về. Nhưng trong xã hôi cũng có
một số trường hợp giả danh nhân viên để bắt cóc trẻ em với mục đích xấu.
Làm thể nào để ngăn chặn hành vi xấu này?
Nhận dạng khuôn mặt được sử dụng kèm với thẻ quy cập
Trong các nước phát triển, hầu như mọi người dân đều dùng thẻ tín dụng
để mua bán, rút tiền, trao đổi hàng hóa. Điều này rất nguy hiểm khi thẻ truy
cập này bị người khác nhặt được hay biết được mật khẩu của sở hữu thẻ này?
Làm cách nào có thể bảo đảm an toàn nhất?
Có thể dùng song mật khẩu: Có nghĩa sử dụng khuôn mặt như là một
mật khẩu thứ hai để truy cập vào hệ thống cùng với thông tin từ card truy
cập. Để rút được tiền
• Đưa thẻ vào hệ thống
• Đưa khuôn mặt vào để nhận dạng
• Xác minh người này có phải là chủ sở hữu của thẻ hay không?
Nếu khớp thì hệ thống cho rút tiền
Nếu không thì hệ thống không cho rút tiền.
Kinh doanh thương mại điện tử
Với sự tiến bộ của khoa học công nghệ, nhiều hình thức kinh doanh
thương mại xuất hiện, đặc biệt là thương mại điện tử. Việc buôn bán và trao
đổi giữa hai bên đối tác không cần diễn ra trực tiếp (mặt đối mặt), mà chỉ cần
qua mạng với hình ảnh của người đại diện. Tuy nhiên bên cạnh đó sẽ có
nhiều mặt tiêu cực trên hình thức kinh doanh này, đó là các vụ lừa đảo, giả
mạo, giả danh.v..v... Làm sao để biết được đối tác của mình là thật hay giả?
12
Ngăn chặn việc xuất/nhập cảnh bất hợp pháp
Một số người không được xuất/nhập cảnh vào nước, song họ cố tình khai
gian giấy tờ để xuất/nhập cảnh bất hợp pháp. Làm sao để ngăn chặn được sự
gian lận này?
Lần dấu vết đi tìm kẻ khủng bố
Từ những bức ảnh số hay những đoạn video số đã được ghi lại tự động về
hiện trường trước khi vụ khủng bố xảy ra. Cần nhận dạng những đối tượng
khả nghi của vụ khủng bố này?
Hệ thống giám sát công nhân và chấm công tự động
Hiện nay trong các khu công nghiệp hay những công ty sản xuất lớn có
hàng ngàn công nhân vào ra mỗi ngày nên việc giám sát kẻ gian vào công ty
cũng như công việc chấm công rất phức tạp. Vậy làm thế nào để nhận ra
từng nhân viên của công ty.
Tóm lại: Nhu cầu sử dụng các hệ thống xử lý dùng trí tuệ nhân tạo ngày càng phát
triển, mà trong đó nhận dạng khuôn mặt để mã hóa mật khẩu cá nhân là một nhu
cầu thiết yếu hiện nay và trong tương lai. Đặc biệt vụ khủng bố ngày 11-9-2001 tại
Mỹ đã đánh dấu một bước ngoặc mới trong xu hướng nghiên cứu và giá trị thương
mại của các hệ thống sinh trắc học ứng dụng trong quân sự và an ninh.
1.3 Các hướng tiếp cận chính trong lĩnh vực nhận dạng khuôn mặt
1.3.1 Các công trình nghiên cứu về phương pháp nhận dạng và kiểm chứng
chất lượng cho một hệ thống nhận dạng khuôn mặt
Bài toán nhận dạng khuôn mặt cần xác định hai vấn đề chính: dùng thông tin
nào để nhận dạng: chân mày, cặp mắt, mũi, môi, tai, hay kết hợp các thông tin trên.
Và dùng phương pháp nào để huấn luyện cho máy nhận dạng dùng nguồn thông tin
đó. Nhận dạng khuôn mặt trên máy tính đã trải qua nhiều bước thăng trầm, chúng ta
có thể liệt kê một số kết quả như sau:
Wenyi Zhao, Arvindh Krishnaswamy, Rama Chellappa, Danie L.Swets, John
Weng (1998)[4] sử dụng phương pháp PCA (phân tích thành phần chính) kết hợp
LDA (phân tích độc lập tuyến tính). Bước 1, chiếu ảnh khuôn mặt từ không gian
ảnh thô sang không gian các không gian khuôn mặt (Mỗi lớp khuôn mặt được nhận
dạng sẽ được mô hình hóa bằng một không gian khuôn mặt) dùng PCA. Bước 2, sử
dụng phương pháp LDA để tạo bộ phân loại tuyến tính có khả năng phân lớp các
lớp khuôn mặt.
John Daugnman (1998), đưa ra phương pháp dùng đặc trưng về tròng của
mắt để phân biệt cặp (trai/gái) song sinh.
Emmanuel Viennet và Francoise Fogelman Soulie (1998), sử dụng phương
pháp mạng neural nhân tạo để xử lý và nhận dạng khuôn mặt.
13
Antonio J.Colmenarez và Thomas S.Huang (1998),[5] sử dụng kỹ thuật học
thị giác và phù hợp mẫu 2-D. Ông quan niệm bài toán dò tìm khuôn mặt là thao tác
phân loại khuôn mặt trong đó khuôn mặt thuộc về một lớp và các đối tượng khác
thuộc về lớp còn lại bằng cách ước lượng mô hình xác suất cho mỗi lớp, và việc dò
tìm sử dụng luật quyết định Maximum-likelihood.
Kazunori Okada, Johannes Steffens, Thomas Maurer, Hai Hong, Egor
Elagin, Hartmut Neven, and Christoph (1998),[6] nhận dạng khuôn mặt dựa vào
sóng Gabor và phương pháp phù hợp đồ thị bó. Với ý tưởng dùng đồ thị để biểu
diễn khuôn mặt, ảnh khuôn mặt được đánh dấu tại các vị trí đã được xác định trước
trên khuôn mặt, gọi các vị trí này chính là các vị trí chuẩn. Khi thực hiện thao tác so
khớp đồ thị với một ảnh, các điểm chuẩn (Jets) sẽ trích ra từ ảnh và so sánh các
điểm chuẩn này với tất cả các điểm chuẩn tương ứng trong các đồ thị khác nhau, và
đồ thị nào phù hợp nhất với ảnh sẽ được chọn.
Baback Moghaddam và Alex Pentland (1998) [7], đưa ra phương pháp phù
hợp thị giác trực tiếp từ các ảnh cần sử dụng cho mục đích nhận dạng khuôn mặt và
dùng độ đo xác suất để tính độ tương tự.
Massimo Tistaelli và Enrico Grosso (1998) [8], đưa ra kỹ thuật thị giác động.
Vì khả năng quan sát các chuyển động của khuôn mặt và xử lý các tình huống theo
dự định là thông tin rất quan trọng, từ đó nhận được mô tả đầy đủ hơn về khuôn mặt
cho mục đích thu thập mẫu và nhận dạng.
Jeffrey Huang, Chengjun Liu, và Harry Wechsler (1998)[9], đề xuất thuật
toán căn cứ trên tính tiến hóa (Evolutionary computation) và di truyền (Genetic) cho
các tác vụ nhận dạng khuôn mặt. Đối với cách tiếp cận này, hai mắt sẽ được dò tìm
trước tiên và thông tin này được xem là vết để quan sát khuôn mặt, trình xử lý dò
tiếp mắt bằng cách sử dụng một thuật toán lai để kết hợp thao tác học và tiến hóa
trong quá trình học.
Daniel Bgraham và Nigel M Allinson (1998)[10], sử dụng phương pháp
được gọi là tạo bản sao không gian đặc trưng để biểu diễn và nhận dạng hướng di
chuyển của khuôn mặt.
Oi Bin Sun, Chian Prong Lam và Jian Kang Wu (1998)[11], sử dụng phương
pháp tìm vùng hai chân mày, hai mắt, mũi, miệng và cằm. Ảnh khuôn mặt thẳng
ban đầu được chiếu theo chiều ngang để tìm các giá trị điểm ảnh thỏa ngưỡng cho
trước, đồ thị biểu diễn theo trục ngang sẽ định vị trí biên trên và biên dưới của hình
chữ nhật bao các đặc trưng cục bộ khuôn mặt. Tương tự với chiều đứng để tìm ra
đường biên bên trái và phải cho các vùng đặc trưng.
Ara V.Nefian và Monson H.Hayes III (1998) trình bày hướng tiếp cận theo
mô hình Markov ẩn (HMM) trong đó ảnh mẫu khuôn mặt được lượng hóa thành
chuỗi quan sát trên khuôn mặt theo quan niệm dựa trên thứ tự xuất hiện các đặc
trưng khuôn mặt {hai chân mày, hai lông mi, mũi, miệng, cằm}. Trong chuỗi quan
sát đó, mỗi quan sát lại là một vector nhiều chiều và mỗi vector quan sát này được
14
sử dụng để đặc trưng cho mỗi trạng thái trong chuỗi trạng trạng thái của HMM. Mỗi
người được ước lượng bằng một mô hình của HMM.
Guodong Guo, Stan Z.Li, Kap Luk Chan (2001), dùng phương pháp SVM để
nhận dạng khuôn mặt. Sử dụng chiến lược kết hợp nhiều bộ phân loại nhị phân để
xây dựng bộ phân loại SVM đa lớp.
1.3.2 Hướng tiếp cận được thử nghiệm trong luận văn
Trong đề tài đi vào tìm hiểu phương pháp nhận dạng dùng HMM; tìm hiểu
phương pháp PCA (phân tích thành phần chính) để trích chọn đặc trưng từ ảnh.
Việc cô lập khuôn mặt trong ảnh đầu vào (ảnh chứa khuôn mặt) được thực
hiện với phương pháp dò tìm dựa trên màu da kết hợp với mô hình Markov ẩn.
15
2
Chương 2 DÒ TÌM KHUÔN MẶT TRONG ẢNH MÀU
2.1 Giới thiệu
Dò tìm đối tượng là bài toán cơ bản và quan trọng trong lĩnh vực thị giác
máy tính. Các kỹ thuật đã được áp dụng có thể chia thành một trong hai tiếp cận: so
khớp các mô hình hình học hai, ba chiều vào ảnh [Seutens at al., 1992, Chin và
Dyer, 1986, Besl và Jain, 1985], hay phương pháp so khớp các mô hình khung vào
ảnh có chứa khuôn mặt cần dò tìm. Các nghiên cứu trước đây cho thấy rằng các
phương pháp dựa trên khung nhìn có thể dò tìm các khuôn mặt thẳng trong nền
phức tạp một cách hiệu quả.
Việc phát triển bộ dò tìm đối tượng dựa trên khung nhìn dùng máy học có ba
vấn đề chính. Thứ nhất, ảnh của các đối tượng (chẳng hạn khuôn mặt) biến đổi
nhiều, tuỳ thuộc vào độ sáng, tình trạng che lấp, tư thế, biểu hiện khuôn mặt và tính
giống nhau. Thuật toán dò tìm giải quyết với càng nhiều biến đổi càng tốt. Thứ hai,
một hay nhiều mạng neural được huấn luyện để giải quyết với mọi biến đổi còn lại
trong việc phân biệt đối tượng (object) với không phải đối tượng (non-object). Thứ
ba, đầu ra từ các bộ dò tìm phải được kết hợp lại thành một quyết định có biểu diễn
đối tượng hay không.
Hai bài toán dò tìm và nhận dạng đối tượng có liên quan mật thiết. Hệ thống
nhận dạng đối tượng có thể xây dựng mà không có tập bộ dò tìm đối tượng, mỗi bộ
dò tìm dò một đối tượng quan tâm. Tương tự, bộ dò tìm đối tượng có thể được xây
dựng mà không có hệ thống nhận dạng đối tượng; bộ nhận dạng đối tượng này cần
phân biệt đối tượng mong muốn với mọi đối tương khác có thể xuất hiện hay là lớp
đối tượng chưa biết. Do đó hai bài toán là như nhau, dù trong thực hành hầu hết các
hệ thống nhận dạng đối tượng ít khi giải quyết nền tuỳ ý, và các hệ thống dò tìm đối
tượng ít khi được huấn luyện trên đủ loại đối tượng để xây dựng hệ thống nhận
dạng. Điểm chú trọng khác nhau của các bài toán này dẫn đến các trình bày và thuật
toán khác nhau.
Thông thường, các hệ thống nhận dạng khuôn mặt làm việc bằng cách trước
hết áp dụng bộ dò tìm khuôn mặt để định vị khuôn mặt, sau đó áp dụng thuật toán
nhận dạng để nhận diện khuôn mặt.
Bài toán dò tìm khuôn mặt nhanh trên ảnh là bài toán quan trọng vì là quá
trình nhận dạng đối tượng sẽ thiếu chính xác nếu như thiếu bước dò tìm và định vị
được đối tượng. Bài toán dò tìm khuôn mặt nhanh có ý nghĩa rất quan trọng trong
việc nhận dạng, theo vết các đối tượng chuyển động trong các đoạn video hay
camera.
2.1.1 Các thách thức trong việc dò tìm khuôn mặt
Việc dò tìm đối tượng là bài toán xác định cửa sổ con của ảnh có thuộc về
tập các ảnh của đối tượng quan tâm hay không. Do đó, đường biên quyết định của
16
tập ảnh đối tượng phức tạp sẽ làm tăng độ khó của bài toán và có thể tăng số lỗi dò
tìm.
Giả sử ta muốn dò khuôn mặt nghiêng trong mặt phẳng ảnh, ngoài các khuôn
mặt thẳng. Việc thêm các khuôn mặt nghiêng vào tập các ảnh ta muốn dò tìm làm
tăng độ biến thiên của tập, và có thể làm tăng độ phức tạp của đường biên quyết
định của tập ảnh. Độ phức tạp này làm bài toán dò tìm khó hơn. Việc thêm ảnh mới
vào tập ảnh đối tượng có thể làm đường biên quyết định đơn giản hơn và dễ học
hơn. Có thể tưởng tượng điều này là đường biên quyết định được làm trơn bằng
việc thêm các ảnh vào tập.
Có nhiều nguồn biến đổi trong bài toán dò tìm đối tượng, và cụ thể trong bài
toán dò tìm khuôn mặt. Có các nguồn biến đổi sau.
Biến đổi trong mặt phẳng ảnh: loại biến đổi ảnh khuôn mặt đơn giản nhất có
thể được biểu diễn độc lập với khuôn mặt, bằng cách quay, dịch chuyển, biến
đổi tỷ lệ và soi gương ảnh.
Biến đổi độ sáng và ngữ cảnh: biến đổi do đối tượng và môi trường gây ra,
cụ thể các thuộc tính bề mặt của đối tượng và các nguồn sáng. Các thay đổi
về nguồn sáng nói riêng có thể biến đổi hoàn toàn vẻ bề ngoài của khuôn
mặt.
Biến đổi nền: Trong luận văn của mình, Sung cho rằng với kỹ thuật nhận
dạng mẫu hiện nay, tiếp cận dựa trên khung nhìn để dò tìm đối tượng chỉ
thích hợp cho các đối tượng có “đường biên ảnh có thể dự đoán được”. Khi
đối tượng có hình dáng dự đoán được, ta có thể trích ra window chỉ chứa các
pixel bên trong đối tượng, và bỏ qua nền.
Biến đổi hình dáng: với khuôn mặt, loại biến đổi này bao gồm biểu lộ tình
cảm khuôn mặt, miệng và mắt mở hay đóng, và hình dáng khuôn mặt của
từng người.
Tuy nhiên, nếu việc dò tìm được tiến hành trên các đoạn video hay camera ta
có thể áp dụng các phương pháp xử lý các khung hình liên tục cùng một lúc như
theo vết đối tượng, trừ ảnh v..v…
2.1.2 Một số hướng tiếp cận thường được dùng trong dò tìm khuôn mặt
nhanh
Hướng dò tìm khuôn mặt trên ảnh màu dựa trên sự phân tích màu sắc của
vùng da. Mặc dù việc xử lý khá nhanh nhưng hướng này có giới hạn chỉ xử
lý trên ảnh màu và thường nhạy cảm với ánh sáng, thường chỉ sử dụng làm
các bước tiền xử lý cho các hướng khác.
Hướng dò tìm khuôn mặt dựa trên đặc trưng chủ yếu dựa vào các đặc trưng
của khuôn mặt người được quy định trước. Thành công nhất trong dò tìm
17
khuôn mặt người trong thời gian thực là phương pháp ASM (Active shape
Models).
Hướng dò tìm khuôn mặt dựa trên thông tin hình ảnh gồm mạng nơron, các
hướng thông kê (SVM, AdaBoost, …). Phương pháp SVM và mạng nơ ron
cũng đạt được kết quả cao trong thời gian khá nhanh song cũng chỉ vài ảnh
trong một giây nên khó có thể áp dụng trong việc nhận dạng thời gian thực.
Riêng phương pháp AdaBoost cho kết quả khả quan vì có thể xử lý đến
khoảng 15-20 khung hình trong một giây.
2.2 Tìm kiếm khuôn mặt người trong ảnh dựa trên màu da
2.2.1 Giới thiệu [16]
Sự dò tìm da chính là phát hiện những điểm da con người từ một hình ảnh
màu. Đầu ra hệ thống là một hình ảnh dưới dạng nhị phân trên cùng lưới điểm như
hình ảnh đầu vào với 1 biểu thị cho da và 0 biểu thị cho nền. Hình 2.1 cho thấy một
hình ảnh màu đầu vào và một ảnh đầu ra kết quả của sự dò tìm da.
Hình 2-1. Ảnh màu với da và kết quả của sự dò tìm da
Sự dò tìm da đóng một vai trò quan trọng trong nhiều ứng dụng như sự dò
tìm mặt, sự tìm kiếm và lọc nội dung ảnh trên mạng, sự phân đoạn vi đi ô và giám
sát tự động, ...
Tuy nhiên sự dò tìm da không phải là một nhiệm vụ dễ. Trước hết, màu da
của mỗi người có thể rất khác nhau. Trong hình 2.2, có người da trắng, người Châu
Phi và người Chấu Á, … Hơn nữa, một khi những hình ảnh được thu nhận với
những thiết bị có đặc điểm kỹ thuật khác nhau dưới nhiều điều kiện, chúng tùy
thuộc vào tất cả các loại nhiễu và sự biến dạng. Hình 2.3 cho thấy vài ví dụ.
18
Hình 2-2. Mầu da của một số chủng tộc người khác nhau
Hình 2-3. Mẫu da bị ảnh hưởng bởi các loại nhiễu và biến dạng
Một hệ thống dò tìm da thì không bao giờ hoàn hảo và những người dùng
khác nhau sử dụng tiêu chuẩn khác nhau cho sự đánh giá.
2.2.2 Dò tìm da trên ảnh màu
Nghiên cứu đã được thực hiện trên sự dò tìm của những điểm da con người
trong những hình ảnh màu trên sự phân biệt giữa những điểm da và không da bằng
việc sử dụng nhiều mô hình màu. Có hai vấn đề chủ yếu mà chúng ta phải thực hiện
ở đây là làm sao để chúng ta có thể phân biệt những điểm da từ những điểm không
phải da; và không gian màu nào sẽ được lựa chọn để tốt nhất cho việc thực hiện
phân tích.
19
2.2.2.1 Mô hình hóa da
Mục đích của việc mô hình hóa da là xây dựng cho một quy tắc quyết định
những điểm da từ những điểm không phải da. Công việc này có thể chia thành hai
vùng chính: mô hình không tham số và mô hình tham số.
Mô hình da không tham số
Kết quả của những phương pháp này đôi khi được viện dẫn như xây dựng
bản đồ xác suất da, một xác suất đánh giá từng điểm trong mô tả không gian màu.
Những mô hình Bayesian dựa vào histograms
Trong [17] [3] các tác giả mô hình những màu da và không da thông qua
histograms. Họ chia không gian mầu C thành số các bin c C và đếm số điểm ảnh
mầu trong mỗi bin Nskin(c) đại diện cho lớp da và N skin đại diện cho lớp không phải
da. Cuối cùng, họ bình thường hóa mỗi bin để có phân phối p(c|skin)/p(c|skin). Để
cho Nskin biểu thị số những điểm da và Nskin biểu thị số những điểm không da trong
tập huấn luyện, chúng ta có:
p(c | skin)
N skin (c)
N skin
(2.1)
N skin (c)
N skin
(2.2)
N skin
N skin N skin
(2.3)
p(c | skin)
cũng như
p( skin)
p(skin)
N skin
1 p( skin)
N skin N skin
(2.4)
Công thức Bayesian đánh giá xác suất da/không da theo màu của điểm đã cho:
p( skin | c)
p(c | skin) p( skin)
p(c | skin) p( skin) p(c | skin) p(skin)
p(skin) 1 p(skin | c)
(2.5)
(2.6)
Việc đưa ra quyết định được dựa trên một ngưỡng , 0 < < 1. Điểm được gọi
là điểm da nếu p(skin|c) > và ngược lại điểm không phải là da nếu p(skin|c) ≤ .
Mạng tự tổ chức (SOM)
Được đưa ra bởi Kohonen ở những năm đầu thập kỷ 80, ngày nay SOM đã
trở thành phổ biến và được sử dụng rộng rãi trong những kiểu mạng nơron nhân tạo
không giám sát. SOM cơ bản gồm có một mạng hai chiều L nơron. Mỗi nơron n i
L có liên hệ với một vectơ vi Rm mà được khởi tạo ngẫu nhiên khi bắt đầu. Ở đây
20
sử dụng không gian màu hai chiều nên m = 2. Mạng có thể là hình chữ nhật hoặc
lục giác. Hình 2.4 cho thấy những ví dụ của cả hai dạng cũng như khu lân cận của
những nút trung tâm.
Hình 2-4. Những mạng SOM với những hệ thống khu lân cận [2]
Trong thứ tự để huấn luyện SOM, chúng ta giới thiệu những vectơ huấn
luyện tuần tự tới tất cả các nơron trong mạng. Mỗi lúc vectơ đầu vào v được gửi vào
trong SOM, một nơron vw thắng cuộc được xác định bởi
|| vw v || || vi v ||, i I
(1.7)
trong đó, I là tất cả các chỉ số của các nơron trong mạng. Những nơron trong
khu vực lân cận thì điều chỉnh các vector v của chúng theo một hàm học. Trong khi
sự huấn luyện tiến triển, nhịp độ học và kích thước khu lân cận bị tác động làm cả
hai giảm bớt. Mạng dần dần hình thành một ánh xạ có trật tự tôpô (hoặc có đặc tính
bản đồ) của dữ liệu huấn luyện. Nếu cần thiết, một pha định kích cỡ rồi đánh dấu,
nơi được gắn nhãn dữ liệu huấn luyện thì tuần tự được giới thiệu tới SOM. Nhãn dữ
liệu và chỉ số của nơron thắng cuộc được ghi mỗi thời gian. Mỗi nơron rồi được gán
một nhãn nào đó. Cho sự phân loại, mỗi nơron đầu vào chỉ cần nắm lấy nhãn của
nơron thắng cuộc. Brown chọn mạng lục giác và kích thước của mạng là khoảng 16
- 256. Họ chỉ ra rằng sự thực hiện của SOM ở lề tốt hơn sự pha trộn Gaussian,
trong khi thấp hơn những phương pháp trên histogram.
Điểm tốt là nó tiêu thụ ít tài nguyên hơn những phương pháp dựa trên
histogram và có thể được thực hiện trong phần cứng SOM nhanh và rẻ.
Những lợi thế của những phương pháp không tham số:
Chúng nói chung nhanh trong cả sự huấn luyện và kiểm tra;
21