ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
----------------
NGUYỄN QUANG HUY
NGHIÊN CỨU MỘT SỐ KỸ THUẬT
PHÁT HIỆN HƯỚNG MẶT NGƯỜI TRONG ẢNH
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái Nguyên - 2012
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
----------------
NGUYỄN QUANG HUY
NGHIÊN CỨU MỘT SỐ KỸ THUẬT
PHÁT HIỆN HƯỚNG MẶT NGƯỜI TRONG ẢNH
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS Đỗ Năng Toàn
Thái Nguyên - 2012
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
1
LỜI CẢM ƠN
Trước tiên, em xin bày tỏ lòng biết ơn sâu sắc tới Thầy giáo, người
hướng dẫn khoa học PGS.TS. Đỗ Năng Toàn (Viện Công nghệ thông tin Viện Khoa học và Công nghệ Việt Nam). Thầy đã giúp đỡ em rất nhiều trong
quá trình định hướng nghiên cứu, tìm hiểu, xây dựng và phát triển bài toán để
em có thể hoàn thành luận văn chuyên đề: "Nghiên cứu một số kỹ thuật phát
hiện hướng mặt người trong ảnh".
Em chân thành biết ơn các Thầy giáo công tác tại Viện Công nghệ thông
tin - Viện Khoa học và Công nghệ Việt Nam, trường Đại học Công nghệ
thông tin và Truyền thông - Đại học Thái Nguyên, đã truyền đạt, trang bị kiến
thức để em có thể tìm hiểu, nghiên cứu và thực hiện được đề tài luận văn.
Em chân thành cảm ơn Thư viện trường Đại học Công nghệ thông tin và
Truyền thông, Trung tâm học liệu - Đại học Thái Nguyên đã hết sức tạo điều
kiện, phương tiện cho chúng em tìm hiểu, tham khảo, tra cứu tư liệu nhằm
phục vụ cho công việc viết luận văn tốt nghiệp.
Cuối cùng, em xin bày tỏ lòng biết ơn đến đồng nghiệp, Khoa Công nghệ
thông tin, Ban giám hiệu trường Cao đẳng nghề Việt - Đức Vĩnh Phúc đã tạo
điều kiện để em hoàn thành khóa học này.
Thái Nguyên, tháng 8 năm 2012
Học viên
Nguyễn Quang Huy
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
2
LỜI CAM ĐOAN
Luận văn "Nghiên cứu một số kỹ thuật phát hiện hướng mặt người
trong ảnh" là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn trực
tiếp của PGS.TS. Đỗ Năng Toàn - Viện Công nghệ thông tin, Viện Khoa học
và Công nghệ Việt Nam.
Các số liệu trong luận văn đã được công bố trong các tài liệu mà tôi tham
khảo, liệt kê trong phần tài liệu tham khảo cuối tập luận văn.
Luận văn này không trùng hợp về mặt hình thức cũng như nội dung với
bất kỳ một luận văn nào.
Nếu trái với các điều trên, tôi xin hoàn toàn chịu trách nhiệm.
Thái Nguyên, tháng 8 năm 2012
Học viên
Nguyễn Quang Huy
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
3
MỤC LỤC
Lời cảm ơn .................................................................................................... i
Lời cam đoan ................................................................................................. ii
Mục lục .......................................................................................................... iii
Danh mục các ký hiệu, các chữ viết tắt ........................................................ iv
Danh mục các hình vẽ ................................................................................... v
PHẦN MỞ ĐẦU ........................................................................................... 1
CHƢƠNG 1: KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ NHẬN DẠNG MẶT
NGƢỜI .......................................................................................................... 4
1.1. Khái quát về xử lý ảnh ........................................................................... 4
1.1.1. Ảnh số .......................................................................................... 4
1.1.2. Biểu diễn ảnh số ........................................................................... 5
1.1.2.1. Mô hình Raster ............................................................... 5
1.1.2.1. Mô hình Vector ............................................................... 6
1.1.3. Xử lý ảnh số ................................................................................. 7
1.1.4. Thu thập ảnh số ............................................................................ 8
1.1.5. Nắn chỉnh biến dạng ảnh số ......................................................... 8
1.1.6. Nén ảnh ........................................................................................ 9
1.1.7. Trích chọn đặc điểm ..................................................................... 10
1.1.8. Nhận dạng ảnh ............................................................................. 11
1.2. Nhận dạng mặt người và những khó khăn của nhận dạng khuôn mặt .... 12
1.2.1. Nhận dạng mặt người ................................................................... 12
1.2.2. Các ứng dụng liên quan đến nhận dạng mặt người...................... 12
1.2.3. Những khó khăn và thách thức của nhận dạng khuôn mặt .......... 13
1.2.4. Các hướng tiếp cận liên quan đến nhận dạng khuôn mặt ............ 14
1.3. Bài toán phát hiện hướng mặt người trong ảnh ...................................... 16
1.3.1. Giới thiệu tổng quát bài toán ........................................................ 16
1.3.2. Mô hình mặt người trong không gian 3D .................................... 17
CHƢƠNG 2: MỘT SỐ KỸ THUẬT PHÁT HIỆN HƢỚNG MẶT
NGƢỜI TRONG ẢNH ................................................................................ 19
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
4
2.1. Phát hiện hướng mặt người trong ảnh dựa trên tâm mắt ........................ 19
2.1.1. Tách mặt người trong ảnh ............................................................ 19
2.1.1.1. Sử dụng ngưỡng màu ...................................................... 19
2.1.1.2. Phương pháp trừ ảnh với nền không đổi ........................ 20
2.1.2. Chuẩn hóa ảnh .............................................................................. 21
2.1.3. Cắt và xoay chuẩn ảnh ................................................................. 21
2.1.3.1. Xác định tâm mắt ............................................................ 21
2.1.3.2. Xoay ảnh và tắt khung mặt ............................................. 23
2.1.3.3. Chuẩn sáng ảnh ............................................................... 24
2.2. Phát hiện hướng mặt người trong ảnh dựa theo các đặc trưng Haar ...... 25
2.2.1. Nhận dạng đối tượng dựa theo các đặc trưng Haar ..................... 25
2.2.1.1. Giới thiệu khái quát ........................................................ 25
2.2.1.2. Đặc trưng Haar (Haar Like Feature)............................... 26
2.2.1.3. Huấn luyện các bộ nhận dạng Haar ................................ 31
2.2.1.4. Chuỗi các bộ nhận dạng Haar ......................................... 33
2.2.1.5. Bộ nhận dạng Haar riêng lẻ ............................................ 35
2.2.1.6. Kiến trúc hệ thống .......................................................... 36
2.2.2. Xác định mắt, mũi, miệng và vùng bao quanh khuôn mặt .......... 37
2.2.3. Tính toán góc quay theo 3 chiều .................................................. 38
2.2.3.1. Xác định góc quay theo hướng ................................... 38
2.2.3.2. Xác định góc quay theo hướng .................................... 39
2.2.3.3. Xác định góc quay theo hướng .................................... 40
CHƢƠNG 3: CHƢƠNG TRÌNH THỬ NGHIỆM ................................... 42
3.1. Bài toán phát hiện hướng mặt người trong ảnh ...................................... 42
3.2. Tư thế khuôn mặt người .......................................................................... 42
3.3. Các tư thế khác nhau của khuôn mặt ...................................................... 43
3.4. Chương trình thử nghiệm ........................................................................ 57
3.5. Một số trường hợp đặc biệt ..................................................................... 50
PHẦN KẾT LUẬN ....................................................................................... 53
TÀI LIỆU THAM KHẢO ........................................................................... 55
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
5
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
SAT: Summed Area Table
Bảng tổng hợp vùng
RSAT: Rotated Summed Area Table
Bảng tổng hợp vùng quay
CART: Classification And Regression Tree Cây nhận dạng và hồi quy
HCI: Human Computer Interaction
Tương tác người máy
TP: True Positive
Phát hiện đúng
FP: False Positive
Phát hiện sai
HCC: Haar Cascade Classifier
Bộ nhận dạng theo tầng Haar
NB: Neighbour
Láng giềng
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
6
DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Quá trình hiển thị, chỉnh sửa và lưu trữ ảnh thông qua DIB
Hình 1.2: Sự chuyển đổi giữa các mô hình biểu diễn ảnh
Hình 1.3: Hệ tọa độ 3D trên khuôn mặt và các góc quay tương ứng
Hình 2.1: Phương pháp trừ ảnh với nền không đổi
Hình 2.2: Sơ đồ thực hiện xác định tâm mắt
Hình 2.3: Xác định góc nghiêng dựa theo tâm mắt
Hình 2.4: Cân bằng mức xám cho hình ảnh
Hình 2.5: Bốn đặc trưng Haar - Like cơ bản
Hình 2.6: Các đặc trưng mở rộng của các đặc trưng Haar-Like cơ sở
Hình 2.7: Cách tính Integral Image của ảnh
Hình 2.8: Cách tính nhanh tổng các điểm ảnh của vùng D trên ảnh
Hình 2.9: Cách tính tổng điểm ảnh của vùng D với đặc trưng xoay 45o
Hình 2.10: Một vài nguyên mẫu được sử dụng trong xác định vùng mắt
Hình 2.11: Dựng thẳng, xoay các hình chữ nhật trong cửa sổ phát hiện
Hình 2.12: Một số mẫu dương dùng trong việc xác định khuôn mặt
Hình 2.13: Một số mẫu âm dùng trong việc xác định khuôn mặt
Hình 2.14: Chuỗi các nhận dạng theo tầng
Hình 2.15: Kết quả sau khi phát hiện các đặc điểm
Hình 3.1: Khuôn mặt chuẩn và các tư thế thay đổi
Hình 3.2: Tư thế khuôn mặt khi hướng sang trái
Hình 3.3: Tư thế khuôn mặt khi hướng sang phải
Hình 3.4: Tư thế khuôn mặt khi hướng lên trên
Hình 3.5: Tư thế khuôn mặt khi hướng xuống dưới
Hình 3.6: Tư thế khuôn mặt khi hướng lên trên sang trái
Hình 3.7: Tư thế khuôn mặt khi hướng lên trên sang phải
Hình 3.8: Tư thế khuôn mặt khi hướng xuống dưới sang trái
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
7
Hình 3.9: Tư thế khuôn mặt khi hướng xuống dưới sang phải
Hình 3.10: Giao diện chính của chương trình
Hình 3.11: Chương trình nhận dạng các thành phần trên khuôn mặt
Hình 3.12: Chương trình nhận dạng nhiều khuôn mặt
Hình 3.13: Sự xuất hiện của mắt kính trên khuôn mặt
Hình 3.14: Sự xuất hiện của chiếc mũ trên khuôn mặt
Hình 3.15: Sự xuất hiện của cả kính và mũ trên khuôn mặt
Hình 3.16: Khuôn mặt không được nhận dạng bởi góc quay quá lớn
Hình 3.17: Khuôn mặt không được nhận dạng do tư thế che khuất
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
8
PHẦN MỞ ĐẦU
Hiện nay, cùng với sự phát triển của xã hội, vấn đề an ninh bảo mật
đang được yêu cầu khắt khe tại mọi quốc gia trên thế giới. Các hệ thống nhận
dạng con người được ra đời với độ tin cậy ngày càng cao. Một trong các bài
toán nhận dạng con người rất được quan tâm hiện nay là nhận dạng khuôn
mặt. Vì nhận dạng khuôn mặt là cách mà con người sử dụng để phân biệt
nhau. Bên cạnh đó, việc thu thập xử lý thông tin qua ảnh để nhận biết đối
tượng đang được quan tâm và ứng dụng rộng rãi. Với phương pháp này chúng
ta có thể thu nhận được nhiều thông tin từ đối tượng mà không cần tác động
nhiều đến đối tượng nghiên cứu. Sự phát triển của khoa học máy tính tạo môi
trường thuận lợi cho bài toán nhận dạng mặt người từ ảnh số. Các hệ thống
nhận dạng offline đã ra đời và có độ tin cậy cao, tuy nhiên các hệ thống nhận
dạng online lại chưa đáp ứng được nhiều.
Hơn một thập kỷ qua có rất nhiều công trình nghiên cứu về bài toán xác
định khuôn mặt người từ ảnh đen trắng, xám đến ảnh màu như ngày hôm nay.
Các nghiên cứu đi từ bài toán đơn giản, mỗi ảnh chỉ có một khuôn mặt người
nhìn thẳng vào thiết bị thu hình và đầu ở tư thế thẳng đứng trong ảnh đen
trắng. Cho đến ngày hôm nay bài toán mở rộng cho ảnh màu, có nhiều khuôn
mặt trong cùng một ảnh, có nhiều tư thế, góc nghiêng thay đổi trong ảnh.
Không những vậy, bài toán còn mở rộng cả phạm vi, từ môi trường xung
quanh khá đơn giản (trong phòng thí nghiệm) cho đến môi trường xung quanh
rất phức tạp (như trong tự nhiên) nhằm đáp ứng nhu cầu thật sự và rất nhiều
của con người.
Trong thực tế các hệ thống nhận dạng mặt người chỉ có thể nhận dạng
và nhận dạng chính xác nếu các bức ảnh chứa khuôn mặt ở tư thế thẳng đứng,
vuông góc với trục ống kính của máy ảnh. Tuy nhiên có rất nhiều ảnh đầu vào
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
9
chứa khuôn mặt ở những tư thế khác nhau. Đó là một trong những khó khăn,
thách thức của các bài toán nhận dạng mặt người.
Ngay từ khi còn nhỏ, con người đã có khả năng sử dụng sự định hướng
và chuyển động của đầu người để đưa ra những ý định và sử dụng nó như là
một hình thức phi ngôn ngữ trong các giao tiếp với người xung quanh một
cách dễ dàng. Tuy nhiên sự dễ dàng này lại gây ra những khó khăn thách thức
cho các hệ thống tính toán trong nhiều năm qua. Trong bối cảnh máy tính,
việc ước lượng đánh giá tư thế của đầu là quá trình suy luận có định hướng từ
các hình ảnh kỹ thuật số. Nó đòi hỏi một loạt các bước biến đổi ảnh gốc dựa
trên các điểm ảnh sang các khái niệm cao hơn theo các hướng khác nhau.
Giống như các bước trong quá trình xử lý nhận dạng các thành phần trên
khuôn mặt, phương pháp đánh giá tư thế đầu phải được chứng minh bất biến
với sự thay đổi của hàng loạt các yếu tố của bức ảnh. Những yếu tố này bao
gồm các hiện tượng vật lý như biến dạng máy ảnh, các phép chiếu hình học,
điều kiện ánh sáng thay đổi cũng như sự xuất hiện của các yếu tố, phụ kiện
như kính, mũ, ria mép, ….
Mặc dù thấy đó là những đặc điểm kỹ thuật rõ ràng nhưng việc đánh
giá tư thế đầu cũng có nhiều cách thể hiện khác nhau. Ở mức độ thấp, việc
đánh giá tư thế đầu áp dụng với các thuật toán xác định tư thế đầu theo vài
hướng riêng biệt như ngửa mặt về phía trước, quay trái, quay phải…. Ở mức
độ tốt hơn, việc đánh giá tư thế đầu phải trong mô hình 3D kết hợp với mức
độ tự do của các chuyển động của cơ trên khuôn mặt và hàm. Việc phát hiện
tư thế của đầu người có thể được thông qua việc phát hiện các đặc điểm trên
khuôn mặt và áp dụng một số công thức để tìm ra được tư thế đầu người
chuẩn xác nhất.
Việc phát hiện các đặc điểm trên khuôn mặt có thể thông qua một số
phương pháp như xác định dựa trên màu sắc các đặc điểm, dựa trên sự xuất
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
10
hiện của các điểm ảnh trên khuôn mặt hoặc dựa trên các thống kê, mẫu có
sẵn, bộ nhận dạng…. Mỗi phương pháp khi áp dụng đều có những ưu điểm và
nhược điểm riêng.
Trong luận văn này sẽ sử dụng phương pháp dựa trên các bộ nhận dạng
và tập dữ liệu được đào tạo trước để xác định đánh giá tư thế của đầu người
trong ảnh. Các bước xây dựng bộ nhận dạng, lựa chọn đặc trưng dữ liệu đầu
vào, tính toán xác định tư thế của đầu người sẽ được trình bày trong các
chương của luận văn.
Từ những phân tích trên, tôi đã lựa chọn đề tài "Nghiên cứu một số kỹ
thuật phát hiện hướng mặt người trong ảnh" là hướng nghiên cứu chính cho
luận văn của mình.
Ngoài phần mở đầu, kết luận, tài liệu tham khảo và phụ lục, luận văn
được tổ chức thành ba chương với bố cục như sau:
Chƣơng 1: Khái quát về xử lý ảnh và nhận dạng mặt ngƣời
Giớí thiệu khái quát bài toán phát hiện hướng mặt người trong ảnh.
Tình hình nghiên cứu trong và ngoài nước về lĩnh vực nhận dạng nói chung
trong đó nổi bật là nhận dạng khuôn mặt.
Chƣơng 2: Một số kỹ thuật phát hiện hƣớng mặt ngƣời trong ảnh
Thu thập và tiền xử lý dữ liệu hình ảnh phục vụ cho việc thử nghiệm.
Trình bày các giải pháp kỹ thuật, thuật toán nhằm xác định, phát hiện được
hướng mặt người trong ảnh.
Chƣơng 3: Chƣơng trình thử nghiệm
Xây dựng và cài đặt chương trình thử nghiệm, bao gồm mô tả bài toán,
tập dữ liệu thử nghiệm, thiết kế hệ thống, cài đặt thuật toán và đánh giá kết
quả thử nghiệm.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
11
CHƢƠNG I
KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ NHẬN DẠNG MẶT NGƢỜI
1.1. Khái quát về xử lý ảnh
1.1.1. Ảnh số
Ảnh số là kết quả của quá trình ghi lại hình ảnh của sự vật, hiện tượng và
được mã hóa thành tín hiệu số.
Ảnh số là một dạng tín hiệu hai chiều, biểu diễn sự quan hệ về độ sáng
giữa các điểm trong một mặt phẳng. Mỗi phần tử của ma trận ảnh biểu diễn
cho mức xám hay còn gọi là cường độ sáng cho điểm đó. Mỗi phần tử ảnh
thông thường được gọi là pixel. Mức xám của mỗi điểm ảnh được mã hóa và
dựa vào số bit mã hóa người ta phân loại ảnh số thành các dạng sau:
- Ảnh đen trắng: Sử dụng một bit để mã hóa. Nếu pixel nhận giá trị 0,
điểm đó có màu đen. Nếu pixel nhận giá trị 1, điểm đó có màu trắng.
- Ảnh xám: Sử dụng 8 bit để biểu diễn mức xám, giá trị của mỗi pixel
nhận giá trị nguyên từ 0 - 255. Với mức 0 biểu diễn cho mức cường độ tối
nhất và 255 biểu diễn cho mức cường độ sáng nhất.
- Ảnh màu: Cách biểu diễn tương tự như với ảnh xám, chỉ khác là mỗi
pixel được tổ hợp bởi các màu riêng biệt. Ví dụ hệ màu RGB (Red-GreenBlue), mỗi pixel được tổng hợp từ ba màu Red, Green và Blue. Mỗi màu được
biểu diễn bằng 8 bit và có dải từ 0-255. Các kênh màu thường được sử dụng:
RGB, YcbCr, HSV,…. Tùy vào việc ứng dụng để lựa chọn kênh màu phù
hợp. Giữa các kênh màu thường có các phép chuyển đổi.
Px = A x P’x
Trong đó:
Px: Không gian biểu diễn màu ban đầu
P’x: Không gian biểu diễn màu mới
A: Ma trận biểu diễn phép biến đổi
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
12
Nói tóm lại, ảnh số được xem như là một tập hợp các điểm ảnh. Điểm
ảnh được xem như là dấu hiệu hay cường độ sáng tại một tọa độ trong không
gian của đối tượng.
1.1.2. Biểu diễn ảnh số
Ảnh trên máy tính là kết quả thu nhận theo các phương pháp số hóa
được nhúng vào các thiết bị kỹ thuật khác nhau. Quá trình lưu trữ ảnh nhằm
hai mục đích:
- Tiết kiệm bộ nhớ.
- Giảm thời gian xử lý.
Việc lưu trữ thông tin trong bộ nhớ có ảnh hưởng rất lớn đến việc hiển
thị, in ấn và xử lý. Ảnh được xem như là một tập hợp các điểm với cùng kích
thước nếu sử dụng càng nhiều điểm ảnh thì bức ảnh càng đẹp, càng mịn, càng
thể hiện rõ hơn chi tiết của ảnh. Người ta gọi đặc điểm này là độ phân giải của
ảnh.
Việc lựa chọn độ phân giải thích hợp tùy thuộc vào nhu cầu sử dụng,
đặc trưng của mỗi ảnh cụ thể, trên cơ sở đó các ảnh thường được biểu diễn
theo các mô hình cơ bản. Đó là mô hình Raster và Vector.
1.1.2.1. Mô hình Raster
Đây là cách biểu diễn ảnh thông dụng nhất hiện nay, ảnh được biểu
diễn dưới dạng các ma trận điểm ảnh. Ảnh thường được thu nhận qua các
thiết bị như camera, scanner. Tùy theo yêu cầu thực tế mà mỗi điểm ảnh được
biểu diễn qua một hay nhiều bit.
Mô hình Raster thuận lợi cho hiển thị và in ấn. Ngày nay, công nghệ
phần cứng cung cấp những thiết bị thu nhận ảnh Raster phù hợp với tốc độ
nhanh và chất lượng cao cho cả đầu vào và đầu ra. Một thuận lợi cho việc
hiển thị trong môi trường Windows là Microsoft đưa ra khuôn dạng ảnh DIB
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
13
(Device Independent Bitmap) làm trung gian. Hình 1.1 thể hiện quy trình
chung để hiển thị ảnh Raster thông qua DIB.
Một trong những hướng nghiên cứu cơ bản trên mô hình biểu diễn này
là kỹ thuật nén ảnh. Các kỹ thuật nén ảnh lại chia theo hai khuynh hướng là
nén bảo toàn và không bảo toàn thông tin. Nén bảo toàn có khả năng phục hồi
hoàn toàn dữ liệu ban đầu còn nén không bảo toàn chỉ có khả năng phục hồi
với độ sai số cho phép nào đó. Theo cách tiếp cận này người ta đã đề ra nhiều
quy cách khác nhau như BMP, TIF, GIF, PCX….
Hiện nay trên thế giới có trên 50 khuôn dạng ảnh thông dụng bao gồm
cả trong đó các kỹ thuật nén có khả năng phục hồi dữ liệu 100% và nén có
khả năng phục hồi với độ sai số nhất định.
Paint
BMP
PCC
.
.
.
Cửa sổ
DIB
Thay đổi
Hình 1.1. Quá trình hiển thị, chỉnh sửa và lưu trữ ảnh thông qua DIB
1.1.2.2. Mô hình Vector
Biểu diễn ảnh ngoài mục đích tiết kiệm không gian lưu trữ, dễ dàng cho
hiển thị và in ấn còn phải đảm bảo dễ dàng trong lựa chọn sao chép, di
chuyển, tìm kiếm. Theo những yêu cầu này, kỹ thuật biểu diễn theo mô hình
vector tỏ ra ưu việt hơn.
Trong mô hình vector người ta sử dụng hướng giữa các vector của điểm
ảnh lân cận để mã hóa và tái tạo hình ảnh ban đầu. Ảnh vector được thu nhận
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
14
trực tiếp từ các thiết bị số hóa như Digital hoặc được chuyển đổi từ ảnh Raster
thông qua các chương trình số hóa.
Công nghệ phần cứng cung cấp những thiết bị xử lý với tốc độ nhanh
và chất lượng cho cả đầu vào và đầu ra nhưng lại chỉ hỗ trợ cho ảnh Raster.
Do vậy những nghiên cứu về biểu diễn vector đều tập trung từ chuyển
đổi ảnh từ ảnh Raster.
Vector
hóa
RASTER
VECTOR
Raster
hóa
RASTER
Hình 1.2. Sự chuyển đổi giữa các mô hình biểu diễn ảnh
1.1.3. Xử lý ảnh số
Ảnh số mang thông tin về hình ảnh đối tượng, biểu diễn thông tin đó
dưới dạng mức xám của điểm ảnh và mối quan hệ giữa các mức xám đó. Do
vậy, qua việc phân tích các mối quan hệ đó ta có thể xác định hoặc ước lượng
được thông tin về vật thể cần quan tâm. Tùy vào lĩnh vực và mục đích mà xử
lý ảnh số được áp dụng theo các mức độ khác nhau. Trong lĩnh vực đo lường
điều khiển, kết quả từ xử lý ảnh số (nhận dạng vật thể, ước lượng vật thể,…)
được sử dụng làm tín hiệu cho các cơ cấu điều khiển về sau.
Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng
vai trò quan trọng nhất. Những năm trở lại đây với sự phát triển của phần
cứng máy tính, xử lý ảnh và đồ họa phát triển một cách mạnh mẽ và có nhiều
ứng dụng trong cuộc sống. Xử lý ảnh và đồ họa đóng một vai trò quan trọng
trong tương tác người máy.
Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào
nhằm cho ra kết quả mong muốn. Kết quả đầu ra của một quá trình xử lý ảnh
có thể là một ảnh “tốt hơn” hoặc một kết luận.
Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như
là đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
15
đối tượng trong không gian và nó có thể xem như một hàm n biến P(c1, c2, …,
cn). Do đó, ảnh trong xử lý ảnh có thể xem như ảnh n chiều.
1.1.4. Thu thập ảnh số
Các thiết bị thu nhận ảnh có hai loại chính ứng với hai loại ảnh thông
dụng Raster và Vector.
Các thiết bị thu nhận ảnh thông thường Raster là camera. Các thiết bị thu
nhận ảnh thông thường Vector là sensor hoặc bàn số hóa Digitalizer hoặc
được chuyển đổi từ ảnh Raster.
Nhìn chung các hệ thống thu nhận ảnh thực hiện một quá trình.
+ Cảm biến: biến đổi năng lượng quang học thành năng lượng điện.
+ Tổng hợp năng lượng điện thành ảnh.
Bộ thu nhận ảnh số bao gồm thiết bị thu thập (Camera, Sensor,...) và
thiết bị thu nhận. Hiện nay, thông dụng trên thị trường là camera số. Camera
số là bộ thu thập tích hợp cả hai thiết bị trên, đầu ra là ảnh số với nhiều mức
độ phân giải có thể lựa chọn được. Bộ thu thập Webcam có các đặc điểm sau:
- Đầu vào: Hình ảnh thực.
- Đầu ra: Ảnh số có độ phân giải 480 x 680 pixel, 600 x 800 pixel.
- Truyền nhận theo chuẩn USB. Đây là chuẩn có tốc độ đảm bảo và
thông dụng trên thị trường hiện nay.
Tín hiệu vào của khối xử lý ảnh lấy ra từ camera. Để tận dụng phần cứng
sẵn có, chương trình thử nghiệm sử dụng máy tính xách tay được tích hợp
camera hoặc máy tính cá nhân với khả năng giao tiếp theo chuẩn USB.
1.1.5. Nắn chỉnh biến dạng ảnh số
Ảnh thu nhận thường bị biến dạng do các thiết bị quang học và điện tử.
Để khắc phục những biến dạng này người ta thường sử dụng các phép chiếu.
Các phép chiếu được xây dựng trên tập các điểm điều khiển.
Giả sử (Pi, Pi’) i=1…n có n các tập điều khiển
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
16
Tìm hàm f: Pi→f(Pi) sao cho:
n
f ( Pi ) Pi '
i 1
2
min
Giả sử ảnh bị biến đổi chỉ bao gồm: Tịch tiến, quay, tỷ lệ, biến dạng
bậc nhất tuyến tính. Khi đó hàm f có dạng:
f ( x, y) (a1 x b1 y c1 , a2 x b2 y c2 )
Ta có:
( f ( Pi ) Pi ' ) 2 (a1 xi b1 yi c1 xi' ) 2 (a2 xi b2 yi c2 yi' ) 2
n
n
i 1
i 1
Để cho → min
n
n
n
n
2
a
x
b
x
y
c
x
xi xi'
0
1 i
1 i i
1 i
i 1
i 1
i 1
a1
i 1
n
n
n
n
2
0 a1 xi yi b1 yi c1 yi yi xi'
i 1
i 1
i 1
b1
i 1
n
n
n
'
0
a1 xi b1 yi nc1 xi
i 1
i 1
i 1
c1
Giải hệ phương trình tuyến tính tìm được a1, b1, c1. Tương tự tìm được
a2, b2, c2. Do đó xác định được hàm f.
1.1.6. Nén ảnh
Nhằm giảm thiểu không gian lưu trữ. Nén ảnh được tiến hành theo hai
khuynh hướng là nén ảnh có bảo toàn không tin và không bảo toàn thông tin.
Nén không bảo toàn thông tin thường có khả năng nén cao hơn nhưng khả
năng phục hồi thì kém hơn. Trên cơ sở hai khuynh hướng, có bốn cách tiếp
cận cơ bản trong nén ảnh.
Nén ảnh thống kê: Kỹ thuật nén này dựa vào việc thống kê tần suất xuất
hiện của các giá trị điểm ảnh, trên cơ sở đó có chiến lược mã hóa thích hợp.
Một ví dụ điển hình cho kỹ thuật mã hóa này là các ảnh có định dạng *.TIF.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
17
Nén ảnh không gian: Kỹ thuật này dựa vào vị trí không gian của các điểm
ảnh để tiến hành mã hóa. Kỹ thuật lợi dụng sự giống nhau của các điểm ảnh
trong các vùng gần nhau. Ví dụ mã nén *.PCX
Nén ảnh sử dụng phép biến đổi: Đây là kỹ thuật tiếp cận theo hướng nén
không bảo toàn thông tin và do vậy kỹ thuật nén thường kém hiệu quả hơn.
Định dạng *.JPG chính là tiếp cận theo kỹ thuật nén này.
Nén ảnh Fractal: Sử dụng tính chất Fractal của các đối tượng ảnh thể hiện
sự lặp lại của các chi tiết. Kỹ thuật nén sẽ tính toán để chỉ cần lưu trữ phần
gốc của ảnh và quy luật sinh ra ảnh theo nguyên lý Fractal.
1.1.7. Trích chọn đặc điểm
Các đặc điểm của đối tượng được trích chọn tùy theo mục đích nhận
dạng trong quá trình xử lý ảnh.
Có thể nêu ra một số đặc điểm của ảnh như sau:
Đặc điểm không gian: Phân bố mức xám, phân bố xác suất, biên độ,
điểm uốn,….
Đặc điểm biến đổi: Các đặc điểm loại này được trích chọn bằng việc
thực hiện lọc vùng (Zonal Filtering). Các bộ lọc vùng được gọi là “mặt nạ đặc
điểm” (Feature Mask) thường là các khe hẹp với hình dạng khác nhau (chữ
nhật, tam giác, cung tròn,…).
Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đối tượng
và do vậy rất hữu ích trong việc trích chọn các thuộc tính bất biến được dùng
khi nhận dạng đối tượng. Các đặc điểm này có thể được trích chọn nhờ toán
tử Gradient, toán tử la bàn, toán tử Laplace, toán tử Zero Crossing,….
Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối
tượng ảnh chính xác, với tốc độ tính toán cao và dung lượng bộ nhớ lưu trữ
ảnh giảm xuống.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
18
1.1.8. Nhận dạng ảnh
Nhận dạng tự động (Automatic Recognition) mô tả đối tượng, nhận
dạng và phân nhóm các mẫu là những vấn đề quan trọng trong thị giác máy,
được ứng dụng trong nhiều ngành khoa học khác nhau. Tuy nhiên một câu hỏi
được đặt ra là: mẫu(Pattern) là gì? Watanabe - một trong những người đi đầu
lĩnh vực này đã định nghĩa “Ngược lại với hỗn loạn (Chaos), mẫu là một thực
thể (Entity) được xác định một cách ang áng (Veguely Defined) và có thể gán
cho nó một tên gọi nào đó”. Ví dụ mẫu có thể là ảnh của vân tay, ảnh của một
vật nào đó được chụp, một chữ viết, khuôn mặt người hoặc một ký hiệu tiếng
nói. Khi biết một mẫu nào đó, để nhận dạng mẫu đó có thể lựa chọn:
Nhận dạng có mẫu (Supervised Classification): chẳng hạn phân tích
tách biệt (Discrimiant Analysis) trong đó mẫu đầu vào được định danh như
một thành phần của một lớp đã xác định.
Nhận dạng không có mẫu (Unsupervised Classification hay Clustering)
trong đó các mẫu được gán vào các lớp khác nhau dựa trên một tiêu chuẩn
đồng dạng nào đó. Các lớp này cho đến thời điểm nhận dạng vẫn chưa biết
hay chưa được định danh.
Hệ thống nhận dạng tự động gồm ba khâu tương ứng với ba giai đoạn
chủ yếu sau:
- Thu nhận dữ liệu và tiền xử lý
- Biểu diễn dữ liệu
- Nhận dạng, ra quyết định
Bốn cách tiếp cận khác nhau trong lý thuyết nhận dạng là:
- Đối sánh mẫu dựa trên các đặc trưng được trích chọn
- Nhận dạng thống kê
- Đối sánh cấu trúc
- Nhận dạng dựa trên mạng nơ ron nhân tạo
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
- Xem thêm -