111Equation Chapter 1 Section 1BỘ QUỐC PHÒNG
HỌC VIỆN KỸ THUẬT QUÂN SỰ
NGUYỄN MẬU UYÊN
PHÂN ĐOẠN MỜ VÀ KHÔI PHỤC THÔNG TIN
TRONG ẢNH RGB-D
Chuyên ngành: Cơ sở toán học cho tin học
Code: 9 46 01 10
TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC
HÀ NỘI - 2019
CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
HỌC VIỆN KỸ THUẬT QUÂN SỰ - BỘ QUỐC PHÒNG
Người hướng dẫn khoa học: PGS. TS. Đào Thanh Tĩnh
Phản biện 1: PGS. TS. Ngô Quốc Tạo
Phản biện 2: PGS. TS. Nguyễn Xuân Huy
Phản biện 3: PGS. TS. Trần Thị Thanh Hải
Luận án được bảo vệ tại Hội đồng chấm luận án cấp Học viện theo quyết
định số 4484/QĐ-HV ngày 25 tháng 11 năm 2019 của Giám đốc Học viện
Kỹ thuật quân sự, họp tại Học viện Kỹ thuật quân sự vào hồi …. giờ
….ngày … tháng … năm …
Có thể tìm hiểu luận án tại:
- Thư viện Học viện Kỹ thuật quân sự
- Thư viện Quốc gia
Phần mở đầu
Công nghệ tích hợp "khả năng suy nghĩ và thực thi của
con người" cho máy móc đã đặt ra nhu cầu trang bị khả
năng nhìn cho các thiết bị. Bài toán phân đoạn ảnh xác định
đối tượng được đặt ra và có nhiều tiếp cận trong đó một
hướng tiếp cận có hiệu quả là sử dụng ảnh độ sâu, ảnh độ
sâu và ảnh màu (RGB-D). Một xu hướng tiếp cận thu nhận
ảnh RGB-D được quan tâm là sử dụng thiết bị hồng ngoại do
giá cả hợp lý và có chất lượng chấp nhận được. Nhiều cơ sở
dữ liệu ảnh RGB-D được công bố để phục vụ nghiên cứu như
Đại học Rzeszow [68], Đại học New York [106], Đại học
Washington [70], Đại học Viên (Wein) [76], Đại học
California vùng Berkeley [58] và một số khác được mô tả
trong các công bố [6], [8], [12], [40]. Do đặc tính giá rẻ nên
ảnh độ sâu thu nhận bằng camera hồng ngoại thường chứa
nhiều điểm mất thông tin vì thế một bài toán khác cũng
được quan tâm là khôi phục thông tin bị mất trong ảnh độ
sâu RGB-D.
Luận án đã đề xuất thuật toán phát hiện đối tượng trong
ảnh độ sâu gồm các bước: loại bỏ mặt phẳng nền của di
chuyển, phân cụm, phân đoạn và xác định đối tượng. Thử
nghiệm sơ bộ cho thấy, thuật toán này đã thỏa mãn việc
xác định đối tượng áp dụng trong các trường hợp hỗ trợ
thông tin cho việc di chuyển trong nhà có nền đơn giản.
Luận án cũng đã cải tiến thuật toán phân cụm trừ mờ loại
hai khoảng áp dụng cho bài toán phân cụm ảnh độ sâu
nhằm giảm khối lượng tính toán. Ngoài ra, trong luận án
phân tích các trường hợp mất thông tin của ảnh độ sâu
trong ảnh RGB-D thu nhận từ camera Kinect và các camera
có đặc tính tương tự. Từ kết quả phân tích, trong luận án đã
đề xuất thuật toán xấp xỉ mờ khôi phục giá trị điểm mất
thông tin trong ảnh độ sâu (Fuzzy depth reconstruction FDR). Trong trường hợp tỉ lệ mất thông tin lớn do đặc trưng
thiết bị và môi trường thu nhận, luận án đã đề xuất sử dụng
thuật toán gradient bước dài (accelerated proximal gradient
1
- APG) để khôi phục giá trị điểm mất thông tin nhằm tăng
tốc độ hội tụ, giảm số lượng bước lặp và tăng chất lượng
khôi phục so với thuật toán xấp xỉ gradient.
Kết quả nghiên cứu trình bày trong luận án được công
bố trong 02 bài báo tạp chí và 04 bài báo cáo hội thảo.
Chương 1: Phân đoạn ảnh RGB-D dựa trên phân cụm
1.1
Ảnh RGB-D và mô hình thu nhận
Ảnh RGB-D là tập hợp của một ảnh màu (RGB - màu đỏ
(R), màu xanh lá cây (G), màu xanh dương (B)) và một ảnh
thể hiện khoảng cách từ bề mặt đối tượng đến thiết bị thu
nhận (độ sâu - D). Trong đó, ảnh màu được thu nhận bằng
các camera sử dụng thấu kính quang học. Ảnh độ sâu được
thu nhận bằng các camera chuyên dụng. Các camera
camera RGB-D Microsoft Kinect, ASUS Xtion Pro, Intel Leap
Motion sử dụng mô hình hồng ngoại để xác định ảnh độ sâu.
Thông tin thu nhận từ camera Kinect bao gồm một ảnh màu
32 bit và một ảnh độ sâu 16 bit, với độ phân giải khác nhau
nhưng thường được sử dụng là 480 640 điểm ảnh. Giá trị độ
sâu tại mỗi điểm ảnh được lưu trữ bằng 16 bit nguyên, mỗi
đơn vị trong ảnh tương ứng với khoảng cách 1mm. Nhóm
nghiên cứu Khoshelham K. [65] đã khảo sát và cho thấy
rằng dữ liệu từ thông tin độ sâu của camera Kinect có độ
chính xác gần tương đương với dữ liệu từ máy chuyên dụng
sử dụng tia laser.
1.2
Phân cụm dữ liệu và phân đoạn ảnh RGB-D
Tiến hành phân cụm dữ liệu trên tập điểm X {xi } có
thể sử dụng thuật toán phân cụm FCM [10] nhưng điểm yếu
của thuật toán là phải xác định số lượng cụm đầu vào.
Thuật toán phân cụm Mountain clustering dựa trên việc xây
dựng một lưới dữ liệu xác định các điểm tâm cụm dự kiến.
Mật độ của các điểm gợi ý tâm cụm trên lưới được tính dựa
trên hàm Mountain function. Giá trị mật độ mỗi điểm v V
là Pv được xác định:
2
N
Pv
e
‖ v xi‖ 2
2 2
,
(1.8)
x
trong đó i là giá trị của điểm thứ i trong tập các giá trị cần
phân cụm X , N là số phần tử dữ liệu. Hằng số thể hiện
được mức độ mượt của hàm Mountain function. Mật độ dữ
liệu Pv tại điểm v chịu ảnh hưởng của tất cả các điểm xi
trong tập dữ liệu và dựa trên khoảng cách của nó đến điểm
v.
i 1
1.3
Logic mờ loại 2
Tập mờ (tập mờ loại 1) là mở rộng hàm thuộc của một
phần tử vào một tập hợp, thay vì các giá trị {0,1} thành
một giá trị thuộc [0,1] cho phép mô tả mới liên hệ giữa một
phần tử và một tập hợp tốt hơn. Cho X là một không gian dữ
liệu, khi đó một tập mờ A trong X là một tập các cặp có thứ
tự
A { A ( x) / x},
(1.12)
trong đó A ( x) là hàm thuộc (membership function) của x trong A. Dấu
gạch chéo "/" dùng để phân tách giữa giá trị thực của x và giá trị hàm
thuộc của nó A ( x) , và A ( x) [0,1] .
Hàm thuộc của một tập mờ loại 2 có thể hiểu như là giá trị mờ gán cho mỗi
giá trị độ thuộc của x X trong mờ loại 1. X được gọi là miền giá trị của
tập mờ loại 2. Về mặt hình thức có thể viết:
f x (u ) / u / x
, J xu ( x, u ) : u A ( x), A ( x ) [0,1],
A
X
( x)
A
/x
X
J xu
hay có thể biểu diễn tập mờ loại 2 dưới dạng:
A (( x, u )), A ( x, u ), x X , u J x [0,1] .
A ( x)
(1.21)
(1.22)
Sự không chắc chắn của hàm thuộc
đến tập A được ký hiệu là
FOU - footprint of uncertainty. Giá trị FOU được biểu diễn
3
FOU ( A ) xX J x . Cận trên và cận dưới của hàm thuộc (upper/lower
bounds of membership function - UMF/LMF) và được ký hiệu là A và
A
của A là hai hàm thuộc bậc 1 của biên FOU. Tập mờ loại hai khoảng
sẽ căn cứ vào độ thuộc cận trên A và cận dưới A để tính toán.
1.4
Phân đoạn ảnh và khôi phục thông tin trong
ảnh
Những nghiên cứu trên cho thấy sự liên quan giữa quá
trình phân đoạn ảnh độ sâu và khôi phục thông tin. Trong
quá trình phân đoạn ảnh độ sâu và phát hiện đối tượng vật
thể và các xử lý khác các điểm mất thông tin làm ảnh
hưởng đến quá trình và kết quả phân đoạn. Vì vậy quá trình
khôi phục thông tin có thể được thực hiện như là một bước
tiền xử lý dữ liệu cho quá trình phân đoạn ảnh độ sâu. Quá
trình khôi phục thông tin trong ảnh độ sâu liên quan đến
các vùng lân cận của điểm mất thông tin. Trong bài toán
khôi phục thông tin trong ảnh độ sâu cần xác định hai vấn
đề là: Các vùng dữ liệu liên quan đến điểm, vùng mất thông
tin; Sự liên quan (ảnh hưởng) của các vùng lên điểm, vùng
mất thông tin.
Các phân tích trên giúp cho tác giả xác định vấn đề
nghiên cứu là bài toán phân đoạn ảnh trong chương 2 và bài
toán khôi phục thông tin trong ảnh độ sâu ở chương 3. Kết
quả thử nghiệm ở chương 3 cho thấy sau khi khôi phục
thông tin bị mất trong ảnh độ sâu thì thuật toán xác định
đối tượng trong ảnh độ sâu có tỷ lệ chính xác cao hơn so với
khi chưa khôi phục thông tin.
Chương 2. Phân cụm mờ loại 2 khoảng và xác định đối
tượng trên ảnh RGB-D
2.1 Logic mờ và phân cụm
2.1.1 Phân cụm mờ trừ loại 2 khoảng
Phân cụm mờ loại hai đã được chứng minh có hiệu quả
trong mô tả thông tin không chắc chắn như trong công bố
4
[63] nhưng việc tính toán trực tiếp trên phân cụm mờ loại
hai tổng quát là khá phức và tạp khó thực hiện trong thực
tiễn. Phân cụm mờ loại hai khoảng vẫn giữ được khả năng
mô tả thông tin không chắc chắn nhưng tăng tốc độ tính
toán [75], [83] và [90].
Phân cụm mờ trừ được thực hiện trên các điểm dữ liệu xi :
2
n
Pxi
e
4
x j xi m 1
ra2
.
j 1
(2.3)
và sự thay đổi mật độ sau khi chọn tâm cụm ck theo công thức
2
Pxi Pxi Pck e
4
xi ck m 1
rb2
, xi X ‚ C.
(2.4)
2
ki e
4
2 xi ck m 1
ra
.
(2.5)
Phân cụm mờ trừ loại hai khoảng mở rộng các công thức (2.3) và (2.4)
thành:
2
4
n
2 x j xi m1 1
ra
Pxi e
j 1
,
2
4
n
2 x j xi m2 1
Pxi e ra
j 1
(2.6)
Px * m1 Pxi * m2
Pxi i
.
m1 m2
(2.7)
2
4
2 xi ck m1 1
rb
sub
*
Pxi ck Pk e
2
4
2 xi ck m2 1
.
Pxsub
Pk*e rb
i ck
sub
sub
sub
Pxi ck Pxi ck * m1 Pxi ck * m2 m1 m2
Pxi Pxi Pxsub
i ck
5
(2.8)
2.1.2 Phân cụm trừ mờ loại 2 khoảng cải tiến
Khảo sát dữ liệu đầu vào là ảnh độ sâu với lược đồ histogram cho thấy
nhiều giá trị trùng lặp nên việc tính toán sẽ lặp làm giảm hiệu quả tính toán,
có thể đưa ra cải tiến công thức tính toán để giảm khối lượng tính toán nâng
cao hiệu quả tính toán. Ngoài ra với bài toán xác định đối tượng, đo khoảng
cách hỗ trợ quá trình di chuyển với môi trường trong nhà có thể chấp nhận
sai số trong điều khiển đến centimet vì thế các giá trị có thể được tập hợp
thành nhóm khác nhau và sử dụng phần tử đại diện để tính toán. Hướng
N
tiếp cận này đã giảm số phần tử tính toán còn g là số lượng nhóm giá trị
trong ảnh.
x j1
x
Xét hai điểm
and j2 trong cùng một nhóm thứ j lúc đó
x j1 x j2 x j ,
công thức tính (2.5) trên một tâm cụm tại xi cho kết quả
xi x j xi x j
xi x j
1
2
2 , như vậy trong công thức (2.6) có thể thay
và xi x j1
P
thế tính toán các giá trị xi x j1 , xi x j1 , xi x j2 , xi x j2 cho xi có thể tính toán
2 * xi x j 2 * xi x j 2 * xi x j
2* xi x j 2 * xi x j 2 * xi x j
1
2
1
2 . Mở rộng ý
và
N | G j |
G
tưởng ta có j là tập hợp điểm trong nhóm thứ j , g j
là số phần
x
tử của nhóm, j là phần tử đại diện cho nhóm được tính bằng trung bình
w
của nhóm theo công thức (2.10), j là trọng số của nhóm được xác định
theo công thức (2.11):
1
xj
xk ,
N g j xk G j
(2.10)
w j N g j / N .
x
x
Trong trường hợp hai phần tử j1 và j2 cùng nhóm thì
Như vậy công thức (2.6) được viết lại:
6
(2.11)
x j x j x j x j 1.
1
2
1
2
2
4
m1 1
Ng
x
x
j
i
2
r
wi
Pxi w j e a
j 1
.
2
4
m 1
Ng
2 x j xi 2
P w e ra
wi
xi j 1 j
(2.12)
P
N
Lúc đó công thức tính cho xi được xác định trên tập g phần tử thay vì
N N g
trên N phần tử, và
.
G {G j }
Xét
là tập các nhóm phần tử cần được phân cụm, khoảng cách
d (Gi , G j )
giữa hai nhóm
được xây dựng dựa trên khoảng cách xa nhất của
phần tử hai nhóm theo công thức:
d (Gi , G j ) maxxGi , yG j d ( x, y ).
(2.13)
Thuật toán xác định các nhóm phân cụm G được xây dựng dựa trên ý
tưởng của phân cụm phân cấp [44] với khoảng cách tối đa trong
sau:
Thuật toán 2.2: Thuật toán xác định số nhóm ban đầu.
r
Đầu vào: Tập các giá trị X , tham số g .
Đầu ra: Tập các nhóm G .
Bước 1: G {Gi } với khởi tạo Gi xi .
d * (Gi , G j ) min{d (Gi , G j i )}
Bước 2:
.
*
d (Gi , G j ) rg
Bước 3: Nếu
chuyển đến bước 5.
G G {Gi , G j } Gij Gi G j G G Gij
Bước 4:
,
,
, lặp lại bước
2.
Bước 5: Trả về G .
7
rg
như
Thuật toán phân cụm trừ mờ loại hai khoảng sẽ được viết lại thành thuật
toán phân cụm trừ mờ loại 2 khoảng cải tiến (thuật toán 2.3 - AIT2FSC) để
N
giảm khối lượng tính toán từ N về g .
Thuật toán 2.3: Thuật toán phân cụm trừ mờ loại 2 khoảng
cải tiến - AIT2FSC.
Đầu vào: Tập các giá trị X .
Đầu ra: Tập tâm cụm dự kiến C .
r
Bước 1: Khởi tạo các giá trị, ra , với rb / ra , g , và ,
m1 và m2 1 m1 m2 , C .
Bước 2: Xác định các nhóm dựa trên thuật toán 2.2, tính toán số
N
nhóm g và trọng số của mỗi nhóm wi , tính toán mật độ của mỗi
nhóm bằng cách tính toán với hàm tham số mờ m1 và m2 sử dụng
công thức (2.12) và (2.7). Nhóm có mật độ lớn nhất sẽ được coi
n
Pck max Pxi
i 1
như là tâm cụm dự kiến tiếp theo:
với k 1 cho
P
trường hợp đầu tiên ck được xem là tâm cụm đầu tiên.
Bước 3: Thêm tâm cụm mới C C {ck } . Các giá trị về mật độ
sẽ được thay đổi bởi công thức (2.8).
Px * max Pxi
xi C
Bước 4: Tìm phần tử tiếp theo có mật độ lớn nhất i
.
Px Pc1
c xi*
nếu i*
thì k
là tâm cụm dự kiến tiếp theo bước 3.
Px * Pc1
x*
nếu i
thì i không được xem là tâm cụm, chuyển tiếp
đến bước 5.
d min là khoảng cách ngắn nhất từ xi* đến tâm cụm trước đó. nếu
d min Pxi*
1
ra
Pc1
thì
ck xi*
là tâm cụm, chuyển đến bước 3
8
ngược lại
Px * 0
, lặp đến bước 4.
C
Bước 5: Trả về .
Thuật toán Mountain clustering [117] sử dụng lưới để
chia không gian dữ liệu thành các điểm tâm cụm dự kiến,
như vậy trong trường hợp lưới bé thì số điểm trên lưới sẽ
tương ứng với các giá trị có thể có trong miền không gian
dữ liệu ( N D ). Như vậy, thuật toán Mountain clustering có số
i
điểm dữ liệu cần tính toán là N D Thuật toán AIT2FSC (thuật
toán 2.3) có số điểm dữ liệu cần tính là số lượng nhóm đầu
N
vào g . Như vậy, khối lượng tính toán của các thuật toán
phân cụm trừ mờ loại hai khoảng - IT2FSC [90], Mountain
clustering và AIT2FSC phụ thuộc tương ứng vào các giá trị
N , N D và N g . Các giá trị N , N D và N g quyết định khối
lượng tính toán của các thuật toán kể trên, các giá trị này
bé thể hiện khối lượng tính toán của các thuật toán bé. Vì
N
vậy việc so sánh các giá trị N , N D và g thể hiện so sánh
khối lượng tính toán của các thuật toán tương ứng với bộ dữ
liệu được xét.
Bảng 2.3: Thống kê số lượng phần tử trên dữ
liệu ảnh NYU
Ả
nh
S
ND
ố
ảnh
N
M
in
(
Ng
2
Đ
284
00
ộ sâu
M
2
284
M
ax
40
16
777216
3
07200 7
(
)
Ng
3
M
ean (
Ng
)
)
7
18
2
57
3
1
1
8
07200 1616
99990 1986
9
àu
N
Kết quả trong bảng 2.3 cho thấy trên ảnh độ sâu thì g
N / Ng
lớn nhất là 718 trung bình là 257, vậy tỉ lệ giảm D
(tỉ
lệ giảm AIT2FSC với thuật toán Mountain clustering) trong
N / Ng
trường hợp bé nhất là 5, trung bình 15, tỉ lệ
(tỉ lệ
giảm AIT2FSC so với thuật toán IT2FSC) tương ứng với
trường hợp bé nhất và trung bình là 427 và 1195. Trong
trường hợp ảnh màu số nhóm lớn nhất là 199990 và số
N / Ng
nhóm trung bình là 81986, tỉ lệ D
cho trường hợp bé
nhất và trung bình là 8.3 và 204, trong lúc tỉ lệ tương ứng
N / Ng
với
là 1.5 và 3.7. Như vậy thuật toán AIT2FSC có khối
lượng tính toán luôn bé hơn các thuật toán cùng so sánh và
đặc biệt có hiệu quả trong ảnh độ sâu.
2.2 Trích xuất đối tượng trong ảnh RGB-D
Một điểm trong không gian theo hệ trục gắn với camera Kinect có tọa
(
độ x, y, z ) khi thu nhận vào ảnh độ sâu sẽ được ghi nhận là ( j , i, d ) . Mối
liên hệ giữa ( x, y, z ) và ( j , i, d )
fx
fy
được mô tả bằng công thức:
cx x j
c y y i .
1 z d
(2.14)
Ký hiệu tập hợp các giá trị x tương ứng với tọa độ ( j , i ) trên
ảnh là I x , về hình thức có thể biểu diễn I x là tập hợp các
điểm ( j, i, x) , tập hợp các giá trị y tương ứng với tọa độ ( j , i )
I
I
là y , về hình thức có thể biểu diễn y là tập hợp các điểm
( j , i, y ) .
Ảnh độ sâu thu nhận được từ camera Kinect với môi trường trong
nhà sẽ chứa phần thông tin nền của mặt phẳng nền của di chuyển và đối
tượng. Ví dụ mặt phẳng nền căn phòng là bề mặt được người và robot sử
10
dụng để di chuyển trong phòng. Để ngắn gọn hơn sẽ gọi mặt phẳng nền căn
phòng dành cho người và robot di chuyển là "mặt phẳng nền của di
chuyển". Dựa trên thông tin về tọa độ không gian thực tế ( x, y, z ) của các
điểm ảnh trong ảnh I d các thuật toán được đề xuất sẽ xấp xỉ mặt phẳng nền
của di chuyển trong ảnh độ sâu.
Ký hiệu tập hợp điểm trên mặt phẳng nền của di chuyển là B , là
mô hình phẳng được xác định từ các điểm thấp nhất trong mô hình không
gian ba chiều được đã được ghi nhận trong ảnh độ sâu I d . Ký hiệu Li là
đường thẳng xấp xỉ của các điểm thấp nhất trên cột thứ i sau khi chiếu lên
d ( p ji , Li )
mặt phẳng Oyz. Ký hiệu
là khoảng Euclid cách từ hình chiếu của
pij
lên mặt phẳng Oyz và đường thẳng Li trên mặt phẳng Oyz. Một điểm
pij
trên ảnh trên cột thứ i của I d được xem là thuộc mặt phẳng nền của di
d ( p ji , Li )
chuyển B , nếu khoảng
bé hơn giá trị ngưỡng h xác định
trước. Mặt phẳng B được định nghĩa theo công thức sau:
B { p ji : p ji I d d ( p ji , Li ) h }.
(2.18)
Thuật toán 2.4: Loại bỏ mặt phẳng nền của di chuyển.
Đầu vào: Ảnh độ sâu I d .
Đầu ra: Ảnh độ sâu I d đã loại bỏ mặt phẳng nền của di chuyển.
Bước 1: Khởi tạo ngưỡng h . Tính toán các tọa độ ( x, y, z ) của
các điểm trong I d .
Bước 2: Xác định mặt phẳng B dựa trên 10 điểm thấp nhất cho mỗi
cột B theo công thức (2.18).
Bước 3: Trên mỗi cột i , xác định Li theo xấp xỉ 10 điểm thấp nhất.
p ji
Li
Bước 4: Kiểm tra các
, nếu khoảng cách tối thiểu
d ( p ji , Li ) h
p
L Li { p ji }
thêm j ,i vào Li , i
.
Bước 5: Lặp đến bước 3 đến hết cột.
11
Bước 6: Cập nhật B là hợp các Li .
Bước 7: Loại bỏ các phần tử trong mặt phẳng B .
Từ thông tin này sẽ tập hợp các điểm ảnh trên ảnh độ sâu I d để xác định
các giá trị trên một đối tượng. Từ các giá trị này sẽ đánh giá các đối tượng
lân cận nhau có thể kết hợp thành một đối tượng lớn hơn phụ thuộc vào
ngưỡng s . Đề xuất này được chi tiết trong thuật toán 2.5 được công bố
trong các công trình [A1] và [A3].
Thuật toán 2.5: Xác định đối tượng - ODBC.
Đầu vào: Ảnh độ sâu I d .
Đầu ra: Tập các đối tượng trong ảnh.
Bước 1: Xấp xỉ giá trị mất thông tin bằng lọc trung vị mặt nạ 5 5
trên I d .
Bước 2: Loại bỏ mặt phẳng nền của di chuyển trong I d dựa vào
thuật toán 2.4.
Bước 3: Thực hiện thuật toán phân cụm trừ mờ loại hai cải tiến
2.3 trên ảnh độ sâu I d .
Bước 4: Chọn một cụm chưa xét, nếu không còn cụm nào chưa
tính chuyển đến bước 12.
Bước 5: Chọn một điểm trên cụm, nếu không còn điểm chưa tính
chuyển đến bước 4.
Bước 6: Thực hiện thuật toán đổ tràn để xác định các điểm trong
vùng là một đối tượng dự kiến, chuyển đến bước 5.
Bước 7: Chọn một đối tượng trong danh sách dự kiến, nếu hết
chuyển đến bước 11.
Bước 8: Tìm các đối tượng còn lại, nếu hết chuyển đến bước 7.
Bước 9: Nếu khoảng cách giữa hai đối tượng là bé hơn s tiến
hành ghép nối các đối tượng thành một đối tượng.
Bước 10: Lặp đến bước 8.
Bước 11: Loại bỏ các đối tượng trong danh sách dự kiến có số
lượng bé hơn Cmin , tính trung bình giá trị khoảng cách trong các
12
đối tượng.
Bước 12: Trả về tập các đối tượng.
Các tham số thử nghiệm thuật toán loại bỏ mặt phẳng nền của di chuyển
(bước 2) là h 20 , Cmin 500 , s 25 , tham số thử nghiệm thuật toán
r 0
phân cụm trừ mờ loại hai cải tiến (bước 3) ra 0.04 , rb 0.06 , g
,
0.01
m
1.5
m
2.6
0.5 ,
, 1
, 2
.
2.3 Ứng dụng tính khoảng cách đến các đối tượng
Khoảng cách đến các đối tượng được tính bằng khoảng cách trung
bình từ camera đến các điểm trên bề mặt của đối tượng. Thực nghiệm thuật
toán 2.5 trên bộ dữ liệu do tác giả xây dựng được trong khung cảnh phòng
thí nghiệm để phát hiện các đối tượng trong ảnh độ sâu. Dữ liệu bao gồm
15 bộ ảnh RGB-D (15 bước) chụp khung cảnh phòng với mỗi bước tiến về
phía các đối tượng 50mm - mô phỏng quá trình di chuyển trong phòng. Các
khoảng cách đến điểm gần nhất của đối tượng trong ảnh được đo lại để xác
định làm căn cứ so sánh với các kết quả tính toán được từ các ảnh độ sâu.
Hình 2.13 thể hiện được khoảng cách thật với khoảng cách tính toán dựa
trên 04 đối tượng được xác định trên ảnh độ sâu.
Hình 2.13: So sánh khoảng cách thật và khoảng cách tính toán
trên ảnh.
Kết quả trên 4 đối tượng cho thấy, sai số lớn nhất là 124mm và độ lệch
chuẩn là 61mm, tương ứng với tỉ lệ 6.5% và 2.9% so với khoảng cách. Nếu
13
không tính đến đối tượng 4 là vật trụ (tính khoảng cách trung bình với
khoảng cách điểm gần nhất có sai số lớn), thì trong 3 đối tượng còn lại thì
sai số lớn nhất và độ lệch chuẩn là 90mm và 40.8mm, tương ứng tỉ lệ 3.7%
và 1.9%. Với sai số này có thể chấp nhận được trong bài toán hỗ trợ di
chuyển với môi trường trong nhà.
Trong chương này luận án đã đề xuất các bước phát hiện đối tượng
trong ảnh độ sâu của camera Kinect thu nhận với môi trường trong nhà. Kết
quả các bước phát hiện đối tượng được đề xuất chi tiết trong thuật toán
ODBC (thuật toán 2.5). Kết quả khác là đề xuất cải tiến giảm số lượng
phần tử tính toán cho thuật toán IT2FSC được trình bày trong thuật toán
AIT2FSC (thuật toán 2.3).
Chương 3. Khôi phục thông tin trong ảnh RGB-D
Ảnh độ sâu thu nhận từ camera Kinect có nhiều điểm
mất thông tin và tập hợp thành các vùng liên thông, thông
thường các điểm mất thông tin sẽ được gán giá trị 0. Vùng
mất thông tin gây ảnh hưởng kết quả xử lý trên ảnh độ sâu
như phân đoạn, xác định đối tượng. Theo Zhang Y. [128] ở
môi trường trong nhà tỷ lệ mất thông tin lên đến 50% số
điểm ảnh. Thống kê trên các cơ sở dữ liệu cung cấp bởi Đại
học California vùng Berkley và Đại học New York tỉ lệ mất
thông tin cũng lần lượt là 29.4% ( 90361 / (480 640) ) và 26.6% (
81837 / (480 640) ). Vì vậy, việc nghiên cứu các phương pháp
để khôi phục giá trị độ sâu điểm mất thông tin trong ảnh độ
sâu có ý nghĩa hết sức quan trọng.
3.1 Khôi phục thông tin trong ảnh độ sâu
Nguyen C. V. trong nghiên cứu [91] đã chỉ ra hai
trường trường hợp mất thông tin của ảnh độ sâu là góc tới
lớn và vùng rìa của các đối tượng. Zhang Y. trong nghiên
cứu [128] chỉ ra trong trường hợp bề mặt quá bóng, sáng,
quá hẹp, quá gần hoặc quá xa đều nảy sinh ra vấn đề mất
thông tin.
Như vậy lý do gây mất thông tin đặc trưng có thể chia thành
các trường hợp sau:
14
- Trường hợp 1: Nhiễu do quá trình thu nhận tín hiệu. Đây là
trường hợp xảy ra do quá trình gửi nhận tín hiệu của thiết bị
hoặc các đặc trưng của môi trường thu nhận. Ví dụ trong
trường hợp lỗi thiết bị hoặc ánh sáng môi trường quá sáng
hoặc quá tối làm ảnh hưởng đến quá trình thu nhận. Phân
bố nhiễu trong trường hợp này là ngẫu nhiên trên toàn bộ
không gian ảnh.
- Trường hợp 2: Tín hiệu không nhận được do góc tới lớn làm
cho tia hồng ngoại phản xạ không quay về camera thu
nhận. Các điểm mất thông tin tạo thành vùng lớn, liên quan
đến các bề mặt lân cận của cùng vật thể.
- Trường hợp 3: Tín hiệu không nhận được do vật liệu tại khu
vực đó không phản xạ lại tín hiệu hồng ngoại. Với loại này
thông thường tạo thành vùng lớn liên quan đến vùng của
vật hấp thu tín hiệu.
3.2 Mô hình mờ khôi phục thông tin
Xét điểm ảnh có tọa độ ( x, y ) , 8 lân cận có tọa độ là
( x i, y j ) trong đó i, j { 1,0,1} với trường hợp i và j không
đồng thời bằng không.
Hình 3.6: Mô hình lân cận 8
Trong hình 3.6 điểm có ký hiệu (B) là điểm mất thông
tin có tọa độ ( x, y ) , các điểm có ký hiệu B là điểm mất thông
tin, các điểm có ký hiệu từ 1 đến 8 là điểm có thông tin.
Như vậy, lân cận của điểm mất thông tin (B) có thể là một
điểm mất thông B. Mở rộng khái niệm 8 điểm lân cận thành
8 điểm lân cận theo hướng là 8 điểm có thông tin đầu tiên
15
trên 8 hướng được xét từ điểm (B). Ký hiệu N8 ( x, y ) là tập
hợp 8 điểm lân cận theo hướng của điểm cần xét ( x, y ) ,
N8 ( x, y ) được định nghĩa là 8 điểm theo 8 hướng đầu tiên có
thông tin chiều sâu tính từ điểm ( x, y ) . Ký hiệu Ai , i {1,...,8} là
đại diện cho vùng lân cận thứ i của điểm ảnh có tọa độ ( x, y ) mất thông
tin độ sâu. Vùng Ai được xây dựng là tập m điểm theo hướng i và có
thông tin trong ảnh độ sâu (như đã đề cập ở trên m 4 ). Như vậy Ai bao
(x , y )
gồm các điểm được ký hiệu i j i j với j nhận giá trị từ 1 đến m . Ký
(x , y )
hiệu Ai Ai là tọa độ điểm ảnh gần với ( x, y ) nhất trong vùng Ai , trong
( x , y ) N8 ( x, y )
trường hợp này Ai Ai
. Ký hiệu I R , I G và I B tương ứng với
các thành phần đỏ, xanh lá cây, xanh dương của ảnh màu. Với mỗi vùng
trên ảnh thành phần hoặc ảnh độ sâu có thể coi như là một bề mặt thể hiện
theo giá trị trong ảnh đó. Trong một vùng nhỏ có thể xấp xỉ bề mặt đó là
(x , y )
một mặt phẳng. Với các điểm có tọa độ i j i j trong vùng Ai tương ứng
l l
l
với các ảnh I R , I G , I B và I d có thể xấp xỉ các đường thẳng Ri , Gi , Bi
l
và di theo phương pháp bình phương tối thiểu. Các giá yếu tố có thể ảnh
đến độ thuộc của một điểm ( x, y ) đến vùng Ai là:
(x , y )
- Khoảng cách từ điểm ( x, y ) đến Ai Ai .
- Mức độ gần về màu sắc giữa điểm ( x, y ) và vùng Ai trong ảnh màu.
l
- Góc tới của tia hồng ngoại với đường xấp xỉ độ sâu di của vùng Ai .
%Xu hướng về sự tăng độ sâu từ khu tập Ai đến điểm mất thông tin. Nếu
xấp xỉ tập Ai như một đường thẳng thì xu hướng tăng độ sâu thể hiện nếu
như điểm cần xét thuộc đường thẳng này thì độ sâu của điểm cần xét sẽ
(x , y )
tăng hay giảm so với điểm Ai Ai .
16
- Mức độ gần màu sắc của ảnh màu tại điểm mất thông tin ( x, y ) với màu
bị hấp thu của tia hồng ngoại.
Giá trị của hàm thuộc i ( x, y ) phụ thuộc vào các yếu tố ở trên, vì thế cần
xây dựng các hàm thuộc thành phần thể hiện các yếu tố ở trên để từ đó tổ
hợp giá trị i ( x, y ) . Sau đây là các hàm thuộc thành phần:
( x, y)
- Độ đo di
thể hiện khoảng cách từ điểm ( x, y ) đến vùng Ai , được
định nghĩa như sau:
1
1
di ( x, y )
,
ˆ
ˆ
d ( Ai ,( x, y )) k 1,8 d ( Ak ,( x, y ))
(3.10)
ˆ
trong đó d ( Ai ,( x, y )) là khoảng cách từ điểm ( x, y ) đến điểm
2
2
( x Ai , y Ai ) dˆ ( Ai ,( x, y )) ( x x A1 ) ( y y A1 )
,
.
( x, y )
- Độ đo ci
thể hiện mức độ gần trong màu sắc của ảnh
(
x
màu tại điểm , y ) với màu sắc của vùng Ai . Mức độ gần
màu dựa trên khoảng cách các thành phần màu sắc tại
điểm ( x, y ) trong ảnh màu và xấp xỉ đường thể hiện xu
hướng màu của vùng Ai . Tại điểm ( x, y ) trên ảnh màu có
các giá trị màu tương ứng với các thành phần đỏ, xanh lá và
xanh lục là vR , vG và vB . Về mặt hình thức có thể xem rằng
có các điểm ( x, y, vR ) , ( x, y, vG ) và ( x, y, vB ) tương ứng với
không gian màu. Từ các điểm ( x, y, vR ) , ( x, y, vG ) và ( x, y , vB )
l
l
l
đến các đường thẳng tương ứng Ri , Gi và Bi sẽ xác định
khoảng cách theo khoảng cách Euclid và được ký hiệu
( x, y ) Gi ( x, y )
( x, y )
tương ứng là Ri
,
và Bi
. Ký hiệu i ( x, y)
thể hiện khoảng cách màu từ điểm ( x, y ) đến vùng Ai và
được tính theo công thức:
17
i ( x, y ) Ri ( x, y ) 2 Gi ( x, y )2 Bi ( x, y )2 .
Giá trị
ci ( x, y )
(3.11)
được định nghĩa:
ci ( x, y ) 1 i ( x, y )
k ( x,
y ).
(3.12)
k 1,8
dei ( x, y )
thể hiện xu hướng bề mặt từ vùng Ai đến điểm ( x, y ) .
l
Gọi i ( x, y ) là góc giữa đường thẳng di và mặt phẳng thu nhận ảnh
x y 0 . Giá trị dei ( x, y ) được xác định:
- Độ đo
dei ( x, y ) i ( x, y)
j ( x,
y).
j 1,8
(3.13)
(
x
,
y
)
(
- Độ đo m
thể hiện sự mức độ gần của màu sắc điểm x, y ) với màu
đen (màu hấp thu tín hiệu hồng ngoại). Gọi vR , vG , vB là các giá trị màu
tương ứng các thành phần màu của điểm ảnh ( x, y ) trong ảnh màu. LD là
giá trị lớn nhất trong miền dữ liệu màu - trong ảnh màu RGB thì LD 255 .
Giá trị m ( x, y ) được tính theo công thức:
m ( x, y ) 1
(vR2 vG2 vB2 ) ( 3 LD ).
(3.14)
Từ những phân tích trên về sự ảnh hưởng của các vùng lân cận đến đến
điểm mất thông tin, các bước để xác định xấp xỉ giá trị độ sâu tại điểm mất
thông tin ( x, y ) được thực hiện theo các bước sau. Thực hiện xác định các
Ai ,i{1,8}
của điểm mất thông tin ( x, y ) . Theo mỗi vùng Ai ,
l
theo xu hướng của đường di thì tại điểm có tọa độ ( x, y ) sẽ có giá trị độ
vùng lân cận
sâu là
d Ai
. Có thể phát biểu lại
d Ai
là giá trị đề xuất độ sâu tại điểm ( x, y )
theo vùng Ai . Tính toán các độ thuộc của vùng Ai và điểm mất thông tin
di ( x, y ) ci ( x, y ) dei ( x, y )
,
,
, m ( x, y ) và mức độ gần của màu điểm
( x, y ) với màu đen c ( x, y ) theo các công thức (3.10), (3.12), (3.13) và
(3.14). Nếu điểm mất thông tin gần với màu đen thì giá trị độ sâu tại điểm
18
- Xem thêm -