Tài liệu Phân đoạn mờ và khôi phục thông tin trong ảnh rgb d (tt)

.DOCX

sharebook Báo vi phạm

Tải xuống 80

Mô tả:

111Equation Chapter 1 Section 1BỘ QUỐC PHÒNG HỌC VIỆN KỸ THUẬT QUÂN SỰ NGUYỄN MẬU UYÊN PHÂN ĐOẠN MỜ VÀ KHÔI PHỤC THÔNG TIN TRONG ẢNH RGB-D Chuyên ngành: Cơ sở toán học cho tin học Code: 9 46 01 10 TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC HÀ NỘI - 2019 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI HỌC VIỆN KỸ THUẬT QUÂN SỰ - BỘ QUỐC PHÒNG Người hướng dẫn khoa học: PGS. TS. Đào Thanh Tĩnh Phản biện 1: PGS. TS. Ngô Quốc Tạo Phản biện 2: PGS. TS. Nguyễn Xuân Huy Phản biện 3: PGS. TS. Trần Thị Thanh Hải Luận án được bảo vệ tại Hội đồng chấm luận án cấp Học viện theo quyết định số 4484/QĐ-HV ngày 25 tháng 11 năm 2019 của Giám đốc Học viện Kỹ thuật quân sự, họp tại Học viện Kỹ thuật quân sự vào hồi …. giờ ….ngày … tháng … năm … Có thể tìm hiểu luận án tại: - Thư viện Học viện Kỹ thuật quân sự - Thư viện Quốc gia Phần mở đầu Công nghệ tích hợp "khả năng suy nghĩ và thực thi của con người" cho máy móc đã đặt ra nhu cầu trang bị khả năng nhìn cho các thiết bị. Bài toán phân đoạn ảnh xác định đối tượng được đặt ra và có nhiều tiếp cận trong đó một hướng tiếp cận có hiệu quả là sử dụng ảnh độ sâu, ảnh độ sâu và ảnh màu (RGB-D). Một xu hướng tiếp cận thu nhận ảnh RGB-D được quan tâm là sử dụng thiết bị hồng ngoại do giá cả hợp lý và có chất lượng chấp nhận được. Nhiều cơ sở dữ liệu ảnh RGB-D được công bố để phục vụ nghiên cứu như Đại học Rzeszow [68], Đại học New York [106], Đại học Washington [70], Đại học Viên (Wein) [76], Đại học California vùng Berkeley [58] và một số khác được mô tả trong các công bố [6], [8], [12], [40]. Do đặc tính giá rẻ nên ảnh độ sâu thu nhận bằng camera hồng ngoại thường chứa nhiều điểm mất thông tin vì thế một bài toán khác cũng được quan tâm là khôi phục thông tin bị mất trong ảnh độ sâu RGB-D. Luận án đã đề xuất thuật toán phát hiện đối tượng trong ảnh độ sâu gồm các bước: loại bỏ mặt phẳng nền của di chuyển, phân cụm, phân đoạn và xác định đối tượng. Thử nghiệm sơ bộ cho thấy, thuật toán này đã thỏa mãn việc xác định đối tượng áp dụng trong các trường hợp hỗ trợ thông tin cho việc di chuyển trong nhà có nền đơn giản. Luận án cũng đã cải tiến thuật toán phân cụm trừ mờ loại hai khoảng áp dụng cho bài toán phân cụm ảnh độ sâu nhằm giảm khối lượng tính toán. Ngoài ra, trong luận án phân tích các trường hợp mất thông tin của ảnh độ sâu trong ảnh RGB-D thu nhận từ camera Kinect và các camera có đặc tính tương tự. Từ kết quả phân tích, trong luận án đã đề xuất thuật toán xấp xỉ mờ khôi phục giá trị điểm mất thông tin trong ảnh độ sâu (Fuzzy depth reconstruction FDR). Trong trường hợp tỉ lệ mất thông tin lớn do đặc trưng thiết bị và môi trường thu nhận, luận án đã đề xuất sử dụng thuật toán gradient bước dài (accelerated proximal gradient 1 - APG) để khôi phục giá trị điểm mất thông tin nhằm tăng tốc độ hội tụ, giảm số lượng bước lặp và tăng chất lượng khôi phục so với thuật toán xấp xỉ gradient. Kết quả nghiên cứu trình bày trong luận án được công bố trong 02 bài báo tạp chí và 04 bài báo cáo hội thảo. Chương 1: Phân đoạn ảnh RGB-D dựa trên phân cụm 1.1 Ảnh RGB-D và mô hình thu nhận Ảnh RGB-D là tập hợp của một ảnh màu (RGB - màu đỏ (R), màu xanh lá cây (G), màu xanh dương (B)) và một ảnh thể hiện khoảng cách từ bề mặt đối tượng đến thiết bị thu nhận (độ sâu - D). Trong đó, ảnh màu được thu nhận bằng các camera sử dụng thấu kính quang học. Ảnh độ sâu được thu nhận bằng các camera chuyên dụng. Các camera camera RGB-D Microsoft Kinect, ASUS Xtion Pro, Intel Leap Motion sử dụng mô hình hồng ngoại để xác định ảnh độ sâu. Thông tin thu nhận từ camera Kinect bao gồm một ảnh màu 32 bit và một ảnh độ sâu 16 bit, với độ phân giải khác nhau nhưng thường được sử dụng là 480 640 điểm ảnh. Giá trị độ sâu tại mỗi điểm ảnh được lưu trữ bằng 16 bit nguyên, mỗi đơn vị trong ảnh tương ứng với khoảng cách 1mm. Nhóm nghiên cứu Khoshelham K. [65] đã khảo sát và cho thấy rằng dữ liệu từ thông tin độ sâu của camera Kinect có độ chính xác gần tương đương với dữ liệu từ máy chuyên dụng sử dụng tia laser. 1.2 Phân cụm dữ liệu và phân đoạn ảnh RGB-D Tiến hành phân cụm dữ liệu trên tập điểm X {xi } có thể sử dụng thuật toán phân cụm FCM [10] nhưng điểm yếu của thuật toán là phải xác định số lượng cụm đầu vào. Thuật toán phân cụm Mountain clustering dựa trên việc xây dựng một lưới dữ liệu xác định các điểm tâm cụm dự kiến. Mật độ của các điểm gợi ý tâm cụm trên lưới được tính dựa trên hàm Mountain function. Giá trị mật độ mỗi điểm v  V là Pv được xác định: 2 N Pv  e  ‖ v  xi‖ 2 2 2 , (1.8) x trong đó i là giá trị của điểm thứ i trong tập các giá trị cần phân cụm X , N là số phần tử dữ liệu. Hằng số  thể hiện được mức độ mượt của hàm Mountain function. Mật độ dữ liệu Pv tại điểm v chịu ảnh hưởng của tất cả các điểm xi trong tập dữ liệu và dựa trên khoảng cách của nó đến điểm v. i 1 1.3 Logic mờ loại 2 Tập mờ (tập mờ loại 1) là mở rộng hàm thuộc của một phần tử vào một tập hợp, thay vì các giá trị {0,1} thành một giá trị thuộc [0,1] cho phép mô tả mới liên hệ giữa một phần tử và một tập hợp tốt hơn. Cho X là một không gian dữ liệu, khi đó một tập mờ A trong X là một tập các cặp có thứ tự A { A ( x) / x}, (1.12) trong đó  A ( x) là hàm thuộc (membership function) của x trong A. Dấu gạch chéo "/" dùng để phân tách giữa giá trị thực của x và giá trị hàm thuộc của nó  A ( x) , và  A ( x)  [0,1] . Hàm thuộc của một tập mờ loại 2 có thể hiểu như là giá trị mờ gán cho mỗi giá trị độ thuộc của x  X trong mờ loại 1. X được gọi là miền giá trị của tập mờ loại 2. Về mặt hình thức có thể viết: f x (u ) / u  / x  , J xu  ( x, u ) : u    A ( x),  A ( x )   [0,1], A   X  ( x) A /x     X J xu  hay có thể biểu diễn tập mờ loại 2 dưới dạng: A  (( x, u )),  A ( x, u ), x  X , u  J x  [0,1] .  A ( x) (1.21) (1.22) Sự không chắc chắn của hàm thuộc đến tập A được ký hiệu là FOU - footprint of uncertainty. Giá trị FOU được biểu diễn 3 FOU ( A ) xX J x . Cận trên và cận dưới của hàm thuộc (upper/lower  bounds of membership function - UMF/LMF) và được ký hiệu là A và  A của A là hai hàm thuộc bậc 1 của biên FOU. Tập mờ loại hai khoảng   sẽ căn cứ vào độ thuộc cận trên A và cận dưới A để tính toán. 1.4 Phân đoạn ảnh và khôi phục thông tin trong ảnh Những nghiên cứu trên cho thấy sự liên quan giữa quá trình phân đoạn ảnh độ sâu và khôi phục thông tin. Trong quá trình phân đoạn ảnh độ sâu và phát hiện đối tượng vật thể và các xử lý khác các điểm mất thông tin làm ảnh hưởng đến quá trình và kết quả phân đoạn. Vì vậy quá trình khôi phục thông tin có thể được thực hiện như là một bước tiền xử lý dữ liệu cho quá trình phân đoạn ảnh độ sâu. Quá trình khôi phục thông tin trong ảnh độ sâu liên quan đến các vùng lân cận của điểm mất thông tin. Trong bài toán khôi phục thông tin trong ảnh độ sâu cần xác định hai vấn đề là: Các vùng dữ liệu liên quan đến điểm, vùng mất thông tin; Sự liên quan (ảnh hưởng) của các vùng lên điểm, vùng mất thông tin. Các phân tích trên giúp cho tác giả xác định vấn đề nghiên cứu là bài toán phân đoạn ảnh trong chương 2 và bài toán khôi phục thông tin trong ảnh độ sâu ở chương 3. Kết quả thử nghiệm ở chương 3 cho thấy sau khi khôi phục thông tin bị mất trong ảnh độ sâu thì thuật toán xác định đối tượng trong ảnh độ sâu có tỷ lệ chính xác cao hơn so với khi chưa khôi phục thông tin. Chương 2. Phân cụm mờ loại 2 khoảng và xác định đối tượng trên ảnh RGB-D 2.1 Logic mờ và phân cụm 2.1.1 Phân cụm mờ trừ loại 2 khoảng Phân cụm mờ loại hai đã được chứng minh có hiệu quả trong mô tả thông tin không chắc chắn như trong công bố 4 [63] nhưng việc tính toán trực tiếp trên phân cụm mờ loại hai tổng quát là khá phức và tạp khó thực hiện trong thực tiễn. Phân cụm mờ loại hai khoảng vẫn giữ được khả năng mô tả thông tin không chắc chắn nhưng tăng tốc độ tính toán [75], [83] và [90]. Phân cụm mờ trừ được thực hiện trên các điểm dữ liệu xi : 2 n Pxi  e  4 x j  xi m 1 ra2 . j 1 (2.3) và sự thay đổi mật độ sau khi chọn tâm cụm ck theo công thức 2 Pxi Pxi  Pck e  4 xi  ck m 1 rb2 , xi  X ‚ C. (2.4) 2 ki e 4  2 xi  ck m 1 ra . (2.5) Phân cụm mờ trừ loại hai khoảng mở rộng các công thức (2.3) và (2.4) thành: 2  4 n  2 x j  xi m1 1  ra  Pxi  e j 1 , 2  4 n  2 x j  xi m2  1   Pxi  e ra  j 1 (2.6) Px * m1  Pxi * m2 Pxi  i . m1  m2 (2.7)   2 4   2 xi  ck m1 1 rb sub *  Pxi ck Pk e  2 4  2 xi  ck m2  1  .  Pxsub Pk*e rb i ck  sub sub sub  Pxi ck Pxi ck * m1  Pxi ck * m2 m1  m2  Pxi Pxi  Pxsub i ck  5 (2.8) 2.1.2 Phân cụm trừ mờ loại 2 khoảng cải tiến Khảo sát dữ liệu đầu vào là ảnh độ sâu với lược đồ histogram cho thấy nhiều giá trị trùng lặp nên việc tính toán sẽ lặp làm giảm hiệu quả tính toán, có thể đưa ra cải tiến công thức tính toán để giảm khối lượng tính toán nâng cao hiệu quả tính toán. Ngoài ra với bài toán xác định đối tượng, đo khoảng cách hỗ trợ quá trình di chuyển với môi trường trong nhà có thể chấp nhận sai số trong điều khiển đến centimet vì thế các giá trị có thể được tập hợp thành nhóm khác nhau và sử dụng phần tử đại diện để tính toán. Hướng N tiếp cận này đã giảm số phần tử tính toán còn g là số lượng nhóm giá trị trong ảnh. x j1 x Xét hai điểm and j2 trong cùng một nhóm thứ j lúc đó x j1 x j2 x j , công thức tính (2.5) trên một tâm cụm tại xi cho kết quả  xi x j  xi x j   xi x j 1 2 2 , như vậy trong công thức (2.6) có thể thay và xi x j1     P thế tính toán các giá trị xi x j1 , xi x j1 , xi x j2 , xi x j2 cho xi có thể tính toán 2 *  xi x j 2 *  xi x j 2 *  xi x j 2*  xi x j 2 *  xi x j 2 *  xi x j 1 2 1 2 . Mở rộng ý và N | G j | G tưởng ta có j là tập hợp điểm trong nhóm thứ j , g j là số phần x tử của nhóm, j là phần tử đại diện cho nhóm được tính bằng trung bình w của nhóm theo công thức (2.10), j là trọng số của nhóm được xác định theo công thức (2.11): 1 xj  xk , N g j xk G j (2.10)  w j N g j / N . x x Trong trường hợp hai phần tử j1 và j2 cùng nhóm thì Như vậy công thức (2.6) được viết lại: 6 (2.11)  x j x j  x j x j 1. 1 2 1 2 2  4 m1  1 Ng   x  x  j i 2  r  wi  Pxi  w j e a  j 1 . 2  4 m 1 Ng   2 x j  xi  2  P  w e ra  wi  xi j 1 j    (2.12) P N Lúc đó công thức tính cho xi được xác định trên tập g phần tử thay vì N N g trên N phần tử, và . G {G j } Xét là tập các nhóm phần tử cần được phân cụm, khoảng cách d (Gi , G j ) giữa hai nhóm được xây dựng dựa trên khoảng cách xa nhất của phần tử hai nhóm theo công thức: d (Gi , G j ) maxxGi , yG j d ( x, y ). (2.13) Thuật toán xác định các nhóm phân cụm G được xây dựng dựa trên ý tưởng của phân cụm phân cấp [44] với khoảng cách tối đa trong sau: Thuật toán 2.2: Thuật toán xác định số nhóm ban đầu. r Đầu vào: Tập các giá trị X , tham số g . Đầu ra: Tập các nhóm G . Bước 1: G {Gi } với khởi tạo Gi xi . d * (Gi , G j ) min{d (Gi , G j i )} Bước 2: . * d (Gi , G j )  rg Bước 3: Nếu chuyển đến bước 5. G G {Gi , G j } Gij Gi  G j G G  Gij Bước 4: , , , lặp lại bước 2. Bước 5: Trả về G . 7 rg như Thuật toán phân cụm trừ mờ loại hai khoảng sẽ được viết lại thành thuật toán phân cụm trừ mờ loại 2 khoảng cải tiến (thuật toán 2.3 - AIT2FSC) để N giảm khối lượng tính toán từ N về g . Thuật toán 2.3: Thuật toán phân cụm trừ mờ loại 2 khoảng cải tiến - AIT2FSC. Đầu vào: Tập các giá trị X . Đầu ra: Tập tâm cụm dự kiến C . r Bước 1: Khởi tạo các giá trị, ra ,  với  rb / ra , g ,  và  , m1 và m2  1  m1  m2  , C  . Bước 2: Xác định các nhóm dựa trên thuật toán 2.2, tính toán số N nhóm g và trọng số của mỗi nhóm wi , tính toán mật độ của mỗi nhóm bằng cách tính toán với hàm tham số mờ m1 và m2 sử dụng công thức (2.12) và (2.7). Nhóm có mật độ lớn nhất sẽ được coi n Pck max Pxi i 1 như là tâm cụm dự kiến tiếp theo: với k 1 cho P trường hợp đầu tiên ck được xem là tâm cụm đầu tiên. Bước 3: Thêm tâm cụm mới C C  {ck } . Các giá trị về mật độ sẽ được thay đổi bởi công thức (2.8). Px * max Pxi xi C Bước 4: Tìm phần tử tiếp theo có mật độ lớn nhất i . Px   Pc1 c xi* nếu i* thì k là tâm cụm dự kiến tiếp theo bước 3. Px *   Pc1 x* nếu i thì i không được xem là tâm cụm, chuyển tiếp đến bước 5. d min là khoảng cách ngắn nhất từ xi* đến tâm cụm trước đó. nếu d min Pxi*  1 ra Pc1 thì ck xi* là tâm cụm, chuyển đến bước 3 8 ngược lại Px * 0 , lặp đến bước 4. C Bước 5: Trả về . Thuật toán Mountain clustering [117] sử dụng lưới để chia không gian dữ liệu thành các điểm tâm cụm dự kiến, như vậy trong trường hợp lưới bé thì số điểm trên lưới sẽ tương ứng với các giá trị có thể có trong miền không gian dữ liệu ( N D ). Như vậy, thuật toán Mountain clustering có số i điểm dữ liệu cần tính toán là N D Thuật toán AIT2FSC (thuật toán 2.3) có số điểm dữ liệu cần tính là số lượng nhóm đầu N vào g . Như vậy, khối lượng tính toán của các thuật toán phân cụm trừ mờ loại hai khoảng - IT2FSC [90], Mountain clustering và AIT2FSC phụ thuộc tương ứng vào các giá trị N , N D và N g . Các giá trị N , N D và N g quyết định khối lượng tính toán của các thuật toán kể trên, các giá trị này bé thể hiện khối lượng tính toán của các thuật toán bé. Vì N vậy việc so sánh các giá trị N , N D và g thể hiện so sánh khối lượng tính toán của các thuật toán tương ứng với bộ dữ liệu được xét. Bảng 2.3: Thống kê số lượng phần tử trên dữ liệu ảnh NYU Ả nh S ND ố ảnh N M in ( Ng 2 Đ 284 00 ộ sâu M 2 284 M ax 40 16 777216 3 07200 7 ( ) Ng 3 M ean ( Ng ) ) 7 18 2 57 3 1 1 8 07200 1616 99990 1986 9 àu N Kết quả trong bảng 2.3 cho thấy trên ảnh độ sâu thì g N / Ng lớn nhất là 718 trung bình là 257, vậy tỉ lệ giảm D (tỉ lệ giảm AIT2FSC với thuật toán Mountain clustering) trong N / Ng trường hợp bé nhất là 5, trung bình 15, tỉ lệ (tỉ lệ giảm AIT2FSC so với thuật toán IT2FSC) tương ứng với trường hợp bé nhất và trung bình là 427 và 1195. Trong trường hợp ảnh màu số nhóm lớn nhất là 199990 và số N / Ng nhóm trung bình là 81986, tỉ lệ D cho trường hợp bé nhất và trung bình là 8.3 và 204, trong lúc tỉ lệ tương ứng N / Ng với là 1.5 và 3.7. Như vậy thuật toán AIT2FSC có khối lượng tính toán luôn bé hơn các thuật toán cùng so sánh và đặc biệt có hiệu quả trong ảnh độ sâu. 2.2 Trích xuất đối tượng trong ảnh RGB-D Một điểm trong không gian theo hệ trục gắn với camera Kinect có tọa ( độ x, y, z ) khi thu nhận vào ảnh độ sâu sẽ được ghi nhận là ( j , i, d ) . Mối liên hệ giữa ( x, y, z ) và ( j , i, d )  fx  fy   được mô tả bằng công thức: cx   x   j  c y   y   i  .  1   z   d  (2.14) Ký hiệu tập hợp các giá trị x tương ứng với tọa độ ( j , i ) trên ảnh là I x , về hình thức có thể biểu diễn I x là tập hợp các điểm ( j, i, x) , tập hợp các giá trị y tương ứng với tọa độ ( j , i ) I I là y , về hình thức có thể biểu diễn y là tập hợp các điểm ( j , i, y ) . Ảnh độ sâu thu nhận được từ camera Kinect với môi trường trong nhà sẽ chứa phần thông tin nền của mặt phẳng nền của di chuyển và đối tượng. Ví dụ mặt phẳng nền căn phòng là bề mặt được người và robot sử 10 dụng để di chuyển trong phòng. Để ngắn gọn hơn sẽ gọi mặt phẳng nền căn phòng dành cho người và robot di chuyển là "mặt phẳng nền của di chuyển". Dựa trên thông tin về tọa độ không gian thực tế ( x, y, z ) của các điểm ảnh trong ảnh I d các thuật toán được đề xuất sẽ xấp xỉ mặt phẳng nền của di chuyển trong ảnh độ sâu. Ký hiệu tập hợp điểm trên mặt phẳng nền của di chuyển là B , là mô hình phẳng được xác định từ các điểm thấp nhất trong mô hình không gian ba chiều được đã được ghi nhận trong ảnh độ sâu I d . Ký hiệu Li là đường thẳng xấp xỉ của các điểm thấp nhất trên cột thứ i sau khi chiếu lên d ( p ji , Li ) mặt phẳng Oyz. Ký hiệu là khoảng Euclid cách từ hình chiếu của pij lên mặt phẳng Oyz và đường thẳng Li trên mặt phẳng Oyz. Một điểm pij trên ảnh trên cột thứ i của I d được xem là thuộc mặt phẳng nền của di d ( p ji , Li ) chuyển B , nếu khoảng bé hơn giá trị ngưỡng  h xác định trước. Mặt phẳng B được định nghĩa theo công thức sau: B { p ji : p ji  I d  d ( p ji , Li )  h }. (2.18) Thuật toán 2.4: Loại bỏ mặt phẳng nền của di chuyển. Đầu vào: Ảnh độ sâu I d . Đầu ra: Ảnh độ sâu I d đã loại bỏ mặt phẳng nền của di chuyển. Bước 1: Khởi tạo ngưỡng  h . Tính toán các tọa độ ( x, y, z ) của các điểm trong I d . Bước 2: Xác định mặt phẳng B dựa trên 10 điểm thấp nhất cho mỗi cột B theo công thức (2.18). Bước 3: Trên mỗi cột i , xác định Li theo xấp xỉ 10 điểm thấp nhất. p ji   Li Bước 4: Kiểm tra các , nếu khoảng cách tối thiểu d ( p ji , Li )  h p L Li  { p ji } thêm j ,i vào Li , i . Bước 5: Lặp đến bước 3 đến hết cột. 11 Bước 6: Cập nhật B là hợp các Li . Bước 7: Loại bỏ các phần tử trong mặt phẳng B . Từ thông tin này sẽ tập hợp các điểm ảnh trên ảnh độ sâu I d để xác định các giá trị trên một đối tượng. Từ các giá trị này sẽ đánh giá các đối tượng lân cận nhau có thể kết hợp thành một đối tượng lớn hơn phụ thuộc vào ngưỡng  s . Đề xuất này được chi tiết trong thuật toán 2.5 được công bố trong các công trình [A1] và [A3]. Thuật toán 2.5: Xác định đối tượng - ODBC. Đầu vào: Ảnh độ sâu I d . Đầu ra: Tập các đối tượng trong ảnh. Bước 1: Xấp xỉ giá trị mất thông tin bằng lọc trung vị mặt nạ 5 5 trên I d . Bước 2: Loại bỏ mặt phẳng nền của di chuyển trong I d dựa vào thuật toán 2.4. Bước 3: Thực hiện thuật toán phân cụm trừ mờ loại hai cải tiến 2.3 trên ảnh độ sâu I d . Bước 4: Chọn một cụm chưa xét, nếu không còn cụm nào chưa tính chuyển đến bước 12. Bước 5: Chọn một điểm trên cụm, nếu không còn điểm chưa tính chuyển đến bước 4. Bước 6: Thực hiện thuật toán đổ tràn để xác định các điểm trong vùng là một đối tượng dự kiến, chuyển đến bước 5. Bước 7: Chọn một đối tượng trong danh sách dự kiến, nếu hết chuyển đến bước 11. Bước 8: Tìm các đối tượng còn lại, nếu hết chuyển đến bước 7. Bước 9: Nếu khoảng cách giữa hai đối tượng là bé hơn  s tiến hành ghép nối các đối tượng thành một đối tượng. Bước 10: Lặp đến bước 8. Bước 11: Loại bỏ các đối tượng trong danh sách dự kiến có số lượng bé hơn Cmin , tính trung bình giá trị khoảng cách trong các 12 đối tượng. Bước 12: Trả về tập các đối tượng. Các tham số thử nghiệm thuật toán loại bỏ mặt phẳng nền của di chuyển (bước 2) là  h 20 , Cmin 500 ,  s 25 , tham số thử nghiệm thuật toán r 0 phân cụm trừ mờ loại hai cải tiến (bước 3) ra 0.04 , rb 0.06 , g ,   0.01 m  1.5 m  2.6  0.5 , , 1 , 2 . 2.3 Ứng dụng tính khoảng cách đến các đối tượng Khoảng cách đến các đối tượng được tính bằng khoảng cách trung bình từ camera đến các điểm trên bề mặt của đối tượng. Thực nghiệm thuật toán 2.5 trên bộ dữ liệu do tác giả xây dựng được trong khung cảnh phòng thí nghiệm để phát hiện các đối tượng trong ảnh độ sâu. Dữ liệu bao gồm 15 bộ ảnh RGB-D (15 bước) chụp khung cảnh phòng với mỗi bước tiến về phía các đối tượng 50mm - mô phỏng quá trình di chuyển trong phòng. Các khoảng cách đến điểm gần nhất của đối tượng trong ảnh được đo lại để xác định làm căn cứ so sánh với các kết quả tính toán được từ các ảnh độ sâu. Hình 2.13 thể hiện được khoảng cách thật với khoảng cách tính toán dựa trên 04 đối tượng được xác định trên ảnh độ sâu. Hình 2.13: So sánh khoảng cách thật và khoảng cách tính toán trên ảnh. Kết quả trên 4 đối tượng cho thấy, sai số lớn nhất là 124mm và độ lệch chuẩn là 61mm, tương ứng với tỉ lệ 6.5% và 2.9% so với khoảng cách. Nếu 13 không tính đến đối tượng 4 là vật trụ (tính khoảng cách trung bình với khoảng cách điểm gần nhất có sai số lớn), thì trong 3 đối tượng còn lại thì sai số lớn nhất và độ lệch chuẩn là 90mm và 40.8mm, tương ứng tỉ lệ 3.7% và 1.9%. Với sai số này có thể chấp nhận được trong bài toán hỗ trợ di chuyển với môi trường trong nhà. Trong chương này luận án đã đề xuất các bước phát hiện đối tượng trong ảnh độ sâu của camera Kinect thu nhận với môi trường trong nhà. Kết quả các bước phát hiện đối tượng được đề xuất chi tiết trong thuật toán ODBC (thuật toán 2.5). Kết quả khác là đề xuất cải tiến giảm số lượng phần tử tính toán cho thuật toán IT2FSC được trình bày trong thuật toán AIT2FSC (thuật toán 2.3). Chương 3. Khôi phục thông tin trong ảnh RGB-D Ảnh độ sâu thu nhận từ camera Kinect có nhiều điểm mất thông tin và tập hợp thành các vùng liên thông, thông thường các điểm mất thông tin sẽ được gán giá trị 0. Vùng mất thông tin gây ảnh hưởng kết quả xử lý trên ảnh độ sâu như phân đoạn, xác định đối tượng. Theo Zhang Y. [128] ở môi trường trong nhà tỷ lệ mất thông tin lên đến 50% số điểm ảnh. Thống kê trên các cơ sở dữ liệu cung cấp bởi Đại học California vùng Berkley và Đại học New York tỉ lệ mất thông tin cũng lần lượt là 29.4% ( 90361 / (480 640) ) và 26.6% ( 81837 / (480 640) ). Vì vậy, việc nghiên cứu các phương pháp để khôi phục giá trị độ sâu điểm mất thông tin trong ảnh độ sâu có ý nghĩa hết sức quan trọng. 3.1 Khôi phục thông tin trong ảnh độ sâu Nguyen C. V. trong nghiên cứu [91] đã chỉ ra hai trường trường hợp mất thông tin của ảnh độ sâu là góc tới lớn và vùng rìa của các đối tượng. Zhang Y. trong nghiên cứu [128] chỉ ra trong trường hợp bề mặt quá bóng, sáng, quá hẹp, quá gần hoặc quá xa đều nảy sinh ra vấn đề mất thông tin. Như vậy lý do gây mất thông tin đặc trưng có thể chia thành các trường hợp sau: 14 - Trường hợp 1: Nhiễu do quá trình thu nhận tín hiệu. Đây là trường hợp xảy ra do quá trình gửi nhận tín hiệu của thiết bị hoặc các đặc trưng của môi trường thu nhận. Ví dụ trong trường hợp lỗi thiết bị hoặc ánh sáng môi trường quá sáng hoặc quá tối làm ảnh hưởng đến quá trình thu nhận. Phân bố nhiễu trong trường hợp này là ngẫu nhiên trên toàn bộ không gian ảnh. - Trường hợp 2: Tín hiệu không nhận được do góc tới lớn làm cho tia hồng ngoại phản xạ không quay về camera thu nhận. Các điểm mất thông tin tạo thành vùng lớn, liên quan đến các bề mặt lân cận của cùng vật thể. - Trường hợp 3: Tín hiệu không nhận được do vật liệu tại khu vực đó không phản xạ lại tín hiệu hồng ngoại. Với loại này thông thường tạo thành vùng lớn liên quan đến vùng của vật hấp thu tín hiệu. 3.2 Mô hình mờ khôi phục thông tin Xét điểm ảnh có tọa độ ( x, y ) , 8 lân cận có tọa độ là ( x  i, y  j ) trong đó i, j { 1,0,1} với trường hợp i và j không đồng thời bằng không. Hình 3.6: Mô hình lân cận 8 Trong hình 3.6 điểm có ký hiệu (B) là điểm mất thông tin có tọa độ ( x, y ) , các điểm có ký hiệu B là điểm mất thông tin, các điểm có ký hiệu từ 1 đến 8 là điểm có thông tin. Như vậy, lân cận của điểm mất thông tin (B) có thể là một điểm mất thông B. Mở rộng khái niệm 8 điểm lân cận thành 8 điểm lân cận theo hướng là 8 điểm có thông tin đầu tiên 15 trên 8 hướng được xét từ điểm (B). Ký hiệu N8 ( x, y ) là tập hợp 8 điểm lân cận theo hướng của điểm cần xét ( x, y ) , N8 ( x, y ) được định nghĩa là 8 điểm theo 8 hướng đầu tiên có thông tin chiều sâu tính từ điểm ( x, y ) . Ký hiệu Ai , i {1,...,8} là đại diện cho vùng lân cận thứ i của điểm ảnh có tọa độ ( x, y ) mất thông tin độ sâu. Vùng Ai được xây dựng là tập m điểm theo hướng i và có thông tin trong ảnh độ sâu (như đã đề cập ở trên m 4 ). Như vậy Ai bao (x , y ) gồm các điểm được ký hiệu i j i j với j nhận giá trị từ 1 đến m . Ký (x , y ) hiệu Ai Ai là tọa độ điểm ảnh gần với ( x, y ) nhất trong vùng Ai , trong ( x , y )  N8 ( x, y ) trường hợp này Ai Ai . Ký hiệu I R , I G và I B tương ứng với các thành phần đỏ, xanh lá cây, xanh dương của ảnh màu. Với mỗi vùng trên ảnh thành phần hoặc ảnh độ sâu có thể coi như là một bề mặt thể hiện theo giá trị trong ảnh đó. Trong một vùng nhỏ có thể xấp xỉ bề mặt đó là (x , y ) một mặt phẳng. Với các điểm có tọa độ i j i j trong vùng Ai tương ứng l l l với các ảnh I R , I G , I B và I d có thể xấp xỉ các đường thẳng Ri , Gi , Bi l và di theo phương pháp bình phương tối thiểu. Các giá yếu tố có thể ảnh đến độ thuộc của một điểm ( x, y ) đến vùng Ai là: (x , y ) - Khoảng cách từ điểm ( x, y ) đến Ai Ai . - Mức độ gần về màu sắc giữa điểm ( x, y ) và vùng Ai trong ảnh màu. l - Góc tới của tia hồng ngoại với đường xấp xỉ độ sâu di của vùng Ai . %Xu hướng về sự tăng độ sâu từ khu tập Ai đến điểm mất thông tin. Nếu xấp xỉ tập Ai như một đường thẳng thì xu hướng tăng độ sâu thể hiện nếu như điểm cần xét thuộc đường thẳng này thì độ sâu của điểm cần xét sẽ (x , y ) tăng hay giảm so với điểm Ai Ai . 16 - Mức độ gần màu sắc của ảnh màu tại điểm mất thông tin ( x, y ) với màu bị hấp thu của tia hồng ngoại. Giá trị của hàm thuộc i ( x, y ) phụ thuộc vào các yếu tố ở trên, vì thế cần xây dựng các hàm thuộc thành phần thể hiện các yếu tố ở trên để từ đó tổ hợp giá trị i ( x, y ) . Sau đây là các hàm thuộc thành phần:  ( x, y) - Độ đo di thể hiện khoảng cách từ điểm ( x, y ) đến vùng Ai , được định nghĩa như sau: 1 1  di ( x, y )  , ˆ ˆ d ( Ai ,( x, y )) k 1,8 d ( Ak ,( x, y )) (3.10)  ˆ trong đó d ( Ai ,( x, y )) là khoảng cách từ điểm ( x, y ) đến điểm 2 2 ( x Ai , y Ai ) dˆ ( Ai ,( x, y ))  ( x  x A1 )  ( y  y A1 ) , .  ( x, y ) - Độ đo ci thể hiện mức độ gần trong màu sắc của ảnh ( x màu tại điểm , y ) với màu sắc của vùng Ai . Mức độ gần màu dựa trên khoảng cách các thành phần màu sắc tại điểm ( x, y ) trong ảnh màu và xấp xỉ đường thể hiện xu hướng màu của vùng Ai . Tại điểm ( x, y ) trên ảnh màu có các giá trị màu tương ứng với các thành phần đỏ, xanh lá và xanh lục là vR , vG và vB . Về mặt hình thức có thể xem rằng có các điểm ( x, y, vR ) , ( x, y, vG ) và ( x, y, vB ) tương ứng với không gian màu. Từ các điểm ( x, y, vR ) , ( x, y, vG ) và ( x, y , vB ) l l l đến các đường thẳng tương ứng Ri , Gi và Bi sẽ xác định khoảng cách theo khoảng cách Euclid và được ký hiệu  ( x, y ) Gi ( x, y )  ( x, y ) tương ứng là Ri , và Bi . Ký hiệu i ( x, y) thể hiện khoảng cách màu từ điểm ( x, y ) đến vùng Ai và được tính theo công thức: 17  i ( x, y )   Ri ( x, y ) 2   Gi ( x, y )2   Bi ( x, y )2 . Giá trị ci ( x, y ) (3.11) được định nghĩa: ci ( x, y ) 1   i ( x, y )  k ( x, y ). (3.12) k 1,8 dei ( x, y ) thể hiện xu hướng bề mặt từ vùng Ai đến điểm ( x, y ) . l Gọi  i ( x, y ) là góc giữa đường thẳng di và mặt phẳng thu nhận ảnh x  y 0 . Giá trị dei ( x, y ) được xác định: - Độ đo  dei ( x, y )  i ( x, y)  j ( x, y). j 1,8 (3.13)  ( x , y ) ( - Độ đo m thể hiện sự mức độ gần của màu sắc điểm x, y ) với màu đen (màu hấp thu tín hiệu hồng ngoại). Gọi vR , vG , vB là các giá trị màu tương ứng các thành phần màu của điểm ảnh ( x, y ) trong ảnh màu. LD là giá trị lớn nhất trong miền dữ liệu màu - trong ảnh màu RGB thì LD 255 . Giá trị  m ( x, y ) được tính theo công thức: m ( x, y ) 1  (vR2  vG2  vB2 ) ( 3 LD ). (3.14) Từ những phân tích trên về sự ảnh hưởng của các vùng lân cận đến đến điểm mất thông tin, các bước để xác định xấp xỉ giá trị độ sâu tại điểm mất thông tin ( x, y ) được thực hiện theo các bước sau. Thực hiện xác định các Ai ,i{1,8} của điểm mất thông tin ( x, y ) . Theo mỗi vùng Ai , l theo xu hướng của đường di thì tại điểm có tọa độ ( x, y ) sẽ có giá trị độ vùng lân cận sâu là d Ai . Có thể phát biểu lại d Ai là giá trị đề xuất độ sâu tại điểm ( x, y ) theo vùng Ai . Tính toán các độ thuộc của vùng Ai và điểm mất thông tin di ( x, y ) ci ( x, y ) dei ( x, y ) , , , m ( x, y ) và mức độ gần của màu điểm ( x, y ) với màu đen c ( x, y ) theo các công thức (3.10), (3.12), (3.13) và (3.14). Nếu điểm mất thông tin gần với màu đen thì giá trị độ sâu tại điểm 18

- Xem thêm -

Tài liệu Phân đoạn mờ và khôi phục thông tin trong ảnh rgb d (tt)

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất