Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Công nghệ thông tin Luận văn đánh giá sự ảnh hưởng của tham số đến kết quả phân tách của thuật toán ...

Tài liệu Luận văn đánh giá sự ảnh hưởng của tham số đến kết quả phân tách của thuật toán whitespace

.PDF
89
147
80

Mô tả:

TRƯỜNG ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN&TRUYỀN THÔNG   PHẠM VĂN THỦY ĐÁNH GIÁ SỰ ẢNH HƯỞNG CỦA THAM SỐ ĐẾN KẾT QUẢ PHÂN TÁCH CỦA THUẬT TOÁN WHITESPACE LUẬN VĂN THẠC SĨ Thái Nguyên, tháng 06 năm 2017 2 LỜI CAM ĐOAN Tôi xin cam đoan luận văn cao học “Đánh giá sự ảnh hưởng của tham số đến kết quả phân tách của thuật toán WhiteSpace” là công trình nghiên cứu của riêng tôi và hoàn thành dưới sự hướng dẫn khoa học của TS. Nguyễn Đức Dũng. Trong toàn bộ nội dung của luận văn, những phần được trình bày là của cá nhân tôi hoặc được tổ hợp từ nhiều nguồn tài liệu khác nhau. Tất cả các tài liệu, số liệu đều là trung thực có xuất xứ rõ ràng và được trích dẫn đúng theo quy định. Tôi hoàn toàn chịu trách nhiệm với lời cam đoan của mình. Học viên thực hiện luận văn Phạm Văn Thủy 3 LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành tới TS. Nguyễn Đức Dũng vì đã có những chỉ dẫn, động viên trong suốt quá trình thực hiện luận văn của tôi. Đồng thời tôi xin chân thành cảm ơn các thầy cô giáo trong Ban giám hiệu, phòng Đào tạo, các thầy cô giáo của trường Đại học Công nghệ Thông tin và Truyền thông - Đại học Thái Nguyên cùng các thầy cô giáo trong Viện Công nghệ Thông Tin - Viện Hàn lâm Khoa học Việt Nam đã quan tâm, tạo điều kiện thuận lợi, giảng dạy và hướng dẫn tôi trong suốt quá trình học tập và hoàn thiện luận văn. Cuối cùng tôi xin cảm ơn mọi sự giúp đỡ từ người thân, đồng nghiệp những người đã luôn ủng hộ, hỗ trợ tôi trong suốt quá trình thực hiện luận văn của mình. Mặc dù đã có nhiều cố gắng, tuy nhiên luận văn của tôi không thể tránh khỏi những thiếu sót, do đó tôi rất mong nhận đuợc những ý kiến đánh giá, bổ sung để tôi có thể hoàn thiện luận văn của mình./. Quảng Ninh, ngày tháng năm 2017 4 MỤC LỤC DANH MỤC HÌNH ẢNH ............................................................................... 7 PHẦN MỞ ĐẦU ............................................................................................ 10 1. Đặt vấn đề ............................................................................................ 10 2. Nội dung nghiên cứu chính ................................................................ 11 2.1. Mục tiêu chính của đề tài................................................................ 11 2.2. Ý nghĩa khoa học của đề tài ........................................................... 12 2.3. Nhiệm vụ nghiên cứu ...................................................................... 12 2.4. Phương pháp nghiên cứu ............................................................... 12 2.5. Phạm vi nghiên cứu ......................................................................... 13 3. Bố cục của luận văn ............................................................................... 13 CHƯƠNG 1: TỔNG QUAN VỀ PHÂN TÍCH ẢNH TÀI LIỆU ............. 14 1.1. Tổng quan về phân tích ảnh tài liệu.................................................. 14 1.1.1. Giới thiệu về ảnh tài liệu ............................................................... 14 1.1.2. Hệ phân tích ảnh tài liệu .............................................................. 15 1.1.3 Quá trình thu nhận ảnh tài liệu .................................................... 20 1.1.4. Vai trò của phân tích ảnh tài liệu. ................................................ 21 1.2. Cấu trúc của ảnh tài liệu .................................................................... 23 1.2.1. Cấu trúc vật lý................................................................................ 23 1.2.2. Cấu trúc logic ................................................................................ 24 1.3. Phân tích trang tài liệu ....................................................................... 24 1.3.1. Tiền xử lý (preprocessing): ........................................................... 26 1.3.2. Phân tích cấu trúc vật lý ............................................................... 27 1.3.3. Phân tích cấu trúc logic: ............................................................... 29 1.4 Kết luận................................................................................................. 30 CHƯƠNG 2: ĐÁNH GIÁ SỰ ẢNH HƯỞNG CỦA THAM SỐ ĐẾN KẾT QUẢ PHÂN TÁCH CỦA THUẬT TOÁN WHITESPACE ..................... 31 5 2.1. Các hướng tiếp cận và một số thuật toán phân tách trang tiêu biểu ..................................................................................................................... 31 2.1.1. Hướng tiếp cận Top-down ............................................................ 31 a) Tổng quan........................................................................................ 31 c) Ưu điểm: .......................................................................................... 35 d) Nhược điểm: .................................................................................... 35 2.1.2. Hướng tiếp cận Bottom-up ........................................................... 38 a) Tổng quan........................................................................................ 38 c) Ưu điểm............................................................................................ 42 d) Nhược điểm ..................................................................................... 42 2.1.3. Hướng tiếp cận theo phương pháp lai ghép (hybrid). ................. 43 a) Tổng quan........................................................................................ 43 b) Thuật toán tách và Nối thích nghi (Adaptive Split - and - Merge) ............................................................................................................... 43 c) Ưu điểm............................................................................................ 45 d) Nhược điểm ..................................................................................... 45 2.1.4. Đánh giá và lựa chọn thuật toán. ................................................. 46 2.2. Thuật toán phân tích trang tài liệu Whitespace .............................. 47 2.2.1. Giới thiệu ....................................................................................... 47 2.2.2. Whitespace Cover .......................................................................... 48 2.2.2.1. Định nghĩa bài toán ............................................................... 48 2.2.2.2. Thuật toán .............................................................................. 49 2.3. Ảnh hưởng của tham số đến kết quả phân tách của thuật toán Whitespace .................................................................................................. 54 2.3.1. Tham số về tỉ lệ chồng lấp (giao nhau) của các hình chữ nhật trắng. ........................................................................................................ 54 2.3.2. Tham số về khoảng trắng tối đa trong trang văn bản ................. 56 6 2.4 Kết luận................................................................................................. 68 CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH VÀ THỰC NGHIỆM PHÂN TÍCH TRANG TÀI LIỆU ................................................................ 71 3.1. Yêu cầu hệ thống................................................................................. 71 3.2. Giới thiệu chương trình ..................................................................... 71 3.2.1. Giao diện chương trình ................................................................ 72 3.2.2. Chức năng ..................................................................................... 72 3.3. Thực nghiệm........................................................................................ 73 3.3.1. Dữ liệu ........................................................................................... 73 3.3.2. Giới thiệu độ đo PSET .................................................................. 73 3.3.3. Kết quả thực nghiệm và thảo luận ............................................... 76 TÀI LIỆU THAM KHẢO ............................................................................ 88 7 DANH MỤC HÌNH ẢNH Hình 1.1: Sơ đồ tổng quan quá trình tạo ảnh tài liệu ...................................... 14 Hình 1.2: Ví dụ ảnh tài liệu ............................................................................. 14 Hình 1.3: Sơ đồ khối liệt kê nhiệm vụ xử lý ảnh tài liệu được phân chia theo cấp bậc trong mỗi vùng của ảnh...................................................................... 17 Hình 1.4: mô phỏng một chuỗi các bước trong phân tích hình ảnh tài liệu phổ biến. ................................................................................................................. 19 Hình 1.5. Một hình ảnh nhị phân của chữ "e" được thực hiện lên ON và OFF các điểm ảnh, ON điểm ảnh được hiển thị ở đây là "X"[15]. ......................... 21 Hình 1.6: Sơ đồ OCR cơ bản .......................................................................... 22 Hình 1.7: Cấu trúc vật lý: c, d-Cấu trúc logic của một tài liệu ....................... 23 Hình 1.8: Ví dụ loại tài liệu có bố cục phức tạp ............................................. 25 Hình 1.9: Sơ đồ nguyên lý hệ thống xử lý tài liệu[15] ................................... 25 Hình 1.10: a - Ảnh gốc b - Ảnh sau khi tách nền............................................ 27 Hình 1.11: Ví dụ một ảnh tài liệu bị nghiêng một góc 5 độ ........................... 28 Hình 1.12: Ví dụ một cây mô tả cấu trúc logic của một trang tài liệu[14] ..... 29 Hình 2.1: Kết quả chiếu nghiêng theo phương ngang và phương thẳng đứng của một trang tài liệu 4 .................................................................................... 32 Hình 2.2: Phân tách cột dựa vào phép chiếu nghiêng theo phương ngang ..... 33 Hình 2.3: Phép chiếu nghiêng theo phương ngang để phân đoạn ký tự hoặc từ ......................................................................................................................... 33 Hình 2.4: Kết quả thực hiện của thuật toán X-Y Cut...................................... 35 Hình 2.5: Lược đồ chiếu ngang của một dòng chữ nghiêng ........................... 36 - rất khó phân đoạn ký tự ................................................................................ 36 Hình 2.6: Lược đồ chiếu đứng của trang tài liệu bị nghiêng .......................... 37 Hình 2.7: Lược đồ chiếu đứng của một bài báo .............................................. 37 8 Hình 2.8: Phương pháp Dostrum cho phân tích định dạng trang (a) Một phần của nội dung văn bản gốc. (b) Các thành phần lân cận gần nhất được xác định. (c) Các hình chữ nhật tối thiểu tạo nên nhóm láng giềng gần nhất từ đó xác định được dòng văn bản. ................................................................................. 39 Hình 2.9: Kết quả thực hiện của kỹ thuật Smearing ....................................... 41 Hình 2.10: Mô tả thuật toán Tách và Nối thích nghi ...................................... 44 Hình 2.11: Hình minh họa bước đệ quy của thuật toán Cover khoảng trắng phân nhánh - giới hạn. Xem giải thích ở nội dung văn bản. ........................... 49 Hình 2.12: Áp dụng thuật toán tìm kiếm dòng ràng buộc cho các biến thức mô phỏng của một trang. ....................................................................................... 52 Hình 2.13: Fig. 1.Mô tả thuật toán WCover [16]. (a) hình bao và các hình chữ nhật, (b) điểm chốt tìm được (c,d) các miền con trai/phải và trên/dưới ......... 54 Hình 2.14: Mô hình dòng văn bản được sử dụng tìm kiếm dòng ràng buộc. . 58 Hình 2.15: Minh họa bài toán tìm kiếm dòng ràng buộc với những trở ngại. 59 Hình 2.16: Ví dụ về kết quả đánh giá khoảng trắng để phát hiện các ranh giới cột trong tài liệu có bố cục phức tạp (các tài liệu A00C, D050, và E002 từ cơ sở dữ liệu UW-III). Lưu ý rằng ngay cả các bố cục phức tạp cũng được mô tả bởi một tập nhỏ các dấu tách cột. .................................................................... 63 Hình 3.1: Giao diện chương trình ................................................................... 72 Hình 3.2: Giao diện chức năng chương trình .................................................. 72 Hình 3.3: Minh họa các kiểu lỗi trong phân tích trang ảnh tài liệu ................ 74 Hình 3.4: Ảnh số 0000085 trong tập ảnh UW-III .......................................... 76 Hình 3.5: Giao diện và kết quả thực nghiệm .................................................. 77 Hình 3.6: Kết quả phân tách hình 0000085 – UW-III .................................... 77 Hình 3.7: Bảng kết quả thực nghiệm .............................................................. 79 Hình 3.8: Ảnh hưởng của số lượng khoảng trắng tối đa đến kết quả của Wcuts và ageblock. ..................................................................................................... 80 9 Hình 3.9: Ảnh hưởng của Max_results đến thời gian thực hiện chương trình 80 Hình 3.10: Độ chính xác của thuật toán với độ đo PSET sử dụng tham số khoảng trắng là 300 ......................................................................................... 82 Hình 3.11: Vùng bị bỏ qua .............................................................................. 83 Hình 3.12: Vùng bị phân tách thành các phần quá nhỏ .................................. 83 Hình 3.13: Độ chính xác của thuật toán với độ đo PSET sử dụng tham số tỉ lệ giao nhau là 95% ............................................................................................. 84 10 PHẦN MỞ ĐẦU 1. Đặt vấn đề Hiện nay, hầu hết tài liệu của con người đều đã được số hóa và được lưu trữ trên máy tính, việc số hóa đảm bảo tính an toàn và thuận tiện hơn hẳn so với sử dụng tài liệu giấy. Tuy nhiên việc sử dụng giấy để lưu trữ tài liệu trong một số mục đích là không thể thay thế hoàn toàn được (như sách, báo, tạp chí, công văn,…). Hơn nữa, lượng tài liệu được tạo ra từ nhiều năm trước vẫn còn rất nhiều mà không thể bỏ đi được vì tính quan trọng của chúng. Việc chuyển đổi tài liệu điện tử sang tài liệu giấy có thể thực hiện được dễ dàng bằng cách in hay fax, nhưng công việc ngược lại là chuyển từ tài liệu giấy sang tài liệu điện tử lại là một vấn đề không hề đơn giản. Chúng ta mong muốn có thể số hóa tất cả các tài liệu, sách, báo đó và lưu trữ chúng trên máy tính, việc tổ chức và sử dụng chúng sẽ thuận tiện hơn rất nhiều. Vậy nhưng giải pháp sẽ là gì? Công nghệ đang phát triển một cách chóng mặt, các máy scan với tốc độ hàng nghìn trang một giờ, các máy tính với công nghệ xử lí nhanh chóng và chính xác một cách siêu việt. Vậy tại sao chúng ta không quét các trang tài liệu vào và xử lý, chuyển chúng thành các văn bản một cách tự động? Nhưng vấn đề là khi quét chúng ta chỉ thu được các trang tài liệu đó dưới dạng ảnh nên không thể thao tác, sửa chữa, tìm kiếm như trên các bản Office được, khi đó máy tính không phân biệt được đâu là điểm ảnh của chữ và đâu là điểm ảnh của đối tượng đồ họa. Một giải pháp được đưa ra đó là xây dựng các hệ thống nhận dạng chữ trong các tấm ảnh chứa cả chữ và đối tượng đồ họa, sau đó chuyển thành dạng trang văn bản và có thể mở, soạn thảo được trên các trình soạn thảo văn bản. Trong thực tế quá trình nhận dạng thì có rất nhiều tham số ảnh hưởng đến kết quả của các chương trình nhận dạng như nhiễu, Font chữ, kích thước 11 chữ, kiểu chữ nghiêng, đậm, gạch dưới… vì thế trước khi nhận dạng chữ, một số thao tác tiền xử lý sẽ được tác động lên ảnh như, lọc nhiễu, chỉnh góc nghiêng và đặc biệt quan trọng là phân tách trang tài liệu để xác định cấu trúc của trang văn bản đồng thời tách biệt hai thành phần là chữ và các đối tượng đồ họa. Dù đã được nghiên cứu trong nhiều năm nhưng bài toán phân tách trang ảnh tài liệu vẫn là một vấn đề quan trọng và thời sự do sự thay đổi đa dang về cấu trúc và các đặc trưng văn bản. Các thuật toán phân tách trang hiện nay đều phụ thuộc rất nhiều vào kết quả của quá trình lọc khoảng trắng, chỉnh góc nghiêng, tức là các tham số điều kiện để quyết định các khoảng trắng có được giữ lại hay không, góc nghiêng có phù hợp hay không. Các tham số này hoặc cố định hoặc được xác định trên toàn trang ảnh do đó có hoặc không phù hợp trên những trang ảnh có sự thay đổi nhiều về kích cỡ hoặc kiểu font. Trong luận văn này, tập trung nghiên cứu và “Đánh giá sự ảnh hưởng của tham số đến kết quả phân tách của thuật toán WhiteSpace” với mục đích lựa chọn được tham số phù hợp nhằm phát huy các điểm mạnh và khắc phục nhược điểm của thuật toán. 2. Nội dung nghiên cứu chính 2.1. Mục tiêu chính của đề tài - Tìm hiểu hướng tiếp cận để phân tách trang (Top-down hay bottomup, …) Tìm hiểu cấu trúc trang tài liệu (cấu trúc vật lý, logic). - Tìm hiểu một số kỹ thuật phân tích trang tài liệu (phân vùng, phân đoạn, topdown hay bottom-up, …)Trình bày kỹ thuật phân tích trang văn bản White-space. - Cài đặt thử nghiệm một giải pháp phân tích trang văn bản trên kỹ thuật Top-down bằng thuật toán White-space. 12 - Đánh giá sự ảnh hưởng của tham số đến kết quả phân tách trang của thuật toán White-space. - Từ kết quả nghiên cứu có một sự chuẩn bị kiến thức đẩy đủ cho bước nghiên cứu tiếp theo là nhận dạng ký tự quang. 2.2. Ý nghĩa khoa học của đề tài - Giải quyết được vấn đề về học thuật: đề tài sẽ mang ý nghĩa cung cấp về mặt lý thuyết và thực nghiệm để làm rõ về sự ảnh hưởng của tham số đến kết quả phân tách của thuật toán Whitespace. - Đáp ứng được yêu cầu của thực tiễn: từ các lý thuyết đã được nghiên cứu, từ đó liên hệ và gắn vào thực tiễn để có thể áp dụng vào các lĩnh vực như: Số hóa tài liệu, lưu trữ thư viện, điện tử hóa văn phòng, nhận dạng và xử lý ảnh... 2.3. Nhiệm vụ nghiên cứu Mục đích của luận văn đề cập được đến hai phần: - Phần lý thuyết: Nắm rõ và trình bày những cơ sở lý thuyết liên quan đến cấu trúc trang tài liệu, một số kỹ thuật phân tích trang tài liệu, từ đó có để có thể xác định tính quan trọng của bước này trong nhận dạng ký tự, đồng thời hiểu các công việc kế tiếp cần làm trong bước nhận dạng ký tự. - Phần phát triển ứng dụng: Áp dụng các thuật toán đã trình bày ở phần lý thuyết từ đó đánh giá sự ảnh hưởng của tham số và chọn một giải pháp tối ưu khi lựa chọn tham số và cài đặt thử nghiệm chương trình phân tích trang tài liệu. 2.4. Phương pháp nghiên cứu - Tìm kiếm, tham khảo, tổng hợp tài liệu từ các nguồn khác nhau để xây dựng phần lý thuyết cho luận văn. - Sử dụng các kỹ thuật được áp dụng phân tích trang tài liệu để làm rõ bản chất của các vấn đề được đưa ra trong phần lý thuyết. 13 - Xây dựng chương trình Demo, độ đo và thực nghiệm và thảo luận. 2.5. Phạm vi nghiên cứu Bài toán phân tích trang tài liệu đã được phát triển với nhiều thành tựu trong thực tế, có rất nhiều thuật toán tối ưu đã được các nhà khoa học đề nghị. Tuy nhiên có thể nói chưa có một chương trình nào có thể “đọc” một ảnh văn bản như con người, vì thực tế có rất nhiều kiểu trang văn bản khác nhau, khác nhau về cấu trúc trình bày, ngôn ngữ, kiểu font, chữ viết tay,… Đây thực sự là một bài toán lớn, chính vì thế trong phạm vi của luận văn chỉ tìm hiểu một số kỹ thuật phân tích trang văn bản tiêu biểu với mục đích để so sánh với một thuật toán mới chưa được đưa ra ở các đề tài trước. Cuối cùng, dựa vào đó để xây dựng Demo cho một ứng dụng. Các kết quả nghiên cứu dự kiến cần đạt được: - Tìm hiểu tài liệu liên quan đến lĩnh vực quan tâm để nắm bắt được bản chất vấn đề đặt ra. - Báo cáo lý thuyết. - Chương trình Demo. - Kết quả thực kiệm. - Đánh giá kết quả. 3. Bố cục của luận văn Nội dung của luận văn được trình bày trong ba chương : Chương 1: Tổng quan về phân tích trang tài liệu Chương 2: Đánh giá sự ảnh hưởng của tham số đến kết quả phân tách của thuật toán WhiteSpace Chương 3: Cài đặt chương trình Demo và đánh giá kết quả. 14 CHƯƠNG 1 TỔNG QUAN VỀ PHÂN TÍCH ẢNH TÀI LIỆU 1.1. Tổng quan về phân tích ảnh tài liệu 1.1.1. Giới thiệu về ảnh tài liệu Ảnhnh tài liệu được đề cập ở đây là các file ảnh số hoá thu được bằng cách dùng máy scanner, hoặc chụp từ Các máy ảnh số, hay nhận từ một máy fax. Ảnh tài liệu có nhiều loại: ảnh đen trắng, ảnh đa cấp xám, ảnh đa cấp xám với các phần mở rộng như TIF, BMP, PCX, …(Hình 1.2) và ảnh tài liệu được đưa ra trong luận văn này là ảnh đa cấp xám. Tài liệu Thiết bị thu nhận ảnh Ảnh số tài liệu Hình 1.1: Sơ đồ tổng quan quá trình tạo ảnh tài liệu Hình 1.2: Ví dụ ảnh tài liệu 15 1.1.2. Hệ phân tích ảnh tài liệu Ảnh tài liệu sau khi được quét và lưu trữ vào máy tính thì nó được cấu thành từ những điểm ảnh, nhiệm vụ của chúng ta là phải trích chọn được những thông tin đặc trưng từ nó sao cho máy tính có thể “đọc” và “hiểu” được các thành phần này. Để làm được điều này người ta phải áp dụng các thuật toán kết hợp cùng với những kỹ thuật cả về phần cứng và phần mềm máy tính, sự tích hợp này là yếu tố chính tạo thành một hệ phân tích ảnh tài liệu. Sau khi tạo được hệ phân tích ảnh, người ta tiến hành quá trình xử lý ảnh gồm việc thao tác lên ảnh đầu vào để cuối cùng cho ảnh đầu ra với kết quả đạt được những mục tiêu đã định trước đó. Cụ thể là kết quả của ảnh đầu ra có thể là một kết luận về sự nhận dạng hoặc là một ảnh đã được xử lý tốt hơn. Một trong những công nghệ khá phổ biến hiện nay được áp dụng để nhận dạng văn bản là công nghệ nhận dạng ký tự bằng quang học (Optical Character Recognition-OCR). Cơ chế chủ yếu của nó là nhận dạng ký tự trên nền định dạng ảnh tài liệu và chuyển sản phẩm nhận dạng được sang kiểu tập tin văn bản. Từ đó OCR có thể giúp chúng ta thao tác trên văn bản như tạo, sửa đổi, xóa bỏ, tìm kiếm, thay thế nội dung của tài liệu. Như vậy, mục tiêu của hệ phân tích ảnh tài liệu là phát hiện ra được các đối tượng khác nhau trong một ảnh tài liệu như chữ đánh máy, chữ viết bằng tay, hình ảnh, văn bản chia thành hàng, cột, v.v. Đồng thời hệ phân tích này còn phải trích xuất được những thành phần trong ảnh tài liệu mà chúng ta mong muốn để phục vụ cho những mục đích nghiên cứu và ứng dụng khác nhau. Và đặc biệt trong bài luận này là trọng tâm nhấn mạnh đến việc phát hiện được bảng biểu (detect table) trong ảnh tài liệu. Trên cơ sở đặc điểm chung của một ảnh tài liệu thường có chứa hai loại đối tượng chính là văn bản và hình ảnh cũng như đa số các công nghệ nhận dạng được áp dụng hiện nay, chúng ta có thể thấy rằng một hệ phân tích ảnh tài liệu thực hiện hai nhiệm vụ chính (xem hình 1.3). 16 Nhiệm vụ thứ nhất là phải xử lý các đối tượng hình ảnh được cấu thành từ hình vẽ, đường kẻ, dấu vân tay, khuôn mặt, những nốt đen lớn, biểu đồ,…Và nhiệm vụ thứ hai là phải xử lý các đối tượng văn bản cấu thành từ chữ viết như ký tự, từ, chuỗi ký tự, chữ viết tay. Việc phát hiện độ nghiêng (tilt) của tài liệu (độ nghiêng của văn bản xuất hiện khi chúng ta quét ảnh 5 tài liệu từ máy quét đã đặt không chuẩn xác các vị trí của nó), phát hiện các phông chữ, độ lớn chữ, từ, cụm từ, dòng văn bản, đoạn văn bản và các cột văn bản là những công việc quan trọng và cần thiết để thực hiện việc phát hiện văn bản được ứng dụng công nghệ OCR như đã đề cập. Sau khi thực hiện thành công hai nhiệm vụ chính, hệ phân tích ảnh tài liệu sẽ trích chọn những thông tin cần thiết đã phát hiện được, đưa vào một tài liệu ở một định dạng khác như tập tin văn bản (word) hoặc ngôn ngữ hiển thị siêu văn bản (Hyper Text Markup Language-HTML). Việc đầu tư tài chính, công nghệ, con người cùng các yếu tố liên quan để thiết kế và ứng dụng hệ phân tích ảnh tài liệu là rất cần thiết và vô cùng quan trọng. Nó giúp chúng ta giải quyết rất nhiều vấn đề trong thực tế khi mà số lượng các dữ liệu lớn. Con người tiếp nhận và xử lý thông tin nhờ vào các giác quan, nhưng có thể nói trong đó có khoảng 80% là thu nhận bằng mắt. Một vài ví dụ điển hình có thể minh chứng rằng thực sự cần thiết để sở hữu một hệ thống phân tích ảnh tài liệu nào đó. Thứ nhất, ta là người phải nhập điểm số cho hàng trăm nghìn sinh viên trong một trường đại học được gửi về từ các giáo viên giảng dạy, theo cách làm truyền thống thì tại phòng xử lý điểm phải có ít nhất một người ngồi đọc điểm cùng với một người gõ vào máy tính. Việc này vừa tốn thời gian, tốn chi phí nhân công, ít khách quan lại dễ xảy ra sai sót do yếu tố con người. Thay vào đó, nhà trường có thể thiết kế phiếu điểm giao cho giảng viên trong đó đã có sẵn các giá trị từ 1 đến 10 cho mỗi sinh viên và chỉ việc chấm điểm theo cách tô đen vào vị trí điểm số mà sinh viên đạt được. Cuối cùng bảng điểm này được quét để máy 17 tính phát hiện điểm số một cách tự động nhờ vào chấm đen mà giảng viên đã tô đậm thông qua một hệ nhận dạng ảnh tài liệu, theo đó sẽ khắc phục được những nhược điểm của cách làm truyền thống. Thứ hai là, tại một doanh nghiệp sản xuất kinh doanh với số nhân công hàng chục ngàn người làm việc trong ngày, trong các công đoạn chấm công có việc kiểm tra sự có mặt của nhân viên vào đầu giờ và cuối giờ làm. Với phương pháp truyền thống doanh nghiệp phải cử ra rất nhiều người để theo dõi các nhân viên còn lại việc vào và ra khỏi công ty phải đúng giờ. Việc này đã được khắc phục nhằm đem lại sự thuận lợi, chính xác và ít tốn kém bằng cách sử dụng một máy chấm công bằng vân tay, trong đó tích hợp công nghệ xử lý và so sánh dấu vân tay bảo đảm công tác thống kê số giờ làm mà không cần sự theo dõi trực tiếp của con 6 người. Trong đó, máy chấm công bằng dấu vân tay ứng dụng hệ phân tích ảnh tài liệu. Hình 1.3: Sơ đồ khối liệt kê nhiệm vụ xử lý ảnh tài liệu được phân chia theo cấp bậc trong mỗi vùng của ảnh. 18 Hệ phân tích ảnh tài liệu đã được sử dụng trong vài thập kỷ qua, đặc biệt là trong ngành kinh doanh ngân hàng, bưu điện, thư viện,…ứng dụng để máy tính đọc mã vạch hoặc lưu trữ tài liệu ở dạng điện tử, vào cuối những năm 1980 và 1990 thì đã phát triển nhanh chóng. Lý do chủ yếu của việc phát triển này là tốc độ ngày càng lớn và chi phí thấp hơn của phần cứng máy tính. Kể từ khi máy fax trở nên phổ biến, chi phí của máy quét quang học cho các tài liệu đầu vào giảm xuống đã giúp các doanh nghiệp nhỏ cũng như mỗi cá nhân có cơ hội được sử dụng những công nghệ này. Mặc dù ảnh tài liệu có chứa một lượng tương đối lớn dữ liệu, thì ngay cả máy tính cá nhân hiện nay cũng đã có tốc độ đủ để xử lý chúng. Bộ nhớ máy tính bây giờ không những đủ cho các hình ảnh tài liệu lớn, mà quan trọng hơn, bộ nhớ quang học bây giờ cũng đủ để lưu trữ khối lượng lớn dữ liệu. Điều này dẫn đến ngày càng phát triển công nghệ nhận dạng và xử lý ảnh tài liệu. Sự bổ sung cần thiết cho những cải tiến phần cứng là những tiến bộ đang được thực hiện trong việc phát triển các thuật toán và phần mềm phân tích ảnh tài liệu. Trong đó công nghệ OCR có khả năng nhận dạng văn bản với độ chính xác lên đến khoảng 90%, bên cạnh đó nhiều phương pháp nhận dạng ảnh tài liệu khác cũng được cải tiến gần như xử lý ảnh tài liệu xử lý văn bản xử lý đối tượng ảnh Nhận dạng ký tự quang học phân tích bố trí trang xử lý đường kẻ xử lý biểu tượng và vùng văn bản phát hiện độ nghiêng, dòng, khối và đoạn văn bản Đường thẳng, góc và các đường cong Lấp đầy các khu vực Hình 1.1: Sơ đồ khối liệt kê nhiệm vụ xử lý ảnh tài liệu được phân chia theo cấp bậc trong mỗi vùng của ảnh[15]. Theo đó, các tài liệu viết tay hoặc tài liệu đã được in ấn hay những hình ảnh có thể được chuyển thành tài liệu điện tử trên máy tính để thuận tiện trong việc lưu trữ, quản lý, chỉnh sửa và biên soạn lại. Tuy nhiên, tài liệu giấy cho đến nay vẫn đang phát huy vai trò truyền thống của nó do tính chất trực quang, dễ thao tác, phổ biến được rộng rãi đối với 19 mọi đối tượng sử dụng. Vì vậy, chúng ta phải tìm cách giải quyết vấn đề là sử dụng công nghệ và các thuật toán để tích hợp dữ liệu dưới dạng ảnh tài liệu vào trong bộ nhớ phần cứng để xử lý bằng máy tính. Sau khi đã tạo ra dữ liệu, máy tính phải thực hiện các bước xử lý cơ bản như xử lý điểm ảnh, phân tích các thành phần đặc trưng, phân tách từng thành phần phát hiện riêng biệt là phát hiện hình ảnh và phát hiện văn bản. Hình 1.4: mô phỏng một chuỗi các bước trong phân tích hình ảnh tài liệu phổ biến. Các phần tiếp theo sẽ trình bày vắn tắt một số bước cơ bản này. Sau khi thu thập dữ liệu, hình ảnh trải qua xử lý cấp độ điểm ảnh và phân tích tính năng, sau đó mỗi loại đối tượng văn bản và hình ảnh được phát hiện và xử lý riêng. Thu thập dữ liệu được thực hiện trên một tài liệu giấy thường bằng cách quét quang học. Các dữ liệu sau đó được lưu trữ trong một tập tin hình ảnh, gọi là điểm ảnh, được lấy mẫu trong một mô hình mạng lưới xuyên suốt ảnh tài liệu [15]. 20 1.1.3 Quá trình thu nhận ảnh tài liệu Ảnh tài liệu thường được thu thập bằng cách quét quang học thông qua máy quét hoặc bằng cách sao chép hình ảnh và những đoạn phim kỹ thuật số từ máy chụp hoặc máy quay phim (camera) rồi được lưu trữ vào máy tính dưới dạng một tập tin ảnh gồm có các yếu tố hình ảnh, hoặc điểm ảnh, đó là “nguyên liệu” đầu vào để phân tích ảnh tài liệu sau này. Dữ liệu lúc này được tập hợp là các điểm ảnh (pixels) và được mô phỏng thành tập hợp của một lưới các điểm ảnh (a grid pattern) [15]. Các thiết bị thu nhận ảnh tài liệu có hai loại chính tương ứng với hai loại ảnh thông dụng Vector và Raster. Theo đó, quá trình thu nhận ảnh tài liệu thực hiện các công đoạn chính gồm việc biến đổi năng lượng quang học thành năng lượng điện gọi là cảm biến và tổng hợp năng lượng điện thành ảnh gọi là quá trình lượng tử hóa (Đỗ Năng Toàn2008). Với ảnh nhị phân thì cường độ điểm ảnh có thể nhận một trong hai giá trị OFF (0) hoặc ON (1) (Hình 1.5). Đối với ảnh đa cấp xám thì cường độ điểm ảnh nhận giá trị từ 0 đến 255 và với ảnh màu thì giá trị điểm ảnh nhận 3 kênh là R, G, B từ 0 đến 255 giá trị màu sắc. Thí dụ, với một trang ảnh tài liệu có kích thước 30x40 cm và có 140 điểm ảnh trong 1 centimet thì tạo được ảnh với 4200x5600 điểm ảnh. Từ đó cho thấy rằng một ảnh tài liệu thông thường là tập hợp của các giá trị điểm ảnh mà người ta đã dùng các bộ cảm biến hoặc máy quét để biến tín hiệu quang thành tín hiệu điện liên tục, rồi thì khắc phục hiện tượng chồng phổ, thực hiện lượng tử hóa cùng với các công đoạn kỹ thuật khác và cuối cùng sẽ trích chọn được các thông tin phù hợp.
- Xem thêm -

Tài liệu liên quan