Tài liệu Phát hiện và nhận dạng văn bản trong video

  • Số trang: 64 |
  • Loại file: PDF |
  • Lượt xem: 156 |
  • Lượt tải: 0

Mô tả:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG ---------------------------------- Ngô Ngọc Hà PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2019 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG ---------------------------------- Ngô Ngọc Hà PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) Chuyên ngành: Hệ thống thông tin Mã số: 8480104 NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. VŨ HỮU TIẾN HÀ NỘI - 2019 i LỜI CAM ĐOAN Tôi cam đoan đề tài: “Phát hiện và nhận dạng văn bản trong Video” là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn của TS. Vũ Hữu Tiến. Các kết quả, phân tích, kết luận trong luận văn thạc sỹ này (ngoài phần được trích dẫn) đều là kết quả làm việc của tác giả, các số liệu nêu trong luận văn là trung thực và chưa từng được công bố trong bất kỳ công trình nào khác. Nếu sai tôi xin hoàn toàn chịu trách nhiệm. Hà Nội, ngày 10 tháng 02 năm 2019 Tác giả Ngô Ngọc Hà ii LỜI CẢM ƠN Lời đầu tiên cho em xin gửi lời cảm ơn chân thành đến các thầy, cô giáo thuộc Khoa CNTT, Khoa QT&ĐT sau đại học thuộc Học viện Công nghệ Bưu chính viễn thông đã tận tình giảng dạy, truyền đạt các nội dung kiến thức, kinh nghiệm quý báu trong suốt quá trình em theo học tại Học viện. Với những bài học quý giá, sự kèm cặp, chỉ bảo và truyền thụ tâm huyết của các thầy, cô đã giúp cá nhân em hoàn thiện hơn nữa hệ thống kiến thức chuyên ngành, phục vụ tốt hơn yêu cầu công tác của đơn vị đồng thời nâng cao hơn vốn tri thức của bản thân. Đặc biệt, em xin gửi lời cảm ơn trân thành tới thầy hướng dẫn khoa học TS. Vũ Hữu Tiến đã tâm huyết, tận tình chỉ bảo, hướng dẫn, cung cấp tài liệu và các nội dung kiến thức quý báu, đồng thời có sự định hướng đúng đắn giúp em hoàn thành được luận văn này. Em cũng xin được bày tỏ sự cảm ơn sâu sắc tới gia đình, đồng nghiệp đã tạo điều kiện, dành sự ủng hộ đối với bản thân em để có nhiều thời gian cho khóa học, đạt được những kết quả khả quan trong quá trình học tập. Đồng thời xin chân thành cảm ơn tập thể lớp Cao học Hệ thống thông tin – Đợt 1 năm 2016 đã đồng hành, khích lệ và chia sẻ trong suốt quá trình học tập. Trong quá trình thực hiện luận văn, mặc dù bản thân đã cố gắng, chủ động trong việc sưu tầm tài liệu, củng cố kiến thức… tuy nhiên chắc chắn luận văn vẫn còn nhiều thiếu sót. Em rất mong nhận được sự chỉ dạy, đóng góp tận tình của các thầy, cô để luận văn của em được hoàn thiện hơn nữa và có tính ứng dụng cao hơn trong thực tiễn. Xin trân trọng cảm ơn! Hà Nội, ngày 10 tháng 02 năm 2019 Học viên Ngô Ngọc Hà iii MỤC LỤC LỜI CAM ĐOAN ...................................................................................................... i LỜI CẢM ƠN ........................................................................................................... ii MỤC LỤC ................................................................................................................ iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT ............................................v DANH MỤC CÁC BẢNG ...................................................................................... vi DANH MỤC CÁC HÌNH ...................................................................................... vii MỞ ĐẦU ....................................................................................................................1 Chương 1 - TỔNG QUAN VỀ PHÂN TÍCH DỮ LIỆU VIDEO ..........................4 1.1. Phát biểu bài toán ...........................................................................................4 1.2. Các nghiên cứu trước đây về phân tích dữ liệu video...................................4 1.2.1. Tổng quan về video ......................................................................... 4 1.2.2. Những nghiên cứu liên quan ........................................................... 6 1.2.3. Phát hiện và nhận dạng văn bản trong thời điểm hiện tại ............... 8 1.3. Hướng nghiên cứu của tác giả.......................................................................9 1.4. Kết luận chương 1.........................................................................................10 Chương 2 - PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO .......11 2.1. Bài toán nhận dạng văn bản Video trong lĩnh vực dịch thuật bài giảng trực tuyến..............................................................................................................11 2.2. Kỹ thuật phân đoạn video thành ảnh ...........................................................13 2.3. Kỹ thuật nhận dạng và trích xuất văn bản từ ảnh ......................................15 2.3.1. Các giải thuật trong nhận dạng văn bản ........................................ 15 2.3.2. Phát hiện và nhận dạng văn bản bằng công nghệ OCR ................ 20 iv Chương 3 – XÂY DỰNG VÀ THỬ NGHIỆM CHƯƠNG TRÌNH PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO. .................................................44 3.1. Phân tích, thiết kế bài toán nhận dạng nội dung video bằng kỹ thuật nhận dạng ký tự quang học. .........................................................................................44 3.2. Nghiên cứu và xây dựng chương trình dựa trên phần mềm mã nguồn mở Tesseract – OCR. ..................................................................................................45 3.2.1. Công cụ và môi trường xây dựng chương trình ............................ 45 3.2.2. Giao diện chương trình ................................................................. 46 3.3. Thử nghiệm chương trình trên tập dữ liệu thực .........................................48 3.4. Kết luận chương 3.........................................................................................51 KẾT LUẬN ..............................................................................................................52 DANH MỤC TÀI LIỆU THAM KHẢO ...............................................................53 v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt CC Connected component Thành phần liên thông OCR optical character recognition Nhận dạng ký tự quang học SVM supper vector machines Máy véc tơ hỗ trợ K keyframes Khung hình chính ANN Artificial Neural Network Mạng nơ ron nhân tạo LSTM Long Short Term Memory networks Mạng thần kinh tái phát vi DANH MỤC CÁC BẢNG Bảng 2. 1: Minh họa ký tự dưới dạng ảnh ................................................................16 Bảng 2. 2: Nhị phân hóa mẫu ký tự mẫu...................................................................16 Bảng 2. 3: Đối sánh nhận dạng ký tự số ...................................................................17 Bảng 2. 4: Các phần mềm OCR tiêu biểu .................................................................23 Bảng 3. 1: Cấu hình môi trường xây dựng chương trình…………………………..45 Bảng 3. 2: Công cụ sử dụng xây dựng chương trình ................................................45 Bảng 3. 3: Danh sách và đặc điểm tập dữ liệu thực ..................................................49 Bảng 3. 4: Kết quả nhận dạng của chương trình trên tập dữ liệu thực .....................51 vii DANH MỤC CÁC HÌNH Hình 1. 1: Kiến trúc chương trình phát hiện và nhận dạng văn bản trong video ......10 Hình 2. 1: Phân đoạn video thành ảnh theo keyframes……………………………14 Hình 2. 2: Nút neural nhân tạo ..................................................................................18 Hình 2. 3: Mạng truyền thẳng nhiều tầng .................................................................19 Hình 2. 4: Các đường cơ bản trong văn bản .............................................................25 Hình 2. 5: Minh họa thành phần liên thông ..............................................................26 Hình 2. 6: Quy trình hoạt động của hệ thống OCR...................................................26 Hình 2. 7: Độ nghiêng và hướng của văn bản ...........................................................29 Hình 2. 8: Văn bản bị nhiễu trong ảnh ......................................................................29 Hình 2. 9: Bố cục của văn bản trong tài liệu .............................................................31 Hình 2. 10: Quy trình hoạt động của Tesseract.........................................................36 Hình 2. 11: Ảnh và ảnh đa cấp xám ..........................................................................38 Hình 2. 12: Xác định vùng văn bản trong Tesseract .................................................38 Hình 2. 13: Xác định các đường của văn bản trong Tesseract ..................................38 Hình 2. 14: Phân tách từ thành ký tự trong Tesseract ...............................................39 Hình 2. 15: Xác định khoảng cách giữa các từ trong Tesseract ................................39 Hình 2. 16: Quy trình phân tích từ thành ký tự trong Tesseract ...............................41 Hình 2. 17: Xác định đặc trưng của ký tự trong Tesseract .......................................42 Hình 3. 1: Phân cấp chức năng của chương trình ………………………...44 Hình 3. 2: Chức năng tách và xử lý ảnh thành ảnh đa cấp xám...................... 46 Hình 3. 3: Chức năng sử dụng Tesseract OCR để nhận dạng văn bản ........... 47 Hình 3. 4: Chức năng lọc trùng văn bản ......................................................... 48 Hình 3. 5: Khung hình minh họa tập dữ liệu kiểm thử ................................... 48 Hình 3. 6: Các lỗi nhận dạng văn bản sai của chương trình ........................... 50 1 MỞ ĐẦU 1. Lý do chọn đề tài Cùng với sự phát triển của công nghệ thông tin, ngoài những điểm như tốc độ, dịch vụ internet được cải thiện rõ nét thì việc nội dung đăng tải trên đó cũng tăng đến chóng mặt. Có thể kể ra như Youtube có hơn 1 tỉ người dùng và mỗi ngày mọi người xem hàng triệu giờ trên Youtube và tạo ra hàng tỉ lượt xem. Hay trung bình 13 người trên trái đất thì có 1 người dùng Facebook và đăng tải ít nhất 3 ảnh trên đó. Tính riêng số lượng video bài giảng, diễn thuyết… phục vụ học tập cho mọi lứa tuổi đang được tải lên và chia sẻ trên internet đã là một con số khổng lồ. ELearning không còn là khái niệm mới lạ với người dùng và đang phát triển mạnh mẽ. Bài giảng có thể ở nhiều cách tiếp cận khác nhau, từ trình chiếu đến tư liệu quay phim …. Trong thời điểm hiện tại, người dùng có nhu cầu học tập dưới mọi loại tài liệu và mọi loại ngôn ngữ khác nhau, đặc biệt là tiếng Anh, từ các bài hướng dẫn thủ thuật được chia sẻ miễn phí trên Youtube hay tài liệu chuyên ngành. Tuy nhiên, sẽ bất tiện cho người học khi liên tục phải xem hết tài liệu qua video. Từ đó đòi hỏi phải có một công cụ có thể rút ngắn thời gian xem mà vẫn đáp ứng thu nhận đầy đủ nội dung truyền tải từ tài liệu đó. Để làm được điều này, ta sẽ sử dụng kỹ thuật nhận dạng ký tự quang học để nhận dạng nội dung từ ảnh chụp trong video ra thành văn bản. Điều này vừa giữ nguyên nội dung vừa giảm thiểu dung lượng lưu trữ, tái sử dụng dưới nhiều mục đích khác nhau. Từ ý nghĩa khoa học và thực tiễn nêu trên, học viên chọn đề tài: “Phát hiện và nhận dạng văn bản trong Video”. 2. Tổng quan về đề tài Những nghiên cứu ở Việt Nam và ngoài nước trong 20 năm trở lại đây về vấn đề phát hiện và nhận dạng văn bản nói chung đều chỉ ra rằng khối lượng thông tin đến từ nội dung của video là rất lớn. Những thông tin được lấy ra được áp dụng vào những lĩnh vực khác nhau như: giao thông, kho bãi, bán hàng hoặc thậm chí cả 2 tìm kiếm và dịch thuật… Tuy nhiên do những vấn đề khác nhau của dữ liệu đầu vào như: chất lượng video, kiểu văn bản, kích thước văn bản … đã đã trở ngại cho các nghiên cứu tìm ra được phương án tối ưu cho vấn đề này Google Books (tên gọi ban đầu Google Print hay Google Book Search) là một công cụ của Google cho phép tìm một đoạn văn đầy đủ trong một cuốn sách do Google scan lại và qua nhận dạng ký tự OCR, và lưu trữ trong một cơ sở dữ liệu số. Dịch vụ này được biết đến lúc đầu với cái tên là Google Print khi nó được giới thiệu tại Frankfurt Book Fair vào tháng 10 năm 2004. Khi một cụm từ khớp với những từ khóa người dùng nhập vào, Google sẽ đưa ra một bảng danh sách các đầu sách có chứa từ khóa ở trên. Nhấp vào kết quả từ Google Book Search sẽ mở ra một giao diện mới trong đó người dùng có thể xem từng trang trong cuốn sách cũng như các quảng cáo chứa thông tin liên quan và các đường link đến trang web của nhà xuất bản và nhà bán sách. Đây là bước đi đầu cho việc Google mở rộng ra các dịch vụ sau như tìm kiếm nội dung video bài giảng trực tuyến trong thời gian tới. Mục tiêu chính của của Luận văn là tập trung nghiên cứu xây dựng một công cụ như vậy để phát hiện và nhận dạng nội dung các bài giảng, thuyết trình, trình diễn dưới dạng video. Người dùng chỉ cần chọn video đầu vào, kết quả trả về sẽ là các nội dung dưới dạng văn bản có trong video đó. Vấn đề cần giải quyết ở trong đề tài này là giải pháp xử lý video đầu vào. Phát hiện và nhận dạng văn bản có trong video. Đầu tiên, video sẽ được phân tách thành từng ảnh nhỏ theo từng khung hình với khoảng thời gian nhất định. Tiếp theo, các dữ liệu văn bản chứa trong hình ảnh của khung hình được trích xuất bằng cách sử dụng kĩ thuật nhận dạng kí tự quang học. Các văn bản trích xuất sẽ được xử lý trùng lặp, và lưu trữ dưới dạng văn bản để người dùng có thể đọc lại nội dung từ đó. 3. Nhiệm vụ nghiên cứu - Tìm hiểu phương pháp phân đoạn ảnh từ video và trích xuất văn bản . - Cài đặt chương trình tìm kiếm thử nghiệm, đánh giá độ chính xác của mô hình phát hiện và nhận dạng. 4. Đối tượng và phạm vi nghiên cứu 3 Đối tượng nghiên cứu: Các phương pháp xử lý video, phát hiện và nhận dạng ký tự quang học. Phạm vi nghiên cứu: - Kỹ thuật xử lý video. - Kỹ thuật trích xuất văn bản từ ảnh - Kỹ thuật phát hiện và nhận dạng ký tự quang học - Xây dựng và thử nghiệm chương trình 5. Phương pháp nghiên cứu - Nghiên cứu lý thuyết: Sử dụng các phương pháp phân tích, tổng hợp thông tin để tổng kết các kiến thức nền tảng, các công bố khoa học và các ứng dụng của các phương pháp xử lý video, phương pháp phát hiện và nhận dạng ký tự quang từ các nguồn tài liệu trên internet và các nguồn tài liệu khác: bao gồm các bài báo khoa học trên các kỷ yếu hội thảo, tạp chí chuyên ngành… - Nghiên cứu thực nghiệm: Bao gồm các nội dung: 1) Tìm hiểu bài toán trích xuất nội dung video từ kĩ thuật nhận dạng ký tự quang. 2) Cài đặt chương trình và thử nghiệm chương trình trên dữ liệu thử nghiệm. 6. Bố cục luận văn Luận văn có bố cục gồm: Phần mở đầu, 3 chương chính, phần kết luận, tài liệu tham khảo và phụ lục. Được bố trí theo thứ tự: - Mở đầu. - Chương 1: Tổng quan về phân tích dữ liệu Video. - Chương 2: Phát hiện và nhận dạng văn bản trong Video. - Chương 3: Xây dựng và thử nghiệm chương trình Phát hiện và nhận dạng văn bản trong Video. - Kết luận. - Tài liệu tham khảo. 4 Chương 1 - TỔNG QUAN VỀ PHÂN TÍCH DỮ LIỆU VIDEO 1.1. Phát biểu bài toán Ngày nay, khối lượng dữ liệu chứa trong video là rất lớn. Điều đó đòi hỏi cần thiết để tạo ra các công cụ hữu ích cho phép trích xuất thông tin từ các chuỗi video này để phân loại hoặc phân tích mà không cần sự giám sát của con người. Chú thích hoặc văn bản trên ảnh nền là được sử dụng hơn cả trong việc tách lọc thông tin. Mặc dù văn bản có thể dễ dàng phát hiện đối với con người, ngay cả trong trường hợp viết tắt hoặc loại ngoại ngữ khác. Tuy nhiên ở thời điểm hiện tại, không có phương pháp nào cho phép trích xuất văn bản một cách tối ưu nhất. Điều này là do thực tế rằng văn bản tồn tại trong video có rất nhiều các cách thể hiện khác nhau (Ví dụ: kích thước, phong cách, định hướng, ...), hoặc do độ phân giải thấp của hình ảnh (chất lượng) và độ phức tạp của nền. Mặc dù những hạn chế này, các dòng văn bản vẫn thể hiện một số tính đồng nhất, làm cho nó có thể phát hiện được như độ tương phản, độ bám dính không gian, bề ngoài kết cấu, độ đồng nhất màu, độ dày nét, độ đồng nhất theo thời gian, chuyển động theo trình tự, vị trí trên khung, vv [9]. Do đó, mục đích của luận văn này là một giải pháp cho việc phát hiện và nhận dạng văn bản trong video dựa vào xử lý ảnh và công nghệ OCR. Trong khuôn khổ luận văn này, tác giả chỉ đề cập đến các video bài giảng, thuyết trình dưới dạng slide hoặc có phụ đề và bài toán liên quan đến quá trình nhận dạng văn bản từ những video dạng nói trên. Ngoài ra, còn rất nhiều chủng loại video khác nữa, và nội dung nghiên cứu các video khác là nằm ngoài khuôn khổ trong luận văn. Trọng tâm của luận văn là nghiên cứu cách thức xử lý và nhận dạng văn bản cho video đầu vào. 1.2. Các nghiên cứu trước đây về phân tích dữ liệu video 1.2.1. Tổng quan về video Về mặt bản chất thì video được cấu thành từ những ảnh tĩnh. Những ảnh này sau đó được sắp xếp liên tiếp nhau và cùng trình diễn trong một đơn vị thời gian đủ 5 nhỏ để làm cho mắt của chúng ta cảm nhận rằng các đối tượng này đang chuyển động. Thông thường thì các video được quay ở khoảng 24-30 hình mỗi giây. Tuy nhiên khi các ảnh được trình chiếu nhanh hơn thì chúng ta cảm nhận được mượt mà và linh động hơn. Mỗi hình này được gọi là một frame. Số frame trên một giây được đo bằng một số nguyên được kí hiệu FPS. Một video đơn giản được hiểu là tổng số khung hình được lưu trữ cùng nhau và trình chiếu theo một thứ tự, do vậy một video thông thường có khoảng vài trăm đến vài trăm nghìn khung hình. Một số thuộc tính đặc trưng của Video ta cần biết Video có bốn đặc trưng chính: Color (màu sắc), texture (kết cấu), shape (hình dáng), motion (chuyển động)  Color: Màu là một thuộc tính quan trọng của ảnh. Biểu đồ màu, biểu diến sự phân bố màu, là một đặc trưng màu phổ biến nhất hiện nay. Biểu đồ màu không phụ thuộc vào sự quay, dịch chuyển ảnh cũng như chiều nhìn ảnh. Tính hiệu quả của nó lại phụ thuộc vào hệ màu và phương pháp định lượng được dùng. Có một vấn đề với biểu đồ màu là nó không biểu diễn thông tin về không gian phân bố các điểm ảnh, do đó hai ảnh có cùng biểu đồ màu có thể có nội dung rất khác nhau.  Texture: Đây là một đặc trưng quan trọng của bề mặt, nơi xảy ra việc lặp lại mẫu cơ bản. Có hai dạng biểu diễn texture phổ biến: biểu diễn dạng ma trận đồng thời và biểu diễn Tamura. Ma trận đồng thời mô tả hướng và khoảng cách giữa các điểm ảnh, nhờ đó các thống kê có nghĩa có thể được trích chọn. Ngược lại, người ta thấy rằng entropi và mô men chênh lệch nghịch đảo lại có khả năng phân biệt tốt nhất. Biểu diễn Tamura được thúc đẩy nhờ các nghiên cứu về tâm lý trong việc thu nhận trực giác của con người và nó bao gồm các đại lượng đo tính thô, độ tương phản, hướng, tính trơn, tính cân đối và độ ráp. Các đặc trưng Tamura rất hấp dẫn trong việc hiểu nội dung ảnh vì nó biểu đạt trực quan. Ngoài ra còn có một số các dạng biểu diễn khác như trường ngẫu nhiên Markov, biến đổi Gabor, biến đổi gợn sóng,.. 6  Shape: Các đặc trưng hình dáng có thể được biểu diễn sử dụng phân tích hình dáng truyền thống như bất biến mô men, mô tả Fourier, mô hình học tự động quay lui và các thuộc tính hình học. Các đặc trưng này có thể được phân chia thành đặc trưng toàn cục và đặc trưng cục bộ. Đặc trưng toàn cục là đặc trưng thuộc tính thu được từ toàn bộ hình dáng ảnh, chẳng hạn như chu vi, tính tròn, mô men trung tâm, hướng trục chính... Đặc trưng cục bộ là đặc trưng thu được từ việc thao tác với một phần của ảnh, không phụ thuộc vào toàn bộ ảnh.  Motion: Chuyển động là thuộc tính quan trọng của video. Thông tin về chuyển động có thể được sinh ra bằng các kỹ thuật ghép khối hoặc luồng ánh sáng. Các đặc trưng chuyển động như mô men của trường chuyển động, biểu đồ chuyển động hoặc là các tham số chuyển động toàn cục có thể được trích chọn từ vectơ chuyển động. Các đặc trưng mức cao phản ánh di chuyển camera như quét camera (pan), nghiêng (tilt), phóng to (zoom out), thu nhỏ (zoom in) cũng có thể được trích chọn. 1.2.2. Những nghiên cứu liên quan Kể từ năm 1994 đến nay, đã có rất nhiều những nghiên cứu khác nhau về việc phát hiện và nhận dạng văn bản trong video của các tác giả trên thế giới. Trong đó có những nghiên cứu cho thấy tính khả quan trong những phương pháp có thể áp dụng trong việc phát hiện và nhận dạng văn bản trong video, và cũng có những nghiên cứu chỉ ra những điểm còn hạn chế của việc làm này. Có thể kể đến như sau: Ohya và các cộng sự (1994) [6] đã trình bày một phương pháp bốn giai đoạn cho việc trích xuất văn bản từ hình ảnh theo khung hình. Họ cũng làm việc trên các ký tự khác nhau, kích cỡ, vị trí và phông chữ trong điều kiện chiếu sáng khác nhau trong hình ảnh văn bản theo khung hình. Bài báo kết luận rằng phương pháp đề xuất không thích hợp cho các tài liệu video, do sự hiện diện của một số đối tượng trong đó quá với các cấp độ xám khác nhau và do ảnh hưởng của mức độ vỡ ảnh cao và các biến thể trong chiếu sáng. 7 Chen và cộng sự (2001) [3] đã sử dụng toán tử canny để phát hiện các cạnh trong một hình ảnh. Hình thái giãn nở được thực hiện để kết nối các cạnh thành các cụm. Một số kiến thức heuristic, chẳng hạn như tỷ lệ chiều ngang và chiều cao ngang, được sử dụng để thay đổi các cụm không phải văn bản. Theo bài báo, nghiên cứu đã loại bỏ hoặc làm nhòe các cấu trúc không có thang đo đặc biệt. Phát hiện văn bản đã được áp dụng cho hình ảnh nâng cao. Các tác giả đã sử dụng gói OCR thương mại (gói Reader OCR) sau khi kích thước chuẩn hóa các ký tự riêng lẻ thành 128 pixel bằng cách sử dụng phép nội suy song tuyến. Chunmei Liu và cộng sự (2005) [5] đã đề xuất một thuật toán để phát hiện văn bản trong các khung hình của video và hình ảnh. Nó được thực hiện bởi ba bước chính: phát hiện cạnh, phát hiện các ứng cử viên văn bản, và phát hiện các sàng lọc văn bản. Lúc đầu, nó áp dụng quy trình phát hiện cạnh để có được bốn bản đồ cạnh theo hướng lên trên, lên trên, dọc và ngang. Trong bước tiếp theo, việc trích xuất đối tượng địa lý được thực hiện từ bốn bản đồ cạnh để thể hiện đặc tính kết cấu của văn bản. Sau đó, thuật toán của kmeans được áp dụng cho việc phát hiện các ứng cử viên của văn bản ban đầu. C. Misra và cộng sự (2012) [4] đã đề xuất một kỹ thuật trích xuất và nhận dạng văn bản từ hình ảnh bằng cách sử dụng NN. Các phương pháp dựa trên HSV đã được áp dụng để giảm màu. Các tính năng được trích xuất từ mọi ROI cho mặt phẳng màu cụ thể đó và sau đó sử dụng chúng trong một trình phân loại dựa trên tính năng để tìm hiểu xem ROI có khối văn bản hay không phải văn bản. Các khối được xác định được cung cấp bên cạnh OCR làm đầu vào. Đầu ra của OCR dưới dạng ký tự của các từ khung hình ASCII được lưu trữ trong cơ sở dữ liệu dưới dạng từ khóa có tham chiếu để truy xuất trong tương lai. S. Ranjini và cộng sự (2013) [14] thảo luận về việc trích xuất văn bản tiếng Anh từ hình ảnh của truyện tranh blob bằng cách sử dụng các chiến lược khác nhau. Quá trình trích xuất văn bản từ hình ảnh truyện tranh giúp bảo tồn văn bản và cung cấp văn bản có chất lượng cao từ tài liệu được in. Tự động trích xuất văn bản từ các hình ảnh liên quan đến truyện tranh được phát triển xem xét do ứng dụng đã lên kế 8 hoạch trong việc truy xuất hình ảnh. Trong tác phẩm đã có, nội dung tiếng Nhật được trích từ hình ảnh Manga Comic bằng cách sử dụng các chức năng của Blob Extraction. Trong thời gian đó, việc trích xuất văn bản được thực hiện từ các ràng buộc khác nhau bằng cách sử dụng OCR và biên dịch bản dịch tiếng Nhật của Manga sang vài ngôn ngữ khác nhau trong phương pháp đôi khi để chia sẻ niềm vui khi đọc Manga qua Internet. Shilpa Arora và cộng sự (2014) [15] trình bày sự công nhận văn bản Gurmukhi từ các hình ảnh biển hiệu được chụp qua camera điện thoại di động. Những hình ảnh không được chuẩn bị và không vỡ hình. Văn bản được trích xuất được phân đoạn thành các ký tự sử dụng cấu hình dự án. Các phương pháp phân vùng được sử dụng để trích xuất các tính năng. Các ký tự được phân loại bằng kỹ thuật SVM. Lienhart và cộng sự [11] đề xuất một phương pháp phát hiện văn bản trong video và hình ảnh. Họ xây dựng một mạng noron nhiều tầng để huấn luyện phát hiện văn bản. Thuật toán của họ xử lý với tất cả các khung hình phân đoạn được và cách tiếp cận này kém hiệu quả về thời gian xử lý. 1.2.3. Phát hiện và nhận dạng văn bản trong thời điểm hiện tại Sự nhận dạng chính xác ký tự Latin đánh máy được xem là vấn đề đã được giải quyết. Tỷ lệ chính xác thực tế đạt tới 99%, mặc dù một số ứng dụng đòi hỏi tỷ lệ chính xác cao hơn nữa cần phải con người kiểm tra lại lỗi. Tuy nhiên, việc nhận dạng chữ in bằng tay, chữ viết tay, văn bản trong video, vẫn còn là một đề tài của các nghiên cứu.[16] Các hệ thống nhận dạng văn bản đã đạt được những thành công lớn về mặt thương mại trong những năm gần đây. Trong số đó là thiết bị nhập cho những thiết bị hỗ trợ cá nhân (PDA) như những phần mềm chạy trên Palm OS. hãng Apple Newton đi tiên phong trong công nghệ này. Những giải thuật sử dụng trong những thiết bị này sử dụng những ưu điểm rằng thứ tự, tốc độ, và hướng của những đoạn dòng đơn lẻ đã được biết trước. Tương tự, người dùng có thể được yêu cầu sử dụng chỉ một vài loại kiểu chữ nhất định. Những phương pháp này không thể dùng được 9 trong phần mềm scan tài liệu giấy, do đó sự nhận dạng chính xác văn bản in bằng tay vẫn là một vấn đề lớn đang được bỏ ngỏ. Với mức chính xác từ 80% đến 90%, những ký tự in bằng tay sạch sẽ có thể được nhận ra, nhưng độ chính xác đó vẫn tạo ra hàng tá lỗi mỗi trang, khiến cho công nghệ đó chỉ hiệu quả trong vài trường hợp nào đó. Sự đa dạng của OCR hiện nay được biết đến trong công nghiệp là ICR, (Intelligent Character Recognition - Nhận dạng Ký tự Thông minh). Hiện nay, với chữ Việt, phần mềm nhận dạng chữ Việt in VnDOCR 4.0 có khả năng nhận dạng trực tiếp các loại tài liệu được quét qua máy quét, không cần lưu trữ dưới dạng tệp ảnh trung gian. Các trang tài liệu có thể được quét và lưu trữ dưới dạng tệp tin nhiều trang. Kết quả nhận dạng được lưu trữ sang định dạng của Microsoft Word, Excel... phục vụ rất tốt nhu cầu số hóa dữ liệu. Ngoài ra, còn có một dự án OCR Tiếng Việt có tên VietOCR, được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ. VietOCR có khả năng nhận dạng chữ Việt rất tốt. Đây là một chương trình nguồn mở Java/.NET, hỗ trợ nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG, và BMP. 1.3. Hướng nghiên cứu của tác giả Dựa vào các phương pháp tiếp cận nghiên cứu đã nêu trong phần 1.1 và 1.2, tác giả lựa chọn phương pháp tiếp cận để trích xuất văn bản từ video bằng công nghệ OCR thay vì sử dụng các công nghệ khác vì tính ứng dụng cao của công nghệ này. Công cụ phát hiện và nhận dạng văn bản từ video mà tác giả mong muốn xây dựng được hình thành từ cách giải quyết các bài toán cụ thể sau:  Phân đoạn video.  Trích xuất văn bản đại diện: o Nhận dạng kí tự quang học. o Xử lý trùng lặp văn bản. Kiến trúc của chương trình phát hiện và nhận dạng văn bản từ video mà tác giả đề xuất được mô tả trong hình dưới đây: 10 Hình 1. 1: Kiến trúc chương trình phát hiện và nhận dạng văn bản trong video 1.4. Kết luận chương 1 Trong chương 1, học viên đã trình bày khái quát về bài toán phát hiện và nhận dạng văn bản trong video. Đồng thời dựa trên những nghiên cứu trước đây của các tác giả khác và công nghệ trong thời gian hiện tại để đưa ra hướng giải quyết bài toán có thể áp dụng trong lĩnh vực phát hiện và nhận dạng văn bản trong video. Học viên cũng đã đề xuất được kiến trúc của chương trình phát hiện và nhận dạng văn bản trong viđeo để từ đó tạo tiền đề cho các chương tiếp theo để tiến hành nghiên cứu và xây dựng chương trình kiểm thử trên tập dữ liệu thực.
- Xem thêm -