Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học ứng dụng phân hệ sưu tập số của phần mềm libol 6.0 tại thư viện học viện kỹ thuậ...

Tài liệu ứng dụng phân hệ sưu tập số của phần mềm libol 6.0 tại thư viện học viện kỹ thuật quân sự

.PDF
77
625
70

Mô tả:

z Ứng dụng phân hệ Sưu tập số của phần mềm Libol 6.0 tại Thư viện Học viện Kỹ thuật Quân sự ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN KHOA THÔNG TIN – THƯ VIỆN ---------- NGUYỄN THỊ THỦY ỨNG DỤNG PHÂN HỆ SƯU TẬP SỐ CỦA PHẦN MỀM LIBOL 6.0 TẠI THƯ VIỆN HỌC VIỆN KỸ THUẬT QUÂN SỰ KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC NGÀNH THÔNG TIN – THƯ VIỆN HỆ ĐÀO TẠO: CHÍNH QUY KHÓA HỌC: QH – 2008 – X GIÁO VIÊN HƯỚNG DẪN: TS. CHU NGỌC LÂM Hà Nội - 2012 Nguyễn Thị Thủy – K53TTTV Page 1 Ứng dụng phân hệ Sưu tập số của phần mềm Libol 6.0 tại Thư viện Học viện Kỹ thuật Quân sự LỜI CẢM ƠN Trong thời gian học tại trường Đại học Khoa học Xã hội và Nhân Văn, cùng với sự giúp đỡ tận tình của các Thầy cô trong khoa Thông tin – Thư viện trường Đại học Khoa học Xã hội và Nhân Văn, tôi đã tiếp thu được những kiến thức bổ ích trong học tập và cuộc sống. Thầy cô là những người đã dìu dắt tôi trong suốt quãng đường sinh viên của tôi. Khoá luận này là thành quả lớn trong suốt chặng đường học tập của tôi. Để hoàn thành được Khoá luận này, tôi xin gửi lời cảm ơn chân thành đến các thầy cô trong khoa trong trường và các thầy cô trong khoa đã cung cấp cho tôi những kiến thức mà tôi đã thu được trong suốt thời gian qua. Đặc biệt, thầy TS. Chu Ngọc Lâm– người đã định hướng và trực tiếp hướng dẫn tôi trong suốt quá trình hoàn thành khóa luận này. Tôi cũng xin gửi lời cảm ơn chân thành đến các cô chú, các anh chị làm việc tại Thư viện Học viện Kỹ thuật Quân sự đã giúp đỡ tôi trong suốt quá trình thực tập, tìm hiểu những thông tin cần thiết cho Khoá luận của mình. Khóa luận chắc chắn không thể tránh khỏi những hạn chế và thiếu xót, rất mong Qúy thầy cô và các bạn có những đóng góp và cho ý kiến để tôi có thể sửa chữa, bổ sung hoàn thiện hơn nghiên cứu của mình. Hà Nội, ngày 06 tháng 02 năm 2012 Ký tên Nguyễn Thị Thủy Nguyễn Thị Thủy – K53TTTV Page 2 Ứng dụng phân hệ Sưu tập số của phần mềm Libol 6.0 tại Thư viện Học viện Kỹ thuật Quân sự BẢNG GIẢI NGHĨA TỪ VIẾT TẮT Từ viết tắt AACR Nghĩa tiếng Anh Anglo – American Cataloguing Rules Nghĩa tiếng Việt Quy tắc biên mục Anh – Mỹ Compact Disc Read Only Bộ nhớ chỉ đọc dùng cho đĩa Memory compact - Cơ sở dữ liệu Dewey Decimal Bảng phân loại thập phân Classification Dewey GT - TL - Giáo trình – tài liệu HVKTQS - Học viện Kỹ thuật Quân sự Hyper Text Mark – up Ngôn ngữ đánh dấu siêu văn Language bản CD – ROM CSDL DDC HTML ICP ILL ISBD ISSN ISO Internet Concept Provider Nhà cung cấp nội dung Internet InterLibrary Loan Mượn liên thư viện International Standard Tiêu chuẩn Quốc tế về mô tả Bibliography Description thư mục International Standard Serial Number International Organization for Standardization Nhóm 10 chữ số duy nhất, đại diện cho một tạp chí trên toàn thế giới Tổ chức tiêu chuẩn Quốc tế - Khoa học kỹ thuật Library of Congress Bảng phân loại của thư viện Classification Quốc hội (Mỹ) LIBOL Library Online Thư viện trực tuyến MARC Machine – Readable Machine – Readable KHKT LCC Nguyễn Thị Thủy – K53TTTV Page 3 Ứng dụng phân hệ Sưu tập số của phần mềm Libol 6.0 tại Thư viện Học viện Kỹ thuật Quân sự OCR OPAC Optical Character Recognition Nhận dạng lý tự quang học Online Public Access Mục lục truy nhập công cộng Catalogue trực tuyến Thủ tục định sẵn, được lưu trữ SP Stored Procedure TCVN - Tiêu chuẩn Việt Nam Transfer control Giao thức kiểm soát truyền dẫn Protocol/Internet Protocol dữ liệu/Giao thức Internet TCP/IP trong cơ sở dữ liệu Định danh tài nguyên đồng URL Uniform Resource nhất. Thông tin này thường Location dùng để xác định một trang trên Web VH, CT & XH XML Z39.50 Extensible Markup Language - Nguyễn Thị Thủy – K53TTTV Văn học, chính trị và xã hội Ngôn ngữ đánh dấu mở rộng Chuẩn dùng để trao đổi thông tin về sách giữa các thư viện Page 4 Ứng dụng phân hệ Sưu tập số của phần mềm Libol 6.0 tại Thư viện Học viện Kỹ thuật Quân sự PHẦN MỞ ĐẦU 1. Tính cấp thiết của đề tài Cùng với sự phát triển nhanh chóng của xã hội, vai trò của thư viện ngày càng được đánh giá cao. Ngày nay, khoa học công nghệ phát triển với tốc độ rất nhanh và được ứng dụng ngày càng nhiều vào mọi lĩnh vực của đời sống xã hội trong đó có ngành thông tin thư viện. Sự tiến bộ vượt bậc của khoa học công nghệ, nhu cầu thông tin trở nên phong phú và thiết yếu trong cuộc sống của mỗi người. Cuộc sống luôn luôn có những thay đổi không ngừng đòi hỏi chúng ta phải nắm bắt kịp thời nó trước khi nó trở nên lạc hậu. Những yêu cầu thông tin được đặt ra là nhanh chóng, kịp thời, chính xác và đầy đủ. Để đáp ứng được đầy đủ những thông tin này, các trung tâm thông tin thư viện sẽ đóng vai trò chủ chốt. Thư viện là nơi cung cấp những nguồn tin tin cậy và đầy đủ nhất. Trong những năm gần đây, sự nghiệp thư viện Việt Nam đang trên đà phát triển mạnh, đạt được nhiều thành tựu to lớn, khẳng định vị trí quan trọng đối với sự nghiệp phát triển đất nước. Để theo kịp với xu thế phát triển của sự nghiệp thư viện thế giới và đáp ứng nhu cầu thông tin ngày càng cao hiện nay, các thư viện đã tiến hành ứng dụng những công nghệ mới trong hoạt động thông tin thư viện, nhằm mục đích hướng tới xây dựng thư viện phát triển theo hướng thư viện điện tử, tự động hóa hoàn toàn. Thư viện HVKTQS là một trong những cơ quan được đánh giá là cơ sở vật chất khá đầy đủ và hiện đại. Hiện nay, cơ quan đang tiến hành số hóa dần dần tài liệu. Để quản lý tốt hoạt động thư viện, đặc biệt bộ sưu tập số của mình, Thư viện hiện đang sử dụng phần mềm quản lý thư viện Libol 6.0 với phân hệ Sưu tập số khá mạnh. Phân hệ Sưu tập số chính là điểm mạnh của Libol 6.0, và là bước phát triển mới của phần mềm Libol, góp phần quan trọng trong việc quản lý, khai thác các bộ sưu tập số của Thư viện. Do đó, tôi Nguyễn Thị Thủy – K53TTTV Page 5 Ứng dụng phân hệ Sưu tập số của phần mềm Libol 6.0 tại Thư viện Học viện Kỹ thuật Quân sự đã lựa chọn đề tài “Ứng dụng phân hệ Sưu tập số của phần mềm Libol 6.0 tại Thư viện Học viện Kỹ thuật Quân sự”. Qua đó, tôi muốn nghiên cứu sâu hơn về những tính năng và khả năng ứng dụng của phân hệ Sưu tập số - phần mềm Libol 6.0 trong hoạt động thông tin – thư viện tại Thư viện HVKTQS nói riêng và hoạt động thông tin - thư viện nói chung. 2. Tình hình nghiên cứu Số hóa tài liệu trong hoạt động thông tin – thư viện hiện nay vẫn là một vấn đề mới mẻ ở nước ta. Các đề tài nghiên cứu về vấn đề này rất ít, có một số đề tài nghiên cứu khoa học nghiên cứu đến vấn đề này nhưng chỉ là đề cập đến một khía cạnh nhỏ chưa đi vào cụ thể. Một số công trình nghiên cứu về vấn đề liên quan đến số hóa tài liệu như “Xây dựng và phát triển nguồn lưc thông tin điện tử ở Học viện Hậu cần” của Lê Anh Tiến – Luận văn thạc sĩ năm 2010; “Đề án số hóa tài liệu” của Thư viện Hà Nội năm 2011; “Đề án nâng cao năng lực ứng dụng công nghệ thông tin của hệ thống thư viện công cộng giai đoạn 3” của Thư viện Quốc gia Việt Nam năm 2002,… Phân hệ Sưu tập số là phân hệ mới của phần mềm Libol 6.0, đây là điểm nổi bật của phần mềm này, là giải pháp cho việc xây dựng thư viện số trong các cơ quan thông tin thư viện. Thư viện HVKTQS mới ứng dụng Libol 6.0 từ năm 2010, việc nghiên cứu ứng dụng của phân hệ Sưu tập số tại Thư viện HVKTQS hoàn toàn là mới mẻ, chưa có nghiên cứu nào về vấn đề này. Vấn đề số hóa tài liệu và việc ứng dụng phần mềm trong việc quản lý và khai thác bộ sưu tập số là vấn đề đang được nhiều cơ quan thông tin – thư viện ở nước ta quan tâm, hướng tới mục tiêu xây dựng thư viện thành các thư viện điện tử. Vì vậy, việc nghiên cứu vấn đề số hóa tài liệu và ứng dụng phân hệ Sưu tập số - Libol 6.0 là cần thiết đối với việc nâng cao chất lượng hoạt động thông tin – thư viện nước ta nói chung và hoạt động thông tin – thư viện tại Thư viện HVKTQS nói riêng hiện nay. Nguyễn Thị Thủy – K53TTTV Page 6 Ứng dụng phân hệ Sưu tập số của phần mềm Libol 6.0 tại Thư viện Học viện Kỹ thuật Quân sự 3. Mục đích và nhiệm vụ nghiên cứu 3.1. Mục đích nghiên cứu Nghiên cứu đề xuất các giải pháp nâng cao chất lượng ứng dụng bộ sưu tập số của phần mềm Libol 6.0 tại Thư viện HVKTQS. 3.2. Nhiệm vụ nghiên cứu - Làm rõ những vấn đề chung về số hóa tài liệu - Giới thiệu khái quát về Thư viện HVKTQS - Phân tích, đánh giá thực trạng ứng dụng phân hệ Sưu tập số và phần mềm Libol 6.0 tại Thư viện HVKTQS. - Đề xuất các giải pháp nâng cao chất lượng ứng dụng bộ sưu tập số phần mềm Libol 6.0 tại Thư viện HVKTQS. 4. Đối tượng và phạm vi nghiên cứu  Đối tượng: Tìm hiểu việc ứng dụng phân hệ Sưu tập số - Libol 6.0 tại Thư viện HVKTQS  Phạm vi nghiên cứu: Phân hệ Sưu tập số - Libol 6.0 tại Thư viện HVKTQS từ năm 2010 đến nay. 5. Phương pháp nghiên cứu 5.1. Cơ sở lý luận Đề tài nghiên cứu dựa trên phương pháp duy vật biện chứng, duy vật lịch sử, các văn kiện của Đảng, Nhà nước và Quân đội về hoạt động thông tin – thư viện. 5.2. Phương pháp nghiên cứu Đề tài nghiên cứu dựa trên các phương pháp cụ thể như: - Phân tích, tổng hợp tài liệu - Trao đổi, phỏng vấn - Phương pháp thống kê Nguyễn Thị Thủy – K53TTTV Page 7 Ứng dụng phân hệ Sưu tập số của phần mềm Libol 6.0 tại Thư viện Học viện Kỹ thuật Quân sự 6. Ý nghĩa lý luận và thực tiễn 6.1. Ý nghĩa lý luận Làm rõ hơn những vấn đề chung về số hóa, vai trò của số hóa trong hoạt động thông tin thư viện 6.2. Ý nghĩa thực tiễn - Kết quả nghiên cứu sẽ góp phần nâng cao hiệu quả ứng dụng công nghệ thông tin và số hóa tài liệu trong Thư viện HVKTQS. - Làm tài liệu tham khảo cho các thư viện và công tác đào tạo cán bộ thư viện 7. Bố cục của khóa luận Ngoài phần mở đầu, kết luận, tài liệu tham khảo, bảng giải thích các từ viết tắt, khóa luận gồm 3 chương: - Chương 1: Thư viện Học viện Kỹ thuật Quân sự với vấn đề số hóa tài liệu. - Chương 2: Thực trạng ứng dụng phân hệ Sưu tập số - Libol 6.0 tại Thư viện Học viện Kỹ thuật Quân sự - Chương 3: Các giải pháp nâng cao chất lượng ứng dụng phân hệ Sưu tập số - Libol 6.0 tại Thư viện Học viện Kỹ thuật Quân sự Nguyễn Thị Thủy – K53TTTV Page 8 Ứng dụng phân hệ Sưu tập số của phần mềm Libol 6.0 tại Thư viện Học viện Kỹ thuật Quân sự Chương 1: THƯ VIỆN HỌC VIỆN KỸ THUẬT QUÂN SỰ VỚI VẤN ĐỀ SỐ HÓA 1.1. Số hóa tài liệu 1.1.1. Các khái niệm  Thư viện điện tử Hiện nay, trên thế giới xu thế phát triển Thư viện số đã trở thành phần chủ đạo trong toàn cảnh hoạt động thông tin thư viện. Tuy nhiên, Thư viện điện tử và Thư viện số là những khái niệm đang còn rất mới ở Việt nam. Thư viện điện tử (TVĐT): Khái niệm về thư viện điện tử được định nghĩa như sau: “Một hệ thống thông tin trong đó các nguồn thông tin đều có sẵn dưới dạng có thể xử lý được bằng máy tính và trong đó tất cả các chức năng bổ sung, lưu trữ, bảo quản, tìm kiếm, truy cập và hiển thị đều sử dụng kỹ thuật số”. Sự xuất hiện khái niệm này có liên quan trực tiếp tới sự bùng nổ Internet và Web mang lại. Khái niệm này đang được các chuyên gia công nghệ thông tin sử dụng để chỉ toàn bộ hệ thống dạng này, bất kể có dựa trên một thư viện truyền thống hay không. Môi trường kỹ thuật Internet hiện nay thậm chí cho phép một số người coi toàn thể nguồn thông tin của mạng một lúc nào đó như một thư viện số ảo toàn cầu mà độc giả là toàn thể những người sử dụng mạng trên hành tinh và các công cụ tìm tin và sự hiện diện của Web bảo đảm các chức năng thư mục cho thư viện đó.  Có thể hiểu theo nghĩa tổng quát: Thư viện điện tử là một loại hình thư viện đã tin học hóa toàn bộ hoặc một số dịch vụ thư viện. Là nơi người sử dụng có thể tới để tra cứu, sử dụng các dịch vụ thường làm như với một thư viện truyền thống nhưng đã được tin học hóa.Nguồn lực của Thư viện điện tử bao gồm cả tài liệu in giấy và tài liệu đã được số hóa. Nguyễn Thị Thủy – K53TTTV Page 9 Ứng dụng phân hệ Sưu tập số của phần mềm Libol 6.0 tại Thư viện Học viện Kỹ thuật Quân sự  Thư viện số Theo định nghĩa của TS. Ian Witten: “Thư viện số là tập hợp những bộ sưu tập thông tin của các đối tượng số hoặc đã được số hóa có tổ chức và tập trung. Tập trung theo đề tài hay chủ đề và có tổ chức để thông tin dễ truy cập và lưu trữ theo những tiêu chuẩn chuyên biệt”. Thư viện số là một Thư viện điện tử cao cấp trong đó toàn bộ các tài liệu của thư viện đã được số hóa và được quản lý bằng một phần mềm chuyên dụng có tổ chức giúp người dung dễ dàng truy cập, tìm kiếm và xem được nội dung toàn văn của chúng từ xa thông qua hệ thống mạng thông tin và các phương tiện truyền thông. Một Thư viện số hoàn chỉnh phải thực hiện được tất cả các dịch vụ cơ bản của thư viện truyền thống kết hợp với việc ứng dụng các lợi thế của công nghệ thông tin trong việc lưu trữ, tìm kiểm và phổ biến nội dung thông tin. Thư viện số là cơ hội đặc biệt cho thư viện truyền thống đổi mới phương thức phục vụ cho người dùng tin, đảm bảo hiệu quả, chất lượng cho đối tượng phục vụ. Quá trình tin học hoá này được thực hiện hầu như không tách rời với truyền thống và các chuẩn đã định về mô tả và các công cụ thư mục, được thực hiện nhờ các mô tả theo chuẩn quốc tế (ISBD, AACR2) đã tiêu chuẩn hoá việc phân vùng các phiếu mục lục chuẩn bị chuyển thành khuôn khổ trao đổi các biểu ghi dạng số. Vấn đề đặt ra các công cụ tin học phải đáp ứng được các nhu cầu xử lý đặc biệt có liên quan đến vấn đề đa ngôn ngữ và đa chữ viết của các loại hình tài liệu. Các nhà công nghệ thông tin đã phát triển ứng dụng tin học riêng với trình độ của các nước Bắc Mỹ, sau đó là trình độ quốc tế, kèm theo thiết bị chuẩn riêng biệt nhằm mục đích cho phép kết nối các ứng dụng này với nhau cũng như việc trao đổi chung các dữ liệu thư mục trên bình diện thế giới. Người ta đã áp dụng các chuẩn quốc tế về khổ mẫu và trao đổi dữ liệu, về mã hoá các ký tự cho các hệ thống các chữ Nguyễn Thị Thủy – K53TTTV Page 10 Ứng dụng phân hệ Sưu tập số của phần mềm Libol 6.0 tại Thư viện Học viện Kỹ thuật Quân sự viết khác nhau, về giao thức kết nối mục lục trực tuyến hoặc các hệ thống cung cấp tư liệu từ xa vào quy trình xử lý và khai thác thông tin. Khái niệm Thư viện số không chỉ tương đương với bộ sưu tập số, đó là một môi trường tập hợp các bộ sưu tập số theo chủ đề. Nguồn thông tin của thư viện số có thể nằm ngay trong thư viện và có thể cả bên ngoài thư viện (ví dụ: CSDL toàn văn mua quyền truy cập theo thời gian).  Bộ sưu tập số Bộ sưu tập số là một tập hợp có tổ chức nhiều tài liệu đã được số hoá dưới nhiều hình thức khác nhau (văn bản, hình ảnh, Audio, Video…) về một chủ đề. Mặc dù mỗi loại hình tài liệu có sự khác nhau về cách thể hiện, nhưng nó đều cung cấp một giao diện đồng nhất mà qua đó các tài liệu có thể truy cập, tìm kiếm dễ dàng. Ví dụ: Bộ sưu tập số về chủ tịch Hồ Chí Minh gồm các văn bản, các tác phẩm văn học, các văn kiện chính trị do Bác viết và do người khác viết về Bác; Những bài hát, bản nhạc viết về Hồ chí Minh; những đoạn phim, những băng video phản ánh cuộc đời và sự nghiệp hoạt động cách mạng của Người. Như vậy, một Thư viện số có thể bao gồm nhiều bộ sưu tập theo các chủ đề khác nhau, có thể do tập thể hoặc cá nhân tự xây dựng hoặc trao đổi, mua bán. Có thể nằm trong lưu trữ của thư viện nhưng cũng có thể nằm ngoài thư viện thông qua một kênh cung cấp từ phía đối tác. Sự có mặt của các nguồn tin số hoá mở đầu một chiều hướng mới trong việc quản lý các thư viện được tin học hoá, bởi vì cũng cần đảm bảo việc quản lý bản thân các nguồn số hoá gắn liền với sự thông báo trong mục lục truyền thống. Như vậy các thư viện số đã bổ sung vào hệ thống quản lý thư viện tích hợp một hệ thống quản lý các nguồn số hoá trong quá trình xây dựng các sưu tập thông tin. Sự hiện diện đồng thời dưới dạng số của một nguồn lực và hình thức mô tả nguồn đó tác động đến sự tiến triển của các khổ mẫu dữ liệu. Nguyễn Thị Thủy – K53TTTV Page 11 Ứng dụng phân hệ Sưu tập số của phần mềm Libol 6.0 tại Thư viện Học viện Kỹ thuật Quân sự  Số hóa tài liệu Số hóa tài liệu của vai trò quan trọng bậc nhất trong quá trình hình thành các bộ sưu tập số. Thông thường, các dữ liệu dạng chữ, hình ảnh, âm thanh… sử dụng trên máy tính và được máy tính nhận biết đúng định dạng, được gọi chung là dữ liệu số. Quá trình chuyển các dạng dữ liệu truyền thống như các bản viết tay, bản in trên giấy, hình ảnh… sang chuẩn dữ liệu trên máy tính và được máy tính nhận biết được gọi là số hoá dữ liệu. Như vậy, số hoá dữ liệu là hình thức chuyển đổi các dữ liệu truyền thống bên ngoài thành dạng dữ liệu số mà máy tính có thể hiểu được. 1.1.2. Nội dung (công đoạn) số hóa tài liệu Số hóa tài liệu cũng giống như bất kì hoạt động nào khác của thư viện đều phải tuân theo một trình tự nhất định. Sản phẩm của số hóa tài liệu là các dữ liệu số ở dạng văn bản, âm thanh, hình ảnh…, được lưu trữ dưới dạng file trong bộ nhớ của máy tính và máy tính có thể đọc được. Các bước tiến hành trong số hóa tài liệu bao gồm có 2 bước:  Quét hình – Scanning  Nhận dạng ký tự quang học - OCR (Optical Character Recognition). 1.1.2.1. Quét hình - Scanning Giai đoạn này cho ra sản phẩm số hóa dạng hình gọi là quét hình – scanning. Nếu như trước đây, khi ta muốn số hóa một cuốn sách khoảng 2000 trang thì phải mất hàng mấy ngày để quét từng trang sách. Nhưng hiện nay cũng với cuốn sách đó chỉ mất vài giờ đồng hồ là cho ra một sản phẩm tài liệu số đảm bảo chất lượng tốt, sắc nét, hình ảnh đẹp, giống 100% bản gốc và đặc biệt còn cho phép tự động tạo các siêu dữ liệu mô tả và siêu dữ liệu cấu trúc của tài liệu ở định dạng XML. Hiện nay ở Việt nam đã có các thiết bị số hóa tài liệu của công nghệ KIRTAS APT 1200, công nghệ này cùng với thiết bị BookScan APT 1200 có thể giúp các thư viện có thể số hóa nguồn tài liệu với Nguyễn Thị Thủy – K53TTTV Page 12 Ứng dụng phân hệ Sưu tập số của phần mềm Libol 6.0 tại Thư viện Học viện Kỹ thuật Quân sự số lượng lớn, giá cả hợp lý và đảm bảo chất lượng, thiết bị nhận dạng quang học OCR. Đặc biệt là công nghệ KIRTAS APT 1200 có một phần mềm biên tập BookScan Editor cho phép tự động biên tập, tạo siêu dữ liệu theo yêu cầu; BookScan APT 1200 không làm hư hỏng tài liệu gốc do không phải tháo gáy tài liệu đối với tài liệu có độ dày trang khi thực hiện Scan. 1.1.2.2. Nhận dạng ký tự quang học Giai đoạn này cho ra sản phẩm dạng số hóa văn bản gọi là nhận dạng ký tự quang học – OCR (Optical Character Recognition). Nhận dạng ký tự quang học (tiếng Anh: Optical Character Recognition, viết tắt là OCR), là loại phần mềm máy tính được tạo ra để chuyển các hình ảnh của chữ viết tay hoặc chữ đánh máy (thường được quét bằng máy scanner) thành các văn bản tài liệu. OCR được hình thành từ một lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhận tạo và machine vision. Mặc dù công việc nghiên cứu học thuật vẫn tiếp tục, một phần công việc của OCR đã chuyển sang ứng dụng trong thực tế với các kỹ thuật đã được chứng minh. Nhận dạng ký tự quang học (dùng các kỹ thuật quang học chẳng hạn như gương và ống kính) và nhận dạng ký tự số (sử dụng máy quét và các thuật toán máy tính) lúc đầu được xem xét như hai lĩnh vực khác nhau. Bởi vì chỉ có rất ít các ứng dụng tồn tại với các kỹ thuật quang học thực sự, bởi vậy thuật ngữ Nhận dạng ký tự quang học được mở rộng và bao gồm luôn ý nghĩa nhận dạng ký tự số. Đầu tiên hệ thống nhận dạng yêu cầu phải được huấn luyện với các mẫu của các ký tự cụ thể. Các hệ thống "thông minh" với độ chính xác nhận dạng cao đối với hầu hết các phông chữ hiện nay đã trở nên phổ biến. Một số hệ thống còn có khả năng tái tạo lại các định dạng của tài liệu gần giống với bản gốc bao gồm: hình ảnh, các cột, bảng biểu, các thành phần không phải là văn bản. Nguyễn Thị Thủy – K53TTTV Page 13 Ứng dụng phân hệ Sưu tập số của phần mềm Libol 6.0 tại Thư viện Học viện Kỹ thuật Quân sự Hiện nay, với chữ Việt, phần mềm nhận dạng chữ Việt in VnDOCR 4.0 có khả năng nhận dạng trực tiếp các loại tài liệu được quét qua máy quét, không cần lưu trữ dưới dạng tệp ảnh trung gian. Các trang tài liệu có thể được quét và lưu trữ dưới dạng tệp tin nhiều trang. Kết quả nhận dạng được lưu trữ sang định dạng của Microsoft Word, Excel... phục vụ rất tốt nhu cầu số hóa dữ liệu. Ngoài ra, còn có một dự án OCR Tiếng Việt có tên VietOCR, được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ. VietOCR có khả năng nhận dạng chữ Việt rất tốt. Đây là một chương trình nguồn mở Java/.NET, hỗ trợ nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG, và BMP. ABBYY - một hãng công nghệ hàng đầu trên thế giới về lĩnh vực Nhận dạng ký tự quang học đã tiến hành nghiên cứu và triển khai công nghệ nhận dạng Tiếng Việt vào tháng 4 năm 2009. Với công nghệ này độ chính xác trong việc nhận dạng tài liệu chữ in Tiếng Việt lên tới hơn 99% (cứ nhận dạng 100 ký tự thì có chưa đến 1 ký tự sai). Công nghệ của ABBYY chấp nhận hầu hết các định dạng ảnh đầu vào như: PDF, TIFF, JPEG, GIF, PNG, BMP, PCX, DCX, DjVu... Kết quả nhận dạng được lưu trữ dưới các định dạng MS Word, MS Excel, HTML, TXT, XML, PDF, PDF 2 lớp, trong đó định dạng PDF 2 lớp là một định dạng hoàn hảo cho việc lưu trữ và khai thác tài liệu. Với định dạng này, người đọc có thể đọc trung thực ảnh gốc nhờ lớp ảnh bên trên, các công cụ tìm kiếm có thể tìm kiểm toàn văn trên văn bản nhờ lớp text nhận dạng được bên dưới. 1.1.3. Yêu cầu Tài liệu số hóa là một dạng tài liệu hiện đại. Tuy nhiên, yêu cầu đặt ra đối với một sản phẩm số hóa về cơ bản sẽ mang một số nét đặc trưng giống với tài liệu nói chung và một số yêu cầu riêng của mình. Yêu cầu đối với một tài liệu số hóa bao gồm: Nguyễn Thị Thủy – K53TTTV Page 14 Ứng dụng phân hệ Sưu tập số của phần mềm Libol 6.0 tại Thư viện Học viện Kỹ thuật Quân sự - Nội dung; - Hình thức; - Sản phẩm số hóa phải phù hợp với phần mềm. 1.1.3.1. Nội dung Nội dung chứa trong tài liệu là một yêu cầu không thể thiếu trong mỗi cuốn sách. Nội dung bao gồm toàn bộ tri thức mà cuốn sách muốn truyền đạt đến bạn đọc. Một cuốn sách hay khi nội dung của nó được đáp ứng đúng yêu cầu của người đọc, không vi phạm đến những điều luật pháp quy định. Những yêu cầu về nội dung đối với một sản phẩm số hóa bao gồm: - Nội dung tài liệu số hóa phải phù hợp với nhu cầu tin chiếm đại đa số mà người dùng tin tại Thư viện. - Nội dung trong các tài liệu không vi phạm luật pháp quốc gia và quốc tế như về bản quyền tác giả, có nội dung tốt,…. - Có nguồn gốc xuất xứ rõ ràng như nhà xuất bản, tác giả, …. Tất cả các yêu cầu về nội dung đòi hỏi thư viện phải tiến hành chặt chẽ để đảm bảo chất lượng cho sản phẩm số hóa. 1.1.3.2. Hình thức Sản phẩm tài liệu số hóa cũng giống như các tài liệu ở dạng truyền thống thì ngoài yêu cầu về nội dung thì cần phải đảm bảo yêu cầu về hình thức. Nếu yêu cầu về hình thức đối với tài liệu truyền thống là tài liệu phải được trình bày đẹp, dễ nhìn, trang trí thu hút trí tò mò của bạn đọc…thì tài liệu số hóa cũng tương tự như vậy. Tuy nhiên do tài liệu số hóa và tài liệu truyền thống khác nhau ở phương thức lưu trữ là ở trên bộ nhớ của máy tính, được thể hiện dưới dạng file, cần phải có phương tiện hỗ trợ là máy tính thì mới có thể sử dụng được. Yêu cầu về mặt hình thức đối với tài liệu số hóa chính là tài liệu số hóa phải được ở một định dạng phổ biến để mọi người có thể dễ dàng truy cập, dễ dàng khai thác. Một số định dạng phổ biến của tài liệu điện tử: Nguyễn Thị Thủy – K53TTTV Page 15 Ứng dụng phân hệ Sưu tập số của phần mềm Libol 6.0 tại Thư viện Học viện Kỹ thuật Quân sự  Định dạng văn bản - Những định dạng văn bản phổ biến nhất của tài liệu điện tử như: Các định dạng đơn phần mềm Microsoft Word và Word Perfect; - Định dạng RTF (Rich Text Format) được bảo đảm bởi nhiều phụ lục phần mềm trong khi đó vẫn giữ định dạng văn bản đã đặt; - Định dạng PDF (Portable Ducument Format) gồm có hình ảnh trang với cả văn bản và biểu đồ. Có thể đọc những file theo định dạng PDF bằng nhiều phần mềm để đọc files khác nhau, nhưng chúng được xây dựng chỉ nhờ phần mềm Adobe Acrobat.  Các định dạng đồ họa lưu giữ hình ảnh (ví dụ, ảnh chụp, hình vẽ) và được chia ra thành hai kiểu chính: Các định dạng vector - lưu giữ hình ảnh như là tập hợp các hình dạng hình học. Phổ biến hơn cả là: - Định dạng DXF (Drawing Interchange Format) được sử dụng rộng rãi trong các chương trình thiết kế bằng máy tính cho các kỹ sư và kiến trúc sư; - Định dạng EPS (Encapsulated PortScript) được sử dụng rộng rãi trong các hệ thống biểu quyết/bầu cử tại bàn; - Định dạng CGM (Computer Graphics Metafile) được sử dụng rộng rãi trong nhiều phần mềm đồ họa (ví dụ trong phần mềm Photoshop). Các định dạng mành, chúng lưu giữ hình ảnh như là tập hợp những điểm ảnh - pixels. Khi thay đổi kích cỡ ảnh, đồ họa mành bị biến dạng. Phổ biến hơn cả là: - Định dạng BMP (Bitmap)- định dạng tương đối kém về chất lượng, thường dùng vào quá trình soạn thảo văn bản; - Định dạng TIFF (Tagget Image File Format) sử dụng rộng rãi trong các ứng dụng phần mềm; Nguyễn Thị Thủy – K53TTTV Page 16 Ứng dụng phân hệ Sưu tập số của phần mềm Libol 6.0 tại Thư viện Học viện Kỹ thuật Quân sự - Định dạng GIF (Graphics Interchange Format) sử dụng rộng rãi trong các phần mềm dành cho Internet.  Các định dạng bảng điện tử. Những file trong định dạng bảng điện tử lưu giữ trong các ô những con số và mối liên hệ giữa những con số đó. Ví dụ, một ô có thể chứa công thức thực hiện việc cộng dữ liệu của hai ô khác. Giống như các file cơ sở dữ liệu, các file bảng điện tử thường có định dạng của chính phần mềm tạo ra nó. Một số chương trình có thể nhập khẩu và khai thác những dữ liệu của các nguồn khác kể cả của những chương trình dùng để trao đổi dữ liệu kiểu này (thí dụ, định dạng DIF (Data Interchange Format)). Các file của bảng điện tử có thể chuyển đổi thành file văn bản, nhưng những con số và mối liên hệ giữa các số sẽ bị mất đi.  Các định dạng nghe-nhìn/video-audio. Những định dạng đó chứa các hình ảnh chuyển động (ví dụ video số, hoạt hình) và các dữ liệu âm thanh được xây dựng và có thể xem, nghe nhờ các chương trình tương thích và lưu giữ trong định dạng đơn chương trình. Những định dạng được sử dụng nhiều hơn cả là QuickTime và MPEG (Motion Picture Experts Group).  Đánh dấu ngôn ngữ còn được gọi là các định dạng đánh dấu , gồm có các hướng dẫn đính kèm để biểu diễn nội dung của file. Chúng là: - SGML (Standard Generalized Markup Language) được sử dụng trong các cơ quan nhà nước ở nhiều nước trên thế giới và là tiêu chuẩn quốc tế; - HTML (Hypertext Markup Language) được sử dụng để hiển thị hầu như toàn bộ thông tin của mạng World Wide Web; - XML (Extensible Markup Language) - ngôn ngữ tương đối đơn giản dựa trên cơ sở SGML và được dùng phổ biến khi quản lý thông tin và trao đổi thông tin. Từng định dạng file có điểm mạnh và điểm yếu riêng khi áp dụng vào việc bảo đảm tài liệu cho quản lý. Thí dụ, những định dạng văn bản Nguyễn Thị Thủy – K53TTTV Page 17 Ứng dụng phân hệ Sưu tập số của phần mềm Libol 6.0 tại Thư viện Học viện Kỹ thuật Quân sự (MicrosoftWord, WordPerfect, RTF v.v.) thuận tiện cho tìm kiếm ngữ cảnh theo các tài liệu trong cơ sở dữ liệu, còn các định dạng đồ hoạ (PDF, TIFF v.v.) giúp nhận được hình ảnh khi scan với toàn bộ những đặc điểm bên ngoài của nó và giữ tài liệu có dạng đúng như trên giấy với đầy đủ chữ ký, con dấu, bút tích. Định dạng MS Word rất tiện cho biên tập tài liệu và xử lý thông tin, nhưng file MS Word lại chứa đựng nhiều thông tin ẩn (trước tiên về những thay đổi đã thực hiện trong file) và như vậy, nó rất không an toàn theo quan điểm thất thoát thông tin công vụ. Ví dụ, trong lúc chuẩn bị tài liệu thương mại, thông tin ẩn lại cho ta biết những đề xuất khởi điểm, ai có ảnh hưởng mạnh nhất tới văn bản. Trong chuẩn bị tài liệu theo nhóm, sự phân tích sửa đổi cho ta khả năng nhận biết không chỉ họ tên những người lập tài liệu mà cả mức độ đóng góp của từng người vào phương án hoàn chỉnh của tài liệu. 1.1.3.3. Phần mềm quản lý và khai thác Nếu như bộ sưu tập số là nguồn lực thông tin, là nguồn tài nguyên thông tin của một Thư viện điện tử, Thư viện số thì Phần mềm thư viện đóng vai trò như công cụ đi kèm theo giúp hỗ trợ việc sử dụng nó. Trên thực tế thì phần mềm quản trị Thư viện là một yếu tố đặc biệt quan trọng không thể thiếu trong hoạt động Thư viện điện tử, Thư viện số. Phần mềm thư viện có những vai trò như: + Tạo siêu dữ liệu bao gồm: - Siêu dữ liệu mô tả: Mô tả các thông tin về tài liệu; - Siêu dữ liệu cấu trúc: Mô tả các liên kết giữa các đối tượng thông tin liên quan của tài liệu như mục lục, chương, phần, trang sách, hình ảnh minh họa, phụ lục…giúp người dùng dễ dàng di chuyển đến các thành phần của tài liệu. - Siêu dữ liệu quản trị: gồm tạo kích cỡ tập tin; Định dạng tài liệu (PDF); Đặc tính sử dụng và tình trạng của tài liệu. Nguyễn Thị Thủy – K53TTTV Page 18 Ứng dụng phân hệ Sưu tập số của phần mềm Libol 6.0 tại Thư viện Học viện Kỹ thuật Quân sự + Mô tả dữ liệu + Quản lý các nguồn dữ liệu truy cập được cho phép (phần này chưa có trong các phần mềm nguồn mở) . Theo đó chỉ có các thành viên đã được đăng ký mới được quyền truy cập vào tài liệu (hoặc quản lý chế độ dowload của tài liệu). + Xuất – nhập dữ liệu để trao đổi với các hệ thống khác theo các chuẩn chung. + Vận hành liên kết là tạo ra một giao diện tra cứu tích hợp cho người dùng trên nhiều bộ sưu tập cùng một lúc dựa trên các điểm truy cập nhất quán như: tác giả; Nhan đề tài liệu, từ khóa; chủ đề; chỉ mục quốc gia…  Như vậy phần mềm thư viện đóng vai trò quan trọng như là một công cụ dùng để tổ chức, quản lý, khai thác các bộ sưu tập. Yêu cầu đặt ra đối với sản phẩm số hóa là các sản phẩm số hóa phải phù hợp với phần mềm để khai thác, truy cập, đặc biệt là về định dạng tài liệu. 1.2. Khái quát về Thư viện Học viện Kỹ thuật Quân sự 1.2.1. Vài nét về quá trình hình thành và phát triển Thư viện ra đời cùng với Học viện vào năm 1966 trước năm 1978 thư viện trực thuộc phòng Huấn luyện. Từ năm 1978 đến tháng 04/1996 Thư viện trực thuộc phòng Khoa học công nghệ và Môi trường. Từ tháng 05/1996 đến tháng 11/1998 Thư viện trực thuộc ban Giám đốc Học viện. Từ tháng 11/1998 đến nay Thư viện trực thuộc Phòng Thông tin Khoa học Quân sự - Học viện KTQS. 1.2.2. Chức năng và nhiệm vụ Pháp lệnh Thư viện do ủy ban Thường vụ Quốc hội Khóa IX thông qua ngày 28/12/2000 quy định: “Thư viện có chức năng, nhiệm vụ giữ gìn di sản thư tịch của dân tộc, thu thập, tàng trữ, tổ chức việc khai thác và sử dụng chung vốn tài liệu trong xã hội nhằm truyền bá tri thức, cung cấp thông tin Nguyễn Thị Thủy – K53TTTV Page 19 Ứng dụng phân hệ Sưu tập số của phần mềm Libol 6.0 tại Thư viện Học viện Kỹ thuật Quân sự phục vụ nhu cầu học tập, nghiên cứu, công tác và giải trí của mọi tầng lớp nhân dân, góp phần nâng cao dân trí, đào tạo nhân lực bồi dưỡng nhân tài phát triển khoa học, công nghệ, kinh tế, văn hóa phục vụ công cuộc công nghiệp hóa, hiện đại hóa đất nước”. Ngoài chức năng, nhiệm vụ của một thư viện nói chung, Thư viện Học viện Kỹ thuật Quân sự còn thực hiện một số chức năng, nhiệm vụ mang tính chất đặc thù như sau: - Nghiên cứu, thu thập, lưu trữ, xử lý những tài liệu cần thiết phục vụ cho nhu cầu học tập, nghiên cứu của cán bộ, giảng viên, học viên, và sinh viên trong trường. - Ứng dụng hiệu quả thành tựu của khoa học công nghệ tiên tiến từng bước hiện đại hóa Thư viện. - Tuyên truyền phục vụ cho công tác Đảng, công tác chính trị trong môi trường Quân đội và là công cụ đấu tranh trên mặt trận văn hóa, tư tưởng. Nghiên cứu, ứng dụng các thành tựu khoa học công nghệ tiên tiến để từng bước hiện đại hóa thư viện. - Tổ chức, bổi dưỡng chuyên môn, nghiệp vụ cho cán bộ thư viện. - Thư viện là cầu nối đưa sách báo, thông tin chính trị, văn hóa, xã hội cập nhật vào môi trường quân đội. Hiện nay, Thư viện tổ chức phục vụ tại 03 cơ sở:  Cơ sở 1: 100 Hoàng Quốc Việt, Từ Liêm, Hà Nội  Cơ sở 2: Thành phố Vĩnh Yên, Vĩnh Phúc  Cơ sở 3: Xuân Phương, Phú Diễn 1.2.3. Cơ cấu tổ chức, nguồn nhân lực Hiện nay, Phòng Thông tin Khoa học Quân sự được chia thành 03 ban: Ban Thông tin khoa học Ban Tạp chí khoa học và kỹ thuật Ban Thư viện Nguyễn Thị Thủy – K53TTTV Page 20
- Xem thêm -

Tài liệu liên quan