Mô tả:
LỜI MỞ ĐẦU Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu đối với mọi người trên mọi lĩnh vực. Xã hội ngày càng tiến bộ, nhu cầu tiếp cận thông tin của mọi người ngày càng lớn, nhưng thông tin có chọn lọc lại càng là nhu cầu lớn hơn, cũng xuất phát từ nhu cầu đó và cũng nhằm mục đích tạo một website tin tức tổng hợp, phục vụ cho tất cả mọi người, để họ có thể thuận tiện hơn trong việc tiếp cận thông tin tin tức mới nhất của khoa, trang web sẽ phục vụ cho mọi người có thể nắm bắt được các thông tin về kinh tế xã hội. Với việc bùng nổ các thông tin, tin tức trên web hiện nay nhiều vô kể và bạn không thể nào có đủ thời gian để đọc hết. Lấy một ví dụ đơn giản, hàng ngày có rất nhiều tin tức được đăng tải ở các website báo điện tử như vnexpress, dantri, vietnamenet,… Nếu phải vào từng trang để đọc thì rất mất thời gian, do đó nếu dùng trình tổng hợp tin tức để chỉ định các trang, mục nào của các báo cần được gom lại trong một giao diện duy nhất để đọc thì sẽ tiện lợi hơn rất nhiều. Việc ra đời một hệ thống đọc tin tự động từ các nguồn báo khác nhau trên điện thoại là cần thiết Tên đề tài:“ Xây dựng hệ thống tổng hợp thông tin kinh tế xã hội”. Phạm vi nghiên cứu: Website Tin tức của tổng hợp. Công cụ lấy thông tin tin tức bằng RSS Sử dụng vntokenizer Phương pháp nghiên cứu: Phương pháp khảo sát áp dụng: Phỏng vấn. Tài liệu. Phương pháp phân tích, tổng hợp: Mục đích để chứng minh từng luận điểm của đề tài có tính thuyết phục hơn. Phương pháp mô hình hóa hệ thống theo hướng đối tượng: Hình dung hệ thống thực tế hay theo mong muốn của chúng ta. Chỉ rõ cấu trúc hoặc ứng xử của hệ thống. Tạo khuôn mẫu hướng dẫn nhà phát triển trong suốt quá trình xây dựng hệ thống. Ghi lại các quyết định của nhà phát triển để sử dụng sau này. Làm công cụ cho phép mọi thành viên phát triển dự án có thể hiểu và làm việc với nhau. LỜI CẢM ƠN Trên thực tế không có sự thành công nào mà không gắn liền với những sự hỗ trợ, sự giúp đỡ dù ít hay nhiều, dù là trực tiếp hay gián tiếp của người khác. Trong suốt thời gian từ khi bắt đầu học tập ở giảng đường Đại học đến nay, chúng em đã nhận được rất nhiều sự quan tâm, giúp đỡ của Thầy Cô, gia đình và bạn bè. Với lòng biết ơn sâu sắc nhất, chúng em xin gửi đến Thầy Cô ở Tổng hợp – đã cùng với tri thức và tâm huyết của mình để truyền đạt vốn kiến thức quý báu cho chúng em trong suốt thời gian học tập tại trường. Và đặc biệt, trong kỳ này, Khoa đã tổ chức cho chúng em được tiếp cận với môn học rất hữu ích đối với sinh viên ngành Công Nghệ Thông Tin. Đó là môn: “”. Tuy nhiên, dù rất cố gắng nhưng do thời gian có hạn nên chắc rằng đồ án khó tránh khỏi thiếu sót. Chúng em rất mong nhận được sự thông cảm và đóng góp ý kiến của quý Thầy cô và các bạn để đồ án của chúng em được hoàn chỉnh hơn.Xin gửi lời cảm ơn chân thành đến gia đình, bè bạn, đã luôn là nguồn động viên to lớn, giúp chúng em vượt qua những khó khăn trong suốt quá trình học tập và thực hiện đồ án. Mặc dù đã rất cố gắng hoàn thiện đồ án với tất cả sự nỗ lực, tuy nhiên đồ án “” chắc chắn sẽ không thể tránh khỏi những thiếu sót. Chúng em rất mong nhận được sự quan tâm, thông cảm và những đóng góp quý báu của các thầy cô và các bạn để đồ án này ngày càng hoàn thiện hơn. Hà Nội, ngày 01 tháng 1 năm 2017 Sinh viên thực hiện: (ký và ghi họ tên) NHẬN XÉT (của cơ quan thực tập) ...................................................................................................................................................................................................................................................................................... ...................................................................................................................................................................................................................................................................................... ...................................................................................................................................................................................................................................................................................... ...................................................................................................................................................................................................................................................................................... NHẬN XÉT (của giảng viên phản biện) ...................................................................................................................................................................................................................................................................................... ...................................................................................................................................................................................................................................................................................... ...................................................................................................................................................................................................................................................................................... ...................................................................................................................................................................................................................................................................................... MỤC LỤC CHƯƠNG 1: TỔNG QUAN HỆ THỐNG 19 1.1. Khảo sát hệ thống 19 1.1.1. Hạ tầng và phần mềm của hệ thống 19 1.2. Phân tích yêu cầu của hệ thống 19 1.2.1. Nguyên nhân ra đời các hệ thống tổng hợp tin tự động 19 1.2.2. Yêu cầu cần đạt được của hệ thống 22 1.2.3. Phân tích quy trình nghiệp vụ của hệ thống 23 1.3. Bài toán tách từ và công cụ vnTokenizer 24 CHƯƠNG 2: PHÂN TÍCH THIẾT KẾ HỆ THỐNG 27 2.1. Biểu đồ Usecase 27 2.1.1. Các tác nhân của hệ thống 27 2.1.2. Biểu đồ Usecase mức tổng quát 28 2.1.3. Usecase Đăng nhập 29 2.1.4. Usecase tạo tài khoản và thay đổi mật khẩu 30 2.1.5. Usecase quản lý chuyên mục 31 2.1.6. Usecase Tạo và phân quyền chuyên mục 32 2.1.7. Usecase tìm kiếm thông tin sản phẩm 32 2.1.8. Usecase đọc tin và gửi phản hồi 33 2.2. Biểu đồ lớp 34 2.2.1. Biểu đồ lớp tổng quát của hệ thống 34 2.3. Biểu đồ tuần tự 34 2.3.1. Chức năng Đăng nhập 34 2.3.2. Chức năng Tạo tài khoản 35 2.3.3. Chức năng Quản trị người dùng 36 2.3.4. Chức năng Quản lý chuyên mục 37 • 2.3.5. Chức năng Phân quyền viết bài 38 2.3.5. Chức năng Quản lý chuyên mục 40 2.3.6. Chức năng Quản lý bài viết 41 2.3.7. Chức năng Viết bài 41 2.3.8. Chức năng Phản hồi 42 2.3.9. Chức năng tìm kiếm 44 2.4. Thiết kế cấu trúc cơ sở dữ liệu 45 2.5. Mô hình dữ liệu quan hệ 49 CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH 51 3.1. Cài đặt chương trình 51 3.2. Thiết kế giao diện website 51 3.2.1. Thiết kế giao diện người dùng 51 3.2.2. Thiết kế giao diện quản trị 51 KẾT LUẬN 52 TÀI LIỆU THAM KHẢO 53 DANH MỤC CÁC BẢNG, SƠ ĐỒ, HÌNH Hình 2.1 Biểu đồ Usecase tổng quát của hệ thống 14 Hình 2.2 Biểu đồ Usecase Đăng nhập vào hệ thống 14 Hình 2.3 Biểu đồ Usecase tạo tài khoản, thay đổi mật khẩu 15 Hình 2.4 Biểu đồ Usecase quản lý chuyên mục 16 Hình 2.5 Biểu đồ Usecase Tạo và phân quyền chuyên mục 17 Hình 2.6 Biểu đồ Usecase tìm kiếm thông tin liên quan đến bài viết 18 Hình 2.7 Biểu đồ usecase đọc tin và gửi phản hồi 18 Hình 2.8 Biểu đồ lớp mức tổng quát của hệ thống 19 Hình 2.9 Biểu đồ tuần tự cho chức năng Đăng nhập 20 Hình 2.10 Biểu đồ tuần tự cho chức năng tạo tài khoản 21 Hình 2.11 Biểu đồ tuần tự cho chức năng Quản trị người dùng 22 Hình 2.12 Biểu đồ tuần tự cho chức năng quản lý chuyên mục 23 Hình 2.13 Biểu đồ tuần tự cho chức năng phân quyền viết bài 24 Hình 2.14 Biểu đồ tuần tự cho chức năng quản lý chuyên mục 25 Hình 2.15 Biểu đồ tuần tự cho chức năng Quản lý bài viết 26 Hình 2.16 Biểu đồ tuần tự cho chức năng Viết bài 27 Hình 2.17 Biểu đồ tuần tự cho chức năng phản hồi 28 Hình 2.18 Biểu đồ tuần tự cho chức năng tìm kiếm 29 Hình 2.19 Mô hình dữ liệu quan hệ 35 Hình 3.1 Giao diện trang dành cho người dùng 36 Hình 3.2 Giao diện trang chủ quản trị 36 DANH MỤC TỪ VIẾT TẮT CBCNVC Cán bộ công nhân viên chức CMND Chứng minh nhân dân CSDL Cơ sở dữ liệu CHƯƠNG 1: TỔNG QUAN HỆ THỐNG 1.1. Khảo sát hệ thống 1.1.1. Hạ tầng và phần mềm của hệ thống Các web tin tức tổng hợp hiện nay đã phần nào đáp ứng được về yêu cầu cập nhật thông tin công nghệ mới cho người đọc. Nhưng chưa có nhiều trang web tự động lấy tin tức từ các nguồn tin tức khác nhau để phục vụ cho người đọc có thể nắm được thông tin chất lượng không phải tìm đọc từ nhiều trang khác nhau. Các trang web tin tức về “Tổng hợp” hiện nay vẫn còn khá lá cải và chưa phục vụ được hết nhu cầu đọc tin cần. Trên cơ sở tự tổng hợp thông tin từcác website trên internet theo tiêu chí chọn trước. Hiện nay, có nhiều phương pháp tự động tìm kiếm thông tin khác nhau, nhưng nhìn chung là các cách tiếp cận ñều dựa vào các trọng sốtrang Web (Chỉ sốquan trọng của trang trong tập kết quả), như: Page Bank, HITS và ứng dụng kỹthuật khai phá dữ liệu. Trong đó Khai phá dữ liệu (Data Mining) là một lĩnh vực khoa học liên ngành mới xuất hiện gần ñây nhằm đáp ứng nhu cầu này. Các kết quả nghiên cứu cùng với những ứng dụng thành công trong khai phá dữ liệu, khám phá tri thức cho thấy khai phá dữ liệu là một lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, ñồng thời có ưu thế hơn hẳn so với các công cụ phân tích dữ liệu truyền thống. 1.2. Phân tích yêu cầu của hệ thống 1.2.1. Nguyên nhân ra đời các hệ thống tổng hợp tin tự động Cập nhật thông tin luôn là nhu cầu thiết yếu của con người, cầm tớ báo mới cặm cụi đọc trên vỉa hè, trong công viên, hay nhâm nhi cốc cà phê vào buổi sáng đã là thói quen của nhiều người. Sự bùng nổ của internet đã cho ra đời báo điện tử. Với việc liên tục cập nhật và đưa ra các thông tin mới và nóng nhất, đồng thời cho phép người đọc tiếp cận các thông tin đó ở bất cứ thời gian và địa điểm nào, báo điện tử đã dần trở thành kênh thông tin quan trọng đối với người dùng internet. Có nhiều đánh giá cho rằng báo điện tử là điểm sáng của cách mạng công nghệ thông tin. Ngày càng xuất hiện nhiều tờ báo điện tử truyền tải thông tin dưới mọi hình thức mà các loại báo truyền thống cung cấp. Có thể kể tên một số trang báo điện tử lớn ở Việt Nam như: vnexpress.vn, dantri.com.vn, vietnamnet.vn, 24h.com.vn, tuoitre.com.vn, thanhnien.com.vn,… Tuy nhiên, khi mà các trang báo điện tử ra đời quá nhanh, sẽ xuất hiện tình trạng “loạn” thông tin.Quá nhiều trang web tin tức, quá nhiều thông tin trùng lặp sẽ làm cho người đọc không biết phải chọn nguồn tin nào để xem. Lấy một ví dụ đơn giản, hàng ngày có rất nhiều tin tức được đăng tải ở các website báo điện tử như vnexpress, tuoitre, thanhnien, dantri, hanoimoi,… Nếu phải vào từng trang để đọc thì rất mất thời gian, thêm vào đó nếu chỉ đọc 1, 2 mục tin trên mạng có lẽ là không đủ, chính vì nguyên nhân này, các trình đọc tin tự động, hay các trang tổng hợp tin tức (tiếng Anh gọi là News aggregator) đã ra đời. Các trang này sẽ tổng hợp nội dung các trang, các mục từ các báo điện tử khác nhau, và đưa ra một giao diện duy nhất để tiện lợi cho người đọc. Như vậy thay vì phải đi kiếm thông tin, bằng cách dùng các trang tin tổng hợp, thông tin sẽ tự động đưa xuống cho người đọc.Đối với trang tổng hợp tin tức cho tiếng Việt, có thể nói baomoi.com đi tiên phong.Với hơn 100 nguồn tin và được cập nhật liên tục, các tin trên baomoi.com khá phong phú và cập nhật. Bên cạnh đó có thể kể đến một số site khác như vietica.com, xalo.vn, gocnhin.com, socbay.com, vsearch.vn,…. 1.2. Mục đích của để tài khóa luận Mục tiêu của đề tại là xây dựng một hệ thống hỗ trợ việc đọc báo tiếng Việt trên các website.Các nguồn báo được tổng hợp từ trên server, người dùng sử dụng mobile có kết nối internet (GPRS hoặc 3G) như một thiết bị client gửi yêu cầu tới server và lấy về các nguồn báo họ muốn xem. Người dùng nếu có điện thoại hỗ trợ Java thì có thể sử dụng chương trình. Nếu điện thoại của người dùng và nhà cung cấp dịch vụ cho phép tải ứng dụng trên Internet xuống điện thoại di động thì người dùng có thể tải trực tiếp ứng dụng từ địa chỉ URL do Web server cung cấp, nếu không thì phải cài đặt chương trình bằng cách giao tiếp với máy tính bằng hồng ngoại, cáp,... 1.3.1. Thách thức đối với phần tổng hợp tin tức Đối với các trình đọc tin, có hai bước để xử lý. Bước thứ nhất, hệ thống đơn giản sẽ chỉ load và hiện thị các tin theo thứ tự từ nguồn tin mà người dùng muốn đọc về dựa vào danh sách các rss của nguồn tin đó. Bước thứ hai, phức tạp hơn, đó là sau khi đã lấy được nội dung các nguồn tin về, cần phân loại các nguồn tin vào các nhóm khác nhau, xử lý loại bỏ các tin trùng lặp nội dung từ các nguồn khác nhau, đồng thời sắp xếp hiện thị các tin phù hợp với sở thích người dùng. Ở bước thứ nhất, hệ thống sẽ phải truy cập vào các trang tin rss từ các báo điện tử, từ đó lấy ra các đường dẫn tới bài báo gốc. Sau đó truy cập vào các bài báo gốc này để lấy ra nội dung của tin. Tuy nhiên, do mỗi một báo lại có một cách tổ chức hiện thị tin tức khác nhau, với mỗi một trang lại có các mã html khác nhau, nên hệ thống cần phải có cách xử lý cho từng trang báo một. Sau khi đã lấy hết nội dung các trang tin, hệ thống cần đưa ra cách để sắp xếp các tin tức này vào các chuyên mục khác nhau. Việc sắp xếp này là không thể phụ thuộc vào cách phần chia chuyên mục ở từng báo riêng biệt, bởi vì mỗi một tờ báo lại có một cách phân chia khác nhau. Trên Bảng 1 là danh sách các chuyên mục từ hai tờ báo có thể coi là có số lượng độc giả lớn nhất Việt Nam (theo thống kê từ alexa.com, báo vnexpress.net đứng thứ 4, và báo dantri.com.vn đứng thứ 6 trong danh sách các site có lượng truy cập nhiều nhất tại Việt Nam). Hai báo này tuy có một số chuyên mục là giống nhau, nhưng số chuyên mục còn lại lại rất khác nhau.