Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Công nghệ thông tin Tổ chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong...

Tài liệu Tổ chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong viễn thông.

.PDF
114
166
141

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN CHUNG THÀNH HƯNG TỔ CHỨC VÀ TÍCH HỢP HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN CHUNG THÀNH HƯNG TỔ CHỨC VÀ TÍCH HỢP HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG Chuyên ngành: Hệ thống thông tin Mã số: 8480104.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Cán bộ hướng dẫn: PGS. TS Phan Xuân Hiếu Hà Nội - 2019 LỜI CẢM ƠN Tôi xin trân trọng cảm ơn các thầy cô trong Khoa Công nghệ Thông tin đã tạo điều kiện cho học viên lớp cao học K24CNTT một môi trường học tập thuận lợi, đồng thời truyền đạt cho tôi một vốn kiến thức quý báu, một tư duy khoa học để phục vụ cho quá trình học tập và công tác của tôi. Đặc biệt, tôi xin được bày tỏ lòng biết ơn sâu sắc đến PGS.TS. PHAN XUÂN HIẾU đã tận tình chỉ bảo cho tôi trong suốt quá trình học tập và nghiên cứu, giúp tôi có nhận thức đúng đắn về kiến thức khoa học, tác phong học tập và làm việc. Tôi xin gửi lời cảm ơn đến các bạn trong lớp Cao học Hệ thống Thông tin K24CNTT khóa 2016- 2018 đã giúp đỡ tôi trong suốt thời gian học tập. Cuối cùng, tôi xin được gửi lời cảm ơn tới gia đình, đồng nghiệp, người thân đã động viên, giúp đỡ tôi trong quá trình hoàn thành luận văn. Do vốn kiến thức lý luận và kinh nghiệm thực tiễn còn ít nên luận văn không tránh khỏi những thiếu sót. Tôi xin trân trọng tiếp thu các ý kiến của các thầy, cô, bạn bè để luận văn được hoàn thiện. Trân trọng cám ơn. LỜI CAM ĐOAN Tôi xin cam đoan các kết quả nghiên cứu, thực nghiệm được trình bày trong luận văn này do tôi thực hiện dưới sự hướng dẫn của PGS.TS Phan Xuân Hiếu và được thực hiện trong quá trình hợp tác nghiên cứu giữa Tập đoàn Công nghiệp - Công nghệ Cao Viettel và đối tácra. Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận văn, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo. Hà nội, ngày 12 tháng 11 năm 2019. Học viên Nguyễn Chung Thành Hưng. MỤC LỤC LỜI CẢM ƠN .................................................................................................................. i LỜI CAM ĐOAN ............................................................................................................ i MỤC LỤC ....................................................................................................................... i DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ................................................... iv DANH MỤC CÁC BẢNG .............................................................................................. i DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .......................................................................iii MỞ ĐẦU ........................................................................................................................ 1 CHƯƠNG 1. TỔNG QUAN .......................................................................................... 5 1.1. CÁC KHÁI NIỆM CƠ BẢN ................................................................................5 1.1.1. Khái niệm chung về dữ liệu lớn......................................................................5 1.1.2. Các khái niệm lưu trữ dữ liệu lớn ...................................................................6 1.1.3 Các khái niệm về xử lý dữ liệu lớn ................................................................ 10 1.1.4. Cái khái niệm phân tích dữ liệu và các loại hình phân tích dữ liệu ..............13 1.2. Hệ thống phân tích dữ liệu lớn ............................................................................17 1.2.1. Công nghệ lưu trữ dữ liệu trong BigData .....................................................17 1.2.1.1. Công nghệ lưu trữ trên đĩa cứng ............................................................17 1.2.1.2. Công nghệ lưu trữ trong bộ nhớ (In-Memory Databases)......................19 1.2.2. Xử lý dữ liệu trong BigData .........................................................................22 1.2.2.1. Xử lý dữ liệu với mô hình Map-Reduce ................................................22 1.2.2.2. Các tác vụ Map và Reduce .....................................................................23 1.2.3. Kỹ thuật phân tích bigdata hiện nay. ............................................................25 1.3. Các BÀI TOÁN PHÂN TÍCH DỰ BÁO ............................................................28 1.3.1. Bài toán phân tích dự báo .............................................................................28 1.3.2. Các mô hình dự báo cơ bản. .........................................................................28 1.3.2.1. Mô hình dự báo dựa trên thuật toán cây quyết định: .............................28 1.3.2.2. Mô hình dự báo Gradient Boosting. .......................................................30 1.3.3. Các kỹ thuật phân tích dự báo ......................................................................31 1.3.3.1. Tạo biến đặc trưng ..................................................................................31 1.3.3.2. Kỹ thuật lựa chọn đặc trưng ...................................................................32 1.3.3.3. Huấn luyện và xác thực trong các mô hình dự báo ................................ 34 1.3.3.4. Đánh giá mô hình dự báo .......................................................................35 1.3.4. Giới thiệu công cụ phân tích Rapidminer .....................................................42 CHƯƠNG 2. ................................................................................................................. 44 PHƯƠNG PHÁP TỔ CHỨC VÀ TÍCH HỢP DỮ LIỆU LỚN ................................... 44 2.1. CÁC HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN TRONG VIỄN THÔNG ......44 2.1.1. Một số ứng dụng hệ thống phân tích dữ liệu lớn phổ biến hiện nay ............44 2.1.1.1. Quản lý trải nghiệm khách hàng (Customer Experience Mgmt) ...........45 2.1.1.2. Giám sát, quản lý và tối ưu mạng lưới (Network OAM) .......................47 2.1.1.3. Phân tích hoạt động (Operation Analytics) ............................................48 2.1.1.4. Kiếm tiền từ dữ liệu (Data Monetization) ..............................................50 2.1.2. Hiện trạng của Viettel ...................................................................................50 2.1.2.1. Các nguồn dữ liệu lớn tại Viettel ...........................................................50 2.1.2.2. Các hệ thống phân tích dữ liệu lớn của Viettel ......................................51 2.2.1.1. Tầng Data Ingestion ...............................................................................53 2.2.1.2. Tầng Data Processing .............................................................................53 2.2.1.3. Tầng Data Analysis Layer ......................................................................54 2.2.1.4. Tầng Data Visualization .........................................................................54 2.2.1.5. Tầng Data Repository.............................................................................54 2.2.1.6. Tầng Data Govenance ............................................................................55 2.2.2. Mô hình tổ chức thực tế hệ thống BigData tại Viettel ..................................55 2.2.2.1. Tầng lưu trữ và xử lý dữ liệu..................................................................56 2.2.2.2. Tầng truy xuất dữ liệu ............................................................................57 2.2.3. Các công nghệ nền tảng về hệ thống dữ liệu lớn. .........................................57 2.2.4. Các phân hệ cài đặt của Cloudera BigData Enterprise flatform: ..................60 CHƯƠNG 3. ................................................................................................................. 62 THỰC NGHIỆM TÍCH HỢP HỆ THỐNG ................................................................. 62 DỰ BÁO THUÊ BAO RỜI MẠNG ............................................................................ 62 3.1. NỘI DUNG THỰC NGHIỆM ............................................................................62 3.1.1. Định nghĩa thuê bao rời mạng. .....................................................................62 3.1.2. Bài toán yêu cầu ............................................................................................62 3.1.3. Các bước thực nghiệm. .................................................................................63 3.2. TRIỂN KHAI HỆ THỐNG THỰC NGHIỆM ...................................................63 3.2.1. Xây dựng hệ thống phân tích BigData thực nghiệm. ...................................63 3.2.1.1. Mô hình triển khai Logic ........................................................................63 3.2.1.2. Mô hình triển khai vật lý và thông số hệ thống ......................................64 3.2.1.3. Cài đặt, cấu hình các thành phần hệ thống thực nghiệm ........................65 3.2.1.4. Nguồn dữ liệu .........................................................................................67 3.2.1.5. Luồng xử lý và khai phá dữ liệu.............................................................68 3.2.2. Xây dựng mô hình dự báo TBRM. ...............................................................69 3.3. CÁC KẾT QUẢ THỰC NGHIỆM MÔ HÌNH DỰ BÁO. .................................70 3.3.1. Khám phá dữ liệu và tạo các biến đặc trưng. ...............................................70 3.3.1.1. Bảng dữ liệu gọi đi của thuê bao (VOICE_OG) ....................................70 3.3.1.2. Dữ liệu gọi đến của thuê bao (VOICE_IC). ...........................................71 3.3.1.3. Dữ liệu nhắn tin đi của thuê bao (SMS_OG) .........................................71 3.3.1.4. Dữ liệu nhắn tin đến của thuê bao (SMS_IC) ........................................72 3.3.1.5. Dữ liệu về sử dụng Data của thuê bao (GPRS) ......................................72 3.3.1.6. Dữ liệu tiêu dùng hàng ngày của thuê bao (TOT_CHARGE_DAILY).73 3.3.1.7. Dữ liệu về thông tin nạp tiền (TOPUP)..................................................73 3.3.1.8. Dữ liệu số dư tài khoản (ACCOUNT2_DAY) .......................................74 3.3.1.9. Dữ liệu trừ cước phí các gói sử dụng theo chu kỳ (DAILYFEE) ..........74 3.3.1.10. Dữ liệu tổng hợp charge cước sử dụng các dịch vụ VAS (VAS_CDR_DAY) .............................................................................................75 3.3.1.11. Dữ liệu home (HOME_ACC) ..............................................................75 3.3.1.12. Dữ liệu thông tin thuê bao, khách hàng (PRE-SUBS) .........................75 3.3.2. Lựa chọn đặc trưng và mô hình hóa .............................................................76 3.3.2.1. Lựa chọn các thuộc tính quan trọng bằng thuật toán Decision Tree ......76 3.3.2.2. Huấn luyện và xác nhận mô hình rời mạng. ..........................................79 3.3.3. Tối ưu mô hình dự báo. ................................................................................80 3.3.3.1. Tối ưu bằng cách phân nhóm khách hàng theo hành vi sử dụng. ..........81 3.3.3.2. Tìm tỷ lệ tối ưu của xác nhận phân tách. ...............................................81 3.3.3.3. Tìm cỡ mẫu tối ưu cho huấn luyện .........................................................82 3.3.3.4. Tối ưu mô hình bằng cách lựa chọn lại các đặc trưng ...........................82 3.3.3.5. Xác định lại các tham số của mô hình tối ưu .........................................82 3.3.3.6. Lựa chọn mô hình dự đoán tốt nhất .......................................................83 3.3.3.7. Chạy lại mô hình dự báo với thuật toán Gradien Booting. ....................83 3.4. ĐÁNH GIÁ THU HOẠCH .................................................................................84 3.4.1. Kết quả đầu ra của hệ thống phân tích, dự báo thuê bao rời mạng. .............84 3.4.2. Tri thức thu được sau thực nghiệm. ..............................................................84 KẾT LUẬN .................................................................................................................. 86 TÀI LIỆU THAM KHẢO ............................................................................................ 87 PHỤ LỤC 1.1. ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ TRƯỚC PHÂN THEO 4 NHÓM HÀNH VI.............................................................................. 90 PHỤ LỤC 1.2. ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ SAUPHÂN THEO 4 NHÓM HÀNH VI.............................................................................. 93 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT STT Ký hiệu/chữ viết tắt 1 ACID 2 3 AUC AUROC 4 BASE 5 BLOB 6 CAP 7 CEM 8 9 10 11 12 13 14 15 16 17 18 19 20 21 CEP CNN DBM DBN DT ETL FN FP FPR GBM GBRT ID3 IG IMDB 22 IMDG 23 24 25 26 IOB IoT LS M2M 27 MDA Ý nghĩa Atomicity, Consistency, Isolation, Durability (Nguyên tắc thiết kế ACID) Area Under the Curve Area Under the Receiver Operating Characteristics Basically Available, Soft state, Eventual consistency (Nguyên tắc thiết kế BASE) Binary Large Object Consistency, Availability and Partition Tolerance (Nguyên lý CAP) Customer Experience Management (Quản lý trải nghiệm khách hàng) Complex Event Processing Convolutional Neural Network Deep Boltzmann Machine Deep Belief Networks Daytype Extract Transform Load (Trích xuất dữ liệu) False Negative False Positive False Positive Rate/Fall-out Gradient Boosting Machines Gradient Boosting Regression Trees Interactive Dichotomizer 3 Information Gain (Độ tăng thông tin) In-Memory Databases (Cơ sở dữ liệu trong bộ nhớ) In-Memory Data Grids (Công nghệ lưu trữ dữ liệu trong bộ nhớ) In-of-bag Internet Of Things Learning Set (Tập huấn luyện) Machine to Manchine Mean Decrease Accuracy (Độ chính xác giảm bình quân cho mỗi biến) STT Ký hiệu/chữ viết tắt 28 MDG 29 30 31 OOB POD QC 32 RDBMS 33 34 35 36 37 38 39 40 41 42 RF ROC S/N SVM TB TBRM TN TP TPR WFLD Ý nghĩa Mean Decrease Gini (Sự giảm bình quân hệ số Gini đối với mỗi biến) Out-of-bag Period of Day Quality Call Relation DB Management Systems (Hệ thống lưu trữ cơ sở dữ liệu quan hệ) Random Forest Receiver Operating Characteristics Signal/Noise (Tỷ lệ tín hiệu trên nhiễu) Support Vector Machines Thuê bao Thuê bao rời mạng True Negative True Positive True Positive Rate/Sentivity/Recall Weeks Before Last Date DANH MỤC CÁC BẢNG STT Chương Mục Bảng 1 1 1.3.3.1 Bảng 1.1 2 1 1.3.3.2 Bảng 1.2 3 3 3.2.1.2 Bảng 3.1 4 3 3.2.1.4 Bảng 3.2 5 3 3.3.1.1 Bảng 3.3 6 3 3.3.1.2 Bảng 3.4 7 3 3.3.1.3 Bảng 3.5 8 3 3.3.1.4 Bảng 3.6 9 3 3.3.1.5 Bảng 3.7 10 3 3.3.1.6 Bảng 3.8 11 3 3.3.1.7 Bảng 3.9 12 3 3.3.1.8 Bảng 3.10 13 3 3.3.1.9 Bảng 3.11 14 3 3.3.1.10 Bảng 3.12 15 3 3.3.1.11 Bảng 3.13 16 3 3.3.1.12 Bảng 3.14 17 3 3.3.2.1 Bảng 3.15 18 3 3.3.2.2 Bảng 3.16 19 3 3.3.2.2 Bảng 3.17 Tên bảng Các thuộc tính ví dụ Ngày và Khách truy cập và thuộc tính được trích xuất IsWeekendDayfDayg Các phương pháp trích chọn thuộc tính Cấu hình hệ thống phân tích BigData thực nghiệm Nguồn dữ liệu hệ thống phân tích BigData thực nghiệm Các biến đặc trưng cho dữ liệu gọi đi của thuê bao Các biến đặc trưng cho dữ liệu gọi đến của thuê bao Các biến đặc trưng cho dữ liệu nhắn tin đi của thuê bao Các biến đặc trưng cho dữ liệu nhắn tin đi của thuê bao Các biến đặc trưng cho dữ liệu sử dụng Data của thuê bao Các biến đặc trưng cho dữ liệu tiêu dùng hàng ngày của thuê bao Các biến đặc trưng cho dữ liệu nạp tiền của thuê bao Các biến đặc trưng cho dữ liệu số dư tài khoản của thuê bao Các biến đặc trưng cho dữ liệu cước phí các gói sử dụng theo chu kỳ của thuê bao Các biến đặc trưng cho dữ liệu tổng hợp charge cước sử dụng các dịch vụ VAS của thuê bao Các biến đặc trưng cho dữ liệu home của thuê bao Các biến đặc trưng cho dữ liệu thông tin thuê bao, khách hàng Lựa chọn các thuộc tính quan trọng bằng thuật toán Decision Tree Validation of the Training Data Set (80% of Total) Validation of the Testing Data Set (20% of Total) STT Chương Mục 20 3 3.3.2.2 21 3 3.3.2.2 22 3 3.3.2.2 23 3 3.3.3.1 Bảng Bảng 3.18 Bảng 3.19 Bảng 3.20 Bảng 3.21 24 3 3.3.3.1 Bảng 3.22 25 3 3.3.3.4 Bảng 3.23 26 3 3.3.3.6 Bảng 3.24 27 3 3.3.3.7 Bảng 3.25 Tên bảng Sử dụng Logistic Regression Sử dụng Naïve Bayes So sánh các kết quả Kết quả phân cụm bằng thuật toán K-mean Kết quả chi tiết phân cụm bằng thuật toán K-mean Tối ưu mô hình bằng cách lựa chọn lại các đặc trung Lựa chọn mô hình dự đoán tốt nhất Mô hình dự báo với thuật toán Gradien Booting DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ STT 1 2 Chương 1 1 Mục 1.1.1.4 1.1.1.4 Hình Hình 1.1 Hình 1.2 3 1 1.1.1.4 Hình 1.3 4 5 1 1 1.1.1.4 1.1.1.4 Hình 1.4 Hình 1.5 6 1 1.1.1.5 Hình 1.6 7 1 1.1.1.5 Hình 1.7 8 1 1.1.1.5 Hình 1.8 9 1 1.1.1.5 Hình 1.9 10 1 1.1.2 Hình 1.10 11 1 1.2.1.2 Hình 1.11 12 1 1.2.1.2 Hình 1.12 13 1 1.2.1.2 Hình 1.13 14 1 1.2.1.2 Hình 1.14 15 1 1.2.1.2 Hình 1.15 16 1 1.2.2.2 Hình 1.16 17 1 1.2.2.2 Hình 1.17 18 19 1 1 1.3.2.1 1.3.2.1 Hình 1.18 Hình 1.19 20 1 1.3.2.3 Hình 1.20 21 1 1.3.2.3 Hình 1.21 Tên hình vẽ Một ví dụ về lưu trữ dạng Key-value Một ví dụ về lưu trữ dạng Document Một ví dụ về lưu trữ dạng Columnfamily Một ví dụ về lưu trữ dạng Graph Sơ đồ Venn tóm tắt định lý CAP Một quy trình ETL có thể trích xuất dữ liệu từ nhiều nguồn và chuyển đổi nó để tải vào một hệ thống đích duy nhất Một tác vụ có thể được chia thành ba tác vụ phụ được thực thi song song trên ba bộ xử lý khác nhau trong cùng một máy Một ví dụ về xử lý dữ liệu phân tán Hadoop là một khung đa năng cung cấp cả khả năng xử lý và lưu trữ Giá trị và độ phức tạp tăng từ phân tích mô tả đến phân tích đề xuất Thiết bị lưu trữ trong bộ nhớ có tốc độ truyền dữ liệu nhanh hơn 80 lần so với thiết bị lưu trữ trên đĩa Một ví dụ mô tả việc truy xuất dữ liệu từ IMDG Một ví dụ về lưu trữ IMDG xử lý với một truy vấn liên tục Một ví dụ mô tả việc truy xuất dữ liệu từ IMDB Một ví dụ về lưu trữ IMDB được cấu hình với một truy vấn liên tục Một minh họa về công việc MapReduce Một ví dụ về MapReduce đang hoạt động Biểu diễn cây quyết định cơ bản Cây quyết định cho việc chơi Tennis Biểu đồ hàm Sigmoid (Ảnh: Tạp chí Analytics Ấn Độ) Biểu đồ hàm chi phí STT 22 Chương 1 Mục 1.3.2.3 Hình Hình 1.22 23 1 1.3.2.4 Hình 1.23 24 25 26 27 28 29 30 1 1 1 1 1 1 1 1.3.2.5 1.3.2.5 1.3.3.3 1.3.3.4 1.3.3.4 1.3.3.4 1.3.3.4 Hình 1.24 Hình 1.25 Hình 1.26 Hình 1.27 Hình 1.28 Hình 1.29 Hình 1.30 31 1 1.3.3.4 Hình 1.31 32 1 1.3.3.4 Hình 1.32 33 1 1.3.3.4 Hình 1.33 34 1 1.3.3.4 Hình 1.34 35 2 2.1.1 Hình 2.1 36 2 2.1.1 Hình 2.2 37 2 2.2.1 Hình 2.3 38 2 2.2.2 Hình 2.4 39 40 2 2 2.2.3.2 2.2.4 Hình 2.5 Hình 2.6 41 3 3.2.1.1 Hình 3.1 42 3 3.2.1.2 Hình 3.2 43 3 3.2.1.3 Hình 3.3 44 45 3 3 3.2.1.5 3.2.2 Hình 3.4 Hình 3.5 46 3 3.3.2.1 Hình 3.6 Tên hình vẽ Mô phỏng Gradient Descent Sơ đồ Cây quyết định (Nguồn: Basten K., 2016) Mô hình mạng nơron nhiều lớp Tiến trình học Vai trò của mô hình và từng tập dữ liệu Overfitting, Underfitting Confusion Matrix Phương pháp Bias & Variance Phương pháp đường cong AUC-ROC Đánh giá mô hình qua chỉ số AUC. Trường hợp tốt nhất khi 2 đường cong không chồng lên nhau Đánh giá mô hình qua chỉ số AUC. Trường hợp khi 2 đường cong có chồng lên nhau Đánh giá mô hình qua chỉ số AUC. Trường hợp tệ nhất khi 2 đường cong hoàn toàn chồng lên nhau Đánh giá mô hình qua chỉ số AUC. Trường hợp khi AUC xấp xỉ 0 Các lĩnh vực phân tích dữ liệu lớn trong viễn thông Mức độ ứng dụng phân tích dữ liệu lớn trong viễn thông Phương pháp tổ chức hệ thống dữ liệu lớn Mô hình tổ chức thực tế hệ thống BigData tại Viettel So sánh CDH và HDP Các phân hệ cài đặt Big Data của HDP Mô hình triển khai hệ thống BigData thực nghiệm Mô hình đấu nối hệ thống Luồng khai phá dữ liệu trong Rapidminer Luồng xử lý khai phá dữ liệu Mô hình dự báo thuê bao rời mạng Phương pháp huấn luyện một cây quyết định cho mỗi nguồn dữ liệu STT Chương Mục Hình 47 3 3.3.2.1 Hình 3.7 48 3 3.3.2.1 Hình 3.8 49 3 3.3.2.1 Hình 3.9 50 3 3.3.3.5 Hình 3.10 Tên hình vẽ Cắt bỏ các mức thấp và trích xuất các nút từ các cấp cao hơn Mô tả cây quyết định trên Rapidminer Các thuộc tính quan trọng sau khi cắt bỏ Mô hình tối ưu MỞ ĐẦU Trên thế giới, dữ liệu lớn (BigData) đã và đang là một trong những vấn đề trung tâm, nhận được nhiều sự quan tâm trong cuộc cách mạng công nghiệp lần thứ tư. BigData chính là cốt lõi để sử dụng, phát triển internet vạn vật (IoT) và trí tuệ nhân tạo (AI) [1]. Theo dự báo, cách mạng công nghiệp lần thứ tư sẽ tạo ra một lượng lớn dữ liệu, dự kiến đến năm 2020, lượng dữ liệu sẽ tăng gấp 50 lần hiện nay [4]. Thông qua thu thập, phân tích và xử lý lượng dữ liệu lớn này sẽ tạo ra những tri thức mới, hỗ trợ việc đưa ra quyết định của các chủ thể trên thế giới (doanh nghiệp, chính phủ, người dân) [1, 4]. Trong ngành viễn thông và CNTT, dữ liệu lớn trở thành công cụ hữu hiệu cho các nhà cung cấp dịch vụ viễn thông trong kinh doanh cũng như công tác quản lý vận hành khai thác dịch vụ. Các doanh nghiệp viễn thông ngày nay đã chủ động ứng dụng công nghệ mới này đề xây dựng các hệ thống phân tích dữ liệu làm cơ sở để giám sát, quản lý và ra các quyết định có tính chiến lược. Lĩnh vực áp dụng dự liệu lớn trong viễn thông rất phong phú liên quan đến các công nghệ phân tích dự báo, học máy (ML), trí tuệ nhân tạo (AI)…[2, 10]. Dựa vào các công cụ này doanh nghiệp có thể nâng cao chất lượng dịch vụ cung cấp, đạt hiệu quả kinh doanh. Phạm vi ứng dụng dữ liệu lớn trong viễn thông nói riêng rất rộng, các ứng dụng có thể kể đến như hệ thống phân tích quản lý trải nghiệm khách hàng (Customer Experience Mgmt), hệ thống giám sát, quản lý và tối ưu mạng lưới (Network OAM), hệ thống phân tích hoạt động doanh nghiệp (Operation Analytics) và thương mại dữ liệu (Data Monetization) …[7, 11] Viettel là một doanh nghiệp hàng đầu Việt Nam luôn có chiến lược đổi mới, tiên phong trong công nghệ. Việc ứng dụng một cách nhanh nhất, hiệu quả nhất các công nghệ mới nói chung và nhất là các công nghệ liên quan đến dữ liệu lớn nói riêng luôn là thách thức của đội ngũ kỹ thuật Viettel. Một trong những ứng dụng phổ biến nhất hiện nay mà các nhà cung cấp dịch vụ viễn thông sử dụng đó là hệ thống phân tích dự báo khách hàng rời mạng. Đây là hệ thống quan trọng mà đội ngũ kỹ thuật Viettel tự nghiên cứu xây dựng dựa trên tư vấn của đối tác cung cấp nền tảng dữ liệu lớn Cloudera. Bản thân là một trong những thành viên tham gia dự án xây dựng bài toán, tôi xin giới thiệu đề tài nghiên cứu: "TỔ CHỨC VÀ TÍCH HỢP HỆ THỐNG 1 PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG". Với mong muốn hiểu được phương pháp phân tích dự báo và tự bản thân tích hợp được một hệ thống dữ liệu lớn, tôi đã đặt mục tiêu nghiên cứu các nội dung sau đây: Tổng quan về vấn đề nghiên cứu:  Tìm hiểu về dữ liệu lớn, các công nghệ liên quan đến dữ liệu lớn (công nghệ xử lý và lưu trữ dữ liệu), các ứng dụng cho dữ liệu lớn. Tìm hiểu về bài toán phân tích dự báo và phương pháp dự báo thuê bao rời mạng dựa trên hành vi tiêu dùng và thói quen sử dụng dịch vụ của khách hàng.  Xây dựng tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo thuê bao rời mạng tại Viettel. Mục đích nghiên cứu: Tìm hiểu dữ liệu lớn và xây dựng ứng dụng vào thực tiễn phục vụ công tác kinh doanh của Viettel. Đối tượng nghiên cứu:  Dữ liệu lớn (khái niệm, cách hoạt động và công nghệ hỗ trợ).  Ứng dụng dữ liệu lớn vào thực tiễn tại Viettel. Phạm vi nghiên cứu:  Các khái niệm cơ bản về dữ liệu lớn.  Giải pháp mã nguồn mở cho BigData dựa trên Cloudera Flatform.  Xây dựng hệ thống dữ liệu lớn cho một ứng dụng phân tích dự báo cụ thể.. Phương pháp nghiên cứu:  Nghiên cứu lý thuyết về dữ liệu lớn trong hệ thống Công nghệ thông tin với mục tiêu là hiểu được nền tảng cơ bản.  Nghiên cứu các công nghệ cho hệ thống dữ liệu lớn với mục tiêu là hiểu và triển khai được công nghệ.  Tìm hiểu về các hệ thống dữ liệu phục vụ sản xuất kinh doanh của Viettel phục vụ cho sản xuất kinh doanh của doanh nghiệp với mục tiêu nắm vững các nguồn dữ liệu lớn đang có và triển khai việc xây dựng BigData. 2 Phương pháp thực nghiệm: Xây dựng tích hợp một hệ thống dữ liệu lớn dựa trên nền tảng Cloudera Flatform phục vụ cho một ứng dụng cụ thể là phân tích dự báo thuê bao rời mạng của Viettel. Với các mục tiêu xác định cụ thể như trên, kết quả của luận văn dự kiến sẽ cho ra đời một hệ thống phân tích dữ liệu lớn phục vụ cho công tác dự báo thuê bao rời mạng mới (thay thế cho hệ thống vBI cũ). Hệ thống phân tích mới này dựa trên các thuật toán dự báo tiên tiến kết hợp với công nghệ xử lý dữ liệu lớn sẽ cho ra kết quả phân tích nhanh hơn và có độ chính xác hơn. Qua đó, công cụ này sẽ giúp Viettel đưa ra quyết định kịp thời và hiệu quả hơn trong việc gìn giữ khách hàng của mình. Luận văn được cấu trúc như sau: CHƯƠNG 1: TỔNG QUAN. Chương này trình bày các khái niệm cơ bản về dữ liệu lớn, công nghệ lưu trữ và xử lý dữ liệu lớn. Các bài toán phân tích dự báo, mô hình dự báo, giới thiệu các kỹ thuật phân tích dự báo và công cụ phân tích dữ liệu Rapidminer cũng là một trong những nội dung quan trọng của phần này. CHƯƠNG 2: TỔ CHỨC MỘT HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN. Đây là chương khá quan trọng được chia làm 02 phần. Phần thứ nhất giới thiệu các ứng dụng phân tích dữ liệu lớn phổ biến hiện nay, hiện trạng các nguồn dữ liệu lớn cùng với các hệ thống ứng dụng phân tích dữ liệu lớn tại Viettel. Phần còn lại sẽ chia sẻ phương pháp tổ chức hệ thống dữ liệu lớn tập trung, cách thiết kế kiến trúc hạ tầng dữ liệu lớn hiện tại của Viettel. CHƯƠNG 3: THỰC NGHIỆM TÍCH HỢP HỆ THỐNG DỰ BÁO THUÊ BAO RỜI MẠNG Chương 3 là chương chuyển thể các kiến thức nghiên cứu được thành nội dung ứng dụng thực tế. Chương này đưa ra thực nghiệm tích hợp một hệ thống phân tích dự báo thuê bao rời mạng với một hệ thống xử lý dữ liệu lớn thành một công cụ có áp dụng dự báo cụ thể. Hệ thống này bước đầu cho ra các kết quả sơ bộ về đặc điểm thuê bao rời mạng với độ chính xác >80% sau khi tối ưu các bước dự báo. Tuy nhiên, để kết quả thực nghiệm là một công cụ áp dụng hiệu quả trong thực tế kinh doanh của Viettel, ngoài việc tối ưu lại hệ thống thì còn phải thực hiện tối 3 ưu mô hình liên tục. Kết quả thực nghiệm của chương trình này chỉ mang tính chất tham khảo, chưa thể áp dụng trong thực tế. Trên đây là giới thiệu cơ bản nội dung về luận văn tốt nghiệm của bản thân. Nội dung thực hiện chỉ mới là quan điểm và tư duy cá nhân, sẽ còn nhiều tồn tại và thiết sót. Do vậy, rất mong quý thầy cô, bạn học và nhất là hội đồng tốt nghiệp cho ý kiến đóng góp để luận văn được hoàn thiện, kết quả luận văn là công cụ dự báo được áp dụng hiệu quả trong thực tế. 4 CHƯƠNG 1. TỔNG QUAN 1.1. CÁC KHÁI NIỆM CƠ BẢN 1.1.1. Khái niệm chung về dữ liệu lớn Bộ dữ liệu (Data sets) Nhiều tập dữ liệu hay nhiều nhóm dữ liệu có liên quan đến nhau được gọi là bộ dữ liệu [5]. Trong đó mỗi nhóm hoặc tập con dữ liệu đó có cùng thuộc tính giống nhau. Một số ví dụ về bộ dữ liệu ở 03 định dạng khác nhau: + Dữ liệu Tweets được lưu giữ trong tập tin phẳng (flat file). + Trích xuất các hàng từ bảng dữ liệu (database table) được lưu giữ trong tệp định dạng CSV. Bộ sưu tập ảnh được lưu trong thư mục. + Các thông tin quan sát về lịch sử thời tiết được lưu dưới dạng XML Đặc điểm dữ liệu lớn 5V (Volume, Velocity, Variety, Veracity, Value) Dữ liệu lớn BigData có 05 đặc điểm hay còn gọi là 5V: Volume-Khối lượng lớn; Velocity-Tốc độ; Variety-Tính đa dạng; Veracity-Tính xác thực và ValueMang lại giá trị. Hầu hết các đặc điểm về dữ liệu lớn được Doug Laney xác định vào năm 2001 khi đăng bài viết về dữ liệu doanh nghiệp (Volume, Velocity, Variety). Tính xác thực (Veracity) được bổ sung để tính tỷ lệ signal-to-noise khi so sánh dữ liệu phi cấu trúc với dữ liệu có cấu trúc. Cuối cùng, Value- để xác định các kết quả phân tích dữ liệu lớn mang lại giá trị gì? [8]. Phân biệt các loại dữ liệu Dữ liệu có cấu trúc (Structured Data): Dữ liệu có cấu trúc phù hợp với mô hình dữ liệu được lưu trữ ở dạng bảng. Chúng được sử dụng để mô tả mối quan hệ giữa các thực thể khác nhau và do đó thường được lưu trữ trong cơ sở dữ liệu quan hệ. Dữ liệu có cấu trúc thường được tạo bởi các ứng dụng doanh nghiệp và hệ thống thông tin như hệ thống ERP và CRM. Ví dụ về loại dữ liệu này bao gồm các giao dịch ngân hàng, hóa đơn và hồ sơ khách hàng. Dữ liệu phi cấu trúc (Unstructured Data): Dữ liệu không phù hợp với mô hình dữ liệu hoặc lược đồ dữ liệu được gọi là dữ liệu phi cấu trúc. Người ta ước tính rằng dữ liệu phi cấu trúc chiếm tới 80% dữ liệu trong bất kỳ doanh nghiệp nào. Ngày nay, dữ liệu phi cấu trúc có tốc độ tăng trưởng nhanh hơn dữ liệu có cấu trúc. Một số loại dữ liệu phi cấu trúc phổ biến như dữ liệu có dạng văn bản (text) hoặc nhị phân (binary). 5 Dữ liệu phi cấu trúc không thể được xử lý hoặc truy vấn trực tiếp bằng cơ sở dữ liệu quan hệ SQL. Nếu muốn lưu trữ dữ liệu phi cấu trúc trong cơ sở dữ liệu quan hệ, thì phải được lưu trữ trong một bảng dưới dạng BLOB (Binary Large Object). Ngoài ra, cơ sở dữ liệu NonSQL có thể được sử dụng để lưu trữ dữ liệu phi cấu trúc. Dữ liệu bán cấu trúc (Semi-structured Data): Dữ liệu bán cấu trúc thường là dữ liệu có cấu trúc nhưng không đồng nhất. Thay vào đó, dữ liệu bán cấu trúc có dạng phân cấp (hierarchical) hoặc đồ thị (graphbased). Loại dữ liệu này thường được lưu trữ trong các tệp có chứa văn bản. Ví dụ như các tệp XML và JSON là các dạng phổ biến của dữ liệu bán cấu trúc. Do tính chất văn bản của dữ liệu này và sự phù hợp của nó với một mức độ cấu trúc nào đó, nó dễ dàng khai thác hơn dữ liệu phi cấu trúc. Các nguồn phổ biến của dữ liệu bán cấu trúc bao gồm các tệp trao đổi dữ liệu điện tử (EDI), bảng tính, nguồn dữ liệu từ các bộ cảm biến. Dữ liệu bán cấu trúc thường có các yêu cầu lưu trữ và xử lý trước đặc biệt, đặc biệt nếu định dạng cơ bản không dựa trên văn bản. Một ví dụ về tiền xử lý dữ liệu bán cấu trúc sẽ là xác thực tệp XML để đảm bảo rằng nó tuân thủ theo lược đồ của nó. Siêu dữ liệu (Metadata): Siêu dữ liệu cung cấp thông tin về các đặc điểm và cấu trúc của bộ dữ liệu. Loại dữ liệu này chủ yếu được tạo bằng máy và có thể được thêm vào dữ liệu. Việc theo dõi siêu dữ liệu rất quan trọng đối với việc xử lý, lưu trữ và phân tích dữ liệu lớn vì nó cung cấp thông tin về phả hệ của dữ liệu và nguồn gốc của nó trong quá trình xử lý. Ví dụ về siêu dữ liệu bao gồm: Thẻ XML cung cấp ngày xác thực và ngày tạo tài liệu; Các thuộc tính cung cấp kích thước tệp và độ phân giải của ảnh kỹ thuật số; Các giải pháp dữ liệu lớn thường dựa trên siêu dữ liệu, đặc biệt khi xử lý dữ liệu bán cấu trúc và không cấu trúc [5]. 1.1.2. Các khái niệm lưu trữ dữ liệu lớn Các dữ liệu thu được từ các nguồn bên ngoài thường không ở định dạng hoặc cấu trúc có thể xử lý ngay được. Để khắc phục được tình trạng này, việc sắp xếp lưu trữ dữ liệu là vô cùng cần thiết. Xử lý sắp xếp lưu trữ dữ liệu bao gồm các bước: Lọc dữ liệu, làm sạch dữ liệu và chuẩn bị dữ liệu. Do nhu cầu lưu trữ dữ liệu trong BigData, nên có nhiều công nghệ tiên tiến được tạo ra để hướng tới việc lưu trữ hiệu quả và có khả năng mở rộng cao [5]. 6
- Xem thêm -

Tài liệu liên quan