Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Khoa học xã hội Tổ chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong...

Tài liệu Tổ chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong viễn thông

.DOC
115
7
95

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN CHUNG THÀNH HƯNG TỔ CHỨC VÀ TÍCH HỢP HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN CHUNG THÀNH HƯNG TỔ CHỨC VÀ TÍCH HỢP HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG Chuyên ngành: Hệ thống thông tin Mã số: 8480104.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Cán bộ hương dân: PGS. TS Phann uunn HiKu Hà Nội - 2019 LỜI CẢM ƠN Tôi xin trân trọng cảm ơn các thầy cô trong Khoa Công nghệ Thông tin đã tạo điều kiện cho học viên lớ cao học K24CNTT một môi trường học tậ́ thuận lợi, đồng thời truyền đạt cho tôi một vốnn kinn thức qun báu, một tư duy khoa học để ́hục vụ cho quá trình học tậ́ và công tác của tôi. Đặc biệt, tôi xin được bày tỏ lòng bint ơn sâu sắc đnn PGS.TS. PHAN XUÂN HIẾU đã tận tình chỉ bảo cho tôi trong suốnt quá trình học tậ́ và nghiên cứu, giú́ tôi có nhận thức đúng đắn về kinn thức khoa học, tác ́hong học tậ́ và làm việc. Tôi xin gửi lời cảm ơn đnn các bạn trong lớ Cao học Hệ thốnng Thông tin K24CNTT khóa 2016- 2018 đã giú́ đỡ tôi trong suốnt thời gian học tậ́. Cuốni cùng, tôi xin được gửi lời cảm ơn tơi gia đình, đồng nghiệ́, người thân đã động viên, giú́ đỡ tôi trong quá trình hoàn thành luận văn. Do vốnn kinn thức ln luận và kinh nghiệm thực tiễn còn ít nên luận văn không tránh khỏi những thinu sót. Tôi xin trân trọng tiń thu các n kinn của các thầy, cô, bạn bè để luận văn được hoàn thiện. Trân trọng cám ơn. LỜI CAM ĐOAN Tôi xin cam đoan các knt quả nghiên cứu, thực nghiệm được trình bày trong luận văn này do tôi thực hiện dươi sự hương dân của PGS.TS Phan Xuân Hinu và được thực hiện trong quá trình hợ́ tác nghiên cứu giữa Tậ́ đoàn Công nghiệ́ - Công nghệ Cao Viettel và đốni tácra. Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốnc một cách ro ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận văn, không có việc sao ché tài liệu, công trình nghiên cứu của người khác mà không chỉ ro về tài liệu tham khảo. Hà nô ̣i, naày 12 thána 11 nm 211. Học viên Nguyễn Chung Thành Hưng. MỤC LỤC LỜI CẢM ƠN...............................................................................................................i LỜI CAM ĐOAN..........................................................................................................i MỤC LỤC..................................................................................................................... i DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT................................................... iv DANH MỤC CÁC BẢNG............................................................................................i DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ......................................................................iii MỞ ĐẦU...................................................................................................................... 1 CHƯƠNG 1. TÔNG QUAN......................................................................................... 5 1.1. CÁC KHÁI NIỆM CƠ BẢN............................................................................... 5 1.1.1. Khái niệm chung về dữ liệu lơn.................................................................... 5 1.1.2. Các khái niệm lưu trữ dữ liệu lơn.................................................................. 6 1.1.3 Các khái niệm về xử ln dữ liệu lơn.............................................................. 10 1.1.4. Cái khái niệm ́hân tích dữ liệu và các loại hình ́hân tích dữ liệu.............13 1.2. Hệ thốnng ́hân tích dữ liệu lơn.......................................................................... 17 1.2.1. Công nghệ lưu trữ dữ liệu trong BigData.................................................... 17 1.2.1.1. Công nghệ lưu trữ trên đĩa cứng........................................................... 17 1.2.1.2. Công nghệ lưu trữ trong bộ nhơ (In-Memory Databases).....................19 1.2.2. Xử ln dữ liệu trong BigData........................................................................ 22 1.2.2.1. Xử ln dữ liệu vơi mô hình Má-Reduce............................................... 22 1.2.2.2. Các tác vụ Má và Reduce................................................................... 23 1.2.3. Kỹ thuật ́hân tích bigdata hiện nay............................................................ 25 1.3. Các BÀI TOÁN PHÂN TICH DD BÁO.......................................................... 28 1.3.1. Bài toán ́hân tích dự báo........................................................................... 28 1.3.2. Các mô hình dự báo cơ bản......................................................................... 28 1.3.2.1. Mô hình dự báo dựa trên thuật toán cây quynt đinhh.............................28 1.3.2.2. Mô hình dự báo Gradient Boosting....................................................... 30 1.3.3. Các kỹ thuật ́hân tích dự báo..................................................................... 31 1.3.3.1. Tạo binn đặc trưng................................................................................ 31 1.3.3.2. Kỹ thuật lựa chọn đặc trưng.................................................................. 32 1.3.3.3. Huấn luyện và xác thực trong các mô hình dự báo............................... 34 1.3.3.4. Đánh giá mô hình dự báo...................................................................... 35 1.3.4. Giơi thiệu công cụ ́hân tích Ráidminer.................................................... 42 CHƯƠNG 2................................................................................................................ 44 PHƯƠNG PHÁP TÔ CHƯC VÀ TICH HƠP DỮ LIỆU LƠN.................................. 44 2.1. CÁC HỆ THỐNG PHÂN TICH DỮ LIỆU LƠN TRONG VIÊN THÔNG......44 2.1.1. Một sốn ứng dụng hệ thốnng ́hân tích dữ liệu lơn ́hh binn hiện nay............44 2.1.1.1. Quản ln trải nghiệm khách hàng (Customer Ex́erience Mgmt)...........45 2.1.1.2. Giám sát, quản ln và tốni ưu mạng lươi (Network OAM)......................47 2.1.1.3. Phân tích hoạt động (Óeration Analytics)........................................... 48 2.1.1.4. Kinm tiền từ dữ liệu (Data Monetization)............................................. 50 2.1.2. Hiện trạng của Viettel................................................................................. 50 2.1.2.1. Các nguồn dữ liệu lơn tại Viettel.......................................................... 50 2.1.2.2. Các hệ thốnng ́hân tích dữ liệu lơn của Viettel.....................................51 2.2.1.1. Tầng Data Ingestion.............................................................................. 53 2.2.1.2. Tầng Data Processing........................................................................... 53 2.2.1.3. Tầng Data Analysis Layer.................................................................... 54 2.2.1.4. Tầng Data Visualization....................................................................... 54 2.2.1.5. Tầng Data Réository........................................................................... 54 2.2.1.6. Tầng Data Govenance........................................................................... 55 2.2.2. Mô hình th chức thực tn hệ thốnng BigData tại Viettel................................. 55 2.2.2.1. Tầng lưu trữ và xử ln dữ liệu................................................................ 56 2.2.2.2. Tầng truy xuất dữ liệu........................................................................... 57 2.2.3. Các công nghệ nền tảng về hệ thốnng dữ liệu lơn......................................... 57 2.2.4. Các ́hân hệ cài đặt của Cloudera BigData Enteŕrise flatformh.................60 CHƯƠNG 3................................................................................................................ 62 THDC NGHIỆM TICH HƠP HỆ THỐNG................................................................ 62 DD BÁO THU BAO RỜI MẠNG........................................................................... 62 3.1. NỘI DUNG THDC NGHIỆM.......................................................................... 62 3.1.1. Đinh nghĩa thuê bao rời mạng..................................................................... 62 3.1.2. Bài toán yêu cầu.......................................................................................... 62 3.1.3. Các bươc thực nghiệm................................................................................ 63 3.2. TRIÊN KHAI HỆ THỐNG THDC NGHIỆM.................................................. 63 3.2.1. Xây dựng hệ thốnng ́hân tích BigData thực nghiệm................................... 63 3.2.1.1. Mô hình triển khai Logic...................................................................... 63 3.2.1.2. Mô hình triển khai vật ln và thông sốn hệ thốnng..................................... 64 3.2.1.3. Cài đặt, cấu hình các thành ́hần hệ thốnng thực nghiệm.......................65 3.2.1.4. Nguồn dữ liệu....................................................................................... 67 3.2.1.5. Luồng xử ln và khai ́há dữ liệu........................................................... 68 3.2.2. Xây dựng mô hình dự báo TBRM............................................................... 69 3.3. CÁC KẾT QUẢ THDC NGHIỆM MÔ HÌNH DD BÁO.................................70 3.3.1. Khám ́há dữ liệu và tạo các binn đặc trưng............................................... 70 3.3.1.1. Bảng dữ liệu gọi đi của thuê bao (VOICE_OG)................................... 70 3.3.1.2. Dữ liệu gọi đnn của thuê bao (VOICE_IC)........................................... 71 3.3.1.3. Dữ liệu nhắn tin đi của thuê bao (SMS_OG)........................................ 71 3.3.1.4. Dữ liệu nhắn tin đnn của thuê bao (SMS_IC)....................................... 72 3.3.1.5. Dữ liệu về sử dụng Data của thuê bao (GPRS)..................................... 72 3.3.1.6. Dữ liệu tiêu dùng hàng ngày của thuê bao (TOT_CHARGE_DAILY). 73 3.3.1.7. Dữ liệu về thông tin nạ́ tiền (TOPUP)................................................ 73 3.3.1.8. Dữ liệu sốn dư tài khoản (ACCOUNT2_DAY)...................................... 74 3.3.1.9. Dữ liệu trừ cươc ́hí các gói sử dụng theo chu kỳ (DAILYFEE)..........74 3.3.1.10. Dữ liệu thng hợ́ charge cươc sử dụng các dich vụ VAS (VAS_CDR_DAY)........................................................................................... 75 3.3.1.11. Dữ liệu home (HOME_ACC)............................................................. 75 3.3.1.12. Dữ liệu thông tin thuê bao, khách hàng (PRE-SUBS)........................75 3.3.2. Lựa chọn đặc trưng và mô hình hóa............................................................ 76 3.3.2.1. Lựa chọn các thuộc tính quan trọng băng thuật toán Decision Tree.....76 3.3.2.2. Huấn luyện và xác nhận mô hình rời mạng.......................................... 79 3.3.3. Tốni ưu mô hình dự báo................................................................................ 80 3.3.3.1. Tốni ưu băng cách ́hân nhóm khách hàng theo hành vi sử dụng...........81 3.3.3.2. Tìm tỷ lệ tốni ưu của xác nhận ́hân tách............................................... 81 3.3.3.3. Tìm cỡ mâu tốni ưu cho huấn luyện....................................................... 82 3.3.3.4. Tốni ưu mô hình băng cách lựa chọn lại các đặc trưng........................... 82 3.3.3.5. Xác đinh lại các tham sốn của mô hình tốni ưu........................................82 3.3.3.6. Lựa chọn mô hình dự đoán tốnt nhất...................................................... 83 3.3.3.7. Chạy lại mô hình dự báo vơi thuật toán Gradien Booting.....................83 3.4. ĐÁNH GIÁ THU HOẠCH............................................................................... 84 3.4.1. Knt quả đầu ra của hệ thốnng ́hân tích, dự báo thuê bao rời mạng..............84 3.4.2. Tri thức thu được sau thực nghiệm............................................................. 84 KẾT LUNN................................................................................................................ 86 TÀI LIỆU THAM KHẢO.......................................................................................... 87 PHỤ LỤC 1.1. ĐẶC ĐIÊM CỦA THU BAO DD BÁO RỜI MẠNG TRẢ TRƯƠC PHÂN THEO 4 NHÓM HÀNH VI............................................................................ 90 PHỤ LỤC 1.2. ĐẶC ĐIÊM CỦA THU BAO DD BÁO RỜI MẠNG TRẢ SAU-PHÂN THEO 4 NHÓM HÀNH VI.............................................................................. 93 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT STT Ký hiệu/chữ viKt tắt 1 ACID 2 3 4 AUC AUROC BASE 5 6 BLOB CAP Binary Large Object Consistency, Availability and Partition Tolerance (Nguyên ln CAP) 7 CEM Customer Ex́erience Management (Quản ln trải nghiệm khách hàng) 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 CEP CNN DBM DBN DT ETL FN FP FPR GBM GBRT ID3 IG IMDB IMDG Coḿlex Event Processing Convolutional Neural Network Deé Boltzmann Machine Deé Belief Networks Daytýe Extract Transform Load (Trích xuất dữ liệu) False Negative False Positive False Positive Rate/Fall-out Gradient Boosting Machines Gradient Boosting Regression Trees Interactive Dichotomizer 3 Information Gain (Độ tăng thông tin) In-Memory Databases (Cơ sở dữ liệu trong bộ nhơ) In-Memory Data Grids (Công nghệ lưu trữ dữ liệu trong bộ nhơ) 23 24 25 26 27 IOB IoT LS M2M MDA In-of-bag Internet Of Things Learning Set (Tậ́ huấn luyện) Machine to Manchine Mean Decrease Accuracy (Độ chính xác giảm bình quân cho mỗi binn) Ý nghĩan Atomicity, Consistency, Isolation, Durability (Nguyên tắc thint kn ACID) Area Under the Curve Area Under the Receiver Óerating Characteristics Basically Available, Soft state, Eventual consistency (Nguyên tắc thint kn BASE) STT Ký hiệu/chữ viKt tắt Ý nghĩan 28 MDG Mean Decrease Gini (Sự giảm bình quân hệ sốn Gini đốni vơi mỗi binn) 29 30 31 32 OOB POD QC RDBMS Out-of-bag Period of Day Quality Call Relation DB Management Systems (Hệ thốnng lưu trữ cơ sở dữ liệu quan hệ) 33 34 35 36 37 38 39 40 41 42 RF ROC S/N SVM TB TBRM TN TP TPR WFLD Random Forest Receiver Óerating Characteristics Signal/Noise (Tỷ lệ tín hiệu trên nhiễu) Sú́ort Vector Machines Thuê bao Thuê bao rời mạng True Negative True Positive True Positive Rate/Sentivity/Recall Weeks Before Last Date DANH MỤC CÁC BẢNG STT Chương Mục Bảng Tên bảng Các thuộc tính ví dụ Ngày và Khách truy cậ́ và thuộc tính được trích xuất IsWeekendDayfDayg 1 1 1.3.3.1 Bảng 1.1 2 3 1 3 1.3.3.2 3.2.1.2 Bảng 1.2 Bảng 3.1 Các ́hương ́há́ trích chọn thuộc tính Cấu hình hệ thốnng ́hân tích BigData thực nghiệm 4 3 3.2.1.4 Bảng 3.2 Nguồn dữ liệu hệ thốnng ́hân tích BigData thực nghiệm 5 3 3.3.1.1 Bảng 3.3 Các binn đặc trưng cho dữ liệu gọi đi của thuê bao 6 3 3.3.1.2 Bảng 3.4 Các binn đặc trưng cho dữ liệu gọi đnn của thuê bao 7 3 3.3.1.3 Bảng 3.5 Các binn đặc trưng cho dữ liệu nhắn tin đi của thuê bao 8 3 3.3.1.4 Bảng 3.6 Các binn đặc trưng cho dữ liệu nhắn tin đi của thuê bao 9 3 3.3.1.5 Bảng 3.7 Các binn đặc trưng cho dữ liệu sử dụng Data của thuê bao 10 3 3.3.1.6 Bảng 3.8 Các binn đặc trưng cho dữ liệu tiêu dùng hàng ngày của thuê bao 11 3 3.3.1.7 Bảng 3.9 Các binn đặc trưng cho dữ liệu nạ́ tiền của thuê bao 12 3 3.3.1.8 Bảng 3.10 Các binn đặc trưng cho dữ liệu sốn dư tài khoản của thuê bao 13 3 3.3.1.9 Bảng 3.11 Các binn đặc trưng cho dữ liệu cươc ́hí các gói sử dụng theo chu kỳ của thuê bao 14 3 3.3.1.10 Bảng 3.12 Các binn đặc trưng cho dữ liệu thng hợ́ charge cươc sử dụng các dich vụ VAS của thuê bao 15 3 3.3.1.11 Bảng 3.13 Các binn đặc trưng cho dữ liệu home của thuê bao 16 3 3.3.1.12 Bảng 3.14 Các binn đặc trưng cho dữ liệu thông tin thuê bao, khách hàng 17 3 3.3.2.1 Bảng 3.15 Lựa chọn các thuộc tính quan trọng băng thuật toán Decision Tree 18 3 3.3.2.2 Bảng 3.16 Validation of the Training Data Set (80% of Total) 19 3 3.3.2.2 Bảng 3.17 Validation of the Testing Data Set (20% of Total) STT Chương 20 3 21 3 22 3 23 3 24 3 Mục 3.3.2.2 3.3.2.2 3.3.2.2 3.3.3.1 3.3.3.1 Bảng Bảng 3.18 Bảng 3.19 Bảng 3.20 Bảng 3.21 Bảng 3.22 Tên bảng Sử dụng Logistic Regression Sử dụng Naïve Bayes So sánh các knt quả Knt quả ́hân cụm băng thuật toán K-mean Knt quả chi tint ́hân cụm băng thuật toán K-mean 25 3 3.3.3.4 Bảng 3.23 Tốni ưu mô hình băng cách lựa chọn lại các đặc trung 26 27 3 3 3.3.3.6 3.3.3.7 Bảng 3.24 Bảng 3.25 Lựa chọn mô hình dự đoán tốnt nhất Mô hình dự báo vơi thuật toán Gradien Booting DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ STT 1 2 3 Chương 1 1 1 Mục 1.1.1.4 1.1.1.4 1.1.1.4 Hình Hình 1.1 Hình 1.2 Hình 1.3 Tên hình vẽ Một ví dụ về lưu trữ dạng Key-value Một ví dụ về lưu trữ dạng Document Một ví dụ về lưu trữ dạng Columnfamily 4 5 1 1 1.1.1.4 1.1.1.4 Hình 1.4 Hình 1.5 6 1 1.1.1.5 Hình 1.6 Một ví dụ về lưu trữ dạng Gráh Sơ đồ Venn tóm tắt đinh ln CAP Một quy trình ETL có thể trích xuất dữ liệu từ nhiều nguồn và chuyển đhi nó để tải vào một hệ thốnng đích duy nhất 7 1 1.1.1.5 Hình 1.7 8 9 1 1 1.1.1.5 1.1.1.5 Hình 1.8 Hình 1.9 Một ví dụ về xử ln dữ liệu ́hân tán Hadoó là một khung đa năng cung cấ́ cả khả năng xử ln và lưu trữ 10 1 1.1.2 Hình 1.10 Giá tri và độ ́hức tạ́ tăng từ ́hân tích mô tả đnn ́hân tích đề xuất 11 1 1.2.1.2 Hình 1.11 Thint bi lưu trữ trong bộ nhơ có tốnc độ truyền dữ liệu nhanh hơn 80 lần so vơi thint bi lưu trữ trên đĩa 12 1 1.2.1.2 Hình 1.12 Một ví dụ mô tả việc truy xuất dữ liệu từ IMDG 13 1 1.2.1.2 Hình 1.13 Một ví dụ về lưu trữ IMDG xử ln vơi một truy vấn liên tục 14 1 1.2.1.2 Hình 1.14 Một ví dụ mô tả việc truy xuất dữ liệu từ IMDB 15 1 1.2.1.2 Hình 1.15 Một ví dụ về lưu trữ IMDB được cấu hình vơi một truy vấn liên tục 16 1 1.2.2.2 Hình 1.16 Một minh họa về công việc MáReduce 17 1 1.2.2.2 Hình 1.17 Một ví dụ về MáReduce đang hoạt động 18 19 20 1 1 1 1.3.2.1 1.3.2.1 1.3.2.3 Hình 1.18 Hình 1.19 Hình 1.20 Biểu diễn cây quynt đinh cơ bản Cây quynt đinh cho việc chơi Tennis Biểu đồ hàm Sigmoid (Ảnhh Tạ́ chí Analytics Ấn Độ) 21 1 1.3.2.3 Hình 1.21 Biểu đồ hàm chi ́hí Một tác vụ có thể được chia thành ba tác vụ ́hụ được thực thi song song trên ba bộ xử ln khác nhau trong cùng một máy STT 22 23 Chương 1 1 Mục 1.3.2.3 1.3.2.4 Hình Hình 1.22 Hình 1.23 Tên hình vẽ Mô ́hỏng Gradient Descent Sơ đồ Cây quynt đinh (Nguồnh Basten K., 2016) 24 25 26 27 28 29 30 1 1 1 1 1 1 1 1.3.2.5 1.3.2.5 1.3.3.3 1.3.3.4 1.3.3.4 1.3.3.4 1.3.3.4 Hình 1.24 Hình 1.25 Hình 1.26 Hình 1.27 Hình 1.28 Hình 1.29 Hình 1.30 31 1 1.3.3.4 Hình 1.31 Mô hình mạng nơron nhiều lớ Tinn trình học Vai trò của mô hình và từng tậ́ dữ liệu Overfitting, Underfitting Confusion Matrix Phương ́há́ Bias & Variance Phương ́há́ đường cong AUC-ROC Đánh giá mô hình qua chỉ sốn AUC. Trường hợ́ tốnt nhất khi 2 đường cong không chồng lên nhau 32 1 1.3.3.4 Hình 1.32 Đánh giá mô hình qua chỉ sốn AUC. Trường hợ́ khi 2 đường cong có chồng lên nhau 33 1 1.3.3.4 Hình 1.33 Đánh giá mô hình qua chỉ sốn AUC. Trường hợ́ tệ nhất khi 2 đường cong hoàn toàn chồng lên nhau 34 1 1.3.3.4 Hình 1.34 Đánh giá mô hình qua chỉ sốn AUC. Trường hợ́ khi AUC xấ́ xỉ 0 35 2 2.1.1 Hình 2.1 Các lĩnh vực ́hân tích dữ liệu lơn trong viễn thông 36 2 2.1.1 Hình 2.2 Mức độ ứng dụng ́hân tích dữ liệu lơn trong viễn thông 37 2 2.2.1 Hình 2.3 Phương ́há́ th chức hệ thốnng dữ liệu lơn 38 2 2.2.2 Hình 2.4 Mô hình th chức thực tn hệ BigData tại Viettel 39 40 41 2 2 3 2.2.3.2 2.2.4 3.2.1.1 Hình 2.5 Hình 2.6 Hình 3.1 So sánh CDH và HDP Các ́hân hệ cài đặt Big Data của HDP Mô hình triển khai hệ thốnng BigData thực nghiệm 42 43 3 3 3.2.1.2 3.2.1.3 Hình 3.2 Hình 3.3 Mô hình đấu nốni hệ thốnng Luồng khai ́há dữ liệu Ráidminer 44 45 46 3 3 3 3.2.1.5 3.2.2 3.3.2.1 Hình 3.4 Hình 3.5 Hình 3.6 Luồng xử ln khai ́há dữ liệu Mô hình dự báo thuê bao rời mạng Phương ́há́ huấn luyện một cây quynt đinh cho mỗi nguồn dữ liệu thốnng trong STT 47 Chương 3 Mục 3.3.2.1 Hình Hình 3.7 Tên hình vẽ Cắt bỏ các mức thấ́ và trích xuất các nút từ các cấ́ cao hơn 48 49 3 3 3.3.2.1 3.3.2.1 Hình 3.8 Hình 3.9 Mô tả cây quynt đinh trên Ráidminer Các thuộc tính quan trọng sau khi cắt bỏ 50 3 3.3.3.5 Hình 3.10 Mô hình tốni ưu MỞ ĐẦU Trên thn giơi, dữ liệu lơn (BigData) đã và đang là một trong những vấn đề trung tâm, nhận được nhiều sự quan tâm trong cuộc cách mạng công nghiệ́ lần thứ tư. BigData chính là cốnt loi để sử dụng, ́hát triển internet vạn vật (IoT) và trí tuệ nhân tạo (AI) [1]. Theo dự báo, cách mạng công nghiệ́ lần thứ tư sẽ tạo ra một lượng lơn dữ liệu, dự kinn đnn năm 2020, lượng dữ liệu sẽ tăng gấ́ 50 lần hiện nay [4]. Thông qua thu thậ́, ́hân tích và xử ln lượng dữ liệu lơn này sẽ tạo ra những tri thức mơi, hỗ trợ việc đưa ra quynt đinh của các chủ thể trên thn giơi (doanh nghiệ́, chính ́hủ, người dân) [1, 4]. Trong ngành viễn thông và CNTT, dữ liệu lơn trở thành công cụ hữu hiệu cho các nhà cung cấ́ dich vụ viễn thông trong kinh doanh cung như công tác quản ln vận hành khai thác dich vụ. Các doanh nghiệ́ viễn thông ngày nay đã chủ động ứng dụng công nghệ mơi này đề xây dựng các hệ thốnng ́hân tích dữ liệu làm cơ sở để giám sát, quản ln và ra các quynt đinh có tính chinn lược. Lĩnh vực á́ dụng dự liệu lơn trong viễn thông rất ́hong ́hú liên quan đnn các công nghệ ́hân tích dự báo, học máy (ML), trí tuệ nhân tạo (AI)…[2, 10]. Dựa vào các công cụ này doanh nghiệ́ có thể nâng cao chất lượng dich vụ cung cấ́, đạt hiệu quả kinh doanh. Phạm vi ứng dụng dữ liệu lơn trong viễn thông nói riêng rất rộng, các ứng dụng có thể kể đnn như hệ thốnng ́hân tích quản ln trải nghiệm khách hàng (Customer Ex́erience Mgmt), hệ thốnng giám sát, quản ln và tốni ưu mạng lươi (Network OAM), hệ thốnng ́hân tích hoạt động doanh nghiệ́ (Óeration Analytics) và thương mại dữ liệu (Data Monetization) …[7, 11] Viettel là một doanh nghiệ́ hàng đầu Việt Nam luôn có chinn lược đhi mơi, tiên ́hong trong công nghệ. Việc ứng dụng một cách nhanh nhất, hiệu quả nhất các công nghệ mơi nói chung và nhất là các công nghệ liên quan đnn dữ liệu lơn nói riêng luôn là thách thức của đội ngu kỹ thuật Viettel. Một trong những ứng dụng ́hh binn nhất hiện nay mà các nhà cung cấ́ dich vụ viễn thông sử dụng đó là hệ thốnng ́hân tích dự báo khách hàng rời mạng. Đây là hệ thốnng quan trọng mà đội ngu kỹ thuật Viettel tự nghiên cứu xây dựng dựa trên tư vấn của đốni tác cung cấ́ nền tảng dữ liệu lơn Cloudera. Bản thân là một trong những thành viên tham gia dự án xây dựng bài toán, tôi xin giơi thiệu đề tài nghiên cứuh "TÔ CHƯC VÀ TICH HƠP HỆ THỐNG 1 PHÂN TICH DỮ LIỆU LƠN PHỤC VỤ CÔNG TÁC DD BÁO TRONG VIÊN THÔNG". Vơi mong muốnn hiểu được ́hương ́há́ ́hân tích dự báo và tự bản thân tích hợ́ được một hệ thốnng dữ liệu lơn, tôi đã đặt mục tiêu nghiên cứu các nội dung sau đâyh Tổng quan về vấn đề nghiên cứu: Tìm hiểu về dữ liệu lơn, các công nghệ liên quan đnn dữ liệu lơn (công nghệ xử ln và lưu trữ dữ liệu), các ứng dụng cho dữ liệu lơn. Tìm hiểu về bài toán ́hân tích dự báo và ́hương ́há́ dự báo thuê bao rời mạng dựa trên hành vi tiêu dùng và thói quen sử dụng dich vụ của khách hàng. Xây dựng tích hợ́ hệ thốnng ́hân tích dữ liệu lơn ́hục vụ công tác dự báo thuê bao rời mạng tại Viettel. Mục đích nghiên cứu: Tìm hiểu dữ liệu lơn và xây dựng ứng dụng vào thực tiễn ́hục vụ công tác kinh doanh của Viettel. Đối tượng nghiên cứu: Dữ liệu lơn (khái niệm, cách hoạt động và công nghệ hỗ trợ). Ưng dụng dữ liệu lơn vào thực tiễn tại Viettel. Phạm vi nghiên cứu: Các khái niệm cơ bản về dữ liệu lơn. Giải ́há́ mã nguồn mở cho BigData dựa trên Cloudera Flatform. Xây dựng hệ thốnng dữ liệu lơn cho một ứng dụng ́hân tích dự báo cụ thể.. Phương pháp nghiên cứu: Nghiên cứu ln thuynt về dữ liệu lơn trong hệ thốnng Công nghệ thông tin vơi mục tiêu là hiểu được nền tảng cơ bản. Nghiên cứu các công nghệ cho hệ thốnng dữ liệu lơn vơi mục tiêu là hiểu và triển khai được công nghệ. Tìm hiểu về các hệ thốnng dữ liệu ́hục vụ sản xuất kinh doanh của Viettel ́hục vụ cho sản xuất kinh doanh của doanh nghiệ́ vơi mục tiêu nắm vững các nguồn dữ liệu lơn đang có và triển khai việc xây dựng BigData. 2 Phương pháp thực nghiệm: Xây dựng tích hợ́ một hệ thốnng dữ liệu lơn dựa trên nền tảng Cloudera Flatform ́hục vụ cho một ứng dụng cụ thể là ́hân tích dự báo thuê bao rời mạng của Viettel. Vơi các mục tiêu xác đinh cụ thể như trên, knt quả của luận văn dự kinn sẽ cho ra đời một hệ thốnng ́hân tích dữ liệu lơn ́hục vụ cho công tác dự báo thuê bao rời mạng mơi (thay thn cho hệ thốnng vBI cu). Hệ thốnng ́hân tích mơi này dựa trên các thuật toán dự báo tiên tinn knt hợ́ vơi công nghệ xử ln dữ liệu lơn sẽ cho ra knt quả ́hân tích nhanh hơn và có độ chính xác hơn. Qua đó, công cụ này sẽ giú́ Viettel đưa ra quynt đinh kí thời và hiệu quả hơn trong việc gìn giữ khách hàng của mình. Luận văn được cấu trúc như sauh CHƯƠNG 1h TÔNG QUAN. Chương này trình bày các khái niệm cơ bản về dữ liệu lơn, công nghệ lưu trữ và xử ln dữ liệu lơn. Các bài toán ́hân tích dự báo, mô hình dự báo, giơi thiệu các kỹ thuật ́hân tích dự báo và công cụ ́hân tích dữ liệu Ráidminer cung là một trong những nội dung quan trọng của ́hần này. CHƯƠNG 2h TÔ CHƯC MỘT HỆ THỐNG PHÂN TICH DỮ LIỆU LƠN. Đây là chương khá quan trọng được chia làm 02 ́hần. Phần thứ nhất giơi thiệu các ứng dụng ́hân tích dữ liệu lơn ́hh binn hiện nay, hiện trạng các nguồn dữ liệu lơn cùng vơi các hệ thốnng ứng dụng ́hân tích dữ liệu lơn tại Viettel. Phần còn lại sẽ chia sẻ ́hương ́há́ th chức hệ thốnng dữ liệu lơn tậ́ trung, cách thint kn kinn trúc hạ tầng dữ liệu lơn hiện tại của Viettel. CHƯƠNG 3h THDC NGHIỆM TICH HƠP HỆ THỐNG DD BÁO THU BAO RỜI MẠNG Chương 3 là chương chuyển thể các kinn thức nghiên cứu được thành nội dung ứng dụng thực tn. Chương này đưa ra thực nghiệm tích hợ́ một hệ thốnng ́hân tích dự báo thuê bao rời mạng vơi một hệ thốnng xử ln dữ liệu lơn thành một công cụ có á́ dụng dự báo cụ thể. Hệ thốnng này bươc đầu cho ra các knt quả sơ bộ về đặc điểm thuê bao rời mạng vơi độ chính xác >80% sau khi tốni ưu các bươc dự báo. Tuy nhiên, để knt quả thực nghiệm là một công cụ á́ dụng hiệu quả trong thực tn kinh doanh của Viettel, ngoài việc tốni ưu lại hệ thốnng thì còn ́hải thực hiện tốni 3 ưu mô hình liên tục. Knt quả thực nghiệm của chương trình này chỉ mang tính chất tham khảo, chưa thể á́ dụng trong thực tn. Trên đây là giơi thiệu cơ bản nội dung về luận văn tốnt nghiệm của bản thân. Nội dung thực hiện chỉ mơi là quan điểm và tư duy cá nhân, sẽ còn nhiều tồn tại và thint sót. Do vậy, rất mong qun thầy cô, bạn học và nhất là hội đồng tốnt nghiệ́ cho n kinn đóng gó́ để luận văn được hoàn thiện, knt quả luận văn là công cụ dự báo được á́ dụng hiệu quả trong thực tn. 4 CHƯƠNG 1. TỔNG QUAN 1.1. CÁC KHÁI NIỆM CƠ BẢN 1.1.1. Khái niệm chung về dữ iiệu iơn Bô ̣ dư iệu (Daata etteNhiều tậ́ dữ liệu hay nhiều nhóm dữ liệu có liên quan đnn nhau được gọi là bộ dữ liệu [5]. Trong đó mỗi nhóm hoặc tậ́ con dữ liệu đó có cùng thuộc tính giốnng nhau. Một sốn ví dụ về bộ dữ liệu ở 03 đinh dạng khác nhauh + Dữ liệu Tweets được lưu giữ trong tậ́ tin ́h̉ng (flat file). + Trích xuất các hàng từ bảng dữ liệu (database table) được lưu giữ trong tệ́ đinh dạng CSV. Bộ sưu tậ́ ảnh được lưu trong thư mục. + Các thông tin quan sát về lich sử thời tint được lưu dươi dạng XML Đặc điểm dư iệu ln 5V (Vo umt, Vt ocit,, Varitt,, Vtracit,, Va utDữ liệu lơn BigData có 05 đặc điểm hay còn gọi là 5Vh Volume-Khốni lượng lơn; Velocity-Tốnc độ; Variety-Tính đa dạng; Veracity-Tính xác thực và ValueMang lại giá tri. Hầu hnt các đặc điểm về dữ liệu lơn được Doug Laney xác đinh vào năm 2001 khi đăng bài vint về dữ liệu doanh nghiệ́ (Volume, Velocity, Variety). Tính xác thực (Veracity) được bh sung để tính tỷ lệ signal-to-noise khi so sánh dữ liệu ́hi cấu trúc vơi dữ liệu có cấu trúc. Cuốni cùng, Value- để xác đinh các knt quả ́hân tích dữ liệu lơn mang lại giá tri gì?ế [8]. Phân biệt các oại dư iệu Dữ liệu có cấu thrúc (Sthructhured Datha): Dữ liệu có cấu trúc ́hù hợ́ vơi mô hình dữ liệu được lưu trữ ở dạng bảng. Chúng được sử dụng để mô tả mốni quan hệ giữa các thực thể khác nhau và do đó thường được lưu trữ trong cơ sở dữ liệu quan hệ. Dữ liệu có cấu trúc thường được tạo bởi các ứng dụng doanh nghiệ́ và hệ thốnng thông tin như hệ thốnng ERP và CRM. Ví dụ về loại dữ liệu này bao gồm các giao dich ngân hàng, hóa đơn và hồ sơ khách hàng. Dữ liệu pai cấu thrúc (Unsthructhured Datha): Dữ liệu không ́hù hợ́ vơi mô hình dữ liệu hoặc lược đồ dữ liệu được gọi là dữ liệu ́hi cấu trúc. Người ta ươc tính răng dữ liệu ́hi cấu trúc chinm tơi 80% dữ liệu trong bất kỳ doanh nghiệ́ nào. Ngày nay, dữ liệu ́hi cấu trúc có tốnc độ tăng trưởng nhanh hơn dữ liệu có cấu trúc. Một sốn loại dữ liệu ́hi cấu trúc ́hh binn như dữ liệu có dạng văn bản (text) hoặc nhi ́hân (binary). 5 Dữ liệu ́hi cấu trúc không thể được xử ln hoặc truy vấn trực tiń băng cơ sở dữ liệu quan hệ SQL. Nnu muốnn lưu trữ dữ liệu ́hi cấu trúc trong cơ sở dữ liệu quan hệ, thì ́hải được lưu trữ trong một bảng dươi dạng BLOB (Binary Large Object). Ngoài ra, cơ sở dữ liệu NonSQL có thể được sử dụng để lưu trữ dữ liệu ́hi cấu trúc. Dữ liệu b́n cấu thrúc (Se i-sthructhured Datha): Dữ liệu bán cấu trúc thường là dữ liệu có cấu trúc nhưng không đồng nhất. Thay vào đó, dữ liệu bán cấu trúc có dạng ́hân cấ́ (hierarchical) hoặc đồ thi (gráhbased). Loại dữ liệu này thường được lưu trữ trong các tệ́ có chứa văn bản. Ví dụ như các tệ́ XML và JSON là các dạng ́hh binn của dữ liệu bán cấu trúc. Do tính chất văn bản của dữ liệu này và sự ́hù hợ́ của nó vơi một mức độ cấu trúc nào đó, nó dễ dàng khai thác hơn dữ liệu ́hi cấu trúc. Các nguồn ́hh binn của dữ liệu bán cấu trúc bao gồm các tệ́ trao đhi dữ liệu điện tử (EDI), bảng tính, nguồn dữ liệu từ các bộ cảm binn. Dữ liệu bán cấu trúc thường có các yêu cầu lưu trữ và xử ln trươc đặc biệt, đặc biệt nnu đinh dạng cơ bản không dựa trên văn bản. Một ví dụ về tiền xử ln dữ liệu bán cấu trúc sẽ là xác thực tệ́ XML để đảm bảo răng nó tuân thủ theo lược đồ của nó. Siêu dữ liệu (Methadatha): Siêu dữ liệu cung cấ́ thông tin về các đặc điểm và cấu trúc của bộ dữ liệu. Loại dữ liệu này chủ ynu được tạo băng máy và có thể được thêm vào dữ liệu. Việc theo doi siêu dữ liệu rất quan trọng đốni vơi việc xử ln, lưu trữ và ́hân tích dữ liệu lơn vì nó cung cấ́ thông tin về ́hả hệ của dữ liệu và nguồn gốnc của nó trong quá trình xử ln. Ví dụ về siêu dữ liệu bao gồmh Taẻ XML cuna cấp naày x́c thaưc và naày thạo thài liệu; Ćc thauô ̣c thína cuna cấp kíca thaước thệp và đô ̣ paân aiải của ảna kỹ thauậth số; Ćc aiải páp dữ liệu lớn thaườna dưa thrên siêu dữ liệu, đặc biệth kai xử lý dữ liệu b́n cấu thrúc và kaôna cấu thrúc [5]. 1.1.2. Các khái niệm iưu trữ dữ iiệu iơn Các dữ liệu thu được từ các nguồn bên ngoài thường không ở đinh dạng hoặc cấu trúc có thể xử ln ngay được. Để khắc ́hục được tình trạng này, việc sắ́ xń lưu trữ dữ liệu là vô cùng cần thint. Xử ln sắ́ xń lưu trữ dữ liệu bao gồm các bươch Lọc dữ liệu, làm sạch dữ liệu và chủn bi dữ liệu. Do nhu cầu lưu trữ dữ liệu trong BigData, nên có nhiều công nghệ tiên tinn được tạo ra để hương tơi việc lưu trữ hiệu quả và có khả năng mở rộng cao [5]. 6
- Xem thêm -

Tài liệu liên quan