ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN CHUNG THÀNH HƯNG
TỔ CHỨC VÀ TÍCH HỢP
HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN
PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2019
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN CHUNG THÀNH HƯNG
TỔ CHỨC VÀ TÍCH HỢP
HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN
PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG
Chuyên ngành: Hệ thống thông tin
Mã số: 8480104.01
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Cán bộ hương dân: PGS. TS Phann uunn HiKu
Hà Nội - 2019
LỜI CẢM ƠN
Tôi xin trân trọng cảm ơn các thầy cô trong Khoa Công nghệ Thông tin đã
tạo điều kiện cho học viên lớ cao học K24CNTT một môi trường học tậ́ thuận
lợi, đồng thời truyền đạt cho tôi một vốnn kinn thức qun báu, một tư duy khoa
học để ́hục vụ cho quá trình học tậ́ và công tác của tôi.
Đặc biệt, tôi xin được bày tỏ lòng bint ơn sâu sắc đnn PGS.TS. PHAN XUÂN
HIẾU đã tận tình chỉ bảo cho tôi trong suốnt quá trình học tậ́ và nghiên cứu, giú́
tôi có nhận thức đúng đắn về kinn thức khoa học, tác ́hong học tậ́ và làm việc.
Tôi xin gửi lời cảm ơn đnn các bạn trong lớ Cao học Hệ thốnng Thông tin
K24CNTT khóa 2016- 2018 đã giú́ đỡ tôi trong suốnt thời gian học tậ́. Cuốni
cùng, tôi xin được gửi lời cảm ơn tơi gia đình, đồng nghiệ́, người thân đã động
viên, giú́ đỡ tôi trong quá trình hoàn thành luận văn.
Do vốnn kinn thức ln luận và kinh nghiệm thực tiễn còn ít nên luận văn không
tránh khỏi những thinu sót. Tôi xin trân trọng tiń thu các n kinn của các thầy,
cô, bạn bè để luận văn được hoàn thiện.
Trân trọng cám ơn.
LỜI CAM ĐOAN
Tôi xin cam đoan các knt quả nghiên cứu, thực nghiệm được trình bày trong
luận văn này do tôi thực hiện dươi sự hương dân của PGS.TS Phan Xuân Hinu và
được thực hiện trong quá trình hợ́ tác nghiên cứu giữa Tậ́ đoàn Công nghiệ́
- Công nghệ Cao Viettel và đốni tácra.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốnc
một cách ro ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận văn,
không có việc sao ché tài liệu, công trình nghiên cứu của người khác mà không
chỉ ro về tài liệu tham khảo.
Hà nô ̣i, naày 12 thána 11 nm 211.
Học viên
Nguyễn Chung Thành Hưng.
MỤC LỤC
LỜI CẢM ƠN...............................................................................................................i
LỜI CAM ĐOAN..........................................................................................................i
MỤC LỤC..................................................................................................................... i
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT................................................... iv
DANH MỤC CÁC BẢNG............................................................................................i
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ......................................................................iii
MỞ ĐẦU...................................................................................................................... 1
CHƯƠNG 1. TÔNG QUAN......................................................................................... 5
1.1. CÁC KHÁI NIỆM CƠ BẢN............................................................................... 5
1.1.1. Khái niệm chung về dữ liệu lơn.................................................................... 5
1.1.2. Các khái niệm lưu trữ dữ liệu lơn.................................................................. 6
1.1.3 Các khái niệm về xử ln dữ liệu lơn.............................................................. 10
1.1.4. Cái khái niệm ́hân tích dữ liệu và các loại hình ́hân tích dữ liệu.............13
1.2. Hệ thốnng ́hân tích dữ liệu lơn.......................................................................... 17
1.2.1. Công nghệ lưu trữ dữ liệu trong BigData.................................................... 17
1.2.1.1. Công nghệ lưu trữ trên đĩa cứng........................................................... 17
1.2.1.2. Công nghệ lưu trữ trong bộ nhơ (In-Memory Databases).....................19
1.2.2. Xử ln dữ liệu trong BigData........................................................................ 22
1.2.2.1. Xử ln dữ liệu vơi mô hình Má-Reduce............................................... 22
1.2.2.2. Các tác vụ Má và Reduce................................................................... 23
1.2.3. Kỹ thuật ́hân tích bigdata hiện nay............................................................ 25
1.3. Các BÀI TOÁN PHÂN TICH DD BÁO.......................................................... 28
1.3.1. Bài toán ́hân tích dự báo........................................................................... 28
1.3.2. Các mô hình dự báo cơ bản......................................................................... 28
1.3.2.1. Mô hình dự báo dựa trên thuật toán cây quynt đinhh.............................28
1.3.2.2. Mô hình dự báo Gradient Boosting....................................................... 30
1.3.3. Các kỹ thuật ́hân tích dự báo..................................................................... 31
1.3.3.1. Tạo binn đặc trưng................................................................................ 31
1.3.3.2. Kỹ thuật lựa chọn đặc trưng.................................................................. 32
1.3.3.3. Huấn luyện và xác thực trong các mô hình dự báo............................... 34
1.3.3.4. Đánh giá mô hình dự báo...................................................................... 35
1.3.4. Giơi thiệu công cụ ́hân tích Ráidminer.................................................... 42
CHƯƠNG 2................................................................................................................ 44
PHƯƠNG PHÁP TÔ CHƯC VÀ TICH HƠP DỮ LIỆU LƠN.................................. 44
2.1. CÁC HỆ THỐNG PHÂN TICH DỮ LIỆU LƠN TRONG VIÊN THÔNG......44
2.1.1. Một sốn ứng dụng hệ thốnng ́hân tích dữ liệu lơn ́hh binn hiện nay............44
2.1.1.1. Quản ln trải nghiệm khách hàng (Customer Ex́erience Mgmt)...........45
2.1.1.2. Giám sát, quản ln và tốni ưu mạng lươi (Network OAM)......................47
2.1.1.3. Phân tích hoạt động (Óeration Analytics)........................................... 48
2.1.1.4. Kinm tiền từ dữ liệu (Data Monetization)............................................. 50
2.1.2. Hiện trạng của Viettel................................................................................. 50
2.1.2.1. Các nguồn dữ liệu lơn tại Viettel.......................................................... 50
2.1.2.2. Các hệ thốnng ́hân tích dữ liệu lơn của Viettel.....................................51
2.2.1.1. Tầng Data Ingestion.............................................................................. 53
2.2.1.2. Tầng Data Processing........................................................................... 53
2.2.1.3. Tầng Data Analysis Layer.................................................................... 54
2.2.1.4. Tầng Data Visualization....................................................................... 54
2.2.1.5. Tầng Data Réository........................................................................... 54
2.2.1.6. Tầng Data Govenance........................................................................... 55
2.2.2. Mô hình th chức thực tn hệ thốnng BigData tại Viettel................................. 55
2.2.2.1. Tầng lưu trữ và xử ln dữ liệu................................................................ 56
2.2.2.2. Tầng truy xuất dữ liệu........................................................................... 57
2.2.3. Các công nghệ nền tảng về hệ thốnng dữ liệu lơn......................................... 57
2.2.4. Các ́hân hệ cài đặt của Cloudera BigData Enteŕrise flatformh.................60
CHƯƠNG 3................................................................................................................ 62
THDC NGHIỆM TICH HƠP HỆ THỐNG................................................................ 62
DD BÁO THU BAO RỜI MẠNG........................................................................... 62
3.1. NỘI DUNG THDC NGHIỆM.......................................................................... 62
3.1.1. Đinh nghĩa thuê bao rời mạng..................................................................... 62
3.1.2. Bài toán yêu cầu.......................................................................................... 62
3.1.3. Các bươc thực nghiệm................................................................................ 63
3.2. TRIÊN KHAI HỆ THỐNG THDC NGHIỆM.................................................. 63
3.2.1. Xây dựng hệ thốnng ́hân tích BigData thực nghiệm................................... 63
3.2.1.1. Mô hình triển khai Logic...................................................................... 63
3.2.1.2. Mô hình triển khai vật ln và thông sốn hệ thốnng..................................... 64
3.2.1.3. Cài đặt, cấu hình các thành ́hần hệ thốnng thực nghiệm.......................65
3.2.1.4. Nguồn dữ liệu....................................................................................... 67
3.2.1.5. Luồng xử ln và khai ́há dữ liệu........................................................... 68
3.2.2. Xây dựng mô hình dự báo TBRM............................................................... 69
3.3. CÁC KẾT QUẢ THDC NGHIỆM MÔ HÌNH DD BÁO.................................70
3.3.1. Khám ́há dữ liệu và tạo các binn đặc trưng............................................... 70
3.3.1.1. Bảng dữ liệu gọi đi của thuê bao (VOICE_OG)................................... 70
3.3.1.2. Dữ liệu gọi đnn của thuê bao (VOICE_IC)........................................... 71
3.3.1.3. Dữ liệu nhắn tin đi của thuê bao (SMS_OG)........................................ 71
3.3.1.4. Dữ liệu nhắn tin đnn của thuê bao (SMS_IC)....................................... 72
3.3.1.5. Dữ liệu về sử dụng Data của thuê bao (GPRS)..................................... 72
3.3.1.6. Dữ liệu tiêu dùng hàng ngày của thuê bao (TOT_CHARGE_DAILY). 73
3.3.1.7. Dữ liệu về thông tin nạ́ tiền (TOPUP)................................................ 73
3.3.1.8. Dữ liệu sốn dư tài khoản (ACCOUNT2_DAY)...................................... 74
3.3.1.9. Dữ liệu trừ cươc ́hí các gói sử dụng theo chu kỳ (DAILYFEE)..........74
3.3.1.10. Dữ liệu thng hợ́ charge cươc sử dụng các dich vụ VAS
(VAS_CDR_DAY)........................................................................................... 75
3.3.1.11. Dữ liệu home (HOME_ACC)............................................................. 75
3.3.1.12. Dữ liệu thông tin thuê bao, khách hàng (PRE-SUBS)........................75
3.3.2. Lựa chọn đặc trưng và mô hình hóa............................................................ 76
3.3.2.1. Lựa chọn các thuộc tính quan trọng băng thuật toán Decision Tree.....76
3.3.2.2. Huấn luyện và xác nhận mô hình rời mạng.......................................... 79
3.3.3. Tốni ưu mô hình dự báo................................................................................ 80
3.3.3.1. Tốni ưu băng cách ́hân nhóm khách hàng theo hành vi sử dụng...........81
3.3.3.2. Tìm tỷ lệ tốni ưu của xác nhận ́hân tách............................................... 81
3.3.3.3. Tìm cỡ mâu tốni ưu cho huấn luyện....................................................... 82
3.3.3.4. Tốni ưu mô hình băng cách lựa chọn lại các đặc trưng........................... 82
3.3.3.5. Xác đinh lại các tham sốn của mô hình tốni ưu........................................82
3.3.3.6. Lựa chọn mô hình dự đoán tốnt nhất...................................................... 83
3.3.3.7. Chạy lại mô hình dự báo vơi thuật toán Gradien Booting.....................83
3.4. ĐÁNH GIÁ THU HOẠCH............................................................................... 84
3.4.1. Knt quả đầu ra của hệ thốnng ́hân tích, dự báo thuê bao rời mạng..............84
3.4.2. Tri thức thu được sau thực nghiệm............................................................. 84
KẾT LUNN................................................................................................................ 86
TÀI LIỆU THAM KHẢO.......................................................................................... 87
PHỤ LỤC 1.1. ĐẶC ĐIÊM CỦA THU BAO DD BÁO RỜI MẠNG TRẢ TRƯƠC PHÂN THEO 4 NHÓM HÀNH VI............................................................................ 90
PHỤ LỤC 1.2. ĐẶC ĐIÊM CỦA THU BAO DD BÁO RỜI MẠNG TRẢ SAU-PHÂN
THEO 4 NHÓM HÀNH VI.............................................................................. 93
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
STT
Ký hiệu/chữ
viKt tắt
1
ACID
2
3
4
AUC
AUROC
BASE
5
6
BLOB
CAP
Binary Large Object
Consistency, Availability and Partition Tolerance (Nguyên
ln CAP)
7
CEM
Customer Ex́erience Management (Quản ln trải nghiệm
khách hàng)
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
CEP
CNN
DBM
DBN
DT
ETL
FN
FP
FPR
GBM
GBRT
ID3
IG
IMDB
IMDG
Coḿlex Event Processing
Convolutional Neural Network
Deé Boltzmann Machine
Deé Belief Networks
Daytýe
Extract Transform Load (Trích xuất dữ liệu)
False Negative
False Positive
False Positive Rate/Fall-out
Gradient Boosting Machines
Gradient Boosting Regression Trees
Interactive Dichotomizer 3
Information Gain (Độ tăng thông tin)
In-Memory Databases (Cơ sở dữ liệu trong bộ nhơ)
In-Memory Data Grids (Công nghệ lưu trữ dữ liệu trong bộ
nhơ)
23
24
25
26
27
IOB
IoT
LS
M2M
MDA
In-of-bag
Internet Of Things
Learning Set (Tậ́ huấn luyện)
Machine to Manchine
Mean Decrease Accuracy (Độ chính xác giảm bình quân
cho mỗi binn)
Ý nghĩan
Atomicity, Consistency, Isolation, Durability (Nguyên tắc
thint kn ACID)
Area Under the Curve
Area Under the Receiver Óerating Characteristics
Basically Available, Soft state, Eventual consistency
(Nguyên tắc thint kn BASE)
STT
Ký hiệu/chữ
viKt tắt
Ý nghĩan
28
MDG
Mean Decrease Gini (Sự giảm bình quân hệ sốn Gini đốni vơi
mỗi binn)
29
30
31
32
OOB
POD
QC
RDBMS
Out-of-bag
Period of Day
Quality Call
Relation DB Management Systems (Hệ thốnng lưu trữ cơ sở
dữ liệu quan hệ)
33
34
35
36
37
38
39
40
41
42
RF
ROC
S/N
SVM
TB
TBRM
TN
TP
TPR
WFLD
Random Forest
Receiver Óerating Characteristics
Signal/Noise (Tỷ lệ tín hiệu trên nhiễu)
Sú́ort Vector Machines
Thuê bao
Thuê bao rời mạng
True Negative
True Positive
True Positive Rate/Sentivity/Recall
Weeks Before Last Date
DANH MỤC CÁC BẢNG
STT Chương
Mục
Bảng
Tên bảng
Các thuộc tính ví dụ Ngày và Khách truy
cậ́ và thuộc tính được trích xuất IsWeekendDayfDayg
1
1
1.3.3.1
Bảng 1.1
2
3
1
3
1.3.3.2
3.2.1.2
Bảng 1.2
Bảng 3.1
Các ́hương ́há́ trích chọn thuộc tính
Cấu hình hệ thốnng ́hân tích BigData thực
nghiệm
4
3
3.2.1.4
Bảng 3.2
Nguồn dữ liệu hệ thốnng ́hân tích BigData
thực nghiệm
5
3
3.3.1.1
Bảng 3.3
Các binn đặc trưng cho dữ liệu gọi đi của
thuê bao
6
3
3.3.1.2
Bảng 3.4
Các binn đặc trưng cho dữ liệu gọi đnn của
thuê bao
7
3
3.3.1.3
Bảng 3.5
Các binn đặc trưng cho dữ liệu nhắn tin đi
của thuê bao
8
3
3.3.1.4
Bảng 3.6
Các binn đặc trưng cho dữ liệu nhắn tin đi
của thuê bao
9
3
3.3.1.5
Bảng 3.7
Các binn đặc trưng cho dữ liệu sử dụng Data
của thuê bao
10
3
3.3.1.6
Bảng 3.8
Các binn đặc trưng cho dữ liệu tiêu dùng
hàng ngày của thuê bao
11
3
3.3.1.7
Bảng 3.9
Các binn đặc trưng cho dữ liệu nạ́ tiền của
thuê bao
12
3
3.3.1.8
Bảng 3.10
Các binn đặc trưng cho dữ liệu sốn dư tài
khoản của thuê bao
13
3
3.3.1.9
Bảng 3.11
Các binn đặc trưng cho dữ liệu cươc ́hí các
gói sử dụng theo chu kỳ của thuê bao
14
3
3.3.1.10
Bảng 3.12
Các binn đặc trưng cho dữ liệu thng hợ́
charge cươc sử dụng các dich vụ VAS của
thuê bao
15
3
3.3.1.11
Bảng 3.13
Các binn đặc trưng cho dữ liệu home của
thuê bao
16
3
3.3.1.12
Bảng 3.14
Các binn đặc trưng cho dữ liệu thông tin
thuê bao, khách hàng
17
3
3.3.2.1
Bảng 3.15
Lựa chọn các thuộc tính quan trọng băng
thuật toán Decision Tree
18
3
3.3.2.2
Bảng 3.16
Validation of the Training Data Set (80% of
Total)
19
3
3.3.2.2
Bảng 3.17
Validation of the Testing Data Set (20% of
Total)
STT Chương
20
3
21
3
22
3
23
3
24
3
Mục
3.3.2.2
3.3.2.2
3.3.2.2
3.3.3.1
3.3.3.1
Bảng
Bảng 3.18
Bảng 3.19
Bảng 3.20
Bảng 3.21
Bảng 3.22
Tên bảng
Sử dụng Logistic Regression
Sử dụng Naïve Bayes
So sánh các knt quả
Knt quả ́hân cụm băng thuật toán K-mean
Knt quả chi tint ́hân cụm băng thuật toán
K-mean
25
3
3.3.3.4
Bảng 3.23
Tốni ưu mô hình băng cách lựa chọn lại các
đặc trung
26
27
3
3
3.3.3.6
3.3.3.7
Bảng 3.24
Bảng 3.25
Lựa chọn mô hình dự đoán tốnt nhất
Mô hình dự báo vơi thuật toán Gradien
Booting
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
STT
1
2
3
Chương
1
1
1
Mục
1.1.1.4
1.1.1.4
1.1.1.4
Hình
Hình 1.1
Hình 1.2
Hình 1.3
Tên hình vẽ
Một ví dụ về lưu trữ dạng Key-value
Một ví dụ về lưu trữ dạng Document
Một ví dụ về lưu trữ dạng Columnfamily
4
5
1
1
1.1.1.4
1.1.1.4
Hình 1.4
Hình 1.5
6
1
1.1.1.5
Hình 1.6
Một ví dụ về lưu trữ dạng Gráh
Sơ đồ Venn tóm tắt đinh ln CAP
Một quy trình ETL có thể trích xuất dữ
liệu từ nhiều nguồn và chuyển đhi nó
để tải vào một hệ thốnng đích duy nhất
7
1
1.1.1.5
Hình 1.7
8
9
1
1
1.1.1.5
1.1.1.5
Hình 1.8
Hình 1.9
Một ví dụ về xử ln dữ liệu ́hân tán
Hadoó là một khung đa năng cung cấ́
cả khả năng xử ln và lưu trữ
10
1
1.1.2
Hình 1.10
Giá tri và độ ́hức tạ́ tăng từ ́hân tích
mô tả đnn ́hân tích đề xuất
11
1
1.2.1.2
Hình 1.11
Thint bi lưu trữ trong bộ nhơ có tốnc độ
truyền dữ liệu nhanh hơn 80 lần so vơi
thint bi lưu trữ trên đĩa
12
1
1.2.1.2
Hình 1.12
Một ví dụ mô tả việc truy xuất dữ liệu
từ IMDG
13
1
1.2.1.2
Hình 1.13
Một ví dụ về lưu trữ IMDG xử ln vơi
một truy vấn liên tục
14
1
1.2.1.2
Hình 1.14
Một ví dụ mô tả việc truy xuất dữ liệu
từ IMDB
15
1
1.2.1.2
Hình 1.15
Một ví dụ về lưu trữ IMDB được cấu
hình vơi một truy vấn liên tục
16
1
1.2.2.2
Hình 1.16
Một minh họa về công việc
MáReduce
17
1
1.2.2.2
Hình 1.17
Một ví dụ về MáReduce đang hoạt
động
18
19
20
1
1
1
1.3.2.1
1.3.2.1
1.3.2.3
Hình 1.18
Hình 1.19
Hình 1.20
Biểu diễn cây quynt đinh cơ bản
Cây quynt đinh cho việc chơi Tennis
Biểu đồ hàm Sigmoid (Ảnhh Tạ́ chí
Analytics Ấn Độ)
21
1
1.3.2.3
Hình 1.21
Biểu đồ hàm chi ́hí
Một tác vụ có thể được chia thành ba
tác vụ ́hụ được thực thi song song trên
ba bộ xử ln khác nhau trong cùng một
máy
STT
22
23
Chương
1
1
Mục
1.3.2.3
1.3.2.4
Hình
Hình 1.22
Hình 1.23
Tên hình vẽ
Mô ́hỏng Gradient Descent
Sơ đồ Cây quynt đinh (Nguồnh Basten
K., 2016)
24
25
26
27
28
29
30
1
1
1
1
1
1
1
1.3.2.5
1.3.2.5
1.3.3.3
1.3.3.4
1.3.3.4
1.3.3.4
1.3.3.4
Hình 1.24
Hình 1.25
Hình 1.26
Hình 1.27
Hình 1.28
Hình 1.29
Hình 1.30
31
1
1.3.3.4
Hình 1.31
Mô hình mạng nơron nhiều lớ
Tinn trình học
Vai trò của mô hình và từng tậ́ dữ liệu
Overfitting, Underfitting
Confusion Matrix
Phương ́há́ Bias & Variance
Phương ́há́ đường cong AUC-ROC
Đánh giá mô hình qua chỉ sốn AUC.
Trường hợ́ tốnt nhất khi 2 đường cong
không chồng lên nhau
32
1
1.3.3.4
Hình 1.32
Đánh giá mô hình qua chỉ sốn AUC.
Trường hợ́ khi 2 đường cong có chồng
lên nhau
33
1
1.3.3.4
Hình 1.33
Đánh giá mô hình qua chỉ sốn AUC.
Trường hợ́ tệ nhất khi 2 đường cong
hoàn toàn chồng lên nhau
34
1
1.3.3.4
Hình 1.34
Đánh giá mô hình qua chỉ sốn AUC.
Trường hợ́ khi AUC xấ́ xỉ 0
35
2
2.1.1
Hình 2.1
Các lĩnh vực ́hân tích dữ liệu lơn trong
viễn thông
36
2
2.1.1
Hình 2.2
Mức độ ứng dụng ́hân tích dữ liệu lơn
trong viễn thông
37
2
2.2.1
Hình 2.3
Phương ́há́ th chức hệ thốnng dữ liệu
lơn
38
2
2.2.2
Hình 2.4
Mô hình th chức thực tn hệ
BigData tại Viettel
39
40
41
2
2
3
2.2.3.2
2.2.4
3.2.1.1
Hình 2.5
Hình 2.6
Hình 3.1
So sánh CDH và HDP
Các ́hân hệ cài đặt Big Data của HDP
Mô hình triển khai hệ thốnng BigData
thực nghiệm
42
43
3
3
3.2.1.2
3.2.1.3
Hình 3.2
Hình 3.3
Mô hình đấu nốni hệ thốnng
Luồng khai ́há dữ liệu
Ráidminer
44
45
46
3
3
3
3.2.1.5
3.2.2
3.3.2.1
Hình 3.4
Hình 3.5
Hình 3.6
Luồng xử ln khai ́há dữ liệu
Mô hình dự báo thuê bao rời mạng
Phương ́há́ huấn luyện một cây quynt
đinh cho mỗi nguồn dữ liệu
thốnng
trong
STT
47
Chương
3
Mục
3.3.2.1
Hình
Hình 3.7
Tên hình vẽ
Cắt bỏ các mức thấ́ và trích xuất các
nút từ các cấ́ cao hơn
48
49
3
3
3.3.2.1
3.3.2.1
Hình 3.8
Hình 3.9
Mô tả cây quynt đinh trên Ráidminer
Các thuộc tính quan trọng sau khi cắt
bỏ
50
3
3.3.3.5
Hình 3.10
Mô hình tốni ưu
MỞ ĐẦU
Trên thn giơi, dữ liệu lơn (BigData) đã và đang là một trong những vấn đề
trung tâm, nhận được nhiều sự quan tâm trong cuộc cách mạng công nghiệ́ lần
thứ tư. BigData chính là cốnt loi để sử dụng, ́hát triển internet vạn vật (IoT) và
trí tuệ nhân tạo (AI) [1]. Theo dự báo, cách mạng công nghiệ́ lần thứ tư sẽ tạo
ra một lượng lơn dữ liệu, dự kinn đnn năm 2020, lượng dữ liệu sẽ tăng gấ́ 50
lần hiện nay [4]. Thông qua thu thậ́, ́hân tích và xử ln lượng dữ liệu lơn này sẽ
tạo ra những tri thức mơi, hỗ trợ việc đưa ra quynt đinh của các chủ thể trên thn
giơi (doanh nghiệ́, chính ́hủ, người dân) [1, 4].
Trong ngành viễn thông và CNTT, dữ liệu lơn trở thành công cụ hữu hiệu
cho các nhà cung cấ́ dich vụ viễn thông trong kinh doanh cung như công tác
quản ln vận hành khai thác dich vụ. Các doanh nghiệ́ viễn thông ngày nay đã
chủ động ứng dụng công nghệ mơi này đề xây dựng các hệ thốnng ́hân tích dữ
liệu làm cơ sở để giám sát, quản ln và ra các quynt đinh có tính chinn lược. Lĩnh
vực á́ dụng dự liệu lơn trong viễn thông rất ́hong ́hú liên quan đnn các công
nghệ ́hân tích dự báo, học máy (ML), trí tuệ nhân tạo (AI)…[2, 10]. Dựa vào
các công cụ này doanh nghiệ́ có thể nâng cao chất lượng dich vụ cung cấ́, đạt
hiệu quả kinh doanh. Phạm vi ứng dụng dữ liệu lơn trong viễn thông nói riêng
rất rộng, các ứng dụng có thể kể đnn như hệ thốnng ́hân tích quản ln trải nghiệm
khách hàng (Customer Ex́erience Mgmt), hệ thốnng giám sát, quản ln và tốni ưu
mạng lươi (Network OAM), hệ thốnng ́hân tích hoạt động doanh nghiệ́
(Óeration Analytics) và thương mại dữ liệu (Data Monetization) …[7, 11]
Viettel là một doanh nghiệ́ hàng đầu Việt Nam luôn có chinn lược đhi mơi,
tiên ́hong trong công nghệ. Việc ứng dụng một cách nhanh nhất, hiệu quả nhất
các công nghệ mơi nói chung và nhất là các công nghệ liên quan đnn dữ liệu lơn
nói riêng luôn là thách thức của đội ngu kỹ thuật Viettel. Một trong những ứng
dụng ́hh binn nhất hiện nay mà các nhà cung cấ́ dich vụ viễn thông sử dụng đó
là hệ thốnng ́hân tích dự báo khách hàng rời mạng. Đây là hệ thốnng quan trọng
mà đội ngu kỹ thuật Viettel tự nghiên cứu xây dựng dựa trên tư vấn của đốni tác
cung cấ́ nền tảng dữ liệu lơn Cloudera.
Bản thân là một trong những thành viên tham gia dự án xây dựng bài toán,
tôi xin giơi thiệu đề tài nghiên cứuh "TÔ CHƯC VÀ TICH HƠP HỆ THỐNG
1
PHÂN TICH DỮ LIỆU LƠN PHỤC VỤ CÔNG TÁC DD BÁO TRONG VIÊN
THÔNG". Vơi mong muốnn hiểu được ́hương ́há́ ́hân tích dự báo và tự bản
thân tích hợ́ được một hệ thốnng dữ liệu lơn, tôi đã đặt mục tiêu nghiên cứu các
nội dung sau đâyh
Tổng quan về vấn đề nghiên cứu:
Tìm hiểu về dữ liệu lơn, các công nghệ liên quan đnn dữ liệu lơn (công
nghệ xử ln và lưu trữ dữ liệu), các ứng dụng cho dữ liệu lơn. Tìm hiểu về
bài toán ́hân tích dự báo và ́hương ́há́ dự báo thuê bao rời mạng dựa
trên hành vi tiêu dùng và thói quen sử dụng dich vụ của khách hàng.
Xây dựng tích hợ́ hệ thốnng ́hân tích dữ liệu lơn ́hục vụ công tác dự
báo thuê bao rời mạng tại Viettel.
Mục đích nghiên cứu: Tìm hiểu dữ liệu lơn và xây dựng ứng dụng vào
thực tiễn ́hục vụ công tác kinh doanh của Viettel.
Đối tượng nghiên cứu:
Dữ liệu lơn (khái niệm, cách hoạt động và công nghệ hỗ trợ).
Ưng dụng dữ liệu lơn vào thực tiễn tại Viettel.
Phạm vi nghiên cứu:
Các khái niệm cơ bản về dữ liệu lơn.
Giải ́há́ mã nguồn mở cho BigData dựa trên Cloudera Flatform.
Xây dựng hệ thốnng dữ liệu lơn cho một ứng dụng ́hân tích dự báo cụ thể..
Phương pháp nghiên cứu:
Nghiên cứu ln thuynt về dữ liệu lơn trong hệ thốnng Công nghệ thông tin
vơi mục tiêu là hiểu được nền tảng cơ bản.
Nghiên cứu các công nghệ cho hệ thốnng dữ liệu lơn vơi mục tiêu là hiểu
và triển khai được công nghệ.
Tìm hiểu về các hệ thốnng dữ liệu ́hục vụ sản xuất kinh doanh của Viettel
́hục vụ cho sản xuất kinh doanh của doanh nghiệ́ vơi mục tiêu nắm
vững các nguồn dữ liệu lơn đang có và triển khai việc xây dựng BigData.
2
Phương pháp thực nghiệm: Xây dựng tích hợ́ một hệ thốnng dữ liệu lơn
dựa trên nền tảng Cloudera Flatform ́hục vụ cho một ứng dụng cụ thể là ́hân
tích dự báo thuê bao rời mạng của Viettel.
Vơi các mục tiêu xác đinh cụ thể như trên, knt quả của luận văn dự kinn sẽ
cho ra đời một hệ thốnng ́hân tích dữ liệu lơn ́hục vụ cho công tác dự báo thuê
bao rời mạng mơi (thay thn cho hệ thốnng vBI cu). Hệ thốnng ́hân tích mơi này
dựa trên các thuật toán dự báo tiên tinn knt hợ́ vơi công nghệ xử ln dữ liệu lơn
sẽ cho ra knt quả ́hân tích nhanh hơn và có độ chính xác hơn. Qua đó, công cụ
này sẽ giú́ Viettel đưa ra quynt đinh kí thời và hiệu quả hơn trong việc gìn giữ
khách hàng của mình.
Luận văn được cấu trúc như sauh
CHƯƠNG 1h TÔNG QUAN.
Chương này trình bày các khái niệm cơ bản về dữ liệu lơn, công nghệ lưu trữ
và xử ln dữ liệu lơn. Các bài toán ́hân tích dự báo, mô hình dự báo, giơi thiệu
các kỹ thuật ́hân tích dự báo và công cụ ́hân tích dữ liệu Ráidminer cung là
một trong những nội dung quan trọng của ́hần này.
CHƯƠNG 2h TÔ CHƯC MỘT HỆ THỐNG PHÂN TICH DỮ LIỆU LƠN.
Đây là chương khá quan trọng được chia làm 02 ́hần. Phần thứ nhất giơi thiệu
các ứng dụng ́hân tích dữ liệu lơn ́hh binn hiện nay, hiện trạng các nguồn dữ
liệu lơn cùng vơi các hệ thốnng ứng dụng ́hân tích dữ liệu lơn tại Viettel. Phần
còn lại sẽ chia sẻ ́hương ́há́ th chức hệ thốnng dữ liệu lơn tậ́ trung, cách thint
kn kinn trúc hạ tầng dữ liệu lơn hiện tại của Viettel.
CHƯƠNG 3h THDC NGHIỆM TICH HƠP HỆ THỐNG DD BÁO THU
BAO RỜI MẠNG
Chương 3 là chương chuyển thể các kinn thức nghiên cứu được thành nội
dung ứng dụng thực tn. Chương này đưa ra thực nghiệm tích hợ́ một hệ thốnng
́hân tích dự báo thuê bao rời mạng vơi một hệ thốnng xử ln dữ liệu lơn thành
một công cụ có á́ dụng dự báo cụ thể. Hệ thốnng này bươc đầu cho ra các knt
quả sơ bộ về đặc điểm thuê bao rời mạng vơi độ chính xác >80% sau khi tốni ưu
các bươc dự báo.
Tuy nhiên, để knt quả thực nghiệm là một công cụ á́ dụng hiệu quả trong thực
tn kinh doanh của Viettel, ngoài việc tốni ưu lại hệ thốnng thì còn ́hải thực hiện tốni
3
ưu mô hình liên tục. Knt quả thực nghiệm của chương trình này chỉ mang tính
chất tham khảo, chưa thể á́ dụng trong thực tn.
Trên đây là giơi thiệu cơ bản nội dung về luận văn tốnt nghiệm của bản thân.
Nội dung thực hiện chỉ mơi là quan điểm và tư duy cá nhân, sẽ còn nhiều tồn tại
và thint sót. Do vậy, rất mong qun thầy cô, bạn học và nhất là hội đồng tốnt
nghiệ́ cho n kinn đóng gó́ để luận văn được hoàn thiện, knt quả luận văn là
công cụ dự báo được á́ dụng hiệu quả trong thực tn.
4
CHƯƠNG 1. TỔNG QUAN
1.1. CÁC KHÁI NIỆM CƠ BẢN
1.1.1. Khái niệm chung về dữ iiệu iơn
Bô ̣ dư iệu (Daata etteNhiều tậ́ dữ liệu hay nhiều nhóm dữ liệu có liên quan đnn nhau được gọi là
bộ dữ liệu [5]. Trong đó mỗi nhóm hoặc tậ́ con dữ liệu đó có cùng thuộc tính
giốnng nhau. Một sốn ví dụ về bộ dữ liệu ở 03 đinh dạng khác nhauh
+ Dữ liệu Tweets được lưu giữ trong tậ́ tin ́h̉ng (flat file).
+ Trích xuất các hàng từ bảng dữ liệu (database table) được lưu giữ trong
tệ́ đinh dạng CSV. Bộ sưu tậ́ ảnh được lưu trong thư mục.
+ Các thông tin quan sát về lich sử thời tint được lưu dươi dạng XML
Đặc điểm dư iệu ln 5V (Vo umt, Vt ocit,, Varitt,, Vtracit,, Va utDữ liệu lơn BigData có 05 đặc điểm hay còn gọi là 5Vh Volume-Khốni lượng
lơn; Velocity-Tốnc độ; Variety-Tính đa dạng; Veracity-Tính xác thực và ValueMang lại giá tri. Hầu hnt các đặc điểm về dữ liệu lơn được Doug Laney xác đinh
vào năm 2001 khi đăng bài vint về dữ liệu doanh nghiệ́ (Volume, Velocity,
Variety). Tính xác thực (Veracity) được bh sung để tính tỷ lệ signal-to-noise khi
so sánh dữ liệu ́hi cấu trúc vơi dữ liệu có cấu trúc. Cuốni cùng, Value- để xác
đinh các knt quả ́hân tích dữ liệu lơn mang lại giá tri gì?ế [8].
Phân biệt các oại dư iệu
Dữ liệu có cấu thrúc (Sthructhured Datha): Dữ liệu có cấu trúc ́hù hợ́ vơi mô
hình dữ liệu được lưu trữ ở dạng bảng. Chúng được sử dụng để mô tả mốni quan
hệ giữa các thực thể khác nhau và do đó thường được lưu trữ trong cơ sở dữ liệu
quan hệ. Dữ liệu có cấu trúc thường được tạo bởi các ứng dụng doanh nghiệ́ và
hệ thốnng thông tin như hệ thốnng ERP và CRM. Ví dụ về loại dữ liệu này bao
gồm các giao dich ngân hàng, hóa đơn và hồ sơ khách hàng.
Dữ liệu pai cấu thrúc (Unsthructhured Datha): Dữ liệu không ́hù hợ́ vơi mô
hình dữ liệu hoặc lược đồ dữ liệu được gọi là dữ liệu ́hi cấu trúc. Người ta ươc
tính răng dữ liệu ́hi cấu trúc chinm tơi 80% dữ liệu trong bất kỳ doanh nghiệ́
nào. Ngày nay, dữ liệu ́hi cấu trúc có tốnc độ tăng trưởng nhanh hơn dữ liệu có
cấu trúc. Một sốn loại dữ liệu ́hi cấu trúc ́hh binn như dữ liệu có dạng văn bản
(text) hoặc nhi ́hân (binary).
5
Dữ liệu ́hi cấu trúc không thể được xử ln hoặc truy vấn trực tiń băng cơ sở
dữ liệu quan hệ SQL. Nnu muốnn lưu trữ dữ liệu ́hi cấu trúc trong cơ sở dữ liệu
quan hệ, thì ́hải được lưu trữ trong một bảng dươi dạng BLOB (Binary Large
Object). Ngoài ra, cơ sở dữ liệu NonSQL có thể được sử dụng để lưu trữ dữ liệu
́hi cấu trúc.
Dữ liệu b́n cấu thrúc (Se i-sthructhured Datha): Dữ liệu bán cấu trúc thường là
dữ liệu có cấu trúc nhưng không đồng nhất. Thay vào đó, dữ liệu bán cấu trúc có
dạng ́hân cấ́ (hierarchical) hoặc đồ thi (gráhbased). Loại dữ liệu này thường
được lưu trữ trong các tệ́ có chứa văn bản. Ví dụ như các tệ́ XML và JSON là
các dạng ́hh binn của dữ liệu bán cấu trúc. Do tính chất văn bản của dữ liệu này
và sự ́hù hợ́ của nó vơi một mức độ cấu trúc nào đó, nó dễ dàng khai thác hơn
dữ liệu ́hi cấu trúc.
Các nguồn ́hh binn của dữ liệu bán cấu trúc bao gồm các tệ́ trao đhi dữ liệu
điện tử (EDI), bảng tính, nguồn dữ liệu từ các bộ cảm binn. Dữ liệu bán cấu trúc
thường có các yêu cầu lưu trữ và xử ln trươc đặc biệt, đặc biệt nnu đinh dạng cơ
bản không dựa trên văn bản. Một ví dụ về tiền xử ln dữ liệu bán cấu trúc sẽ là
xác thực tệ́ XML để đảm bảo răng nó tuân thủ theo lược đồ của nó.
Siêu dữ liệu (Methadatha): Siêu dữ liệu cung cấ́ thông tin về các đặc điểm và
cấu trúc của bộ dữ liệu. Loại dữ liệu này chủ ynu được tạo băng máy và có thể
được thêm vào dữ liệu. Việc theo doi siêu dữ liệu rất quan trọng đốni vơi việc xử
ln, lưu trữ và ́hân tích dữ liệu lơn vì nó cung cấ́ thông tin về ́hả hệ của dữ
liệu và nguồn gốnc của nó trong quá trình xử ln. Ví dụ về siêu dữ liệu bao gồmh
Taẻ XML cuna cấp naày x́c thaưc và naày thạo thài liệu; Ćc thauô ̣c thína cuna cấp
kíca thaước thệp và đô ̣ paân aiải của ảna kỹ thauậth số; Ćc aiải páp dữ liệu lớn
thaườna dưa thrên siêu dữ liệu, đặc biệth kai xử lý dữ liệu b́n cấu thrúc và kaôna
cấu thrúc [5].
1.1.2. Các khái niệm iưu trữ dữ iiệu iơn
Các dữ liệu thu được từ các nguồn bên ngoài thường không ở đinh dạng hoặc
cấu trúc có thể xử ln ngay được. Để khắc ́hục được tình trạng này, việc sắ́ xń
lưu trữ dữ liệu là vô cùng cần thint. Xử ln sắ́ xń lưu trữ dữ liệu bao gồm các
bươch Lọc dữ liệu, làm sạch dữ liệu và chủn bi dữ liệu. Do nhu cầu lưu trữ dữ
liệu trong BigData, nên có nhiều công nghệ tiên tinn được tạo ra để hương tơi
việc lưu trữ hiệu quả và có khả năng mở rộng cao [5].
6
- Xem thêm -