NGHIÊN CỨU KHAI PHÁ DỮ LIỆU DỰ BÁO KHÁCH HÀNG CÓ KHẢ NĂNG RỜI MẠNG VNPT (Nguyễn Đức Anh)
BỘ GIÁO DỤC VÀ ĐÀO TẠO
BỘ QUỐC PHÒNG
HỌC VIỆN KỸ THUẬT QUÂN SỰ
NGUYỄN ĐỨC ANH
NGHIÊN CỨU KHAI PHÁ DỮ LIỆU DỰ BÁO KHÁCH HÀNG
CÓ KHẢ NĂNG RỜI MẠNG VNPT
Chuyên ngành: Hệ thống thông tin
LUẬN VĂN THẠC SĨ KỸ THUẬT
Hà Nội - Năm 2014
BỘ GIÁO DỤC VÀ ĐÀO TẠO
BỘ QUỐC PHÒNG
HỌC VIỆN KỸ THUẬT QUÂN SỰ
NGUYỄN ĐỨC ANH
NGHIÊN CỨU KHAI PHÁ DỮ LIỆU DỰ BÁO KHÁCH HÀNG CÓ KHẢ
NĂNG RỜI MẠNG VNPT
Chuyên ngành: Hệ thống thông tin
Mã số: 60480101
LUẬN VĂN THẠC SĨ KỸ THUẬT
Hà Nội - Năm 2014
CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
HỌC VIỆN KỸ THUẬT QUÂN SỰ
Cán bộ hướng dẫn chính: Ts. Nguyễn Hoàng Sinh..................................
(Ghi rõ họ, tên, học hàm, học vị)
Cán bộ hướng dẫn phụ (nếu có):....................................................................
(Ghi rõ họ, tên, học hàm, học vị)
Cán bộ chấm phản biện 1:..............................................................................
(Ghi rõ họ, tên, học hàm, học vị)
Cán bộ chấm phản biện 2:.............................................................................
(Ghi rõ họ, tên, học hàm, học vị)
Luận văn thạc sĩ được bảo vệ tại:
HỘI ĐỒNG CHẤM LUẬN VĂN THẠC SĨ
HỌC VIỆN KỸ THUẬT QUÂN SỰ
Ngày ... tháng ... năm 20..
Tôi xin cam đoan:
Những kết quả nghiên cứu được trình bày trong luận văn là hoàn toàn
trung thực, của tôi, không vi phạm bất cứ điều gì trong luật sở hữu trí tuệ và
pháp luật Việt Nam. Nếu sai, tôi hoàn toàn chịu trách nhiệm trước pháp luật.
TÁC GIẢ LUẬN VĂN
(Ký và ghi rõ họ tên)
Nguyễn Đức Anh
MỤC LỤC
Trang
Trang phụ bìa ........................................................................................................
Bản cam đoan ..........................................................................................................
Mục lục.....................................................................................................................
Tóm tắt luận văn.......................................................................................................
Danh mục các ký hiệu, viết tắt, các bảng, các hình vẽ ............................................
MỞ ĐẦU
Cơ sở khoa học và tính thực tiễn của đề tài:.........................................................1
a.
Cơ sở khoa học:..................................................................................1
b.
Tính thực tiễn.....................................................................................1
c.
Mục tiêu của đề tài.............................................................................3
d.
Phương pháp nghiên cứu....................................................................4
Chương 1
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1.
Tìm hiểu về khai phá dữ liệu...................................................................5
1.1.1. Mục tiêu, nguồn gốc của khai phá dữ liệu..........................................5
1.1.2. Lý do khai phá dữ liệu [12]...................................................................6
1.2.
Quá trình khai phá dữ liệu.......................................................................8
1.2.1. Tiền xử lý dữ liệu...............................................................................9
1.2.2. Xây dựng và xác nhận mô hình..........................................................9
1.2.3. Áp dụng và đánh giá mô hình...........................................................10
1.3.
Các kỹ thuật khai phá dữ liệu................................................................10
1.3.1. Phân lớp............................................................................................11
1.3.2. Phân cụm..........................................................................................12
1.3.3. Luật kết hợp......................................................................................13
1.3.4. Mẫu tuần tự.......................................................................................13
1.3.5. Cây quyết định (Decision tree) và luật (Rule)..................................14
1.3.6. Phương pháp dựa trên mẫu (Based-on Pattern)................................18
1.3.7. Phương pháp phụ thuô ôc trên đồ thị xác suất (Depending based-on
Probability Graph)..........................................................................................18
1.3.8. Mạng Nơron (Neuron Network).......................................................19
1.3.9. Thuật giải di truyền (Genetic Algorithm).........................................19
1.4.
Ứng dụng, thách thức và hướng phát triển của KPDL..........................20
1.5. Kết luận chương 1......................................................................................21
Chương 2
NGHIÊN CỨU KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONGVIỄN THÔNG
2.1.Một số ứng dụng data mining trong viễn thông...........................................22
2.1.1. Phát hiện gian lận (fraud detection).................................................22
2.1.2. Các ứng dụng quản lý và chăm sóc khách hàng...............................23
2.1.3. Các ứng dụng phát hiện và cô lập lỗi trên hệ thống mạng viễn thông
(Network fault isolation)................................................................................24
2.2. Nghiên cứu CSDL của mạng di động VNPT...............................................25
2.2.1. Các tập CSDL quản lý thuê bao liên quan đến bài toán...................25
2.2.2. Phân lớp dự đoán xu hướng khách hàng..........................................28
2.2.3 Thuật toán K-Nearest Neighbors [16]..................................................41
2.2.4. Phân lớp Bayes.................................................................................45
2.2.5 Thực nghiệm, đánh giá chung và so sánh của các thuật toán [11].......50
2.3. Kết luận chương 2.......................................................................................56
CHƯƠNG 3
ỨNG DỤNG DỰ ĐOÁN Ý ĐỊNH RỜI MẠNG CỦA KHÁCH HÀNG
TRONG MẠNG DI ĐỘNG VNPT
3.1. Áp dụng data mining để dự đoán trước ý định rời khỏi mạng của khách hàng
...............................................................................................................57
3.1.1. Cách giải quyết yêu cầu bài toán......................................................57
3.1.2. Phương pháp triển khai....................................................................57
3.1.3. Nội dung triển khai...........................................................................58
3.1.4. Xây dựng tập CSDL huấn luyện.......................................................59
3.2. Xây dựng ứng dụng.....................................................................................66
3.2.1 Giới thiệu...........................................................................................66
3.2.2. Quá trình phát triển...........................................................................67
3.2.3. Xây dựng Chương trình....................................................................68
3.2.4. Đánh giá...........................................................................................72
3.3. Kết luận chương 3.......................................................................................72
----------------------KẾT LUẬN VÀ KHUYẾN NGHỊ
1. Kết luận..........................................................................................................73
2. Hướng phát triển tiếp theo..............................................................................74
TÀI LIỆU THAM KHẢO................................................................................75
Tóm tắt luận văn:
+ Họ và tên học viên: NGUYỄN ĐỨC ANH
+ Lớp: Hệ thống thông tin
Khoá: 25a
+ Cán bộ hướng dẫn: TS. Nguyễn Hoàng Sinh
+ Tên đề tài: NGHIÊN CỨU KHAI PHÁ DỮ LIỆU DỰ BÁO KHÁCH
HÀNG CÓ KHẢ NĂNG RỜI MẠNG VNPT
+ Tóm tắt:
Luận văn nghiên cứu về các phương pháp phân lớp trong khai phá dữ liệu
dùng để phân lớp, dự đoán các đoán các thuê bao của tập đoàn bưu chính viễn
thông VNPT có khả năng rời mạng hay không.
Sử dụng cơ sở dữ liệu SQL server để thiết kế, phân tích dữ liệu, lựa chọn
các thuộc tính có ích cho việc dự đoán để tạo bảng cơ sở dữ liệu huấn luyện. Sử
dụng thuật toán phân lớp Bayes để dự đoán một thuê bao cụ thể có khả năng rời
khỏi mạng hay không.
DANH MỤC CÁC KÝ HIỆU
KPDL
CSDL
CDR
Khai phá dữ liệu
Cơ sở dữ liệu
Call Data Record
DANH MỤC CÁC BẢNG
Trang
Bảng 1.1 Bảng training Data..............................................................................14
Bảng 1.2 Bảng testing Data................................................................................16
Bảng 1.3. Kết quả phân lớp bằng cây quyết định..............................................16
Bảng 2.1. Mối quan hệ giữa 2 biến thu nhập và loại xe hơi...............................44
Bảng 2.2 Bảng phần trăm theo dòng và phần trăm theo các biên......................44
Bảng 2.3. Bảng phần trăm theo dòng.................................................................44
Bảng 2.4. Bảng phần trăm theo Total.................................................................45
Bảng 2.5. Bảng phần trăm theo cột....................................................................45
Bảng 2.6. Các giá trị trong bảng phần trăm theo cột..........................................46
Bảng 2.7. Bảng so sánh ưu điểm của các thuật toán..........................................47
Bảng 2.8. So sánh các tính năng của các thuật toán...........................................48
Bảng 2.9. So sánh dựa trên phân loại tham số của các thuật toán......................49
Bảng 2.10. Bảng cơ sở dữ liệu sử dụng dịch vụ.................................................51
Bảng 3.1. Bảng chi tiết cuộc gọi (CDR’s)..........................................................62
Bảng 3.2. Bảng cơ sở dữ liệu tính cước.............................................................62
Bảng 3.3. Bảng thông tin khách hàng.................................................................63
Bảng 3.4. Bảng thông tin tổng hợp khách hàng.................................................64
DANH MỤC HÌNH VẼ
Trang
Hình 1.1. Nguồn gốc khai phá dữ liệu..................................................................6
Hình 1.2. Cây quyết định từ bảng training data.................................................15
Hình 2.1. Xây dựng Mô hình huấn luyện...........................................................27
Hình 2.2. Sử dụng mô hình huấn luyện để dự đoán...........................................29
Hình 2.3 Traning samples thuật toán KNN........................................................39
Hình 2.4 Sắp xếp khoảng cách thuật toán KNN.................................................40
Hình 2.5 Kết quả ví dụ thuật toán KNN.............................................................41
Hình 2.6. Dữ liệu quan sát D và tập giả thiết h..................................................43
Hình 3.1. Kiến trúc hệ thống phân lớp...............................................................61
Hình 3.2. Giao diện chính của chương trình......................................................66
Hình 3.3. Cơ sở dữ liệu huấn luyện....................................................................66
Hình 3.4. Dự đoán thuê bao rời bỏ.....................................................................67
Hình 3.5. Chi tiết kết quả dự đoán......................................................................69
-1-
MỞ ĐẦU
Cơ sở khoa học và tính thực tiễn của đề tài:
a. Cơ sở khoa học:
Công nghệ thông tin đang phát triển mạnh mẽ và việc ứng dụng công nghệ
thông tin trong nhiều lĩnh vực đời sống, kinh tế xã hội đã làm lượng dữ liệu được
thu thập và lưu trữ ở các hệ thống thông tin tăng lên một cách nhanh chóng. Trước
tình hình đó, việc khai thác và chọn lọc những dữ liệu có ích từ lượng dữ liệu khổng
lồ hay phát hiện được những dữ liệu đặc biệt để biết được những thao tác bất
thường đó là việc cần thiết, đóng vai trò quyết định thành công trong mọi hoạt
động. Các dữ liệu chắt lọc đó sẽ giúp cải thiện hoạt động trong hiện tại hay đưa ra
những dự đoán giúp việc đưa ra quyết định trong tương lai sẽ chính xác hơn.
Với những lý do đó, nhu cầu phát triển các kỹ thuật thu thập, lưu trữ, phân
tích dữ liệu,.. được đặt ra và nó đòi hỏi phải được xử lý thông minh và hiệu quả
hơn. Từ đó đã làm phát triển kỹ thuật mới và với kỹ thuật này cho phép ta khai thác
được tri thức hữu dụng từ cơ sở dữ liệu lớn được gọi là các kỹ thuật khai phá dữ
liệu (Data Minning – DM). Các kỹ thuật khai phá dữ liệu được ứng dụng trong
nhiều lĩnh vực như: viễn thông, kinh tế, tài chính, y tế, giáo dục, an ninh…
b. Tính thực tiễn
Ngày nay, các công ty coi khách hàng là trung tâm. Họ cần có một môi
trường cho phép hiểu rõ những yêu cầu của khách hàng. Nghành công nghiệp
viễn thông lưu trữ một khối lượng dữ liệu khổng lồ, bao gồm: Chi tiết cuộc gọi,
thông tin cảnh báo tình trạng hệ thống mạng viễn thông và thông tin dữ liệu về
khách hàng. Các công ty viễn thông nắm bắt rất rõ các thông tin về khách hàng
-2-
của mình. Họ biết những khách hàng của họ là ai, dễ dàng theo dõi những hành
vi, thói quen của khách hàng. Một tập các hoạt động cho thực hiện công việc để
xác định, điều kiện, bổ sung, phát triển, giữ lại những khách hàng trung thành và
lợi nhuận bằng cách cung cấp các sản phẩm hoặc dịch vụ tới đúng khách hàng,
đúng kênh, đúng thời điểm và giá thành. Khi đó một sản phẩm hoặc một dịch vụ
đúng nghĩa là chỉ có sản phẩm hoặc dịch vụ đó phù hợp với khách hàng đang cần
được xem xét. Ứng dụng kỹ thuật KPDL để phát hiện ra các quy luật ẩn chứa
trong khối dữ liệu khổng lồ đó và đưa ra những dự đoán, quyết định đúng, sẽ
mang lại cho các doanh nghiệp viễn thông nhiều cơ hội để phát triển các dịch vụ
mang tính thực tiễn cao.
Lý do cho việc sử dụng KPDL cho công việc dự đoán thuê bao có khả
năng rời bỏ mạng viễn thông:
Thị trường cạnh tranh: Sau nhiều năm là thị trường độc quyền, thị
trường viễn thông ngày nay trở nên rất cạnh tranh. Khi thị trường là độc quyền
thì hầu như không có biến động, nhưng khi thị trường cạnh tranh quyết liệt thì
mọi thứ sẽ thay đổi liên tục. Khách hàng có thể chuyển đổi nhà cung cấp dễ
dàng, vì có rất nhiều lựa chọn. Vì lý do đó, những công ty viễn thông cần ứng
dụng KPDL để đạt những lợi thế cạnh tranh. Bằng cách hiểu những hành vi và
thói quen của khách hàng, những công ty viễn thông sẽ đưa ra những chiến lược
quảng bá hiệu quả, đưa ra những sản phẩm mà khách hàng ưa thích, phát triển
khách hàng trung thành và tăng lợi ích cho khách hàng.
Tốc độ phát triển thuê bao: Số lượng thuê bao đề cập đến doanh thu
hàng năm hoặc hàng tháng dựa trên cơ sở khách hàng. Việc cạnh tranh dẫn đến tỉ
lệ phát triển thuê bao cao. Ban đầu, việc tăng trưởng trong thị trường viễn thông
-3-
tăng theo cấp số nhân, do có nhiều khách hàng mới, tốc độ phát triển thuê bao
không phải là vấn đề. Khi thị trường trở nên bão hòa, tốc độ phát triển thuê bao
giảm. Việc bão hòa của các thuê bao và sự cạnh tranh ngày càng gay gắt dẫn đến
việc những công ty viễn thông sẽ phải hướng tới những khách hàng đã có và tìm
cách giữ họ lại. KPDL có thể dùng trong việc phân tích tốc độ phát triển thuê bao
để dự đoán dựa trên cơ sở dữ liệu cụ thể là khách hàng sẽ có hoặc vẫn dùng sản
phẩm của công ty và tại sao.
Bộ dữ liệu đồ sộ: Các công ty viễn thông có một khối lượng dữ liệu
đồ sộ. Khi những sản phẩm chính của công ty được sử dụng, mỗi khách hàng đã
tạo ra hàng trăm dịch vụ trên một ngày. Một bản ghi cuộc gọi được lưu trữ trong
CSDL và nó là một nguồn dữ liệu rất lớn. Các công ty viễn thông cũng lưu trữ
dữ liệu khách hàng, miêu tả khách hàng, dữ liệu mạng, và miêu tả họ sử dụng
dịch vụ nào.
Dựa trên việc phân loại thành các nhóm khách hàng khác nhau và những nhu
cầu, sở thích, thói quen của từng nhóm đối tượng khách hàng, nhà quản lý sẽ dự
đoán được những khách hàng có khả năng rời bỏ mạng di động của mình. Từ đó sẽ
đưa ra được những chiến lược chăm sóc khách hàng trên từng nhóm đối tượng
khách hàng khác nhau nhằm níu giữ khách hàng trước khi họ có ý định rời bỏ
mạng.
c. Mục tiêu của đề tài
Nghiên cứu kỹ thuật khai phá dữ liệu nhằm ứng dụng phân nhóm khách hàng
để dự đoán những khách hàng có khả năng rời mạng.
-4-
d. Phương pháp nghiên cứu
Về lý thuyết:
- Nghiên cứu tổng quan về khai phá dữ liệu.
- Nghiên cứu về một số kỹ thuật khai phá dữ liệu: Luật kết hợp, Phân lớp,
Phân cụm.
- Nghiên cứu công cụ khai phá dữ liệu.
- Nghiên cứu thực tiễn bộ dữ liệu và lựa chọn phương pháp khai phá dữ liệu
phù hợp.
Về thực nghiệm:
- Sử dụng các kết quả nghiên cứu từ lý thuyết ứng dụng vào cơ sở dữ liệu
viễn thông của mạng di động VNPT.
- Xây dựng tool xử dụng thuật toán Bayes phân lớp khách hàng, dự đoán
khách hàng có khả năng rời mạng.
CHƯƠNG 1
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
-5-
1.1.Tìm hiểu về khai phá dữ liệu
Sự phát triển của công nghệ phần cứng máy tính trong thời gian qua
đã dẫn đến nguồn cung cấp các phương tiện lưu trữ dữ liệu tốt với giá cả
phải chăng. Song song với điều đó, những tiến bộ trong quá trình thu thập đã
dẫn tới sự tăng trưởng với số lượng lớn dữ liệu.
Công cụ KPDL thực thi việc phân tích dữ liệu và khám phá ra những
mẫu quan trọng bị ẩn dấu. Việc mở rộng giữa dữ liệu và thông tin được gọi
là công cụ phát triển khai thác hệ thống – công cụ khai phá dữ liệu.
1.1.1. Mục tiêu, nguồn gốc của khai phá dữ liệu
KPDL là quá trình tìm kiếm mẫu mới, những thông tin tiềm ẩn mang
tính dự đoán trong các khối dữ liệu lớn. Những công cụ KPDL có thể phát
hiện những xu hướng tương lại, các tri thức mà KPDL giúp doanh nghiệp sẽ
đưa ra các quyết định kịp thời. Với ưu điểm trên, KPDL giúp doanh nghiệp
sẽ đưa ra các quyết định kịp thời. Với ưu tiên trên, KPDL đã chứng tỏ được
tính hữu dụng của nó trong môi trường kinh doanh đầy tính cạnh tranh và
được ứng dụng rộng rãi trong các lĩnh vực thương mại, tài chính, y học, giáo
dục, viễn thông…
Khai phá dữ liệu liên quan chặt chẽ đến những lĩnh vực sau: Thống kê,
máy học, cơ sở dữ liệu.
Thống kê
Trí tuệ nhân tạo (Artifical Intelligence - AI)
Hệ thống CSDL
DATA MINING
Artifical Intelligence
Statistics
-6-
Machine Learning
Database Systems
Hình 1.1. Nguồn gốc khai phá dữ liệu
1.1.2. Lý do khai phá dữ liệu [12]
Dựa trên thực tế, trên một khía cạnh nào đó, là đang tồn tại một lượng dữ
liệu hệ thống khổng lồ mà chưa được khám phá một cách cụ thể. Nghĩa là đang
có rất nhiều thông tin “ẩn giấu” và đã nằm ngoài khả năng phát hiện ra bởi
những phương thức truyền thống và dựa trên khả năng phân tích chủa con người.
Sự cần thiết của “khai phá” dữ liệu có thể miêu tả bằng sự cần thiết trong lĩnh
vực cuộc sống thực:
Kinh tế, tài chính
Chăm sóc sức khỏe
-7-
Nghiên cứu khoa học
Vậy, KPDL là gì? Tuy nhiên rất khó khăn để đưa ra một định nghĩa duy
nhất mà phản ánh toàn sự kiện của hiện tượng. Vì thế, với từng cách tiếp cận
khác nhau sẽ có cái nhìn khác nhau về KPDL:
1 Là việc tìm kiếm tự động những mẫu trong CSDL khổng lồ, sử dụng công
nghệ tính toán từ thống kê, học máy và nhận biết mẫu;
2 Là việc khai thác sự có ich của thông tin ẩn, mà trước đó chưa biết và có
khả năng thông tin là hữu ích từ dữ liệu;
3 Kỹ thuật tách thông tin hữu dụng từ một tập dữ liệu lớn hoặc CSDL;
4 Việc thăm dò tự động hoặc bán tự động và phân tích một lượng lớn của dữ
liệu, nhằm phát hiện những mô hình có ý nghĩa;
5 Tiến trình tự động khám phá thông tin, việc xác định mô hình và mối quan
hệ ẩn dấu trong dữ liệu.
Tóm lại, KPDL là quá trình phân tích của một tập dữ liệu quan sát
(thường là rất lớn) để tìm ra những mối quan hệ ẩn giấu và tổng kết dữ liệu theo
nhiều cách nhằm dễ hiểu và dễ sử dụng cho người sử dụng dữ liệu đó.
1.2.Quá trình khai phá dữ liệu
Nói một cách đơn giản KPDL liên quan đến việc “tách” hoặc “dò” tri
thức từ một lượng lớn của dữ liệu, khai phá tri thức từ dữ liệu, tách tri thức, phân
tích mẫu dữ liệu…
Quá trình khai phá gồm những bước tuần tự như sau:
1. Làm sạch dữ liệu (loại bỏ những dữ liệu dư thừa không có thông tin)
2. Tích hợp dữ liệu ( khi nhiều nguồn dữ liệu được kết hợp)
3. Lựa chọn dữ liệu ( lựa chọn những dữ liệu tích hợp cho việc phân tích
được thực hiện lấy từ CSDL)
-8-
4. Chuyển đổi dữ liệu (nơi dữ liệu được chuyển đổi hoặc hợp nhất thành một
thể thích hợp cho việc khai phá bằng cách thực hiện các hoạt động tóm tắt
hoặc tích hợp)
5. Khai phá dữ liệu (là tiến trình quan trọng với những phương thức thông
minh được áp dụng cho việc tách những mẫu dữ liệu)
6. Định giá mẫu (Xác định những mẫu thực sự có ích miêu tả dữ liệu dựa
trên một đơn vị đo lường sự có ích)
7. Miêu tả tri thức (khi việc miêu tả mô hình và dữ liệu thu được được sử
dụng trong việc khai phá tri thức cho người dùng)
Kiến trúc của một hệ thống KPDL điển hình chứa các thành phần sau:
CSLD, kho dữ liệu, web hoặc những hệ thống thông tin khác
Máy chủ CSDL hoặc kho dữ liệu
Dựa trên cơ sở tri thức
Cách thức KPDL
Module đánh giá mô hình
Giao diện người sử dụng
1.2.1. Tiền xử lý dữ liệu
Tiền xử lý dữ liệu là quá trình chuẩn bị dữ liệu và xử lý dữ liệu. Trước khi sử
dụng bất kỳ kỹ thuật KPDL nào để “khai phá” dữ liệu, một vấn đề cực kỳ cần
thiết là phải xử lý dữ liệu thô. Đầu tiên, cần phải xử lý những vấn đề về chất
lượng dữ liệu như nhiễu, bất thường… Khi vấn đề chất lượng dữ liệu được giải
quyết, sẽ thực hiện công việc tiền xử lý dữ liệu, về nguyên tắc bao gồm những tủ
tục sau:
Tập hợp (Aggregation)
Lấy mẫu (Sampling)
Giảm chiều thông tin (Dimensionality reduction)
Chọn tính năng (Feature creation)
-9-
Rời rạc và nhị phân (Discretization and binarization)
Chuyển đổi thuộc tính (Atrribute transformation)
1.2.2. Xây dựng và xác nhận mô hình
Xây dựng và xác nhận mô hình là một bước tiến của KPDL sau tiến trình xử
lý. Chú ý rằng, trong một tiến trình KPDL, trạng thái dữ liệu xử lý sẽ lặp lại nếu
cần thiết. Một khi dữ liệu “khai phá” được chọn, cần phải quyết định lấy mẫu dữ
liệu như thế nào khi không làm việc với toàn bộ CSDL.
Một khi dữ liệu đã phân tích được xác định, khi đó sẽ quan tâm đến mục đích
của tiến trình KPDL
Hiểu các giới hạn
Chọn hướng nghiên cứu thích hợp
Kiểu nghiên cứu
Lựa chọn thành phần
Vấn đề lấy mẫu
Đọc dữ liệu và xây dựng mô hình
1.2.3. Áp dụng và đánh giá mô hình
Sau khi mô hình xây dựng, áp dụng, cần phải quan tâm đến một số tính
năng quan trọng:
Độ chính xác của mô hình (model accuracy)
Độ dễ hiểu của mô hình (model intelligibility)
Khả năng thực thi (performance)
Nhiễu (noise)
Mỗi mô hình sẽ có một ngưỡng để chấp nhận nhiễu và đó là lý do cần của
tiền xử lý dữ liệu.
- Xem thêm -