BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC QUY NHƠN
NGỤY VŨ PHƯƠNG MAI
ỨNG DỤNG THUẬT TOÁN XGBOOST VÀO DỰ
ĐOÁN TẾ BÀO BẤT THƯỜNG Ở CỔ TỬ CUNG
LUẬN VĂN THẠC SĨ KHOA HỌC DỮ LIỆU ỨNG DỤNG
Bình Định – Năm 2022
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC QUY NHƠN
NGỤY VŨ PHƯƠNG MAI
ỨNG DỤNG THUẬT TOÁN XGBOOST VÀO DỰ
ĐOÁN TẾ BÀO BẤT THƯỜNG Ở CỔ TỬ CUNG
Ngành
: Khoa học dữ liệu ứng dụng
Mã số
: 8904648
Người hướng dẫn: GS. NGUYỄN THANH THỦY
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu và thực hiện luận văn thực sự
của riêng tôi, dưới sự hướng dẫn của GS. Nguyễn Thanh Thủy. Mọi tham
khảo từ các nguồn tài liệu, công trình nghiên cứu liên quan trong nước và quốc
tế đều được trích dẫn một cách rõ ràng trong luận văn. Mọi sao chép không hợp
lệ hay vi phạm quy chế tôi xin hoàn toàn chịu trách nhiệm và chịu mọi kỷ luật
của trường Đại học Quy Nhơn.
Bình Định, ngày
tháng
năm 2022.
Học viên
Ngụy Vũ Phương Mai
LỜI CẢM ƠN
Trong quá trình thực hiện và hoàn thiện luận văn này, tôi xin gửi lời cảm
ơn chân thành nhất đến các thầy cô trong Khoa Toán và Khoa Công nghệ Thông
tin Trường Đại học Quy Nhơn cũng như các thầy thính giảng ở các trường, các
viện ở Thành phố Hồ Chính Minh đã cung cấp cho tôi những kiến thức quý báu
trong suốt 2 năm học vừa qua.
Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc nhất tới GS. Nguyễn Thanh
Thủy đã dành nhiều thời gian vô cùng quý báu để định hướng và hướng dẫn
tôi tận tình cũng như tạo điều kiện thuận lợi để tôi có thể hoàn thành tốt nhất
luận văn của mình.
Tôi xin chân thành cảm ơn!
Học viên thực hiện
Ngụy Vũ Phương Mai
MỤC LỤC
TRANG PHỤ BÌA
LỜI CAM ĐOAN
LỜI CẢM ƠN
MỤC LỤC
DANH MỤC BẢNG BIỂU
DANH MỤC HÌNH VẼ, ĐỒ THỊ
MỞ ĐẦU .......................................................................................................... 1
CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI ............................................................ 3
1.1 Đặt vấn đề................................................................................................ 3
1.2. Một số kết quả nghiên cứu trong và ngoài nước.................................... 4
1.2.1. Kết quả nghiên cứu trên thế giới. ................................................... 4
1.2.2. Kết quả nghiên cứu trong nước. ..................................................... 5
1.3. Mục tiêu luận văn ................................................................................... 5
1.4. Đối tượng và phương pháp nghiên cứu. ................................................ 5
1.5. Ý nghĩa của đề tài................................................................................... 5
1.5.1. Ý nghĩa khoa học. ............................................................................ 5
1.5.2. Ý nghĩa thực tiễn. ............................................................................ 6
1.6. Bố cục luận văn. ..................................................................................... 6
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT .............................................................. 8
2.1. Tổng quan về phân tích dữ liệu. ............................................................. 8
2.1.1. Phân tích dữ liệu là gì? ................................................................... 8
2.1.2. Tại sao phải phân tích dữ liệu? ...................................................... 8
2.1.3. Quy trình phân tích dữ liệu. ............................................................ 9
2.1.4. Các loại hình phân tích. ................................................................ 11
2.2. Ứng dụng học máy trong phân tích dữ liệu. ........................................ 14
2.2.1. Khái niệm học máy (Machine Learning). ..................................... 14
2.2.2. Các loại thuật toán học máy. ........................................................ 14
2.2.3. Ứng dụng. ...................................................................................... 15
2.3. Phân tích dữ liệu trong y khoa. ............................................................ 15
2.3.1. Phân tích hình ảnh trong y khoa. .................................................. 15
2.3.2. Nghiên cứu di truyền học. ............................................................. 16
2.3.3. Điều chế thuốc............................................................................... 16
2.3.4. Phân tích và chẩn đoán bệnh. ....................................................... 16
2.3.5. Trợ lý sức khỏe và ứng dụng chăm sóc sức khỏe.......................... 17
2.4. Thuật toán XGBoost. ........................................................................... 17
2.4.1. Cơ sở hình thành. .......................................................................... 17
2.4.2. Ưu điểm của thuật toán. ................................................................ 19
2.4.3. Ứng dụng của thuật toán trong các lĩnh vực. ............................... 20
2.5. Đánh giá mô hình ................................................................................. 20
2.5.1. Độ đo dùng trong phân loại. ......................................................... 20
2.5.2. ROC (Receiver Operating Characteristic) và AUC (Area Under
The Curve). .............................................................................................. 22
2.5.3. Đánh giá mô hình bằng kiểm tra chéo. ......................................... 23
2.6. Cơ sở dữ liệu y khoa. ........................................................................... 25
2.6.1. Mối liên quan giữa tế bào bất thường và bệnh ung thư cổ tử cung
................................................................................................................. 25
2.6.2. Đặc điểm lâm sàng và cận lâm sàng cổ tử cung........................... 25
CHƯƠNG 3: MÔ HÌNH DỰ BÁO TẾ BÀO BẤT THƯỜNG Ở CỔ TỬ
CUNG ............................................................................................................. 27
3.1 Phát biểu bài toán. ................................................................................. 27
3.2. Ứng dụng học máy phân tích dữ liệu bài toán tế bào bất thường. ....... 28
3.2.1. Hiểu bài toán. ................................................................................ 28
3.2.2. Hiểu dữ liệu. .................................................................................. 29
3.2.3. Chuẩn bị dữ liệu. ........................................................................... 37
3.2.4. Mô hình hóa. ................................................................................. 42
3.2.5. Đánh giá mô hình. ......................................................................... 43
3.3. Thực nghiệm mô hình. ......................................................................... 50
3.3.1. Tập dữ liệu toàn bộ. ...................................................................... 50
3.3.2. Tập thử nghiệm với bộ dữ liệu mới hoàn toàn. ............................. 52
KẾT LUẬN VÀ KIẾN NGHỊ ...................................................................... 57
DANH MỤC TÀI LIỆU THAM KHẢO ..................................................... 59
PHỤ LỤC
QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ (BẢN SAO)
DANH MỤC BẢNG BIỂU
Bảng 3.1 Kiểu dữ liệu của các thuộc tính……………………………………39
DANH MỤC HÌNH VẼ, ĐỒ THỊ
Hình 2.1. Mô tả quy trình phân tích dữ liệu.................................................... 11
Hình 2.2. Ví dụ về phân tích mô tả ................................................................. 12
Hình 2.3. Ví dụ về phân tích dự đoán ............................................................. 13
Hình 2.4. Ví dụ về phân tích đề xuất .............................................................. 14
Hình 2.5. Tổng quan về XGBoost................................................................... 17
Hình 2.6. Các tính năng của XGBoost ............................................................ 18
Hình 2.7. Mô hình dự đoán sử dụng Gradient Boosting ................................. 19
Hình 2.8. Bảng mô tả ma trận nhầm lẫn ......................................................... 21
Hình 2.9. Ví dụ về đường cong ROC và AUC ............................................... 23
Hình 3.1. Mô hình xây dựng giải pháp hỗ trợ chẩn đoán bệnh ...................... 28
Hình 3.2. Tập dữ liệu thu thập được ............................................................... 29
Hình 3.3. Đặc điểm nơi cư trú ......................................................................... 30
Hình 3.4. Dân tộc ............................................................................................ 30
Hình 3.5. Trình độ học vấn ............................................................................. 31
Hình 3.6. Kinh tế gia đình ............................................................................... 31
Hình 3.7. Triệu chứng cơ năng ....................................................................... 32
Hình 3.8. Triệu chứng thực thể ....................................................................... 32
Hình 3.9. Tình trạng kinh nguyệt .................................................................... 33
Hình 3.10. Tuổi giao hợp lần đầu ................................................................... 34
Hình 3.11. Tiền sử bệnh viêm nhiễm phụ khoa .............................................. 35
Hình 3.12. Phân tích mối tương quan trong tập dữ liệu.................................. 36
Hình 3.13. Tập dữ liệu đủ tiêu chuẩn cuối cùng ............................................. 39
Hình 3.14. Mức độ quan trọng của các thuộc tính ảnh hưởng đến kết quả .... 44
Hình 3.15. Biểu đồ mất mát đường cong học tập XGBoost ........................... 46
Hình 3.16. Biểu đồ lỗi phân loại đường cong học tập XGBoost .................... 46
Hình 3.17 Ma trận nhầm lẫn ........................................................................... 47
Hình 3.18 Đường cong Precision – Recall...................................................... 48
Hình 3.19 Biểu đồ ROC-AUC của mô hình ................................................... 49
Hình 3.20 Ma trận nhầm lẫn trên tập dữ liệu toàn bộ. .................................... 50
Hình 3.21 Biểu đồ đường cong Precision – Recall trên tập dữ liệu toàn bộ .. 51
Hình 3.22 Đường cong ROC trên tập dữ liệu toàn bộ .................................... 52
Hình 3.23 Ma trận nhầm lẫn trên tập thử nghiệm mới hoàn toàn. .................. 53
Hình 3.24 Biểu đồ đường cong Precision – Recall trên tập dữ liệu thực
nghiệm mới hoàn toàn ..................................................................................... 54
Hình 3.25 Đường cong ROC trên tập dữ liệu thực nghiệm mới hoàn toàn .... 55
1
MỞ ĐẦU
Những năm gần đây, việc ứng dụng công nghệ thông tin trong hầu hết các
lĩnh vực đều được quan tâm và đầu tư, mang lại hiệu quả rõ rệt. Trong số đó,
lĩnh vực y tế đã có nhiều chuyển biến tích cực trong công tác điều hành, quản
lý, đặc biệt là chẩn đoán. Nhờ vào ứng dụng công nghệ thông tin, trình độ
chuyên môn của bác sĩ, y tá được nâng cao; các phương tiện để chẩn đoán và
điều trị cũng được tự động hóa đem lại sự thoải mái cho bệnh nhân. Đây cũng
chính là tiền đề để ứng dụng các thành tựu của công nghệ thông tin hiệu quả và
mạnh mẽ hơn nữa.
Lĩnh vực y tế trên thế giới đã đạt được những thành tựu đột phá nhờ ứng
dụng công nghệ thông tin, đặc biệt là ứng dụng trí tuệ nhân tạo, học máy trong
chẩn đoán và điều trị bệnh. Một ví dụ điển hình như sử dụng dữ liệu từ bệnh
nhân kết hợp thuật toán học máy để tạo ra ứng dụng chẩn đoán sớm bệnh
Alzheimer trước khi các triệu chứng bắt đầu can thiệp vào cuộc sống hàng ngày
của bệnh nhân. Vì vậy, việc phát triển ứng dụng trí tuệ nhân tạo trong y tế là
điều vô cùng cần thiết và cấp thiết.
Hiện nay, ung thư đang là căn bệnh nguy hiểm với tỉ lệ tử vong là không
nhỏ. Điều đáng lo ngại là căn bệnh này thường khó nhận ra khi ở giai đoạn sớm
và chưa có thuốc đặc trị hay phòng bệnh hoàn toàn. Ngoài ra, những khu vực
vùng sâu vùng xa, những nơi chăm sóc sức khỏe còn thiếu về năng lực lẫn máy
móc thiết bị càng hạn chế việc bệnh nhân có đủ cơ hội thăm khám thường xuyên
sức khỏe của mình.
Trong bối cảnh đó, đề tài nghiên cứu và đưa ra một công cụ giúp bệnh
nhân phát hiện ra sớm những bất thường trong cơ thể để kịp thời có hướng xử
lý. Cụ thể hơn là nghiên cứu về tế bào bất thường ở cổ tử cung – nguyên nhân
2
gây ra bệnh lý ung thư cổ tử cung ở phụ nữ, khá phổ biến ở nữ giới cùng với
ung thư vú.
Nghiên cứu tiến hành theo các bước chính: Tìm hiểu nghiệp vụ y tế liên
quan đến tế bào bất thường ở cổ tử cung; Thu thập và xử lý dữ liệu; Tìm hiểu
và áp dụng thuật toán XGBOOST vào bài toán; Xây dựng mô hình học máy dự
đoán; Thực nghiệm và đánh giá mô hình.
3
CHƯƠNG 1. TỔNG QUAN ĐỀ TÀI
1.1 Đặt vấn đề
Khoa học dữ liệu là một lĩnh vực liên ngành về các quá trình và các hệ
thống rút trích tri thức hoặc hiểu biết từ dữ liệu ở các dạng khác nhau, có cấu
trúc hay phi cấu trúc [2]. Khoa học dữ liệu sử dụng các kỹ thuật để khai phá dữ
liệu tạo ra các tri thức hữu ích, giúp có thêm thông tin mới, hỗ trợ ra quyết định.
Trên thực tế, Khoa học dữ liệu là sự tiếp nối của phân tích dữ liệu dựa trên khoa
học thống kê, khai phá dữ liệu khám phá tri thức trong các cơ sở dữ liệu.
Theo Tổ chức Y tế Thế giới (WHO), ung thư cổ tử cung là nguyên nhân
hàng đầu gây tử vong ở phụ nữ, chiếm 12% trong các ung thư ở nữ giới và 85%
trường hợp xảy ra ở nước đang phát triển. Năm 2012, có 528.000 trường hợp
ung thư mới được chẩn đoán và 266.000 phụ nữ tử vong , cứ mỗi phút có 2 phụ
nữ tử vong vì ung thư cổ tử cung. Việt Nam cũng có 5.664 phụ nữ mắc bệnh
và tỷ lệ mắc mới là 13,6/100.000 dân. Tại Cần Thơ và Đồng bằng sông Cửu
Long có tỷ lệ mắc mới là 17,1/100.000 dân. Bệnh đang có xu hướng gia tăng
nhưng thường phát hiện ở giai đoạn muộn nên biện pháp can thiệp sẽ kém hiệu
quả và tỷ lệ tử vong tăng . Nhiều nơi trên thế giới không có chương trình sàng
lọc tế bào cổ tử cung – âm đạo. Chỉ có dưới 5% phụ nữ ở các nước đang phát
triển đã từng được làm phết tế bào cổ tử cung. Ngược lại, theo một báo cáo, tới
89% phụ nữ ở Mỹ từng được làm phết tế bào cổ tử cung ít nhất một lần trong
vòng 3 năm trở lại đây [2] [24] [25].
Mặc dù bệnh rất nguy hiểm nhưng hầu hết ung thư cổ tử cung có thể
phòng tránh được. Một trong những cách phòng tránh hiệu quả căn bệnh này là
phát hiện và điều trị sớm các tổn thương tiền ung thư trước khi chúng trở thành
ung thư bằng các xét nghiệm sàng lọc [3] [20] - xét nghiệm PAP. Xét nghiệm
PAP ( Phết tế bào cổ tử cung) là xét nghiệm tế bào học để tìm những tế bào bất
thường trong lớp biểu mô cổ tử cung. Mục đích của việc này là để phát hiện ung
4
thư cổ tử cung – một bệnh lý ác tính rất thường gặp ở phụ nữ, nhất là ở các
nước đang phát triển. Đây là một xét nghiệm đơn giản, thường được thực hiện
giúp sàng lọc phát hiện sớm tổn thương tiền ung thư hoặc ung thư cổ tử cung
giai đoạn sớm ở phụ nữ trước khi chúng có thể chuyển thành ung thư xâm lấn,
để có thể điều trị khỏi hoàn toàn. Do đó, giảm số bệnh nhân chết vì ung thư cổ
tử cung, có thể tiến hành điều trị và ngăn chặn trước khi nó bắt đầu ung thư
[10] [19].
Phần trăm rủi ro mắc bệnh ung thư cổ tử cung khi có tế bào bất thường
ở cổ tử cung được cho là đáng báo động. Vậy giải pháp nào cho bệnh nhân có
kinh tế thấp khi chi phí xét nghiệm PAP hàng năm khá lớn và cho những bệnh
nhân ở nơi không có chương trình sàng lọc này?
Vậy, cùng với tính ứng dụng của khoa học dữ liệu vào thực tiễn, luận
văn này có mục tiêu nghiên cứu, thử nghiệm ứng dụng thuật toán XGBOOST
xây dựng mô hình học máy vào việc dự đoán tế bào bất thường ở cổ tử cung để
thông báo cũng như cảnh báo tình trạng sức khỏe của bệnh nhân để bệnh nhân
kịp thời kiểm tra và phát hiện sớm để điều trị.
1.2. Một số kết quả nghiên cứu trong và ngoài nước.
1.2.1. Kết quả nghiên cứu trên thế giới.
Nhiều ứng dụng trên thế giới được cho ra đời để hỗ trợ chẩn đoán nhanh
và điều trị bệnh tốt hơn như Hệ thống chuyên gia y tế DiagnosisPro [26]; Hệ
thống chẩn đoán y tế Caduceus của Harry Pope [27]; PSG-Expert (2000) chẩn
đoán bệnh mất ngủ [9]; Naser xây dựng một hệ thống chẩn đoán bệnh về da
(2008) [22]; BI-RADS (2007) chẩn đoán ung thư vú [17]; PUFF (1982) dùng
để phân tích kết quả xét nghiệm chức năng phổi [23]; MYCIN (1973) hỗ trợ
chẩn đoán bệnh nhiễm trùng máu [15];….
5
1.2.2. Kết quả nghiên cứu trong nước.
Việc ứng dụng công nghệ thông tin trong y tế những năm gần đây ở Việt
Nam đang dần được phát triển. Cụ thể một số nghiên cứu như: hệ thống hỗ trợ
kiểm tra đơn thuốc [5], hỗ trợ ra quyết định trong việc chẩn đoán lâm sàng [4],
hỗ trợ xác định gen ảnh hưởng ung thư vú [7]
1.3. Mục tiêu luận văn
Đề tài tập trung vào nghiên cứu tổng quan về thuật toán học máy XGBOOST,
các kỹ thuật chính liên quan tới thuật toán XGBOOST cũng như tiềm năng của
ứng dụng trong thực tiễn. Ngoài ra, tìm hiểu database (cơ sở dữ liệu) y khoa về
tế bào bất thường ở cổ tử cung, bệnh ung thư cổ tử cung và phân tích các yếu
tố liên quan tế bào bất thường cổ tử cung cũng như thu thập dữ liệu bệnh nhân.
Trên cơ sở đó, đề xuất giải pháp dùng thuật toán XGBOOST xây dựng mô hình
dự đoán tế bào bất thường ở cổ tử cung dựa trên dữ liệu đã có. Việc xây dựng
hệ thống thử nghiệm, đánh giá chất lượng, độ hiệu quả của hỗ trợ dự đoán cũng
là mục tiêu chính của đề tài.
1.4. Đối tượng và phương pháp nghiên cứu.
Đề tài tập trung phân tích dữ liệu, nghiên cứu thuật toán Xgboost nhằm
để áp dụng vào việc xây dựng mô hình dự đoán bệnh trong y khoa. Luận văn
cũng thu thập dữ liệu bệnh nhân đã từng đến khám và điều trị tại Bệnh viện
Phong – Da liễu Trung ương Quy Hòa.
Bên cạnh đó, sử dụng phương pháp thu thập số liệu, phương pháp phân
tích và tổng hợp, phương pháp thực nghiệm cùng với sự hỗ trợ chuyên môn của
các bác sĩ chuyên môn.
1.5. Ý nghĩa của đề tài.
1.5.1. Ý nghĩa khoa học.
Đề tài góp phần hỗ trợ cho các y bác sĩ chẩn đoán cũng như phát hiện
sớm những bất thường trong cơ thể cho bệnh nhân. Ngoài ra cũng mong muốn
6
rằng những người đang công tác trong lĩnh vực Y học và Khoa học dữ liệu cùng
nhau phối hợp tìm ra những giải pháp tốt hơn nữa trong vấn đề chẩn đoán và
điều trị bệnh bằng cách kết hợp hai lĩnh vực với nhau.
1.5.2. Ý nghĩa thực tiễn.
Trong y học, chẩn đoán và phát hiện ra bệnh là cả một quá trình và các
bác sĩ không những phải nắm vững chuyên môn mà còn cần phải có đầy đủ
trang thiết bị y tế mới chẩn đoán chính xác bệnh. Việc chẩn đoán sai dẫn đến
việc điều trị sai hoặc không tìm ra bệnh, gây ra những tổn thất lớn về mặt vật
chất lẫn tinh thần của bệnh nhân và gia đình họ. Việc phát hiện ra bệnh sớm và
chính xác thì tỉ lệ chữa khỏi sẽ tăng lên đồng thời cũng giúp cho bệnh nhân và
gia đình họ đưa ra những quyết định điều trị thích hợp.
Vì vậy, chẩn đoán và phát hiện sớm bệnh sẽ phần nào giúp các y bác sĩ
đưa ra các hướng điều trị phù hợp, hiệu quả. Đồng thời cảnh báo và tư vấn giúp
bệnh nhân tránh khỏi những biến chứng nguy hiểm cũng như giảm được gánh
nặng về mặt kinh tế cho bệnh nhân và xã hội.
1.6. Bố cục luận văn.
Luận văn bao gồm các phần sau:
MỞ ĐẦU
Chương 1: Tổng quan đề tài
Giới thiệu về những vấn đề liên quan đến phân tích dữ liệu (Data
Analytics), cơ sở hình thành đề tài, mục tiêu, đối tượng nghiên cứu, phương
pháp nghiên cứu, ý nghĩa thực tiễn và bố cục luận văn.
Chương 2: Cơ sở lý thuyết
- Tổng quan về phân tích dữ liệu
- Ứng dụng học máy trong phân tích dữ liệu
- Phân tích dữ liệu trong Y khoa
7
- Thuật toán XGBOOST và ứng dụng của nó trong các lĩnh vực khác
nhau
Chương 3. Mô hình dự báo tế bào bất thường ở cổ tử cung.
Trong chương này, luận văn trình bày về bài toán dự đoán nguy cơ có tế
bào bât thường ở cổ tử cung và các kỹ thuật chính sử dụng thuật toán
XGBOOST:
- Hiểu nghiệp vụ, xác định mục tiêu và yêu cầu của bài toán;
- Hiểu dữ liệu : thu thập và làm quen với dữ liệu thô ban đầu, đưa ra
đánh giá về chất lượng của dữ liệu.
- Chuẩn bị dữ liệu: xây dựng được bộ dữ liệu cuối cùng, “đủ tiêu
chuẩn” để cho chạy mô hình và phân tích.
- Mô hình hoá: Lựa chọn và áp dụng các kỹ thuật cùng phương pháp
phù hợp, sau đó xây dựng mô hình phân tích dữ liệu, …
- Đánh giá mô hình để đánh giá kết quả thu được từ mô hình, đánh
giá mô hình đã đáp ứng được mục tiêu đã đề ra hay chưa, phân tích
các chỉ số đạt được của mô hình và đưa quyết định về việc sử dụng
kết quả phân tích vào thực tế.
KẾT LUẬN VÀ KIẾN NGHỊ
8
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT
2.1. Tổng quan về phân tích dữ liệu.
2.1.1. Phân tích dữ liệu là gì?
Phân tích dữ liệu (Data Analytics) là hoạt động biến dữ liệu thô, lộn xộn
thành thông tin chi tiết hữu ích bằng cách dọn dẹp dữ liệu, chuyển đổi và kiểm
tra dữ liệu. Sau đó, thông tin chi tiết thu thập từ dữ liệu được trình bày trực
quan dưới dạng biểu đồ, đồ thị hoặc trang tổng quan với mục tiêu giúp hỗ trợ
sự phát triển và hỗ trợ việc đưa ra quyết định của một công ty hoặc tổ chức.
Phân tích dữ liệu có nhiều khía cạnh và nhiều cách tiếp cận, bao gồm các
kỹ thuật đa dạng dưới nhiều tên gọi khác nhau và được sử dụng trong các lĩnh
vực kinh doanh khoa học va khoa học xã hội khác nhau. Tất cả các phương
pháp phân tích dữ liệu khác nhau này đều dựa trên hai lĩnh vực cốt lõi: phương
pháp định lượng và định tính trong nghiên cứu.
Về cốt lõi, phân tích dữ liệu là xác định và dự đoán các xu hướng, tìm ra
các mẫu, mối tương quan và mối quan hệ trong dữ liệu có sẵn, đồng thời tìm ra
giải pháp cho các vấn đề phức tạp.
2.1.2. Tại sao phải phân tích dữ liệu?
Phân tích dữ liệu được ứng dụng vào tất cả các ngành nghề trong hiện
tại. Việc này rất quan trọng và mang lại tiềm năng lớn cho doanh nghiệp hoặc
tổ chức. Cụ thể:
a. Ra quyết định có cơ sở : Từ góc độ quản lý, chúng ta có thể hưởng lợi
từ việc phân tích dữ liệu của mình vì nó giúp đưa ra quyết định dựa trên thực
tế chứ không phải trực giác đơn thuần. Ví dụ: Ta có thể hiểu nơi đầu tư vốn của
mình, phát hiện các cơ hội tăng trưởng, dự đoán thu nhập của mình hoặc giải
quyết các tình huống rủi ro trước khi chúng trở thành sự thật.
b. Giảm chi phí và tiết kiệm thời gian: Một lợi ích lớn khác là giảm chi
phí. Điển hình là khi nhờ sự trợ giúp của các công nghệ tiên tiến như phân tích
9
dự đoán, các doanh nghiệp hay tổ chức có thể phát hiện ra các cơ hội, xu hướng
và mô hình cải tiến trong dữ liệu của mình; từ đó lập kế hoạch chiến lược cho
phù hợp mà không tốn nhiều thời gian. Điều này sẽ giúp chúng ta tiết kiệm tiền
bạc và nguồn lực để thực hiện các chiến lược. Không chỉ vậy, trong các tình
huống khác nhau như số lượng hàng bán ra và nhu cầu mua vào, bạn cũng có
thể dự đoán sản lượng và nguồn cung.
c. Nhắm mục tiêu khách hàng tốt hơn: Khách hàng được cho là yếu tố
quan trọng nhất trong bất kỳ doanh nghiệp nào. Bằng cách sử dụng phân tích
để có được tầm nhìn tổng quát về tất cả các khía cạnh liên quan đến khách hàng
của mình, chúng ta có thể hiểu họ sử dụng kênh nào để giao tiếp với ta, sở thích,
thói quen, hành vi mua hàng của họ v.v. Về lâu dài, nó sẽ thúc đẩy thành công
cho các chiến lược tiếp thị của chúng ta, hỗ trợ ta xác định khách hàng tiềm
năng mới và tránh lãng phí nguồn lực vào việc nhắm mục tiêu sai người hoặc
gửi sai thông điệp. Ngoài ra còn có thể theo dõi mức độ hài lòng của khách
hàng bằng cách phân tích đánh giá của khách hàng v.v.
2.1.3. Quy trình phân tích dữ liệu.
Phân tích dữ liệu bao gồm các giai đoạn sau:
a. Giai đoạn 1: Hiểu nghiệp vụ (Business Understanding)
Trước hết, cần tìm ra mục đích của việc thực hiện phân tích dữ liệu và
quyết định loại phân tích dữ liệu nào mà ta muốn thực hiện. Trong giai đoạn
này, ta cần quyết định những gì cần phân tích và làm thế nào để đo lường nó,
phải hiểu lý do tại sao ta đang điều tra và những biện pháp ta phải sử dụng để
thực hiện phân tích này.
b. Giai đoạn 2: Hiểu dữ liệu (Data Understanding).
Thu thập và làm quen với dữ liệu thô ban đầu, đưa ra đánh giá về chất
lượng của dữ liệu và một vài insights sơ bộ. Việc thu thập dữ liệu có thể ở nhiều
10
dạng khác nhau như nguồn nội bộ hoặc bên ngoài, khảo sát, phỏng vấn, bảng
câu hỏi,….
c. Giai đoạn 3: Chuẩn bị dữ liệu (Data Preparation).
Mặc dù đã có được các dữ liệu cần thiết, nhưng không phải bất kì dữ liệu
nào được thu thập cũng hữu ích và liên quan đến mục đích phân tích của chúng
ta. Do đó, cần xây dựng được bộ dữ liệu cuối cùng, “đủ tiêu chuẩn” để cho chạy
mô hình và phân tích. Việc chuẩn bị có thể bao gồm các thao tác như làm sạch,
tổng hợp hoặc định dạng lại dữ liệu,…..Giai đoạn này cần phải được thực hiện
trước khi phân tích vì dựa trên việc làm sạch dữ liệu, kết quả phân tích của
chúng ta sẽ gần hơn với kết quả mong đợi. Có thể xử lý dữ liệu bằng các công
cụ như Excel, Google Sheets,…
d. Giai đoạn 4: Mô hình hóa (Modeling).
Lựa chọn và áp dụng các kỹ thuật cùng phương pháp phù hợp, sau đó
xây dựng mô hình phân tích dữ liệu. Việc điều chỉnh các tham số để tối ưu hóa
mô hình cũng được thực hiện trong bước này.
e. Giai đoạn 5: Đánh giá (Evaluation).
Giai đoạn này sẽ đánh giá kết quả thu được từ mô hình, xem liệu mô hình
đã đáp ứng được mục tiêu đã đề ra ở giai đoạn đầu tiên hay chưa. Xem xét lại
cả quá trình phân tích để biết đạt và chưa đạt ở chỗ nào và đưa ra quyết định về
việc sử dụng kết quả phân tích và thực tế.
f. Giai đoạn 6: Triển khai giải pháp (Deployment).
Sau các bước trên, cuối cùng là cần biến kết quả cũng như các kiến thức
của việc phân tích thành các quyết định hoặc những thông tin dễ hiểu cho người
xem. Tùy vào yêu cầu của bài toán, công việc của giai đoạn này rất đa dạng.
Có thể chỉ đơn giản là một báo cáo nghiệp vụ hoặc phức tạp hơn là một công
cụ hay phần mềm chạy mô hình ra quyết định hàng ngày cho đối tượng sử dụng.
- Xem thêm -