Tài liệu Nghiên cứu xây dựng mô hình giải pháp mã nguồn mở cloudera phục vụ triển khai ứng dụng big data tại mobifone

  • Số trang: 71 |
  • Loại file: PDF |
  • Lượt xem: 471 |
  • Lượt tải: 0

Mô tả:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG --------------------------------------- PHẠM XUÂN LỘC NGHIÊN CỨU XÂY DỰNG MÔ HÌNH GIẢI PHÁP MÃ NGUỒN MỞ CLOUDERA PHỤC VỤ TRIỂN KHAI ỨNG DỤNG BIG DATA TẠI MOBIFONE LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2019 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG --------------------------------------- PHẠM XUÂN LỘC NGHIÊN CỨU XÂY DỰNG MÔ HÌNH GIẢI PHÁP MÃ NGUỒN MỞ CLOUDERA PHỤC VỤ TRIỂN KHAI ỨNG DỤNG BIG DATA TẠI MOBIFONE CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. HÀ HẢI NAM HÀ NỘI - 2019 i LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Tác giả luận văn ký và ghi rõ họ tên Phạm Xuân Lộc ii LỜI CẢM ƠN Tôi xin trân trọng cảm ơn toàn thể các thầy cô trong Khoa Quốc tế và Đào tạo Sau Đại học – Khoa Công nghệ thông tin – Học viện Công nghệ Bưu chính Viễn thông đã tạo điều kiện cho tôi có một môi trường học tập tốt đồng thời truyền đạt cho tôi một vốn kiến thức quý báu một tư duy khoa học để phục vụ cho quá trình học tập và công tác của tôi. Tôi xin gửi lời cảm ơn đến các bạn trong lớp Cao học Hệ thống thông tin M17CQIS01-B khóa 2017- 2019 đã giúp đỡ tôi trong suốt thời gian học tập vừa qua. Đặc biệt, tôi xin được bày tỏ lòng biết ơn sâu sắc đến PGS.TS. HÀ HẢI NAM đã tận tình chỉ bảo cho tôi trong suốt quá trình học tập và nghiên cứu, giúp tôi có nhận thức đúng đắn về kiến thức khoa học, tác phong học tập và làm việc. Tôi cũng xin được gửi lời cảm ơn tới gia đình, đồng nghiệp, người thân đã động viên, giúp đỡ tôi trong quá trình hoàn thành luận văn. Cuối cùng tôi xin kính chúc các thầy cô và toàn thể các bạn học viên trường Học viện Công nghệ Bưu chính Viễn thông một sức khỏe dồi dào, đạt được những thành công trên con đường học tập và nghiên cứu khoa học. Chúc trường ta sẽ sớm trở thành ngọn cờ đầu của giáo dục nước nhà và Quốc tế. Xin trân trọng cảm ơn! Hà Nội, ngày tháng năm 2018 Tác giả luận văn Phạm Xuân Lộc iii MỤC LỤC LỜI CAM ĐOAN .......................................................................................................i LỜI CẢM ƠN ........................................................................................................... ii MỤC LỤC ................................................................................................................ iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT ............................................v DANH SÁCH BẢNG ............................................................................................. vii DANH SÁCH HÌNH VẼ ....................................................................................... viii MỞ ĐẦU ....................................................................................................................1 CHƯƠNG 1: GIỚI THIỆU VỀ BIG DATA VÀ GIẢI PHÁP CLOUDERA ÁP DỤNG XÂY DỰNG BIG DATA..............................................................................3 Tóm tắt chương ........................................................................................................3 1.1. Định nghĩa “Hệ thống Big Data” .....................................................................3 1.2. Xu hướng phát triển của công nghệ Big Data ..................................................6 1.2.1. Tình hình phát triển và nhu cầu sử dụng công nghệ Big Data trong tương lai .......................................................................................................................... 6 1.2.2. So sánh, đánh giá các giải pháp mã nguồn mở áp dụng cho Big Data ......9 1.3. Giới thiệu về Cloudera ...................................................................................11 1.4. Kiến trúc các thành phần mã nguồn mở trên nền tảng Cloudera ...................16 1.4.1. Hadoop .....................................................................................................18 1.4.2. Hệ quản trị CSDL: HBase .......................................................................27 1.4.3. Học máy Apache Mahout ........................................................................28 1.4.4. Tính toán trong bộ nhớ, streaming: Apache Spark ..................................29 1.4.5. Truy vấn song song như: Apache Impala ................................................30 1.4.6. Một số Apache dùng để tổ chức lưu trữ, truy vấn dữ liệu trong Hadoop 31 1.5. Một số case study điển hình đã triển khai thành công Cloudera .................... 32 CHƯƠNG 2: TRIỂN KHAI XÂY DỰNG HỆ THỐNG CLOUDERA PHỤC VỤ XÂY DỰNG BIG DATA TẠI MOBIFONE ..................................................34 Tóm tắt chương ......................................................................................................34 2.1. Hiện trạng triển khai áp dụng công nghệ Big Data tại MobiFone ..................34 iv 2.1.1. Hiện trạng tài nguyên máy chủ lưu trữ dữ liệu Big Data ........................ 34 2.1.2. Hiện trạng công nghệ phân tích dữ liệu cho Big Data tại MobiFone ......35 2.2. Nhu cầu áp dụng công nghệ mã nguồn mở cho Big Data tại MobiFone .......37 2.3. Thiết kế hệ thống Cloudera phục vụ xây dựng BIG DATA tại MobiFone ....38 2.3.1. Bài toán triển khai .................................................................................... 38 2.3.2. Mô hình triển khai ...................................................................................40 2.4. Triển khai cài đặt, cấu hình hệ thống .............................................................. 42 2.4.1. Cài đặt JDK.............................................................................................. 43 2.4.2. Cài đặt Database ...................................................................................... 43 2.4.3. Cài đặt Cloudera Manager Server ........................................................... 44 2.4.4. Cài đặt Cloudera Manager Agent ............................................................ 44 2.4.5. Cài đặt CDH và Manager Service Software ............................................46 2.4.6. Khởi tạo, cấu hình và khởi động CDH và Managed Services .................48 CHƯƠNG 3: KẾT QUẢ ĐẠT ĐƯỢC KHI XÂY DỰNG HỆ THỐNG CLOUDERA TẠI MOBIFONE ............................................................................49 Tóm tắt chương ......................................................................................................49 3.1. Kết quả xây dựng hệ thống Cloudera tại MobiFone.......................................49 3.1.1. Quản lý các thành phần trên hệ thống bằng giao diện Cloudera .............49 3.1.2. Áp dụng Spark để giải quyết bài toán phân khúc thuê bao ..................... 52 3.2. Kinh nghiệm cài đặt, triển khai hệ thống Cloudera ........................................57 3.2.1. Một số tồn tại, khó khăn khi triển khai .................................................... 57 3.2.2. Các giải pháp khắc phục ..........................................................................58 KẾT LUẬN ..............................................................................................................59 DANH MỤC CÁC TÀI LIỆU THAM KHẢO ..................................................... 60 v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Chữ viết tắt API Tiếng Anh Application Programming Interface Tiếng Việt Giao diện lập trình ứng dụng Cloudera Distributed Sản phẩm Cloudera phân phối Hadoop theo phiên bản hadoop CNTT - Công nghệ thông tin CSDL - Cơ sở dữ liệu FIFO first-in, first-out vào trước-ra trước CDH HDFS Hadoop Distributed File System IoT Internet of Things LZO Lempel–Ziv–Oberhumer NFC ODBC OS Near-Field Communications Hệ thống lưu trữ file của Hadoop Mạng lưới vạn vật kết nối Internet Thuật toán nén dữ liệu Công nghệ giao tiếp tầm ngắn Open Database một phương pháp truy xuất cơ sở Connectivity dữ liệu chuẩn Operating system Hệ điều hành Giải pháp cung cấp nội dung cho OTT Over The Top người sử dụng dựa trên nền tảng Internet REST RFID SMS Representational State Một bộ quy tắc để tạo ra một ứng Transfer dụng Web Service Radio Frequency Nhận dạng bằng tần số của sóng Identification vô tuyến Short Message Services Dịch vụ tin nhắn ngắn vi SPSS SQL Statistical Package for the Một phần mềm máy tính phục vụ Social Sciences công tác phân tích thống kê Structured Query Language VAS Value Added Services WIFI Wireless Fidelity Ngôn ngữ truy vấn có cấu trúc Dịch vụ Giá trị gia tăng Mạng không dây sử dụng sóng vô tuyến vii DANH SÁCH BẢNG Bảng 1.1: So sánh cloudera Xpress và Enterprise........................................................... 16 Bảng 3.1: Bảng so sánh các thành phần giải pháp Cloudera và giải pháp IBM ............. 57 viii DANH SÁCH HÌNH VẼ Hình 1.1: Các loại dữ liệu phổ biến người dùng hiện nay ..........................................4 Hình 1.2: Luồng xử lý dữ liệu lớn ..............................................................................6 Hình 1.3: Mô hình đoán áp dụng Big Data của google về dịch cúm 2009 .................8 Hình 1.4: Tổng quan các thành phần trong cloudera ................................................17 Hình 1.5: Kiến trúc của HDFS ..................................................................................19 Hình 1.6: Luồng đọc dữ liệu trong HDFS.................................................................20 Hình 1.7: Luồng ghi dữ liệu trong HDFS .................................................................21 Hình 1.8: Kiến trúc MapReduce ...............................................................................23 Hình 1.9: Cơ chế hoạt động của MapReduce ........................................................... 24 Hình 1.10: Giao tiếp JobTracker và TaskTracker ..................................................... 25 Hình 1.11: Quá trình thực hiện maptask ...................................................................26 Hình 1.12: Quá trình reduce task ..............................................................................27 Hình 1.13: Cách đọc ghi trên map-reduce ................................................................ 30 Hình 1.14: Cách đọc ghi trên spark...........................................................................30 Hình 1.15: Mô hình kiến trúc tính toán song song impala ........................................31 Hình 2.1 : Kiến trúc triển khai tổng thể ....................................................................36 Hình 2.2: Mô hình phân khúc khách hàng trả trước của PWC .................................39 Hình 2.3: Mô hình logic triển khai Cloudera ............................................................ 41 Hình 2.4: Cài đặt cloudera Manager agent ............................................................... 45 Hình 2.5: Cài đặt cloudera theo cụm host từ giao diện .............................................45 Hình 2.6: Cài đặt các gói apache từ giao diện cloudera ............................................46 Hình 2.7: Kết quả cài đặt các apache trên cloudera home ........................................47 Hình 2.8: Khởi tạo cấu hình và khởi động CDH ...................................................... 48 Hình 3.1: Giám sát trạng thái mỗi server trong cụm từ cloudera manager ...............50 Hình 3.2: Giám sát tổng quan toàn bộ các cụm server từ cloudera manager ...........51 Hình 3.3: Các tham số cấu hình từ giao diện cloudera manager .............................. 51 Hình 3.4: Kiểm tra log hệ thống cloudera .................................................................52 Hình 3.5: Quy trình xử lý dữ liệu bài toán phân khúc thuê bao ................................ 52 ix Hình 3.6: Kiểm tra dữ liệu nạp vào hadoop .............................................................. 53 Hình 3.7: Cách thực hiện coding bài toán phân khúc dùng spark trong cloudera ....54 Hình 3.8: Kết quả phân khúc dùng Mllib, spark trong cloudera ............................... 54 Hình 3.9: Kết quả phân khúc theo biểu đồ 1 ............................................................. 55 Hình 3.10: Kết quả phân khúc theo biểu đồ 2 ........................................................... 55 Hình 3.11: Kết quả phân khúc theo biểu đồ 3 ........................................................... 56 Hình 3.12: Kết quả phân khúc theo biểu đồ 4 ........................................................... 56 1 MỞ ĐẦU 1. Tính cấp thiết của đề tài Thị trường viễn thông di động tại Việt Nam đang dần trở nên bão hòa, doanh thu từ thoại và SMS từng bước giảm, sự bùng nổ của các sản phẩm OTT, các mạng xã hội,… cùng với hạ tầng Internet phát triển, xu hướng công nghệ IoT, Big Data bùng nổ, mạng WIFI khá phổ biến và cung cấp miễn phí tại nhiều nơi tại Việt Nam đang thực sự là những thách thức không nhỏ đối với các nhà mạng viễn thông.Việc kinh doanh các dịch vụ truyền thống thoại, sms, data… mà không có tác động phân tích, tìm hiểu hành vi khách hàng, hiểu rõ nhu cầu thực sự của khách hàng ngày càng trở nên khó khăn. Đứng trước những thách thức và nguy cơ ở trên, MobiFone cần phải có tầm nhìn, tư duy và chiến thuật mới để sẵn sàng thích ứng với sự thay đổi, thích ứng với sự cạnh tranh ngày càng quyết liệt từ các đối thủ. Đề tài nghiên cứu hy vọng với giải pháp mã nguồn mở Cloudera đã được nghiên cứu sẽ được triển khai rộng rãi, góp phần vào việc bổ sung hạ tầng lưu trữ dữ liệu an toàn, lâu dài, tiết kiệm chi phí cho hệ thống Big Data, cũng như nắm bắt thêm các kỹ thuật, các công cụ mã nguồn mở để áp dụng, kế thừa sản phẩm từ cộng đồng thế giới vào hệ thống Big Data hiện tại…góp phần phát triển cộng nghệ Big Data trong MobiFone. 2. Tổng quan về vấn đề nghiên cứu  Khảo sát và đánh giá nhu cầu triển khai Big Data ứng dụng các công nghệ mã nguồn mở.  Nghiên cứu và triển khai Big Data tại MobiFone ứng dụng Cloudera.  Xây dựng và triển khai các bài toán phân tích dữ liệu dựa trên nền tảng hạ tầng Big Data ứng dụng Cloudera.  Đánh giá kết quả đạt được và hướng phát triển tiếp theo 2 3. Mục đích nghiên cứu  Nghiên cứu tìm hiểu công nghệ mã nguồn mở Cloudera phục vụ triển khai Big Data.  Xây dựng hệ thống Big Data dựa trên nền tảng Cloudera tại MobiFone.  Cài đặt, phân tích và triển khai các chương trình khuyến mại và sản xuât kinh doanh tại MobiFone. 4. Đối tượng và phạm vi nghiên cứu  Các sản phẩm mã nguồn mở hiện có trên thị trường về Big Data.  Nghiên cứu chuyên sâu giải pháp Cloudera áp dụng xây dựng Big Data tại MobiFone. 5. Phương pháp nghiên cứu Phương pháp nghiên cứu là nghiên cứu lý thuyết kết hợp với thực nghiệm và phân tích, đánh giá kết quả. 3 CHƯƠNG 1: GIỚI THIỆU VỀ BIG DATA VÀ GIẢI PHÁP CLOUDERA ÁP DỤNG XÂY DỰNG BIG DATA Tóm tắt chương Nội dung chương 1 giới thiệu định nghĩa về Big Data, xu hướng phát triển và nhu cầu sử dụng công nghệ Big Data, đồng thời giới thiệu nền tảng Cloudera trong việc triển khai Big Data đang phổ biến trên thế giới. Tóm tắt lịch sử hình thành sản phẩm Cloudera cũng như đi sâu vào tìm hiểu kiến trúc của Cloudeara và chi tiết các thành phần. Cuối cùng, giới thiệu những case study cụ thể đã triển khai áp dụng cloudera trong việc triển khai Big Data thành công tại Việt Nam và trên thế giới. 1.1. Định nghĩa “Hệ thống Big Data” Ngày nay, sự phát triển không ngừng của khoa học kỹ thuật, tiêu biểu như sự ra đời của Internet và các thiết bị điện thoại, máy tính cá nhân, đã mang lại những đổi thay lớn lao trên mọi lĩnh vực đời sống. Trong kỷ nguyên của IoT2 (internet of things 2) với việc ứng dụng và tích hợp sâu rộng các thiết bị di động như điện thoại di động, ô tô, và máy móc công nghiệp góp phần vào việc tạo và chuyển dữ liệu, dẫn đến sự bùng nổ của dữ liệu có thể thu thập được. Trong dòng thác dữ liệu liên tục được tạo ra từng giây, thuật ngữ Big Data (Dữ liệu lớn) được sử dụng để chỉ những bộ dữ liệu khổng lồ, chủ yếu không có cấu trúc, được thu thập từ nhiều nguồn khác nhau. Tuy nhiên, Big Data lại chứa trong mình rất nhiều thông tin quý giá mà nếu trích xuất thành công, nó sẽ giúp rất nhiều cho việc kinh doanh, nghiên cứu khoa học, dự đoán các dịch bệnh sắp phát sinh và thậm chí là cả việc xác định điều kiện giao thông theo thời gian thực. Trong công tác nghiên cứu khoa học, Big Data đang mang lại các nhà nghiên cứu cơ hội tiếp cận và giải quyết rất nhiều vấn đề hóc búa mà trước đây không thể hoặc rất khó thực hiện. Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và rất phức tạp đến nỗi những công cụ, ứng dụng xử lí dữ liệu truyền thống không thể nào đảm 4 đương được. Tuy nhiên, Big Data lại chứa trong mình rất nhiều thông tin quý giá mà nếu trích xuất thành công, nó sẽ giúp rất nhiều cho việc kinh doanh, nghiên cứu khoa học, dự đoán các vấn đề, tình huống sẽ xảy ra. Những dữ liệu này phải được thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ theo một cách khác so với bình thường do các hệ cơ sở dữ liệu lưu trữ truyền thống không đáp ứng được. Hình ảnh mô tả các loại dữ liệu phổ biến người dùng hiện nay Hình 1.1: Các loại dữ liệu phổ biến người dùng hiện nay Kích cỡ của Big Data đang từng ngày tăng lên, và tính đến năm 2015 thì nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu nghiệp vụ nào đó mà thôi. Về khái niệm Big Data có thể được định nghĩa phổ biến như sau: Big Data được hiểu là “Dữ liệu lớn” – là tập hợp dữ liệu có dung lượng của tất cả các lĩnh vực của đời sống xã hội; chúng vượt mức đảm đương của những ứng dụng và công cụ truyền thống trong việc thu thập, hiển thị, phân phối, quản lý và xử lý. Tương lai xa dữ liệu Big Data là không thể đếm được. Big Data được tạo ra từ nhiều nguồn dữ liệu như mạng xã hội; các dịch vụ ngân hàng, tài chính, viễn thông; các dịch vụ thương mại điện tử; internet … Big Data ra đời dựa trên yêu cầu tất yếu của quá trình phát triển dữ liệu số trên phạm vi 5 toàn cầu; hầu hết các doanh nghiệp đầu tầu trong lĩnh vực công nghệ như: Microsoft, SAP, EMC, HP, Software AG, Oracle, IBM, Ebay, Amazon.com, Facebook… đều phải quản lý Big Data của mình sở hữu. Hàng ngày trang thương mại điện tử Amazon phải xử lý hàng triệu đơn hàng cùng với hàng trăm nghìn giao dịch phát sinh khác của hệ thống đối tác. Để có thể “chịu” được khối lượng data siêu khủng mà mình phải xử lý hãng đã huy động ba cơ sở dữ liệu Linux lớn với dung lượng của mỗi cơ sở lần lượt là 7,8TB, 18,5TB và 24,7TB. eBay cần hai trung tâm dữ liệu với dung lượng 40 petabyte để vận hành dữ liệu; 50 tỉ bức ảnh cùng hàng triệu video, dòng trạng thái mà người dùng upload cũng là một con số không nhỏ mà Facebook phải quản lý; Youtube và Google thì phải lưu lại hết các lượt truy vấn cùng vô số thông tin khác. Với số lượng như vậy quá trình Khai phá dữ liệu (Data Mining) cũng sẽ gặp những khó khăn nhất định. Theo các chuyên gia, nhà chiến lược, tính tới thời điểm năm 2010 tổng giá trị của ngành công nghiệp Big Data đạt hơn 100 tỉ đô la và tăng 10% mỗi năm, nhanh gấp đôi so với tổng ngành công nghiệp phần mềm. Điều đó cho thấy Big Data chính là thách thức cũng như cơ hội lớn của nhiều doanh nghiệp. Theo tài liệu của Intel vào tháng 9/2013, hiện nay thế giới đang tạo ra 1 petabyte dữ liệu trong mỗi 11 giây và nó tương đương với một đoạn video HD dài 13 năm. Bản thân các công ty, doanh nghiệp cũng đang sở hữu Big Data của riêng mình, chẳng hạn như trang bán hàng trực tuyến eBay thì sử dụng hai trung tâm dữ liệu với dung lượng lên đến 40 petabyte để chứa những truy vấn, tìm kiếm, đề xuất cho khách hàng cũng như thông tin về hàng hóa của mình. Còn theo tập đoàn SAS, chúng ta có một vài số liệu thú vị về Big Data như sau:  Các hệ thống RFID (một dạng kết nối tầm gần, như kiểu NFC nhưng có tầm hoạt động xa hơn và cũng là thứ dùng trong thẻ mở cửa khách sạn) tạo ra lượng dữ liệu lớn hơn 1.000 lần so với mã vạch truyền thống 6  Chỉ trong vòng 4 giờ của ngày “Black Friday” năm 2012, cửa hàng Walmart đã phải xử lí hơn 10 triệu giao dịch tiền mặt, tức là khoảng 5.000 giao dịch mỗi giây.  Dịch vụ chuyển phát UPS nhận khoảng 39,5 triệu yêu cầu từ khách hàng của mình mỗi ngày  Dịch vụ thẻ VISA xử lí hơn 172.800.000 giao dịch thẻ chỉ trong vòng một ngày mà thôi  Trên Twitter có 500 triệu dòng tweet mới mỗi ngày, Facebook thì có 1,15 tỉ thành viên tạo ra một mớ khổng lồ dữ liệu văn bản, tập tin, video… Hình 1.2: Luồng xử lý dữ liệu lớn (Nguồn : https://thegrid.ai/big-data-analytics/) Big Data là thách thức đặt ra cho các tổ chức, doanh nghiệp trong thời đại số hiện nay. Một khi làm chủ được dữ liệu lớn thì họ sẽ có cơ hội thành công lớn hơn trong bối cảnh cạnh tranh ngày nay, thế giới thì sẽ được hưởng lợi hơn từ việc trích xuất thông tin một cách chính xác hơn, hữu ích hơn với chi phí thấp hơn. 1.2. Xu hướng phát triển của công nghệ Big Data 1.2.1. Tình hình phát triển và nhu cầu sử dụng công nghệ Big Data trong tương lai Tập đoàn SAS nói vấn đề thật sự không nằm ở việc bạn thu thập dữ liệu, thay vào đó, là bạn dùng Big Data để làm gì. Nhìn chung, có bốn lợi ích mà Big 7 Data có thể mang lại: Cắt giảm chi phí, giảm thời gian, tăng thời gian phát triển và tối ưu hóa sản phẩm, đồng thời hỗ trợ con người đưa ra những quyết định đúng và hợp lý hơn. Nếu để ý một chút, mọi người sẽ thấy khi mua sắm online trên eBay, Amazon hoặc những trang tương tự, trang này cũng sẽ đưa ra những sản phẩm gợi ý tiếp theo, ví dụ khi xem điện thoại, nó sẽ gợi ý cho bạn mua thêm ốp lưng, pin dự phòng; hoặc khi mua áo thun thì sẽ có thêm gợi ý quần jean, dây nịt... Do đó, nghiên cứu được sở thích, thói quen của khách hàng cũng gián tiếp giúp doanh nghiệp bán được nhiều hàng hóa hơn. Vậy những thông tin về thói quen, sở thích này có được từ đâu? Chính là từ lượng dữ liệu khổng lồ mà các doanh nghiệp thu thập trong lúc khách hàng ghé thăm và tương tác với trang web của mình. Chỉ cần doanh nghiệp biết khai thác một cách có hiệu quả Big Data thì nó không chỉ giúp tăng lợi nhuận cho chính họ mà còn tăng trải nghiệm mua sắm của người dùng, chúng ta có thể tiết kiệm thời gian hơn nhờ những lời gợi ý so với việc phải tự mình tìm kiếm. và như vậy chính các Doanh nghiệm và người dùng cuối là khách hàng cũng sẽ được hưởng lợi cũng từ việc tối ưu hóa như thế, Xa hơn một chút, ứng dụng được Big Data có thể giúp các tổ chức, chính phủ dự đoán được tỉ lệ thất nghiệp, xu hướng nghề nghiệp của tương lai để đầu tư cho những hạng mục đó, hoặc cắt giảm chi tiêu, kích thích tăng trưởng kinh tế, v/v... thậm chí là ra phương án phòng ngừa trước một dịch bệnh nào đó, giống như trong phim World War Z, nước Israel đã biết trước có dịch zombie nên đã nhanh chóng xây tường thành ngăn cách với thế giới bên ngoài. Mà cũng không cần nói đến tương lai phim ảnh gì cả, vào năm 2009, Google đã sử dụng dữ liệu Big Data của mình để phân tích và dự đoán xu hướng ảnh hưởng, lan truyền của dịch cúm H1N1 đấy thôi. Dịch vụ này có tên là Google Flu Trends. Xu hướng mà Google rút ra từ những từ khóa tìm kiếm liên quan đến dịch H1N1 đã được chứng minh là rất sát với kết quả do hai hệ thống cảnh báo cúm độc lập Sentinel GP và HealthStat đưa ra. Dữ liệu của Flu Trends được cập nhật gần 8 như theo thời gian thực và sau đó sẽ được đối chiếu với số liệu từ những trung tâm dịch bệnh ở nhiều nơi trên thế giới. Hình 1.3: Mô hình đoán áp dụng Big Data của google về dịch cúm 2009 (Nguồn: https://www.linkedin.com/pulse/big-data-là-gì-và-người-ta-khai-thác-ứng-dụngnó-vào-cuộc-nguyen ) Đường màu xanh là dự đoán của Google Flu Trends dựa trên số từ khóa tìm kiếm liên quan đến các dịch cúm, màu vàng là dữ liệu do cơ quan phòng chống dịch của Mỹ đưa ra. Còn theo Oracle, việc phân tích Big Data và những dữ liệu dung lượng lớn đã giúp các tổ chức kiếm được 10,66$ cho mỗi 1$ chi phí phân tích, tức là gấp 10 lần! Một trường học ở một quận lớn tại Mỹ cũng có được sự tăng trưởng doanh thulà 8 triệu USD mỗi năm, còn một công ty tài chính ẩn danh khác thì tăng 1000% lợi nhuận trên tổng số tiền đầu tư của mình trong vòng 3 năm. Trong tương lai, chúng ta sẽ còn tiếp tục chứng kiến sự tăng trưởng của Big Data. Hiện nay có thể bạn cũng đã nghe đến khái niệm Internet of Things, tức là mang Internet đến với mọi thứ trong đời sống hằng ngày. Dữ liệu từ Internet of Things thực chất cũng là được thu thập từ một mạng lưới rất nhiều các cảm biến và thiết bị điện tử, và nó cũng là một trong những nguồn của Big Data. Lượng dữ liệu khổng lồ này có thể cho các nhà nghiên cứu biết được hành vi tiêu dùng của khách hàng, từ đó tinh chỉnh những thiết bị Internet of Things cho phù hợp hơn, bắt chúng phục vụ đời sống hằng ngày của chúng ta một cách hiệu quả hơn. Nó cũng có thể được dùng cho việc sản xuất, từ đó giảm sự liên quan của con người. Như lời của Daniel Kaufman dự đoán thì “con người sẽ làm ít hơn” nhờ Big Data. 9 1.2.2. So sánh, đánh giá các giải pháp mã nguồn mở áp dụng cho Big Data Cloudera, một công ty cung cấp hỗ trợ, tư vấn và các công cụ quản lý cho Hadoop, hiện đã có kênh phân phối phần mềm được gọi là Cloudera’s Distribution bao gồm cả Apache Hadoop (CDH). CDH là một phần mềm mã nguồn mở, được cung cấp sẵn theo quy ước Apache Software License và miễn phí cho sử dụng cá nhân và thương mại. Cũng như nhiều mã nguồn mở của các công ty phần mềm khác, Cloudera bắt đầu với một phiên bản Apache Hadoop chính thức phát hành, được sửa lỗi quan trọng, cung cấp thành các gói cho một số hoạt động khác nhau hệ thống. Hạ tầng Cloudera bao gồm các thành phần Apache Hadoop và đảm bảo khả năng tương thích giữa các thành phần. CDH hiện tại bao gồm Apache Hadoop, Apache HBase, Apache Hive, Apache Pig, Apache Sqoop, Apache Flume, Apache Zookeeper, Apache Oozie, Apache Mahout và Hue. Trên thế giới hiện nay cũng có có một số sản phẩm khác cạnh tranh trong việc lưu trữ, xử lý dữ liệu lớn như IBM InfoSphere BigInsights, Hortonworks và MapR. Cloudera là sản phẩm có đầu tiên kể từ khi xuất hiện giải pháp lưu trữ dữ liệu Hadoop. Hortonworks đến sau này. Trong khi Cloudera và Hortonworks là 100% mã nguồn mở, thì hầu hết các phiên bản của MapR đi kèm với module độc quyền. Đối ngược với sản phẩm mã nguồn mở thì IBM InfoSphere BigInsights là một nền tảng phần mềm dịch vụ được thiết kế để giúp các doanh nghiệp phát hiện và phân tích những hiểu biết kinh doanh ẩn trong khối lượng lớn dữ liệu. Sản phẩm IBM InfoSphere BigInsights kết hợp một số dự án mã nguồn mở (bao gồm Apache Hadoop) và một số công nghệ của IBM phát triển. Mỗi nhà cung cấp, phân phối có sức mạnh độc đáo và những điểm yếu riêng trong từng sản phẩm của mình. Cloudera Inc được thành lập bởi những thiên tài dữ liệu lớn từ Facebook, Google, Oracle và Yahoo trong năm 2008. Đây là công ty đầu tiên phát triển và phân phối phần mềm Apache Hadoop và có số lượng người dùng lớn nhất với hầu hết khách hàng. Mặc dù cốt lõi của phân phối dựa trên Apache Hadoop, nó cũng cung cấp một công cụ quản lý Cloudera Suite độc quyền để tự động hóa quá trình
- Xem thêm -