Thông tin sách
Tên sách: Dữ liệu lớn (Tủ sách Khoa học Khám phá)
Nguyên tác: Big data
Tác giả: Viktor Mayer-Schonberger, Kenneth Cukier
Người dịch: Vũ Duy Mẫn
Nhà phát hành: NXB Trẻ
Nhà xuất bản: NXB Trẻ
Khối lượng: 350g
Kích thước: 14.5 x 20.5 cm
Ngày phát hành: 344
Số trang: 03/2014
Giá bìa: 120.000đ
Thể loại: Khoa học Khám phá
Thông tin ebook
Thực hiện ebook: thanhbt
Ngày hoàn thành: 22/08/2017
Dự án ebook #303 thuộc Tủ sách BOOKBT
Giới thiệu
Màu sơn nào có thể cho bạn biết một chiếc xe đã qua sử dụng vẫn
còn trong tình trạng tốt? Làm thế nào các công chức ở thành phố
New York có thể xác định các hố ga nguy hiểm nhất trước khi
chúng phát nổ? Và làm thế nào những cuộc tìm kiếm của Google
dự đoán được sự lây lan của dịch cúm H1N1? Chìa khóa để trả lời
những câu hỏi này, và nhiều câu hỏi khác, là dữ liệu lớn. “Dữ liệu
lớn” đề cập đến khả năng đang phát triển của chúng ta để nắm
giữ các bộ sưu tập lớn thông tin, phân tích, và rút ra những kết
luận đôi khi sâu sắc đáng ngạc nhiên.
Lĩnh vực khoa học đang nổi lên này có thể chuyển vô số hiện
tượng - từ giá vé máy bay đến các văn bản của hàng triệu cuốn
sách - thành dạng có thể tìm kiếm được, và sử dụng sức mạnh
tính toán ngày càng tăng của chúng ta để khám phá những điều
chúng ta chưa bao giờ có thể nhìn thấy trước. Trong một cuộc
cách mạng ngang tầm với Internet hoặc thậm chí in ấn, dữ liệu
lớn sẽ thay đổi cách chúng ta nghĩ về kinh doanh, y tế, chính trị,
giáo dục, và sự đổi mới trong những năm tới. Nó cũng đặt ra
những mối đe dọa mới, từ sự kết thúc không thể tránh khỏi của
sự riêng tư cho đến khả năng bị trừng phạt vì những thứ chúng
ta thậm chí còn chưa làm, dựa trên khả năng của dữ liệu lớn có
thể dự đoán được hành vi tương lai của chúng ta.Trong tác phẩm
thông tuệ tuyệt vời và gây nhiều ngạc nhiên này, hai chuyên gia
hàng đầu giải thích dữ liệu lớn là những gì, nó sẽ làm thay đổi
cuộc sống của chúng ta như thế nào, và những gì chúng ta có thể
làm để bảo vệ chính mình khỏi các mối nguy hiểm của nó. Dữ
liệu lớn là cuốn sách lớn đầu tiên về điều to lớn sắp diễn ra. Bạn
đọc có thể quét các QR Code bên trong sách và trên bìa sách để
xem các đoạn phim minh họa.
Tặng B và V V.M.S.
Tặng cha mẹ của tôi
K.N.C.
Ebook miễn phí tại : www.Sachvui.Com
1. HIỆN TẠI
NĂM 2009 MỘT VI-RÚT CÚM mới được phát hiện. Kết hợp các
yếu tố của các vi-rút gây cúm gà, chủng mới này, được gọi là
H1N1, đã lây lan nhanh chóng. Trong vài tuần, các cơ sở y tế
khắp thế giới lo sợ một đại dịch khủng khiếp đang xảy ra. Một số
nhà bình luận đã cảnh báo về một dịch bệnh có quy mô của dịch
cúm Tây Ban Nha vào năm 1918, lây nhiễm cho nửa tỷ người và
làm chết hàng chục triệu người. Tồi tệ hơn là không hề có vắcxin nào để chống lại vi-rút mới này. Hy vọng duy nhất của cơ
quan y tế là giảm mức lây lan. Nhưng để làm điều đó, họ cần biết
bệnh đã lan tới đâu.
Ở Mỹ, Trung tâm Kiểm soát và Phòng chống Bệnh dịch (CDC) đã
yêu cầu các bác sĩ thông báo về các ca bệnh cúm mới. Nhưng bức
tranh thật về đại dịch vẫn luôn bị chậm trễ một hoặc hai tuần.
Nhiều người có thể bị bệnh vài ngày rồi mới đi gặp bác sĩ. Việc
chuyển tiếp thông tin về các cơ quan trung ương đòi hỏi thời
gian, và CDC chỉ xử lý các con số mỗi tuần một lần. Với một bệnh
dịch lây lan nhanh, hai tuần chậm trễ cũng giống như dài vô tận.
Sự chậm trễ này đã hoàn toàn vô hiệu hóa các cơ quan y tế tại
những thời điểm gay cấn nhất.
Lúc việc đó xảy ra, vài tuần trước khi vi-rút H1N1 xuất hiện rầm
rộ trên các phương tiện truyền thông, các kỹ sư của công ty
Internet khổng lồ Google đã đăng một bài đáng chú ý trên tạp chí
khoa học Nature. Nó đã tạo một chuyện giật gân trong giới chức
y tế và các nhà khoa học máy tính, nhưng ngoài ra thì ít được
quan tâm. Các tác giả lý giải Google có thể “dự đoán” sự lây lan
của bệnh cúm mùa đông ở Mỹ như thế nào, không chỉ ở mức độ
toàn quốc, mà còn chi tiết tới mức vùng và thậm chí tới mức tiểu
bang. Google có thể đạt được điều này bằng cách xem xét những
gì người sử dụng đã tìm kiếm trên Internet. Bởi Google nhận
được hơn ba tỷ câu hỏi tìm kiếm mỗi ngày và lưu giữ tất cả
chúng, nên nó có vô số dữ liệu để phân tích.
Google lấy 50 triệu cụm từ được tìm kiếm phổ biến nhất của
người Mỹ và so sánh chúng với dữ liệu của CDC về sự lây lan của
bệnh cúm mùa giữa các năm 2003 và 2008. Ý tưởng là để xác
định các khu vực bị lây nhiễm vi-rút cúm thông qua những gì
người ta tìm kiếm trên Internet, và không ai khác có nhiều dữ
liệu, năng lực tính toán và hiểu biết về thống kê như Google.
Dù các chuyên viên của Google phỏng đoán các lệnh tìm kiếm có
thể nhằm thu lượm thông tin về cúm - gõ các câu đại loại như
“thuốc ho và sốt” - nhưng không phải vậy: họ không biết, và họ
đã thiết kế một hệ thống không quan tâm tới điều đó. Tất cả
những gì hệ thống của họ làm là phát hiện mối tương quan giữa
tần suất của một số câu hỏi tìm kiếm và sự lây lan của bệnh cúm
theo thời gian và không gian. Tổng cộng, họ xử lý một lượng
đáng kinh ngạc 450 triệu mô hình toán học khác nhau để kiểm
tra các điều kiện tìm kiếm, so sánh các dự đoán của họ với các
trường hợp bệnh thực tế từ CDC trong năm 2007 và 2008. Và họ
đã vớ được vàng: phần mềm của họ tìm thấy một sự kết hợp của
45 điều kiện tìm kiếm mà khi sử dụng cùng với một mô hình
toán học, có một mối tương quan mạnh mẽ giữa phỏng đoán của
họ và các số liệu chính thức trên toàn quốc. Giống như CDC, họ
có thể cho biết cúm đã lây lan tới đâu, nhưng khác với CDC, họ có
thể nói điều đó gần như trong thời gian thực, chứ không phải trễ
một hoặc hai tuần.
Do vậy, khi dịch bệnh H1N1 tấn công vào năm 2009, hệ thống
của Google đã chứng tỏ là một chỉ báo có ích hơn và nhanh hơn
so với các số liệu thống kê của chính phủ thường chậm trễ. Các
quan chức y tế đã được trang bị những thông tin có giá trị.
Điều gây ấn tượng là phương pháp của Google không liên quan gì
đến việc phân phối gạc miệng hoặc liên hệ với các phòng khám.
Thay vào đó, nó được xây dựng trên “dữ liệu lớn” - khả năng của
xã hội khai thác thông tin theo những cách thức mới để đưa ra
những kiến thức hữu ích hay những sản phẩm và dịch vụ có giá
trị đáng kể. Với nó, khi đại dịch kế tiếp xảy ra, thế giới sẽ có sẵn
một công cụ tốt hơn để dự đoán và do đó ngăn chặn sự lây lan.
Phim minh họa phương pháp của Google
Y tế công chỉ là một lĩnh vực trong đó dữ liệu lớn đang làm nên
một sự khác biệt vĩ đại. Nhiều lĩnh vực khác cũng đang được
định hình lại bởi dữ liệu lớn. Dịch vụ mua vé máy bay là một thí
dụ.
Năm 2003, Oren Etzioni cần bay từ Seattle tới Los Angeles để dự
lễ cưới em trai của ông. Nhiều tháng trước đó, ông lên mạng và
mua một vé máy bay, tin rằng càng mua sớm, vé càng rẻ. Trên
chuyến bay, do tò mò, Etzioni hỏi người ngồi kế bên xem giá vé
của ông ta là bao nhiêu và ông ta mua khi nào. Hóa ra ông ta trả
thấp hơn nhiều so với Etzioni, mà thậm chí ông ta mới chỉ mua
vé gần đây. Khá tức giận, Etzioni hỏi một hành khách khác và
một hành khách khác nữa. Hầu hết họ đã trả ít tiền hơn.
Với hầu hết chúng ta, ý nghĩa của cảm giác bị lừa có thể đã tiêu
tan khi chúng ta gấp khay bàn ăn trước mặt, dựng thẳng ghế và
khóa thắt lưng an toàn. Nhưng Etzioni là một trong những nhà
khoa học máy tính hàng đầu của Mỹ. Ông nhìn thế giới như một
chuỗi các bài toán dữ-liệu-lớn có thể giải được. Và ông đang làm
chủ chúng từ khi là người đầu tiên tốt nghiệp Đại học Harvard về
chuyên ngành khoa học máy tính vào năm 1986.
Từ căn phòng của mình tại Đại học Washington, ông đã khỏi
xướng những công ty dữ-liệu-lớn trước khi thuật ngữ “dữ liệu
lớn” được biết tới. Ông đã giúp phát triển một trong những công
cụ tìm kiếm Web đầu tiên, MetaCrawler, được đưa ra sử dụng
vào năm 1994 rồi sau được bán cho InfoSpace, lúc đó là một công
ty bất động sản trực tuyến lớn. Ông đã đồng sáng lập Netbot,
trang web mua hàng so sánh lớn đầu tiên, sau đó bán nó cho
Excite. Ông khởi động công ty làm công cụ trích ý nghĩa từ các
văn bản, gọi là ClearForest, sau này được Reuters mua lại.
Trở lại câu chuyện chính, Etzioni quyết tìm ra cách để có thể biết
liệu một giá vé ta thấy trên mạng có phải là một giá tốt hay
không. Một chỗ ngồi trên máy bay là một thương phẩm: mỗi chỗ
về cơ bản là hoàn toàn giống với những chỗ khác trên cùng
chuyến bay. Nhưng giá lại rất khác nhau, dựa trên vô số yếu tố
mà chủ yếu chỉ chính các hãng bay mới biết.
Etzioni đi đến kết luận ông không cần giải mã ý nghĩa hay
nguyên nhân giá cả khác nhau. Thay vào đó, ông đơn giản phải
dự đoán liệu giá được báo có khả năng tăng hay giảm trong
tương lai. Điều này là khả thi, nếu không nói là dễ. Những gì cần
thiết là phân tích tất cả các vé bán cho một tuyến đường và khảo
sát các giá phải trả tương quan với số ngày mua trước lúc khởi
hành.
Nếu giá trung bình của vé có xu hướng giảm, thì rất nên đợi để
mua sau. Nếu giá trung bình có xu hướng tăng, hệ thống sẽ
khuyến cáo mua vé ngay với giá được báo. Nói cách khác, thứ
cần thiết là một dạng cải tiến của cuộc điều tra thông tin Etzioni
đã thực hiện trên tầng cao 30.000 feet. Chắc chắn đó là một bài
toán lớn khác của khoa học máy tính. Nhưng, đó là một bài toán
ông có thể giải được. Do vậy Etzioni đã bắt tay vào công việc.
Sử dụng một mẫu gồm 12.000 lượt thống kê giá vé qua “thu
lượm” thông tin trong 41 ngày từ một trang web du lịch, Etzioni
đã tạo được một mô hình dự báo giúp hành khách tiết kiệm chi
phí. Mô hình không có hiểu biết về câu hỏi tại sao, mà chỉ biết về
câu hỏi cái gì. Nó không biết bất kỳ tham biến nào tham gia vào
những quyết định về giá của các hãng hàng không, chẳng hạn số
chỗ ngồi còn chưa bán được, mùa vụ, hay một loại thu xếp lưu
trú qua đêm thứ Bảy có thể làm giảm giá vé. Hệ thống dự đoán
dựa vào những gì đã biết: xác suất có được từ những chuyến bay
khác. “Mua hay không mua, đó là câu hỏi”, Etzioni ngẫm nghĩ.
Thế nên ông đặt tên rất thích hợp cho dự án là Hamlet.
Dự án nhỏ đã phát triển thành một doanh nghiệp khởi động
được hỗ trợ bằng vốn mạo hiểm mang tên Farecast. Bằng cách dự
báo giá của một vé máy bay rất có thể tăng hoặc giảm, và tăng
hoặc giảm bao nhiêu, Farecast trao quyền cho người tiêu dùng
lựa chọn khi nào thì nhấp vào nút “mua”. Nó trang bị cho họ
thông tin mà trước đây họ chưa bao giờ truy cập được. Đề cao
tính tự minh bạch, Farecast cho điểm độ tin cậy đối với dự báo
của chính nó và cũng thông báo số điểm này cho người sử dụng.
Để hoạt động, hệ thống cần rất nhiều dữ liệu. Nhằm cải thiện
hiệu suất của hệ thống, Etzioni đã nhúng tay vào một trong các
cơ sở dữ liệu đăng ký chỗ của ngành hàng không. Với thông tin
này, hệ thống có thể đưa ra các dự báo dựa vào từng chỗ ngồi
trên từng chuyến bay cho hầu hết các tuyến bay của hàng không
thương mại Mỹ trong một năm. Farecast xử lý gần 200 tỷ bản ghi
giá vé máy bay để đưa ra các dự báo của nó. Làm như vậy,
Farecast đã tiết kiệm được cho người tiêu dùng bộn tiền.
Với mái tóc màu nâu cát, nụ cười chân thành, và nét đẹp hiền
hậu, Etzinoni hầu như không có vẻ là loại người có thể phủ nhận
hàng triệu đôla doanh thu tiềm năng của ngành hàng không.
Trong thực tế, ông đặt tầm ngắm của mình còn xa hơn thế. Năm
2008 ông đặt kế hoạch áp dụng phương pháp này cho các sản
phẩm khác như phòng khách sạn, vé nghe hòa nhạc, và xe hơi
cũ: tất cả mọi thứ với sự khác biệt rất ít về sản phẩm, có độ biến
động giá cả cao, và có rất nhiều dữ liệu. Nhưng trước khi ông có
thể triển khai được các kế hoạch của mình, Microsoft đã tới gõ
cửa, mua Farecast với khoảng $110 triệu, và tích hợp nó vào
công cụ tìm kiếm Bing. Tới năm 2012 hệ thống đã khuyến cáo
đúng tới 75% và tiết kiệm cho hành khách trung bình $50 mỗi
vé.
Farecast là hình ảnh thu nhỏ của một công ty dữ-liệu-lớn và một
thí dụ cho thấy thế giới hướng tới đâu. Etzioni không thể thiết
lập công ty năm hoặc mười năm sớm hơn. “Đó là điều bất khả”,
ông nói. Lượng sức mạnh tính toán và lưu trữ cần thiết đã là quá
lớn. Nhưng, mặc dù những thay đổi về công nghệ là yếu tố quan
trọng giúp cho nó trở thành khả thi, một số điều quan trọng hơn
cũng thay đổi - những điều tinh tế. Đã có sự thay đổi trong suy
nghĩ về việc dữ liệu có thể được sử dụng như thế nào.
Dữ liệu không còn được xem là tĩnh hoặc cũ, tính hữu ích của dữ
liệu kết thúc một khi mục tiêu mà vì nó dữ liệu được thu thập đã
đạt được, chẳng hạn sau khi máy bay đã hạ cánh (hoặc trong
trường hợp của Google, khi một câu hỏi tìm kiếm đã được xử lý).
Thay vào đó, dữ liệu trở thành một nguyên liệu thô của doanh
nghiệp, một đầu vào kinh tế quan trọng, được sử dụng để tạo ra
một dạng mới của giá trị kinh tế. Thực tế, với suy nghĩ đúng đắn,
dữ liệu có thể được dùng lại một cách thông minh để trở thành
một suối nguồn của thông tin và những dịch vụ mới. Dữ liệu có
thể tiết lộ bí mật cho những ai có sự khiêm nhường, sự sẵn lòng
và công cụ để lắng nghe.
Hãy để cho dữ liệu nói
Thật dễ nhận thấy những thành quả của xã hội thông tin, với
một điện thoại di động và một máy tính bỏ túi mỗi người, cùng
các hệ thống công nghệ thông tin lớn trong văn phòng khắp mọi
nơi. Nhưng điều người ta ít thấy rõ hơn là chính thông tin.
Một nửa thế kỷ sau khi máy tính bước vào xã hội chính thống, dữ
liệu bắt đầu được tích lũy nhiều tới mức mà một điều gì đó mới
mẻ và đặc biệt sắp xảy ra. Không những thế giới tràn ngập thông
tin nhiều hơn bao giờ hết, mà thông tin còn tăng nhanh hơn. Sự
thay đổi về quy mô đã dẫn đến một sự thay đổi về trạng thái.
Thay đổi về lượng đã dẫn tới thay đổi về chất. Các khoa học như
thiên văn, gen, mới được trải nghiệm sự bùng nổ trong những
năm 2000, đã đưa ra thuật ngữ “dữ liệu lớn”, khái niệm mà nay
đã di trú vào tất cả các lĩnh vực của đời sống con người.
Không có một định nghĩa chính xác cho dữ liệu lớn. Ban đầu ý
tưởng là dung lượng thông tin đã tăng quá lớn tới mức số lượng
cần khảo sát không còn vừa vào bộ nhớ các máy tính dùng để xử
lý, do vậy các kỹ sư cần cải tạo các công cụ họ dùng để có thể
phân tích được tất cả thông tin. Đó là xuất xứ của các công nghệ
xử lý mới như MapReduce của Google và nguồn mở tương đương
của nó, Hadoop, khởi đầu từ Yahoo. Những công nghệ này cho
phép ta quản lý những khối lượng dữ liệu lớn hơn nhiều so với
trước đây, và quan trọng là không cần đưa dữ liệu vào các hàng
ngăn nắp hoặc các bảng cơ sở dữ liệu cổ điển. Các công nghệ
nghiền dữ liệu khác, bỏ qua các cấu trúc phân cấp và đồng nhất
cứng nhắc cổ điển, cũng ở trong tầm ngắm. Đồng thời, do các
công ty Internet có thể thu thập được vô số dữ liệu quý giá và có
động cơ kinh tế lớn để khai thác chúng, nên các công ty này trở
thành người sử dụng hàng đầu của các công nghệ xử lý hiện đại
nhất, vượt qua các công ty truyền thống, đôi khi có tới hàng chục
năm kinh nghiệm nhiều hơn.
Một cách để suy nghĩ về vấn đề ngày hôm nay - và cũng là cách
chúng tôi thực hiện trong cuốn sách này - là: dữ liệu lớn đề cập
tới những thứ người ta có thể làm với một quy mô lớn mà không
thể làm với một quy mô nhỏ hơn, để trích xuất những hiểu biết
mới hoặc tạo ra những dạng giá trị mới, theo những cách thức có
thể làm thay đổi các thị trường, các tổ chức, mối quan hệ giữa
các công dân và các chính phủ, và hơn thế nữa.
Nhưng đó chỉ là bước khởi đầu. Thời đại của dữ liệu lớn thách
thức cách chúng ta sống và tương tác với thế giới. Nổi bật nhất,
xã hội sẽ phải cắt giảm một số nỗi ám ảnh của nó về quan hệ
nhân quả để đổi lấy mối tương quan đơn giản, không biết tại sao
mà chỉ biết cái gì. Điều đó làm đổ vỡ hàng thế kỷ các tập quán đã
được thiết lập và thách thức hiểu biết cơ bản nhất của chúng ta
về việc làm thế nào để đưa ra được quyết định và hiểu được thực
tế.
Dữ liệu lớn đánh dấu bước khởi đầu của một biến đổi lớn. Giống
như nhiều công nghệ mới, dữ liệu lớn chắc chắn sẽ trở thành nạn
nhân của chu kỳ thổi phồng khét tiếng của Thung Lũng Silicon:
sau khi được tiếp đón trên trang đầu của các tạp chí và tại các hội
nghị công nghiệp, xu hướng này sẽ bị ruồng bỏ và rất nhiều công
ty khởi động say mê dữ liệu sẽ bị lúng túng. Nhưng cả thái độ say
mê và nguyền rủa đều hiểu lầm một cách khá sâu tầm quan
trọng của những gì đang xảy ra. Đúng như kính thiên văn tạo
điều kiện cho chúng ta hiểu biết được vũ trụ và kính hiển vi cho
phép chúng ta hiểu biết được vi trùng, các kỹ thuật mới để thu
thập và phân tích những tập hợp lớn dữ liệu sẽ giúp chúng ta tìm
ra ý nghĩa của thế giới theo những cách thức mà chúng ta mới
chỉ vừa bắt đầu ưa thích. Trong cuốn sách này, chúng tôi không
hẳn là những kẻ truyền giáo của dữ liệu lớn mà chỉ là những
người đưa tin. Và, một lần nữa xin nhấn mạnh, cuộc cách mạng
thật sự không phải ở những chiếc máy tính toán dữ liệu mà ở
chính dữ liệu và cách ta sử dụng chúng.
Để đánh giá mức độ một cuộc cách mạng thông tin đã tiến triển
tới đâu, ta hãy xem xét các xu hướng xuyên suốt các lĩnh vực của
xã hội. Lấy ví dụ thiên văn học. Khi Sloan Digital Sky Survey
(SDSS - Trạm quan sát bầu trời bằng kỹ thuật số Sloan) bắt đầu
hoạt động vào năm 2000, kính thiên văn của nó tại New Mexico
trong mấy tuần đầu tiên đã thu thập nhiều dữ liệu hơn những gì
được thu thập trong toàn bộ lịch sử của ngành thiên văn. Đến
năm 2010, lưu trữ của trạm đã bạt ngàn với con số khổng lồ 140
tera (10 mũ 12) byte thông tin. Nhưng kẻ kế nhiệm, kính thiên
văn của Large Synoptic Survey (LSST) ở Chile, dự kiến vận hành
vào năm 2016, cứ mỗi năm ngày sẽ thu thập được lượng dữ liệu
tương đương như thế.
Những số lượng vô cùng to lớn như vậy cũng có thể được tìm
thấy ngay xung quanh chúng ta. Khi các nhà khoa học lần đầu
giải mã gen người vào năm 2003, họ đã mất một thập kỷ làm
việc miệt mài để xác định trình tự cho ba tỷ cặp cơ sở. Bây giờ,
sau một thập kỷ, một thiết bị đơn lẻ cũng có thể xác định trình tự
cho số lượng DNA như vậy chỉ trong một ngày. Trong ngành tài
chính, khoảng 7 tỷ cổ phiếu được mua bán mỗi ngày trên các thị
trường chứng khoán Mỹ, trong số đó khoảng hai phần ba được
giao dịch bằng các thuật toán máy tính dựa trên các mô hình
toán học xử lý hàng núi dữ liệu để dự đoán lợi nhuận trong khi
cố gắng giảm thiểu rủi ro.
Các công ty Internet đặc biệt bị tràn ngập. Google xử lý hơn 24
peta (10 mũ 15) byte dữ liệu mỗi ngày, một khối lượng gấp hàng
ngàn lần tất cả các ấn phẩm trong Thư viện Quốc hội Mỹ.
Facebook, một công ty không hề tồn tại một thập kỷ trước, nhận
hơn 10 triệu ảnh mới được tải lên mỗi giờ. Các thành viên
Facebook nhấp nút “like” hoặc gửi lời bình luận gần ba tỷ lần mỗi
ngày, tạo một dấu vết số để công ty có thể “đào xới” nhằm biết
được các sở thích của người sử dụng. Trong khi đó, 800 triệu
người sử dụng dịch vụ Youtube của Google tải lên hơn một giờ
video mỗi giây. Thành viên của mạng Twitter tăng khoảng 200
phần trăm mỗi năm và đến năm 2012 đã có hơn 400 triệu tweet
mỗi ngày.
Từ khoa học tới y tế, từ ngân hàng tới Internet, các lĩnh vực có
thể khác nhau, nhưng cùng nhau chúng đều có một câu chuyện
tương tự: số lượng dữ liệu trong thế giới đang tăng rất nhanh,
vượt sức không chỉ những chiếc máy tính mà cả trí tưởng tượng
của chúng ta.
Nhiều người đã thử đưa ra một con số thực tế về lượng thông tin
xung quanh chúng ta và tính toán xem nó tăng như thế nào. Họ
đã có những mức độ thành công khác nhau bởi họ đo lường
những thứ khác nhau.. Một trong những nghiên cứu toàn diện
hơn được Martin Hilbert của Trường Truyền thông và Báo chí
Annenberg thuộc Đại học Nam California thực hiện. Ông đã nỗ
lực đưa ra một con số cho mọi thứ đã từng được sản xuất, lưu trữ
và truyền tải. Chúng không chỉ bao gồm sách, tranh, email, ảnh,
nhạc, và phim (cả dạng analog và digital), mà còn có trò chơi
điện tử, cuộc gọi điện thoại, thậm chí các hệ thống điều hướng xe
và thư gửi qua bưu điện. Ông cũng bao gồm các phương tiện
truyền thông phát sóng như truyền hình và radio, dựa trên tiếp
cận khán giả.
Theo ước lượng của Hilbert, hơn 300 exa (10 mũ 18) byte dữ liệu
lưu trữ đã tồn tại vào năm 2007. Để dễ hình dung ý nghĩa của nó,
thử nghĩ thế này. Một bộ phim dài ở dạng kỹ thuật số có thể được
nén vào một tập tin 1 giga byte. Một exa byte là 1 tỷ gi ga byte.
Tóm lại là vô cùng nhiều. Điều thú vị là năm 2007 chỉ khoảng 7
phần trăm dữ liệu ở dạng analog (giấy, sách, ảnh in, vân vân).
Phần còn lại là ở dạng digital - kỹ thuật số. Nhưng mới gần đây,
bức tranh đã rất khác. Mặc dù những ý tưởng của cuộc “cách
mạng thông tin” và “thời đại kỹ thuật số” đã xuất hiện từ những
năm 1960, chúng mới chỉ trở thành hiện thực ở vài khía cạnh.
Tới tận năm 2000, mới chỉ có một phần tư thông tin lưu trữ của
thế giới được số hóa. Ba phần tư còn lại vẫn ở trên giấy, phim, đĩa
nhựa, băng từ, và những thứ tương tự.
Lượng thông tin kỹ thuật số lúc đó chưa nhiều - một điều thật
kém cỏi với những ai lướt mạng và mua sách trực tuyến suốt
thời gian dài. (Thực tế, vào năm 1986, khoảng 40 phần trăm sức
mạnh tính toán thông dụng của thế giới là ở dạng những chiếc
máy tính bỏ túi, lớn hơn sức mạnh của tất cả các máy tính cá
nhân tại thời điểm đó.) Nhưng vì dữ liệu kỹ thuật số phát triển
rất nhanh - cứ hơn ba năm lại tăng gấp đôi, theo Hilbert - nên
tình hình đã nhanh chóng tự đảo ngược. Thông tin analog,
ngược lại, không hề tăng. Do vậy vào năm 2013 lượng thông tin
lưu trữ trong thế giới ước lượng khoảng 1.200 exa byte, trong đó
chưa đến 2 phần trăm là phi kỹ thuật số.
Chẳng có cách nào phù hợp để hình dung kích thước như vậy của
dữ liệu là có ý nghĩa gì. Nếu tất cả được in thành sách, chúng có
thể phủ kín bề mặt của nước Mỹ với chiều dày 52 lớp. Nếu được
ghi vào CD-ROM và xếp chồng lên nhau, chúng có thể tạo thành
5 cột vươn cao tới mặt trăng. Vào thế kỷ thứ ba trước Công
nguyên, khi Ptolemy II của Ai Cập cố gắng lưu trữ một bản của
mỗi tác phẩm từng được viết ra, Thư viện lớn của Alexandria đã
tượng trưng cho toàn bộ tri thức của thế giới. Trận lũ lớn kỹ
thuật số hiện đang quét qua trái đất tương đương với việc cung
cấp cho mỗi người sống trên trái đất hôm nay 320 lần nhiều hơn
thông tin như ước lượng đã được lưu trữ ở Thư viện Alexandria.
Mọi thứ thật sự được tăng tốc. Lượng thông tin lưu trữ tăng
nhanh hơn gấp bốn lần so với kinh tế thế giới, trong khi sức
mạnh xử lý của máy tính tăng nhanh hơn gấp chín lần. Không
ngạc nhiên khi người ta than phiền tình trạng quá tải thông tin.
Ai cũng bị tác động bởi những thay đổi này.
Hãy nhìn một cách dài hạn, bằng cách so sánh trận lũ dữ liệu
hiện tại với cuộc cách mạng thông tin trước đây, cách mạng in
sách của Gutenberg được phát minh khoảng năm 1439. Trong
năm mươi năm từ 1453 tới 1503 khoảng 8 triệu cuốn sách đã
được in, theo nhà sử học Elizabeth Eisenstein. số lượng đó được
xem là nhiều hơn tất cả những gì các thầy thông giáo đã chép ra
kể từ lúc thiết lập nên Constantinople khoảng 1.200 năm trước.
Nói cách khác, phải mất năm mươi năm để khối lượng thông tin
tăng gấp đôi ở Âu châu, so với khoảng mỗi ba năm hiện nay.
Sự tăng trưởng này có ý nghĩa gì? Peter Norvig, một chuyên gia
trí tuệ nhân tạo tại Google, thích nghĩ về nó với một sự tương tự
về hình ảnh. Ông yêu cầu chúng tôi trước hết xem xét con ngựa
mang tính biểu tượng từ các hình vẽ hang động ở Lascaux, Pháp,
từ thời Paleolithic khoảng 17 ngàn năm trước. Sau đó nghĩ tới
một bức ảnh của một con ngựa - hoặc tốt hơn là những phác họa
của Pablo Picasso, trông không khác mấy các hình vẽ hang động.
Thực tế, khi Picasso được cho xem các hình vẽ Lascaux, từ thời
đó ông đã hài hước rằng: “Chúng ta đã không phát minh ra được
thứ gì cả”.
Những lời của Picasso đúng ở một mức độ, nhưng không đúng ở
một mức độ khác. Hãy nhớ lại bức ảnh chụp con ngựa. Trong khi
phải mất nhiều thời gian để vẽ hình một con ngựa, bây giờ sự
miêu tả một con ngựa có thể được thực hiện nhanh hơn nhiều
với nhiếp ảnh. Đó là sự thay đổi, nhưng có thể đó không phải là
thứ quan trọng nhất, bởi về cơ bản nó vẫn thế: hình ảnh của một
con ngựa. Nhưng bây giờ, Norvig yêu cầu thu hình của một con
ngựa và tăng tốc độ lên tới 24 khung hình mỗi giây. Sự thay đổi
lượng đã tạo ra một thay đổi chất. Một bộ phim khác một cách cơ
bản với một bức ảnh tĩnh. Với dữ liệu lớn cũng vậy: bằng cách
thay đổi số lượng, chúng ta thay đổi bản chất.
Hãy xét một sự tương tự từ công nghệ nano - nơi mà mọi thứ trở
nên nhỏ đi, chứ không lớn lên. Nguyên lý phía sau của công nghệ
nano là khi đạt tới mức phân tử, các tính chất vật lý có thể thay
đổi. Hiểu biết những đặc tính mới này có nghĩa là ta có thể sắp
đặt để vật chất làm những thứ mà trước đây không thể làm được.
Thí dụ, tại quy mô nano, kim loại có thể mềm dẻo hơn và gốm sứ
có thể căng ra được. Ngược lại, khi tăng quy mô của dữ liệu,
chúng ta có thể thực hiên được những thứ mới mà không thể nào
thực hiện được khi chỉ làm việc với những số lượng nhỏ hơn.
Đôi khi những khó khăn mà chúng ta đang sống cùng thực ra chỉ
là những chức năng của quy mô mà chúng ta hoạt động trong
đó, và điều này cũng tương tự cho tất cả mọi thứ. Hãy xét một sự
tương tự thứ ba, lại cũng từ các ngành khoa học. Đối với con
người, định luật vật lý quan trọng nhất là lực hấp dẫn: nó ngự trị
trên tất cả những gì chúng ta làm. Nhưng đối với những côn
trùng nhỏ xíu, trọng lực hầu như vô nghĩa. Đối với một số loài
như nhện nước, định luật vật lý có tác động với chúng chính là
sức căng bề mặt, cho phép chúng đi qua một cái ao mà không
chìm xuống.
Với thông tin, cũng như với vật lý, kích thước là quan trọng. Do
đó, Google có thể xác định được sự lây lan của bệnh cúm chính
xác như các dữ liệu chính thức dựa trên việc bệnh nhân thực sự
tới gặp bác sĩ. Google có thể làm điều này bằng cách kết hợp hàng
trăm tỷ từ khóa tìm kiếm - và nó có thể đưa ra một câu trả lời gần
như trong thời gian thực, nhanh hơn nhiều các nguồn chính
thức. Tương tự như vậy, Farecast của Etzioni có thể dự đoán sự
biến động giá của một chiếc vé máy bay và do đó chuyển quyền
lực kinh tế đáng kể vào tay người tiêu dùng. Nhưng cả hai chỉ có
thể làm tốt như vậy bằng cách phân tích hàng trăm tỷ điểm dữ
liệu.
Hai ví dụ trên cho thấy tầm quan trọng về khoa học và xã hội của
dữ liệu lớn cũng như mức độ mà dữ liệu lớn có thể trở thành một
nguồn giá trị kinh tế. Chúng đánh dấu hai cách thức mà thế giới
dữ liệu lớn đã sẵn sàng để cải tổ tất cả mọi thứ, từ các doanh
nghiệp và các ngành khoa học tới chăm sóc sức khỏe, chính phủ,
giáo dục, kinh tế, nhân văn, và mọi khía cạnh khác của xã hội.
Mặc dù mới chỉ đang ở buổi bình minh của dữ liệu lớn, chúng ta
dựa vào nó hàng ngày. Bộ lọc thu rác được thiết kế để tự động
thích ứng khi các loại email rác thay đổi: phần mềm không thể
được lập trình để biết ngăn chặn “via6ra” hoặc vô số các biến thể
của nó. Các trang web hẹn hò ghép các cặp trên cơ sở các thuộc
tính tương quan thế nào với những cặp đã được ghép thành công
trước đó. Tính năng “tự động sửa lỗi” trong điện thoại thông
minh theo dấu các thao tác của chúng ta và bổ sung thêm những
từ mới vào từ điển chính tả của nó dựa trên những gì chúng ta
nhập vào. Tuy nhiên, những ứng dụng này mới chỉ là sự bắt đầu.
Từ những chiếc xe hơi có thể phát hiện khi nào cần đi hướng
khác hoặc phanh, đến máy tính Watson của IBM đánh bại con
người trong trò chơi truyền hình Jeopardy!, cách tiếp cận này sẽ
cải tạo nhiều khía cạnh của thế giới chúng ta đang sống.
Tại cốt lõi của nó, dữ liệu lớn là về các dự đoán. Mặc dù nó được
mô tả như một phần của ngành khoa học máy tính được gọi là trí
tuệ nhân tạo, và cụ thể hơn, một lĩnh vực được gọi là học qua
máy, việc đặc trưng hóa này gây nhầm lẫn. Dữ liệu lớn không
phải là về việc cố gắng “dạy” một máy tính “nghĩ” giống như con
người. Thay vào đó, nó là về việc áp dụng toán học với số lượng
lớn dữ liệu để suy ra xác suất: khả năng một email là thư rác; các
ký tự gõ “teh” đáng lẽ phải là “the”; quỹ đạo và vận tốc của một
người lái xe cho phép anh ta qua được phố đúng thời gian. Điều
quan trọng là các hệ thống này thao tác tốt bởi chúng được nạp
với rất nhiều dữ liệu để làm cơ sở cho các dự đoán của chúng.
Hơn nữa, hệ thống được thiết kế để tự cải thiện theo thời gian,
bằng cách giữ một nhãn (tab) về các tín hiệu và mẫu tốt nhất để
tìm kiếm khi có thêm dữ liệu được đua vào.
Trong tương lai - và có thể sớm hơn chúng ta nghĩ - nhiều khía
cạnh của cuộc sống sẽ được tăng cường hoặc thay thế bằng
- Xem thêm -