Mỗi lượt xem trên Netflix, mỗi lượt tương tác trên một website thương mại điện tử, mỗi tin nhắn khách hàng đều để lại một dấu vết dữ liệu. Khi gộp lại, lượng dữ liệu này lớn tới mức các công cụ truyền thống như Excel hay một cơ sở dữ liệu thông thường không còn xử lý được. Đó chính là lúc người ta nói đến Big Data.
Bài viết này làm rõ Big Data thực sự được định nghĩa bằng gì. Quan trọng hơn, nó chỉ ra đâu mới là yếu tố quyết định khoản đầu tư dữ liệu có sinh ra giá trị.
Contents

Big Data (dữ liệu lớn) là các tập dữ liệu có quy mô và mức độ đa dạng vượt khả năng lưu trữ, xử lý của các công cụ truyền thống. Khi đối mặt với khối dữ liệu này, Excel không mở nổi tệp, một cơ sở dữ liệu đơn lẻ không đủ sức truy vấn, và hệ thống báo cáo cũ rơi vào tình trạng quá tải.
Vì vậy, điểm mấu chốt là Big Data không được định nghĩa bằng một con số GB cố định, mà bằng một điểm gãy hệ thống: đó là thời điểm cách làm cũ không còn đáp ứng được lượng thông tin mới, dù khối lượng là 500GB hay 50TB. Trên thực tế, điểm gãy này thường lộ ra khi lượng người dùng tăng vọt trong thời gian ngắn.
Về mặt lý thuyết, khung khái niệm cho Big Data là mô hình 3V, do Doug Laney nêu trong một báo cáo của META Group năm 2001 (Gartner). Đây cũng là khung mà chúng ta sẽ phân tích kỹ hơn ở phần tiếp theo.
Khi tìm hiểu, bạn sẽ bắt gặp tài liệu trình bày theo 3V, tài liệu khác theo 5V, thậm chí có nguồn mở rộng tới 7V. Đây không phải các định nghĩa mâu thuẫn nhau, mà là một bộ khung gốc được bổ sung dần các yếu tố theo thời gian, khi yêu cầu phân tích ngày càng cao. Nắm được trình tự này giúp bạn tránh nhầm lẫn khi đối chiếu giữa các tài liệu khác nhau.
Ba chữ V gốc mô tả ba sức ép kỹ thuật mà dữ liệu lớn đặt lên hệ thống:
Ba sức ép này lý giải vì sao công cụ truyền thống không còn đáp ứng được. Tuy nhiên, chúng mới chỉ mô tả vấn đề kỹ thuật, chưa nói tới mục đích kinh doanh.
Sau giai đoạn bùng nổ, các kỹ sư nhận ra rằng 3V vẫn chưa đủ. Do đó, Veracity (độ tin cậy) được bổ sung: dữ liệu thô có thể nhiễu, sai lệch hoặc trùng lặp, nên hệ thống phải làm sạch trước khi con người có thể tin tưởng. Nếu bỏ qua khâu này, dữ liệu rác sẽ dẫn tới quyết định sai và tổn thất tài chính.
Tuy nhiên, quan trọng nhất vẫn là Value (giá trị). Một tập dữ liệu khổng lồ trở nên vô nghĩa nếu không rút ra được insight, bởi đích đến của hệ thống là giá trị chứ không phải kích thước lưu trữ. Mục tiêu của doanh nghiệp là tối ưu chi phí và tăng doanh thu, nên mọi dự án phân tích đều phải phục vụ mục tiêu thương mại này.
Ngoài ra, một số chữ V khác như Variability hay Visualization cũng được bổ sung về sau, nhưng mang tính mở rộng nhiều hơn là bắt buộc. Vì vậy, người làm quản lý không cần ghi nhớ toàn bộ, mà chỉ cần nắm hai trụ cột: 3V để hiểu bản chất kỹ thuật, và Value để hiểu mục đích kinh doanh. Phần còn lại nên dành cho đội ngũ kỹ thuật.
Bảng dưới tóm tắt các chữ V cốt lõi theo định nghĩa và lý do quan trọng:
|
Tên V |
Định nghĩa tóm tắt |
Vì sao yếu tố này quan trọng |
|
Volume |
Khối lượng dữ liệu rất lớn. |
Buộc doanh nghiệp thay đổi cách lưu trữ truyền thống. |
|
Velocity |
Tốc độ sinh và xử lý dữ liệu tức thời. |
Quyết định khả năng phản ứng nhanh với thị trường. |
|
Variety |
Sự đa dạng về định dạng của dữ liệu. |
Đòi hỏi hệ thống phân tích linh hoạt hơn. |
|
Veracity |
Độ tin cậy và độ chính xác của thông tin. |
Đảm bảo kết quả báo cáo không bị sai lệch. |
|
Value |
Giá trị kinh doanh trích xuất từ dữ liệu. |
Là lý do quan trọng nhất để đầu tư hệ thống. |
Dữ liệu trong Big Data chia thành ba nhóm theo mức độ cấu trúc:
Điều này liên hệ trực tiếp với đặc tính Variety ở trên: chính vì kho lưu trữ phải xử lý đồng thời cả ba loại dữ liệu, công cụ bảng tính truyền thống không thể đáp ứng. Từ đây, câu hỏi tiếp theo là một hệ thống dữ liệu lớn thực sự vận hành ra sao.

Một hệ thống dữ liệu lớn vận hành qua bốn bước, chia bài toán thành các khối dễ kiểm soát. Các giám đốc kỹ thuật xây kiến trúc dựa trên luồng chuẩn này.
Bốn bước từ dữ liệu thô tới quyết định bao gồm:
Trong bốn bước trên, khâu lưu trữ và xử lý mới là nơi đòi hỏi công nghệ mạnh, điển hình như các nền tảng xử lý song song. Đó cũng là nhóm công nghệ chúng ta sẽ tìm hiểu ngay sau đây.

Mỗi công cụ Big Data được sinh ra để giải một bài toán cụ thể, và điều người lãnh đạo cần nắm là công cụ nào phù hợp với nhu cầu nào. Phần này tập trung vào công năng cơ bản, không đi sâu vào khía cạnh lập trình.
Dưới đây là 5 nhóm công cụ chính và bài toán mỗi nhóm giải quyết:
Từ kinh nghiệm thực tế, chúng tôi nhận thấy phần lớn doanh nghiệp mắc sai lầm ngay ở bước lựa chọn công cụ, khi quyết định công nghệ trước cả khi xác định rõ bài toán. Bản thân Hadoop hay Spark không tự nó tạo ra giá trị. Vì vậy, doanh nghiệp nên xuất phát từ câu hỏi cần dữ liệu trả lời, sau đó mới lựa chọn công cụ tương ứng, thay vì làm ngược lại.
Bốn khái niệm này đứng ở các vị trí khác nhau trong chuỗi giá trị dữ liệu, cụ thể như sau:
Một ẩn dụ giúp ghi nhớ dễ hơn là hãy hình dung Big Data như kho nguyên liệu của nhà hàng, analytics và data mining như người đầu bếp, còn AI như công thức tự học để nấu ngon hơn sau mỗi lần.
Để dễ đối chiếu khi cần, bảng dưới đây tóm tắt bốn khái niệm theo định nghĩa, vai trò cốt lõi và một ví dụ minh họa:
|
Khái niệm |
Định nghĩa cơ bản |
Vai trò cốt lõi |
Ví dụ minh họa |
|
Big Data |
Kho chứa lượng dữ liệu lớn. |
Cung cấp tài nguyên thô đầu vào. |
Lịch sử tương tác khách hàng trên nền tảng Chatty. |
|
Data Analytics |
Quá trình phân tích tập dữ liệu. |
Hỗ trợ nhà quản lý đưa ra quyết định. |
Báo cáo tỷ lệ giữ chân khách hàng theo tháng. |
|
Data Mining |
Kỹ thuật tìm mẫu hình ẩn sâu. |
Phát hiện mối liên kết không rõ ràng. |
Tìm quy luật khách hàng thường mua kèm mã giảm giá. |
|
AI |
Hệ thống tự học từ dữ liệu. |
Tự đưa ra dự đoán và hành động. |
Thuật toán tự động phản hồi yêu cầu hỗ trợ. |
Có nhiều dữ liệu chưa phải là lợi ích. Lợi ích lớn nhất của Big Data đến từ khả năng biến dữ liệu thành quyết định và hành động cụ thể. Giá trị đó thể hiện rõ nhất ở bốn nhóm sau:
Cả bốn nhóm lợi ích trên đều quy về một điểm: dữ liệu chỉ tạo ra giá trị khi được biến thành hành động. Đây cũng chính là yếu tố Value đã nêu ở phần đặc trưng. Ở phần tiếp theo, chúng ta sẽ cụ thể hóa giá trị đó theo từng ngành.

Mỗi ngành khai thác Big Data theo một bài toán riêng. Dưới đây là cách sáu lĩnh vực chính biến dữ liệu thành kết quả cụ thể:
Ứng dụng càng rộng, kỳ vọng đặt vào hệ thống càng cao. Tuy nhiên, việc triển khai Big Data đi kèm những rào cản thực tế mà người quản lý cần cân nhắc trước khi quyết định.
Khó khăn lớn nhất khi làm Big Data hiếm khi đến từ phần cứng. Nó nằm ở chỗ biến dữ liệu thành quyết định đúng, một việc khó hơn nhiều so với việc dựng hạ tầng. Dù vậy, vẫn có bốn rào cản cụ thể mà doanh nghiệp cần chuẩn bị trước:
Trong bốn rào cản trên, chất lượng dữ liệu là thứ dễ bị xem nhẹ nhưng lại gây hại âm thầm nhất. Hạ tầng có thể mua, nhân lực có thể thuê, nhưng một nền dữ liệu bẩn sẽ làm sai lệch mọi phân tích phía sau, dù công nghệ có hiện đại đến đâu. Đó cũng là bài toán mà các xu hướng công nghệ sắp tới đang tìm cách hóa giải.

Ba xu hướng sắp tới đều đẩy về cùng một đích: rút ngắn quãng đường từ dữ liệu thô tới giá trị. Hiểu chúng giúp bạn định hình đầu tư hạ tầng dài hạn.
Điểm chung mà cả ba xu hướng cùng củng cố là công nghệ đang giúp doanh nghiệp tiếp cận giá trị (Value) nhanh hơn.
Big Data không phải một trào lưu ngắn hạn. Nó đang thay đổi tận gốc cách doanh nghiệp vận hành. Nhưng như cả bài đã cho thấy, dung lượng dữ liệu không phải thước đo, và việc gom thật nhiều dữ liệu cũng chưa làm nên giá trị.
Hai điều đáng nhớ là gì? Điểm gãy hệ thống giúp bạn nhận ra khi nào mình thực sự bước vào bài toán dữ liệu lớn. Còn yếu tố Value quyết định khoản đầu tư đó có sinh lời hay không. Những công ty đi trước không thắng nhờ có nhiều dữ liệu nhất, mà nhờ ra quyết định nhanh và chuẩn hơn đối thủ từ chính dữ liệu họ có.
Lời khuyên của chúng tôi rất đơn giản: đừng vội chạy theo công nghệ hay quy mô dữ liệu. Hãy bắt đầu từ một câu hỏi kinh doanh cụ thể mà bạn cần dữ liệu trả lời, rồi xây năng lực dần quanh câu hỏi đó. Đó mới là năng lực cạnh tranh đáng đầu tư ngay từ hôm nay.
Không. Mọi quy mô doanh nghiệp đều phát sinh dữ liệu qua hoạt động hàng ngày. Doanh nghiệp vừa và nhỏ có thể sử dụng dịch vụ phần mềm đám mây, thanh toán theo dung lượng thực tế thay vì tự xây dựng hệ thống riêng với chi phí lớn. Khối lượng dữ liệu nhỏ nhưng được phân tích tốt vẫn tạo ra giá trị.
Điều này tùy thuộc vào vị trí công việc. Kỹ sư dữ liệu cần thành thạo Python hoặc Java để xây dựng quy trình. Tuy nhiên, khối vận hành và quản lý thường chỉ cần sử dụng giao diện phần mềm, thao tác kéo thả báo cáo trên công cụ trực quan hóa có sẵn.
Business Intelligence thường sử dụng dữ liệu quá khứ có cấu trúc chuẩn hóa, nhằm trả lời câu hỏi “điều gì đã xảy ra”. Big Data xử lý mọi định dạng dữ liệu thô theo thời gian thực và thiên về dự đoán “điều gì sẽ xảy ra”. BI nhìn về quá khứ, còn Big Data hướng tới tương lai.
Hai khái niệm này bổ trợ nhau chặt chẽ. Chuyển đổi số số hóa các quy trình vật lý để tạo ra nguồn dữ liệu, sau đó Big Data phân tích các luồng thông tin này. Big Data cũng đo lường hiệu quả chuyển đổi để tinh chỉnh lại quy trình vận hành.
Điểm khởi đầu hợp lý là chuẩn hóa nguồn dữ liệu đang có trong tay. Cụ thể, doanh nghiệp nên rà soát thông tin từ CRM, website và phần mềm bán hàng, sau đó kết nối chúng với một công cụ SaaS phân tích trả phí. Cách tiếp cận từng bước này giúp ban lãnh đạo kiểm soát rủi ro tài chính.