Ngày nay, chúng ta cần một nền tảng để ‘xử lý, lưu trữ, bảo mật và phân tích dữ liệu trong thời gian thực, trên tất cả các tập dữ liệu có liên quan. Nhưng không phải là data warehouse (kho dữ liệu) và cũng không phải là data lake (hồ dữ liệu). Vậy chúng ta thực cần một nền tảng dữ liệu nào ở thời công nghệ này.
Mark Porter có một nền tảng thú vị. Anh ấy là người từng điều hành Dịch vụ cơ sở dữ liệu quan hệ (RDS) và Aurora của AWS, và trước đó anh ấy đã làm việc hơn một thập kỷ tại Oracle. Giờ anh ấy là CTO của MongoDB. Phả hệ của Porter đặt anh ta vào một vị trí thú vị để bình luận về bối cảnh cơ sở dữ liệu đang phát triển, vì anh ta đã làm việc tại ba nhà tiên phong về cơ sở dữ liệu. Và dưới đây là những gì anh ta đã nhận định.
Các bộ phận trước đây giữa “back office và front office đang biến mất.” Đó là theo quan điểm của Porter, hệ thống ghi chép và hệ thống tham gia khi đã tách biệt rõ ràng thì đang hợp nhất.
Nếu đúng, điều này có ý nghĩa gì đối với các doanh nghiệp đang cố gắng hiện đại hóa chiến lược dữ liệu của họ một cách không khả quan? Theo Porter, đã đến lúc các doanh nghiệp “nghĩ xa hơn cơ sở dữ liệu và kiến trúc nền tảng dữ liệu thực tế có thể xử lý, lưu trữ, bảo mật và phân tích dữ liệu trong thời gian thực, trên tất cả các tập dữ liệu có liên quan. Nhưng đây chỉ là một cách mới lạ để cố gắng hình dung lại các kho dữ liệu và hồ dữ liệu.
Máy móc bắt đầu đặt ra những câu hỏi
Trong một thời gian dài, dữ liệu thực sự đã khác. Hệ thống back-office dựa trên dữ liệu có cấu trúc, được sắp xếp phù hợp với các hàng và cột. Những cơ sở dữ liệu quan hệ như vậy là một sự đổi mới đáng kinh ngạc vào thời điểm đó và chúng vẫn tiếp tục phục vụ tốt cho các doanh nghiệp cho đến ngày nay.
Tuy nhiên, thế giới có cấu trúc thoải mái của cơ sở dữ liệu quan hệ ngày càng bị thách thức bởi hàng núi dữ liệu không cấu trúc hoặc bán cấu trúc. Phần lớn dữ liệu mới này được tạo ra bởi cái mà Geoffrey Moore gọi là hệ thống tương tác, ngay cả khi trong vài thập kỷ qua đã được xây dựng trên các hệ thống ghi lại (chẳng hạn như hệ thống ERP và CRM).
Porter thậm chí còn đi xa hơn, thêm một loại hệ thống thứ ba, “systems of insight”. Như Porter giải thích: “Trong nhiều thập kỷ, các doanh nghiệp đã duy trì hệ thống hồ sơ (systems of record) và hệ thống tham gia (systems of engagement). Các hệ thống ghi chép là các nguồn chân lý cơ bản, quan trọng, được truy cập chủ yếu bởi các chương trình nội bộ và người dùng. Hệ thống tương tác là các giao diện kỹ thuật số mà khách hàng và nhân viên tương tác với nhau. Và gần đây, chúng tôi đã thấy việc bổ sung systems of insight, kết hợp dữ liệu từ nhiều nguồn khác nhau để thông báo cho việc ra quyết định trong toàn doanh nghiệp. Trong một thời gian dài, mỗi hệ thống sống trên các máy tính khác nhau, có các yêu cầu quản lý dữ liệu khác nhau và được tài trợ bởi các bộ phận khác nhau.”
Tuy nhiên, nó không còn là trường hợp nữa, các công ty có thể thoát khỏi các hệ thống cứng nhắc nằm trong một silo, không tương tác với dữ liệu khác và vật lộn để phát triển. Porter viết, mọi thứ đang diễn ra quá nhanh và máy móc bắt đầu đặt ra những câu hỏi:
“Với sự gia tăng của đào tạo và suy luận mô hình, một loại phân tích khác đang đến; một chương trình đặt ra hệ thống câu hỏi chuyên sâu và phản ứng với chúng trong thời gian thực, thay vì con người đặt câu hỏi và sau đó viết chương trình để thực hiện chúng. Đây là một sự thay đổi cơ bản; cơ bản đến mức bạn có thể ví nó với sự thay đổi từ những chiếc IBM 7090 hỗ trợ SABER sang những chiếc cung cấp năng lượng cho SKYNET”.
Một nền tảng dữ liệu để điều khiển tất cả
Vậy một doanh nghiệp phải làm gì? Đối với CTO của một công ty cơ sở dữ liệu?
Sự hội tụ này trong các hệ thống diễn ra vào thời điểm hầu hết các công ty đang thực hiện các dự án chuyển đổi kỹ thuật số triệt để để trở thành nền tảng dựa trên nền tảng điện toán đám mây, dựa trên sự đổi mới và hỗ trợ đổi mới. Nói cách khác, mặc dù mọi người đều đã khá bận rộn, nhưng chưa bao giờ có thời điểm tốt hơn để suy nghĩ về cơ sở dữ liệu và kiến trúc một “nền tảng dữ liệu” thực tế có thể xử lý, lưu trữ, bảo mật và phân tích dữ liệu trong thời gian thực, trên tất cả các tập dữ liệu có liên quan – hoặc không sao chép dữ liệu hoặc làm cho việc sao chép đó trở nên vô hình.
Cân nhắc về cơ sở dữ liệu, có bản trình bày rằng “Kubernetes, MongoDB, and Your MongoDB Data Platform”) nói về cách các công ty có thể xây dựng danh mục công ty của MongoDB cùng với cơ sở dữ liệu đám mây được quản lý Atlas, hồ thông tin, tìm kiếm và các công ty cải tiến tiện ích. Điều đó giống như những gì Snowflake quảng cáo là “nền tảng thông tin đám mây”. Trong mỗi hoàn cảnh, các công ty này đang cố gắng đưa ra những triển vọng về sức mạnh để kết hợp và đặt câu hỏi thông tin tại một nơi duy nhất. Các công ty khác cũng đang làm như vậy.
Liệu nó sẽ hoạt động? Chúng ta sẽ thấy. Ngành công nghiệp đã tìm kiếm một chén thánh như vậy trong một thời gian. Chúng tôi đã từng gọi nó là “hồ dữ liệu – data lake”. Và bây giờ các nền tảng này kết hợp cả hồ dữ liệu và kho dữ liệu, cố gắng vượt qua chúng. Nhưng chỉ vì những nỗ lực này phần lớn đã thất bại trong quá khứ không có nghĩa là chúng sẽ thất bại trong tương lai. Và, dựa trên nền tảng của Porter, thật đáng để theo dõi suy nghĩ của anh ấy về cách cơ sở dữ liệu, kho dữ liệu và hồ dữ liệu sẽ phát triển để trở thành nền tảng dữ liệu thực sự vượt xa cơ sở dữ liệu.
Tìm hiểu thêm về Data Platform, data lake, data warehouse trong tương lai tại Blog của Osam nhé!