Các kho dữ liệu (data warehouses) ngày nay khác xa so với các kho đơn chồng (single-stack) trước đây. Thay vì tập trung chủ yếu vào việc xử lý dữ liệu như những kho dữ liệu truyền thống đã làm, phiên bản hiện đại dành cho việc lưu trữ nhiều dữ liệu từ nhiều nguồn, ở nhiều định dạng khác nhau và có được những thông tin chi tiết đủ hấp dẫn để thúc đẩy các quyết định kinh doanh.
Big data, điện toán đám mây và phân tích nâng cao đều đóng vai trò quan trọng trong sự phát triển của kho dữ liệu hiện đại. Trên thực tế, những yếu tố này đã được yêu cầu. Các kho dữ liệu thông thường phải vật lộn để theo kịp những thách thức ngày càng tăng về khối lượng lớn dữ liệu – cho dù đó là dữ liệu có cấu trúc và dữ liệu phi cấu trúc được quản lý tại chỗ hay dữ liệu dựa trên đám mây do bên thứ ba lưu trữ. Kiếm được giá trị từ tất cả vẫn khó hơn.
Nếu doanh nghiệp của bạn có kế hoạch chuyển sang một kho dữ liệu hiện đại, đây là những điều bạn cần biết về một kho dữ liệu hiện đại.
Data store và distribution center
Nếu một kho dữ liệu thông thường có thể được coi như một kho lưu trữ dữ liệu (Data store), thì phiên bản hiện đại ngày nay gần giống với một trung tâm phân phối (distribution center) lớn hơn.
John Santaferraro, giám đốc nghiên cứu tại Enterprise Management Associates (EMA) cho biết: “Kho dữ liệu được thể hiện tốt nhất bởi sự hội tụ của kho dữ liệu truyền thống và hồ dữ liệu (data lake),”. Trên thực tế, nó được “định nghĩa tốt hơn là một kho phân tích thống nhất” (unified analytics warehouse – UAW).
Hồ dữ liệu chỉ đơn giản là một kho lưu trữ lấy dữ liệu từ nhiều nguồn và có thể lưu trữ nó ở bất kỳ định dạng nào.
Modern data warehouse – Kho dữ liệu hiện đại là hợp nhất vì nó xử lý đầy đủ dữ liệu đa cấu trúc trong một nền tảng duy nhất. Nó là một nền tảng phân tích bởi vì trường hợp sử dụng chính cho cả hồ dữ liệu và kho dữ liệu luôn là phân tích, Santaferraro nói. Nó là một nhà kho (warehouse) “bởi vì nó lưu trữ dữ liệu đa cấu trúc một cách có tổ chức và có thể truy cập được cho một loạt các trường hợp sử dụng phân tích.”
Theo truyền thống, các hồ dữ liệu tập trung nhiều hơn vào các trường hợp sử dụng khoa học dữ liệu, trong khi kho dữ liệu tập trung nhiều hơn vào phân tích doanh nghiệp. Ngược lại, kho dữ liệu doanh nghiệp được thiết kế để tập trung vào dữ liệu thô cụ thể để chỉ đưa ra kết luận về thông tin đó và sử dụng một tập hợp các phương pháp nhằm phân tích thường xuyên cho reporting và trang dashboards.
Các nhà khoa học dữ liệu có cách tiếp cận rộng hơn áp dụng các phương pháp, quy trình và thuật toán khoa học để trích xuất thông tin chi tiết từ dữ liệu tổng thể, cho dù có cấu trúc hay không có cấu trúc và có thể liên quan đến kỹ thuật khai thác dữ liệu và deep learning.
Lợi ích của việc hiện đại hóa
Có nhiều lý do thuyết phục để phát triển và duy trì một kho dữ liệu hiện đại, cả ở cấp độ người dùng và quản trị viên cũng như cho tổ chức nói chung.
Người dùng và quản trị viên có thể mong đợi:
Tốn ít thời gian hơn để di chuyển và chuẩn bị dữ liệu
Dành nhiều thời gian hơn cho việc sử dụng phân tích sáng tạo để thúc đẩy các mô hình kinh doanh mới
Các tổ chức triển khai kho phân tích thống nhất có thể mong đợi:
Tốc độ thời gian để phân tích
Giảm chi phí sở hữu tổng thể
Tăng năng suất của lực lượng lao động phân tích của họ
Từ quan điểm công nghệ, kho dữ liệu hiện đại:
Luôn có sẵn
Có thể mở rộng cho một lượng lớn dữ liệu
Cung cấp câu trả lời chính xác cho các truy vấn trong bất kỳ lược đồ nào
Cung cấp thông tin cập nhật theo thời gian thực
Xử lý trích xuất, chuyển đổi và tải (ETL, quy trình bắt buộc khi dữ liệu được lưu trữ được truy cập trước khi phân tích)
Hỗ trợ khối lượng công việc hàng loạt và tương tác
Hỗ trợ số lượng lớn người dùng đồng thời
Các yếu tố của kho dữ liệu hiện đại
Một số đặc điểm chính với một kho dữ liệu hiện đại ngày này.
Cơ sở hạ tầng
Các tổ chức đã từng di chuyển dữ liệu của họ từ databases sang file systems để tiết kiệm tiền. Bây giờ họ đang chuyển từ file systems sang object storage, Santaferraro của EMA cho biết.
Trong lĩnh vực phân tích, điều quan trọng cần nhớ là lưu trữ giá rẻ có những hạn chế của nó, Santaferraro nói. “Nếu dữ liệu không thể truy cập để phân tích, giá rẻ là không đủ.”
Vì lý do này, UAW phải cung cấp một bộ khả năng phân tích phong phú và nhất quán trên tất cả các cấp lưu trữ. Các UAW tiên tiến hơn sẽ tự động hóa việc di chuyển dữ liệu vào và ra khỏi hệ thống tệp và lưu trữ đối tượng khi cần thiết, ông nói.
Công cụ
Trong khi nhiều chuyên gia CNTT đánh đồng Hadoop với một hồ dữ liệu, nhiều công cụ khác đang được sử dụng phổ biến và hầu hết là mã nguồn mở. Chúng bao gồm:
Apache HBase, một hệ thống lưu trữ và cơ sở dữ liệu cột giá trị khóa.
Apache HCatalog, siêu dữ liệu, bảng và hệ thống quản lý lưu trữ.
Hadoop MapReduce, một công cụ xử lý dữ liệu có thể mở rộng thường được sử dụng với các bộ dữ liệu lớn.
Apache Hive, một ngôn ngữ mã nguồn mở được xây dựng trên MapReduce hỗ trợ phân tích các tập dữ liệu lớn.
Oozie, một công cụ lập lịch công việc MapReduce.
Apache Pig, một ngôn ngữ được kết nối với MapReduce được sử dụng trong xử lý dữ liệu song song.
Apache ZooKeeper, một kho lưu trữ khóa-giá trị phân cấp để đồng bộ hóa.
Các giải pháp đám mây, đa đám mây (multi-cloud) và kết hợp (hybrid-cloud)
Hầu hết các tổ chức ngày nay có ít nhất một số dữ liệu nằm trên các nền tảng dựa trên đám mây, do đó, một kho dữ liệu hiện đại phải hỗ trợ những dữ liệu đó. Kho dữ liệu của bạn cũng phải hỗ trợ khả năng tương tác giữa đám mây và đám mây để cho phép các nền tảng đám mây đó chia sẻ dữ liệu. Một kho dữ liệu hiện đại cũng phải hỗ trợ khả năng tương tác giữa nhiều hệ thống đám mây và hệ thống tại chỗ, cho phép tất cả làm việc cùng nhau mà không bị cô lập dữ liệu trên bất kỳ hệ thống tương ứng nào.
Nền tảng đám mây dành cho UAW ngày càng trở nên phổ biến, khi các tổ chức tìm cách dung hòa dữ liệu kho có cấu trúc với dữ liệu phi cấu trúc trong hồ dữ liệu.
Việc nhiều tổ chức chuyển sang mô hình phần mềm như một dịch vụ cho các ứng dụng doanh nghiệp cũng đã dẫn đến sự quan tâm nhiều hơn đến cách tiếp cận UAW. Các lợi ích có thể bao gồm khả năng mở rộng cao hơn, sự nhanh nhẹn, tiết kiệm chi phí, tốc độ xử lý nhanh hơn, triển khai nhanh hơn, khắc phục thảm họa dễ dàng hơn cũng như cải thiện khả năng quản trị và bảo mật.
Máy tính và xử lý
Một số kiến trúc dựa trên đám mây hỗ trợ kho dữ liệu hiện đại hoàn toàn tách biệt các chức năng tính toán khỏi lưu trữ để tối ưu hóa các khoản đầu tư của tổ chức vào cơ sở hạ tầng. Sự tách biệt hoàn toàn này và khả năng truy vấn dữ liệu trong bất kỳ cấp lưu trữ nào có thể tạo ra lợi thế to lớn về tổng chi phí sở hữu.
Điều đó một phần là do các nhà cung cấp đám mây thường tính phí cao hơn cho tính toán so với lưu trữ (và đương nhiên, các quy trình phân tích máy tính chuyên sâu là lý do toàn bộ cho việc lưu trữ). Vì vậy, nếu dung lượng máy tính có thể được chia nhỏ khi không cần thiết, các nhóm có thể tiết kiệm tiền bằng cách chỉ sử dụng dung lượng lưu trữ. Khi khối lượng công việc yêu cầu năng lực tính toán một lần nữa, nó có thể được xoay vòng một cách linh hoạt.
Các ứng dụng phân tích dữ liệu chuyên sâu được hưởng lợi từ việc sử dụng lưu trữ dữ liệu nhiều tầng. Các nền tảng tiên tiến nhất cung cấp các kỹ thuật hiệu suất cao cho các loại dữ liệu phức tạp trong định dạng ban đầu của chúng.
Phân tích dữ liệu
Để hỗ trợ một lực lượng lao động thống nhất, kho dữ liệu hiện đại phải hỗ trợ nhiều cách tiếp cận để phân tích dữ liệu. Ví dụ, Santaferraro cho biết, một nhà khoa học dữ liệu sẽ cần có khả năng sử dụng R, Python và notebooks để thực hiện phân tích khám phá hoặc phân tích nâng cao như học máy trên dữ liệu đa cấu trúc. Nền tảng này cũng phải cung cấp phân tích dễ truy cập (tức là dựa trên SQL), hiệu suất cao.
Ông nói: “Phải đơn giản để kết hợp những phân tích này để có cái nhìn sâu sắc hơn hoặc đặt câu hỏi về dữ liệu trong thời gian gần thực. “Với kho dữ liệu hiện đại, các kỹ sư dữ liệu, nhà khoa học dữ liệu và nhà phân tích dữ liệu không còn phải đấu tranh xem ai đúng ai sai. Họ có một môi trường duy nhất để họ có thể cộng tác vì lợi ích chung của doanh nghiệp.”
Cách triển khai thành công khi dữ liệu hiện đại
Các tổ chức muốn triển khai kho dữ liệu hiện đại nên bắt đầu bằng cách hỏi một số câu hỏi chính, bắt đầu với “mục đích kinh doanh cuối cùng là gì?” Sau khi bạn xác định được điều đó, các câu hỏi kỹ thuật khác cần hỏi là:
Hệ thống có thể xử lý dữ liệu từ nhiều nguồn không?
Hệ thống có thể xử lý một lượng lớn dữ liệu đang lưu chuyển đồng thời không?
Kiến trúc có cho phép khả năng mở rộng và tăng hiệu suất không?
Kiến trúc có cho phép phân tích dữ liệu streaming theo thời gian thực không?
Tổ chức có hỗ trợ mô hình kinh doanh thông minh hai phương thức không?
Hệ thống có hỗ trợ ảo hóa dữ liệu và tích hợp dữ liệu không?
Hệ thống có thích ứng với việc điều phối tự động và cải thiện sự nhanh nhẹn không?
Cách một tổ chức trả lời từng câu hỏi này sẽ giúp tổ chức xác định phương pháp tiếp cận thực tiễn tốt nhất để áp dụng kho dữ liệu hiện đại phù hợp với nhu cầu kinh doanh.
Bắt đầu hiện đại hóa kho dữ liệu doanh nghiệp
Doanh nghiệp của bạn nên bắt đầu bằng cách xác định các mục tiêu và nhu cầu kinh doanh để kết quả phù hợp với những mục tiêu và nhu cầu đó. Khi bạn đã xác định mô hình dữ liệu, hãy tạo biểu đồ luồng dữ liệu, phát triển lớp tích hợp, áp dụng tiêu chuẩn kiến trúc và xem xét phương pháp luận kho dữ liệu linh hoạt.
Mô hình kho của bạn phải phù hợp với việc tổng hợp cơ sở dữ liệu đa nguồn, cập nhật cơ sở dữ liệu, tự động hóa, ghi nhật ký giao dịch, khả năng đánh giá và phân tích nguồn dữ liệu và các công cụ phát triển dễ thay đổi.
Cuối cùng, khi tổ chức của bạn cân nhắc giữa lựa chọn xây dựng so với mua, đừng quên các yêu cầu cơ bản: Kho dữ liệu của bạn phải hỗ trợ môi trường đám mây kết hợp và đa đám mây; phải hỗ trợ tất cả các loại dữ liệu, bao gồm có cấu trúc, bán cấu trúc và phi cấu trúc; và điều đó phải hỗ trợ tất cả các độ trễ dữ liệu, bao gồm dữ liệu hàng loạt, thời gian thực và streaming.