Data Warehouse là gì? Các khái niệm về kho dữ liệu?

 

Data Warehouse – kho dữ liệu là gì?

Kho dữ liệu là một kho lưu trữ trung tâm của thông tin có thể được phân tích để đưa ra các quyết định chính xác hơn. Dữ liệu chảy vào kho dữ liệu từ các hệ thống giao dịch, cơ sở dữ liệu quan hệ và các nguồn khác, thường rất đều đặn. Các nhà phân tích kinh doanh, kỹ sư dữ liệu, nhà khoa học dữ liệu và người ra quyết định trong doanh nghiệp truy cập dữ liệu thông qua các công cụ trí tuệ kinh doanh (business intelligence – BI), ứng dụng khách SQL và các ứng dụng phân tích khác.

Dữ liệu và phân tích đã trở thành thứ không thể thiếu đối với các doanh nghiệp để duy trì tính cạnh tranh. Người dùng doanh nghiệp dựa vào các báo cáo, trang tổng quan và công cụ phân tích để trích xuất thông tin chi tiết từ dữ liệu của họ, theo dõi hiệu suất kinh doanh và hỗ trợ việc ra quyết định. Kho dữ liệu cung cấp năng lượng cho các báo cáo, trang tổng quan và công cụ phân tích này bằng cách lưu trữ dữ liệu một cách hiệu quả để giảm thiểu đầu vào và đầu ra (I/O) của dữ liệu và cung cấp kết quả truy vấn nhanh chóng cho hàng trăm và hàng nghìn người dùng đồng thời.

Kho dữ liệu được lưu trữ như thế nào?

Một kiến ​​trúc kho dữ liệu được tạo thành từ các tầng. Cấp cao nhất là client front-end trình bày kết quả thông qua các công cụ báo cáo, phân tích và khai thác dữ liệu. Tầng giữa bao gồm công cụ phân tích được sử dụng để truy cập và phân tích dữ liệu. Tầng dưới cùng của kiến ​​trúc là máy chủ cơ sở dữ liệu, nơi dữ liệu được tải và lưu trữ. Dữ liệu được lưu trữ theo hai cách khác nhau: 1) dữ liệu được truy cập thường xuyên được lưu trữ trong bộ lưu trữ rất nhanh (như ổ SSD) và 2) dữ liệu được truy cập không thường xuyên được lưu trữ trong một cửa hàng đối tượng rẻ tiền, như Amazon S3. Kho dữ liệu sẽ tự động đảm bảo rằng dữ liệu được truy cập thường xuyên được chuyển vào kho lưu trữ “nhanh” để tốc độ truy vấn được tối ưu hóa.

Kho dữ liệu hoạt động như thế nào?
Một kho dữ liệu có thể chứa nhiều cơ sở dữ liệu. Trong mỗi cơ sở dữ liệu, dữ liệu được tổ chức thành các bảng và cột. Trong mỗi cột, bạn có thể xác định mô tả dữ liệu, chẳng hạn như số nguyên, trường dữ liệu hoặc chuỗi. Các bảng có thể được sắp xếp bên trong các lược đồ mà bạn có thể coi đó là các thư mục. Khi dữ liệu được nhập, nó được lưu trữ trong các bảng khác nhau được lược đồ mô tả. Các công cụ truy vấn sử dụng lược đồ để xác định bảng dữ liệu nào cần truy cập và phân tích.
Lợi ích của việc sử dụng kho dữ liệu là gì?
Lợi ích của kho dữ liệu bao gồm:
  • Ra quyết định được thông báo

  • Dữ liệu tổng hợp từ nhiều nguồn

  • Phân tích dữ liệu lịch sử

  • Chất lượng dữ liệu, tính nhất quán và độ chính xác

  • Tách xử lý phân tích khỏi cơ sở dữ liệu giao dịch, giúp cải thiện hiệu suất của cả hai hệ thống

Kho dữ liệu, cơ sở dữ liệu và hồ dữ liệu hoạt động cùng nhau như thế nào?
Thông thường, các doanh nghiệp sử dụng kết hợp cơ sở dữ liệu, hồ dữ liệu và kho dữ liệu để lưu trữ và phân tích dữ liệu. Kiến trúc lake house của Amazon Redshift khiến việc tích hợp như vậy trở nên dễ dàng.
Khi khối lượng và sự đa dạng của dữ liệu tăng lên, sẽ có lợi khi tuân theo một hoặc nhiều mẫu phổ biến để làm việc với dữ liệu trên cơ sở dữ liệu, hồ dữ liệu và kho dữ liệu của bạn:
 
Land data trong database hoặc datalake, chuẩn bị dữ liệu, di chuyển dữ liệu đã chọn vào kho dữ liệu, sau đó thực hiện báo cáo.
Land data trong database hoặc datalake, chuẩn bị dữ liệu, di chuyển dữ liệu đã chọn vào kho dữ liệu, sau đó thực hiện báo cáo.
 
Land data trong kho dữ liệu, phân tích dữ liệu, sau đó chia sẻ dữ liệu để sử dụng với các dịch vụ phân tích và học máy khác.
Land data trong kho dữ liệu, phân tích dữ liệu, sau đó chia sẻ dữ liệu để sử dụng với các dịch vụ phân tích và học máy khác.

Kho dữ liệu được thiết kế đặc biệt cho phân tích dữ liệu, bao gồm việc đọc một lượng lớn dữ liệu để hiểu các mối quan hệ và xu hướng trên toàn bộ dữ liệu. Cơ sở dữ liệu được sử dụng để thu thập và lưu trữ dữ liệu, chẳng hạn như ghi lại chi tiết của một giao dịch.

Không giống như kho dữ liệu, data lake là một kho lưu trữ tập trung cho tất cả dữ liệu, bao gồm cả dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc. Kho dữ liệu yêu cầu dữ liệu được tổ chức theo định dạng bảng, đây là nơi mà lược đồ phát huy tác dụng. Định dạng bảng là cần thiết để SQL có thể được sử dụng để truy vấn dữ liệu. Nhưng không phải tất cả các ứng dụng đều yêu cầu dữ liệu ở dạng bảng. Một số ứng dụng, chẳng hạn như big data analytics, tìm kiếm toàn văn và học máy, có thể truy cập dữ liệu ngay cả khi nó là ‘bán cấu trúc’ hoặc hoàn toàn không có cấu trúc.
Data warehouse vs data lake (So sánh kho dữ liệu và hồ dữ liệu)

Yếu tố

Data Warehouse

Data Lake

Dữ liệu

Dữ liệu quan hệ từ các hệ thống giao dịch, cơ sở dữ liệu hoạt động và dòng ứng dụng kinh doanh.

Tất cả dữ liệu, bao gồm cả dữ liệu có cấu trúc, bán cấu trúc và không có cấu trúc.

Lược đồ

Thường được thiết kế trước khi triển khai kho dữ liệu nhưng cũng có thể được viết tại thời điểm phân tích (lược đồ khi ghi hoặc lược đồ khi đọc).

Được viết tại thời điểm phân tích (lược đồ trên đọc).

 

Giá cả / Hiệu suất

Kết quả truy vấn nhanh nhất bằng cách sử dụng bộ nhớ cục bộ.

Kết quả truy vấn ngày càng nhanh hơn bằng cách sử dụng bộ nhớ chi phí thấp và phân tách tính toán và bộ nhớ.

Chất lượng dữ liệu

Dữ liệu được quản lý kỹ lưỡng đóng vai trò là phiên bản trung tâm của sự thật.

Bất kỳ dữ liệu nào có thể được hoặc không được quản lý (tức là dữ liệu thô).

Người dùng

Nhà phân tích kinh doanh, nhà khoa học dữ liệu và nhà phát triển dữ liệu.

Nhà phân tích kinh doanh (sử dụng dữ liệu được sắp xếp), nhà khoa học dữ liệu, nhà phát triển dữ liệu, kỹ sư dữ liệu và kiến ​​trúc sư dữ liệu.

Phân tích

Báo cáo hàng loạt, BI và hình ảnh hóa.

Học máy, phân tích khám phá, khám phá dữ liệu, phát trực tuyến, phân tích hoạt động, dữ liệu lớn và lập hồ sơ.

Kho dữ liệu so với cơ sở dữ liệu

Yếu tố

Data warehouse

Transactional Database

Khối lượng công việc phù hợp

Phân tích, báo cáo, dữ liệu lớn.

Xử lý giao dịch.

Nguồn dữ liệu

Dữ liệu được thu thập và chuẩn hóa từ nhiều nguồn.

Dữ liệu được thu thập nguyên gốc từ một nguồn duy nhất, chẳng hạn như hệ thống giao dịch.

Thu thập dữ liệu

Các hoạt động ghi hàng loạt thường theo lịch trình hàng loạt được xác định trước.

Được tối ưu hóa cho các hoạt động ghi liên tục vì có sẵn dữ liệu mới để tối đa hóa thông lượng giao dịch.

Chuẩn hóa dữ liệu

Các lược đồ không chuẩn hóa, chẳng hạn như giản đồ Star hoặc giản đồ Snowflake.

Các lược đồ tĩnh, được chuẩn hóa cao.

Lưu trữ dữ liệu

Được tối ưu hóa để đơn giản hóa việc truy cập và hiệu suất truy vấn tốc độ cao bằng cách sử dụng bộ nhớ dạng cột.

Được tối ưu hóa cho các hoạt động ghi cao xuyên suốt vào một khối vật lý hướng hàng duy nhất.

Truy cập dữ liệu

Được tối ưu hóa để giảm thiểu I/O và tối đa hóa thông lượng dữ liệu.

Khối lượng lớn các thao tác đọc nhỏ.

 
Làm thế nào để một trung tâm dữ liệu (data mart) so sánh với một kho dữ liệu?

Data mart là một kho dữ liệu phục vụ nhu cầu của một nhóm hoặc đơn vị kinh doanh cụ thể, chẳng hạn như tài chính, tiếp thị hoặc bán hàng. Nó nhỏ hơn, tập trung hơn và có thể chứa tóm tắt dữ liệu phục vụ tốt nhất cho cộng đồng người dùng của nó. Data mart cũng có thể là một phần của kho dữ liệu.

Data warehouse vs data mart

Yếu tố

Data warehouse

Data Mart

Phạm vi

Tập trung, nhiều lĩnh vực chủ đề được tích hợp với nhau.

Phân cấp, lĩnh vực chủ đề cụ thể.

Người dùng

Toàn tổ chức.

Một cộng đồng hoặc một bộ phận.

Nguồn dữ liệu

Nhiều nguồn.

Một hoặc một vài nguồn hoặc một phần dữ liệu đã được thu thập trong kho dữ liệu.

Kích thước

Lớn, có thể từ 100 gigabyte đến petabyte.

Nhỏ, thường lên đến 10 gigabyte.

Thiết kế

Từ trên xuống.

Từ dưới lên.

Chi tiết dữ liệu

Dữ liệu đầy đủ, chi tiết.

Có thể giữ dữ liệu tóm tắt.

Làm cách nào để triển khai kho dữ liệu trên AWS?

AWS cho phép bạn tận dụng tất cả các lợi ích cốt lõi liên quan đến tính toán theo yêu cầu: truy cập dung lượng máy tính và lưu trữ dường như vô hạn, mở rộng hệ thống của bạn song song với lượng dữ liệu được thu thập, lưu trữ và truy vấn ngày càng tăng và chỉ trả tiền cho tài nguyên bạn cung cấp. AWS cung cấp một loạt các dịch vụ được quản lý tích hợp liền mạch với nhau để bạn có thể nhanh chóng triển khai giải pháp lưu trữ dữ liệu và phân tích đầu cuối.
Hình minh họa sau đây cho thấy các bước chính của quy trình phân tích end-to-end, còn được gọi là ngăn xếp. AWS cung cấp nhiều loại dịch vụ được quản lý ở mỗi bước.
 
AWS cung cấp nhiều sản phẩm và dịch vụ khác nhau ở mỗi bước của quy trình phân tích.
AWS cung cấp nhiều sản phẩm và dịch vụ khác nhau ở mỗi bước của quy trình phân tích.
Amazon Redshift là dịch vụ kho dữ liệu nhanh chóng, được quản lý đầy đủ và tiết kiệm chi phí của chúng tôi. Nó cung cấp cho bạn kho dữ liệu quy mô petabyte và phân tích hồ dữ liệu quy mô exabyte cùng nhau trong một dịch vụ mà bạn chỉ phải trả cho những gì bạn sử dụng.
Để hiểu rõ hơn và triển khai hiệu quả kho dữ liệu trên AWS cho doanh nghiệp của bạn, vui lòng liên hệ OSAM để được tư vấn chi tiết. OSAM hiện đang là đối tác tư vấn triển khai hàng đầu của AWS tại Việt Nam, chúng tôi sẽ cùng đồng hành với mọi doanh nghiệp Việt Nam trên con đường số hóa doanh nghiệp thời kỳ 4.0.
Đọc thêm: