Data Warehouse – kho dữ liệu là gì?
Kho dữ liệu là một kho lưu trữ trung tâm của thông tin có thể được phân tích để đưa ra các quyết định chính xác hơn. Dữ liệu chảy vào kho dữ liệu từ các hệ thống giao dịch, cơ sở dữ liệu quan hệ và các nguồn khác, thường rất đều đặn. Các nhà phân tích kinh doanh, kỹ sư dữ liệu, nhà khoa học dữ liệu và người ra quyết định trong doanh nghiệp truy cập dữ liệu thông qua các công cụ trí tuệ kinh doanh (business intelligence – BI), ứng dụng khách SQL và các ứng dụng phân tích khác.
Dữ liệu và phân tích đã trở thành thứ không thể thiếu đối với các doanh nghiệp để duy trì tính cạnh tranh. Người dùng doanh nghiệp dựa vào các báo cáo, trang tổng quan và công cụ phân tích để trích xuất thông tin chi tiết từ dữ liệu của họ, theo dõi hiệu suất kinh doanh và hỗ trợ việc ra quyết định. Kho dữ liệu cung cấp năng lượng cho các báo cáo, trang tổng quan và công cụ phân tích này bằng cách lưu trữ dữ liệu một cách hiệu quả để giảm thiểu đầu vào và đầu ra (I/O) của dữ liệu và cung cấp kết quả truy vấn nhanh chóng cho hàng trăm và hàng nghìn người dùng đồng thời.
Kho dữ liệu được lưu trữ như thế nào?
Một kiến trúc kho dữ liệu được tạo thành từ các tầng. Cấp cao nhất là client front-end trình bày kết quả thông qua các công cụ báo cáo, phân tích và khai thác dữ liệu. Tầng giữa bao gồm công cụ phân tích được sử dụng để truy cập và phân tích dữ liệu. Tầng dưới cùng của kiến trúc là máy chủ cơ sở dữ liệu, nơi dữ liệu được tải và lưu trữ. Dữ liệu được lưu trữ theo hai cách khác nhau: 1) dữ liệu được truy cập thường xuyên được lưu trữ trong bộ lưu trữ rất nhanh (như ổ SSD) và 2) dữ liệu được truy cập không thường xuyên được lưu trữ trong một cửa hàng đối tượng rẻ tiền, như Amazon S3. Kho dữ liệu sẽ tự động đảm bảo rằng dữ liệu được truy cập thường xuyên được chuyển vào kho lưu trữ “nhanh” để tốc độ truy vấn được tối ưu hóa.
Ra quyết định được thông báo
Dữ liệu tổng hợp từ nhiều nguồn
Phân tích dữ liệu lịch sử
Chất lượng dữ liệu, tính nhất quán và độ chính xác
Tách xử lý phân tích khỏi cơ sở dữ liệu giao dịch, giúp cải thiện hiệu suất của cả hai hệ thống
Kho dữ liệu được thiết kế đặc biệt cho phân tích dữ liệu, bao gồm việc đọc một lượng lớn dữ liệu để hiểu các mối quan hệ và xu hướng trên toàn bộ dữ liệu. Cơ sở dữ liệu được sử dụng để thu thập và lưu trữ dữ liệu, chẳng hạn như ghi lại chi tiết của một giao dịch.
Yếu tố | Data Warehouse | Data Lake |
Dữ liệu | Dữ liệu quan hệ từ các hệ thống giao dịch, cơ sở dữ liệu hoạt động và dòng ứng dụng kinh doanh. | Tất cả dữ liệu, bao gồm cả dữ liệu có cấu trúc, bán cấu trúc và không có cấu trúc. |
Lược đồ | Thường được thiết kế trước khi triển khai kho dữ liệu nhưng cũng có thể được viết tại thời điểm phân tích (lược đồ khi ghi hoặc lược đồ khi đọc). | Được viết tại thời điểm phân tích (lược đồ trên đọc). |
Giá cả / Hiệu suất | Kết quả truy vấn nhanh nhất bằng cách sử dụng bộ nhớ cục bộ. | Kết quả truy vấn ngày càng nhanh hơn bằng cách sử dụng bộ nhớ chi phí thấp và phân tách tính toán và bộ nhớ. |
Chất lượng dữ liệu | Dữ liệu được quản lý kỹ lưỡng đóng vai trò là phiên bản trung tâm của sự thật. | Bất kỳ dữ liệu nào có thể được hoặc không được quản lý (tức là dữ liệu thô). |
Người dùng | Nhà phân tích kinh doanh, nhà khoa học dữ liệu và nhà phát triển dữ liệu. | Nhà phân tích kinh doanh (sử dụng dữ liệu được sắp xếp), nhà khoa học dữ liệu, nhà phát triển dữ liệu, kỹ sư dữ liệu và kiến trúc sư dữ liệu. |
Phân tích | Báo cáo hàng loạt, BI và hình ảnh hóa. | Học máy, phân tích khám phá, khám phá dữ liệu, phát trực tuyến, phân tích hoạt động, dữ liệu lớn và lập hồ sơ. |
Kho dữ liệu so với cơ sở dữ liệu
Yếu tố | Data warehouse | Transactional Database |
Khối lượng công việc phù hợp | Phân tích, báo cáo, dữ liệu lớn. | Xử lý giao dịch. |
Nguồn dữ liệu | Dữ liệu được thu thập và chuẩn hóa từ nhiều nguồn. | Dữ liệu được thu thập nguyên gốc từ một nguồn duy nhất, chẳng hạn như hệ thống giao dịch. |
Thu thập dữ liệu | Các hoạt động ghi hàng loạt thường theo lịch trình hàng loạt được xác định trước. | Được tối ưu hóa cho các hoạt động ghi liên tục vì có sẵn dữ liệu mới để tối đa hóa thông lượng giao dịch. |
Chuẩn hóa dữ liệu | Các lược đồ không chuẩn hóa, chẳng hạn như giản đồ Star hoặc giản đồ Snowflake. | Các lược đồ tĩnh, được chuẩn hóa cao. |
Lưu trữ dữ liệu | Được tối ưu hóa để đơn giản hóa việc truy cập và hiệu suất truy vấn tốc độ cao bằng cách sử dụng bộ nhớ dạng cột. | Được tối ưu hóa cho các hoạt động ghi cao xuyên suốt vào một khối vật lý hướng hàng duy nhất. |
Truy cập dữ liệu | Được tối ưu hóa để giảm thiểu I/O và tối đa hóa thông lượng dữ liệu. | Khối lượng lớn các thao tác đọc nhỏ. |
Data mart là một kho dữ liệu phục vụ nhu cầu của một nhóm hoặc đơn vị kinh doanh cụ thể, chẳng hạn như tài chính, tiếp thị hoặc bán hàng. Nó nhỏ hơn, tập trung hơn và có thể chứa tóm tắt dữ liệu phục vụ tốt nhất cho cộng đồng người dùng của nó. Data mart cũng có thể là một phần của kho dữ liệu.
Yếu tố | Data warehouse | Data Mart |
Phạm vi | Tập trung, nhiều lĩnh vực chủ đề được tích hợp với nhau. | Phân cấp, lĩnh vực chủ đề cụ thể. |
Người dùng | Toàn tổ chức. | Một cộng đồng hoặc một bộ phận. |
Nguồn dữ liệu | Nhiều nguồn. | Một hoặc một vài nguồn hoặc một phần dữ liệu đã được thu thập trong kho dữ liệu. |
Kích thước | Lớn, có thể từ 100 gigabyte đến petabyte. | Nhỏ, thường lên đến 10 gigabyte. |
Thiết kế | Từ trên xuống. | Từ dưới lên. |
Chi tiết dữ liệu | Dữ liệu đầy đủ, chi tiết. | Có thể giữ dữ liệu tóm tắt. |