Data lake là gì? Khai thác hồ dữ liệu trên đám mây như thế nào?

 

Data lake – Hồ dữ liệu là gì?

 

Data lake – Hồ dữ liệu là một kho lưu trữ tập trung cho phép bạn lưu trữ tất cả dữ liệu có cấu trúc và phi cấu trúc của mình ở bất kỳ quy mô nào. Bạn có thể lưu trữ dữ liệu của mình nguyên trạng mà không cần phải cấu trúc dữ liệu trước và chạy các loại phân tích khác nhau — từ trang tổng quan và trực quan hóa đến xử lý dữ liệu lớn, phân tích thời gian thực và học máy để đưa ra các quyết định tốt hơn.

Tại sao bạn cần một hồ dữ liệu?

Các tổ chức tạo ra giá trị kinh doanh thành công từ dữ liệu của họ sẽ hoạt động tốt hơn các tổ chức khác. Một cuộc khảo sát của Aberdeen cho thấy các tổ chức đã triển khai Data Lake vượt trội hơn các công ty tương tự 9% về mức tăng trưởng doanh thu không phải trả tiền. Những nhà lãnh đạo này đã có thể thực hiện các loại phân tích mới như học máy qua các nguồn mới như tệp nhật ký, dữ liệu từ các luồng nhấp chuột, mạng xã hội và các thiết bị được kết nối internet được lưu trữ trong hồ dữ liệu. Điều này đã giúp họ xác định và hành động theo các cơ hội phát triển kinh doanh nhanh hơn bằng cách thu hút và giữ chân khách hàng, thúc đẩy năng suất, chủ động bảo trì thiết bị và đưa ra quyết định sáng suốt.

Hồ dữ liệu (Data Lake) so với Kho dữ liệu (Data Warehouse) – hai cách tiếp cận khác nhau

​​Tùy thuộc vào các yêu cầu, một doanh nghiệp điển hình sẽ yêu cầu cả kho dữ liệu và hồ dữ liệu vì chúng phục vụ các nhu cầu và trường hợp sử dụng khác nhau.

Data Warehouse là một cơ sở dữ liệu được tối ưu hóa để phân tích dữ liệu quan hệ đến từ các hệ thống giao dịch và dòng ứng dụng kinh doanh. Cấu trúc dữ liệu và lược đồ được xác định trước để tối ưu hóa cho các truy vấn SQL nhanh, trong đó kết quả thường được sử dụng để báo cáo và phân tích hoạt động. Dữ liệu được làm sạch, làm giàu và chuyển đổi để dữ liệu có thể hoạt động như một “nguồn sự thật duy nhất” mà người dùng có thể tin tưởng.

Hồ dữ liệu thì khác, vì nó lưu trữ dữ liệu quan hệ từ dòng ứng dụng kinh doanh và dữ liệu không quan hệ từ ứng dụng di động, thiết bị IoT và phương tiện truyền thông xã hội. Cấu trúc của dữ liệu hoặc lược đồ không được xác định khi dữ liệu được thu thập. Điều này có nghĩa là bạn có thể lưu trữ tất cả dữ liệu của mình mà không cần thiết kế cẩn thận hoặc cần biết những câu hỏi nào bạn có thể cần câu trả lời trong tương lai. Các loại phân tích khác nhau trên dữ liệu của bạn như truy vấn SQL, phân tích dữ liệu lớn, tìm kiếm toàn văn, phân tích thời gian thực và học máy có thể được sử dụng để khám phá thông tin chi tiết.

Khi các tổ chức có kho dữ liệu nhìn thấy lợi ích của các hồ dữ liệu, họ đang phát triển kho của mình để bao gồm các hồ dữ liệu và cho phép các khả năng truy vấn đa dạng, các trường hợp sử dụng khoa học dữ liệu và các khả năng nâng cao để khám phá các mô hình thông tin mới. Gartner đặt tên cho sự phát triển này là “Giải pháp quản lý dữ liệu cho Analytics” hoặc “DMSA”.

Yếu tố

Data warehouse

Data lake

Dữ liệu

Dữ liệu quan hệ từ các hệ thống giao dịch, cơ sở dữ liệu hoạt động và dòng ứng dụng kinh doanh.

Tất cả dữ liệu, bao gồm cả dữ liệu có cấu trúc, bán cấu trúc và không có cấu trúc.

Lược đồ

Thường được thiết kế trước khi triển khai kho dữ liệu nhưng cũng có thể được viết tại thời điểm phân tích (lược đồ khi ghi hoặc lược đồ khi đọc).

Được viết tại thời điểm phân tích (lược đồ trên đọc).

Giá cả / Hiệu suất

Kết quả truy vấn nhanh nhất bằng cách sử dụng bộ nhớ cục bộ.

Kết quả truy vấn ngày càng nhanh hơn bằng cách sử dụng bộ nhớ chi phí thấp và phân tách tính toán và bộ nhớ.

Chất lượng dữ liệu

Dữ liệu được quản lý kỹ lưỡng đóng vai trò là phiên bản trung tâm của sự thật.

Bất kỳ dữ liệu nào có thể được hoặc không được quản lý (tức là dữ liệu thô).

Người dùng

Nhà phân tích kinh doanh, nhà khoa học dữ liệu và nhà phát triển dữ liệu.

Nhà phân tích kinh doanh (sử dụng dữ liệu được sắp xếp), nhà khoa học dữ liệu, nhà phát triển dữ liệu, kỹ sư dữ liệu và kiến ​​trúc sư dữ liệu.

Phân tích

Báo cáo hàng loạt, BI và hình ảnh hóa.

Học máy, phân tích khám phá, khám phá dữ liệu, phát trực tuyến, phân tích hoạt động, dữ liệu lớn và lập hồ sơ.

Các yếu tố cần thiết của giải pháp Data Lake và Analytics

Khi các tổ chức đang xây dựng Data Lake và nền tảng Analytics, họ cần xem xét một số khả năng chính bao gồm:
Di chuyển dữ liệu

Data Lakes cho phép bạn nhập bất kỳ lượng dữ liệu nào có thể đến trong thời gian thực. Dữ liệu được thu thập từ nhiều nguồn và được chuyển vào hồ dữ liệu ở định dạng ban đầu. Quá trình này cho phép bạn chia tỷ lệ thành dữ liệu ở bất kỳ kích thước nào, đồng thời tiết kiệm thời gian xác định cấu trúc dữ liệu, lược đồ và phép biến đổi.

Lưu trữ an toàn và dữ liệu danh mục

Data Lakes cho phép bạn lưu trữ dữ liệu quan hệ như cơ sở dữ liệu hoạt động và dữ liệu từ dòng ứng dụng kinh doanh và dữ liệu phi quan hệ như ứng dụng di động, thiết bị IoT và phương tiện truyền thông xã hội. Chúng cũng cung cấp cho bạn khả năng hiểu dữ liệu có trong hồ thông qua việc thu thập thông tin, lập danh mục và lập chỉ mục dữ liệu. Cuối cùng, dữ liệu phải được bảo mật để đảm bảo tài sản dữ liệu của bạn được bảo vệ.

Phân tích

Data Lakes cho phép các vai trò khác nhau trong tổ chức của bạn như nhà khoa học dữ liệu, nhà phát triển dữ liệu và nhà phân tích kinh doanh truy cập dữ liệu với sự lựa chọn của họ về các công cụ và khuôn khổ phân tích. Điều này bao gồm các khuôn khổ nguồn mở như Apache Hadoop, Presto và Apache Spark, và các dịch vụ thương mại từ kho dữ liệu và các nhà cung cấp thông tin kinh doanh. Data Lakes cho phép bạn chạy phân tích mà không cần phải di chuyển dữ liệu của bạn sang một hệ thống phân tích riêng biệt.

Machine Learning – Học máy

Data Lakes sẽ cho phép các tổ chức tạo ra các loại thông tin chi tiết khác nhau bao gồm báo cáo về dữ liệu lịch sử và thực hiện học máy trong đó các mô hình được xây dựng để dự báo kết quả có thể xảy ra và đề xuất một loạt các hành động theo quy định để đạt được kết quả tối ưu.

Giá trị của Data Lake

Khả năng khai thác nhiều dữ liệu hơn, từ nhiều nguồn hơn, trong thời gian ngắn hơn và trao quyền cho người dùng cộng tác và phân tích dữ liệu theo những cách khác nhau dẫn đến việc đưa ra quyết định tốt hơn, nhanh hơn. Các ví dụ trong đó các Hồ dữ liệu có giá trị gia tăng bao gồm:

Cải thiện tương tác của khách hàng

Data Lake có thể kết hợp dữ liệu khách hàng từ nền tảng CRM với phân tích phương tiện truyền thông xã hội, một nền tảng tiếp thị bao gồm lịch sử mua hàng và phiếu sự cố để trao quyền cho doanh nghiệp hiểu được nhóm khách hàng sinh lời cao nhất, nguyên nhân khiến khách hàng bỏ cuộc và các chương trình khuyến mại hoặc phần thưởng điều đó sẽ làm tăng lòng trung thành của khách hàng với doanh nghiệp.

Cải thiện các lựa chọn đổi mới R&D

Hồ sơ dữ liệu có thể giúp nhóm R&D của bạn kiểm tra giả thuyết của họ, tinh chỉnh các giả định và đánh giá kết quả — chẳng hạn như chọn đúng vật liệu trong thiết kế sản phẩm của bạn, dẫn đến hiệu suất nhanh hơn, thực hiện nghiên cứu bộ gen dẫn đến thuốc hiệu quả hơn hoặc hiểu được mức độ sẵn sàng của khách hàng trả tiền cho các thuộc tính khác nhau.

Tăng hiệu quả hoạt động

Internet of Things (IoT) giới thiệu nhiều cách hơn để thu thập dữ liệu về các quy trình như sản xuất, với dữ liệu thời gian thực đến từ các thiết bị được kết nối internet. Hồ dữ liệu giúp dễ dàng lưu trữ và chạy phân tích trên dữ liệu IoT do máy tạo ra để khám phá các cách giảm chi phí hoạt động và tăng chất lượng.

Những thách thức với Hồ dữ liệu

Thách thức chính với cấu trúc hồ dữ liệu là dữ liệu thô được lưu trữ mà không có sự giám sát của nội dung. Để một hồ dữ liệu có thể sử dụng được dữ liệu, nó cần phải có các cơ chế xác định để lập danh mục và bảo mật dữ liệu. Nếu không có các yếu tố này, dữ liệu không thể được tìm thấy hoặc đáng tin cậy dẫn đến “data swamp”. Việc đáp ứng nhu cầu của nhiều đối tượng hơn đòi hỏi các hồ dữ liệu phải có khả năng quản trị, tính nhất quán về ngữ nghĩa và các kiểm soát truy cập.

Triển khai các Hồ dữ liệu trên đám mây

Data Lakes là một khối lượng công việc lý tưởng để triển khai trên đám mây, vì đám mây cung cấp hiệu suất, khả năng mở rộng, độ tin cậy, tính khả dụng, một bộ công cụ phân tích đa dạng và quy mô kinh tế lớn. Nghiên cứu của ESG cho thấy 39% người được hỏi coi đám mây là hoạt động triển khai chính của họ để phân tích, 41% đối với kho dữ liệu và 43% đối với Spark. Các lý do hàng đầu khiến khách hàng coi đám mây là một lợi thế của Data Lakes là bảo mật tốt hơn, thời gian triển khai nhanh hơn, tính khả dụng tốt hơn, cập nhật tính năng / chức năng thường xuyên hơn, tính đàn hồi hơn, phạm vi địa lý cao hơn và chi phí liên quan đến việc sử dụng thực tế.

Xây dựng Data Lakes của bạn trên đám mây với AWS

AWS cung cấp danh mục dịch vụ an toàn nhất, có thể mở rộng, toàn diện và hiệu quả về chi phí cho phép khách hàng xây dựng hồ dữ liệu của họ trên đám mây, phân tích tất cả dữ liệu của họ, bao gồm dữ liệu từ các thiết bị IoT với nhiều phương pháp phân tích khác nhau bao gồm cả học máy. Do đó, có nhiều tổ chức chạy các hồ dữ liệu và phân tích của họ trên AWS hơn bất kỳ nơi nào khác với các khách hàng như NETFLIX, Zillow, NASDAQ, Yelp, iRobot và FINRA tin tưởng AWS điều hành khối lượng công việc phân tích quan trọng của doanh nghiệp họ.

Để hiểu rõ hơn và triển khai hiệu quả hồ dữ liệu trên AWS cho doanh nghiệp của bạn, vui lòng liên hệ OSAM để được tư vấn chi tiết. OSAM hiện đang là đối tác tư vấn triển khai hàng đầu của AWS tại Việt Nam, chúng tôi sẽ cùng đồng hành với mọi doanh nghiệp Việt Nam trên con đường số hóa doanh nghiệp thời kỳ 4.0.

Đọc thêm: