Phiên bản mới của AWS Well-Architected Reliability pillar đã được phát hành. Nội dung của bản cập nhật này sẽ bao quát tất cả các nội dung liên quan đến độ tin cậy của hệ thống. Hướng dẫn sử dụng kiến trúc hệ thống phân tán cũng đã được tái tổ chức và mở rộng, đồng thời, những biện pháp thực hành tốt nhất cũng được cập nhật và bổ sung như một phần của Well-Architected Review. Phiên bản này chú trọng vào chaos engineering, kỹ thuật thực hiện các thí nghiệm với hệ thống có kế hoạch, nhằm tìm ra các điểm yếu của hệ thống và dạy cho hệ thống cách đối mặt với các lỗi có thể xảy ra trong tương lai, với nhiều giải thích và ví dụ về kỹ thuật này hơn. AWS đã bổ sung thêm chi tiết về cách sử dụng fault isolation, một tính năng cách ly lỗi, để bảo vệ workloads của bạn với Availability Zones và hơn thế nữa.
Những biện pháp thực hành tốt nhất ở trong AWS Well-Architected Tool đã được cập nhật và bổ sung. AWS đã cập nhật Reliability Pillar whitepaper một cách hoàn chỉnh nhằm thống nhất tất cả những câu hỏi và biện pháp thực hành tốt nhất nằm trong công cụ này. Thêm vào đó, họ cũng thêm hướng dẫn mới nhất về cách triển khai các biện pháp thực hành tốt nhất với những tài nguyên và công nghệ mới nhất từ AWS và đối tác của họ, chẳng hạn như AWS Transit Gateway, AWS Service Quotas và CloudEndure Disaster Recovery
Reliability Pillar whitepaper cung cấp những định nghĩa rõ ràng hơn nhằm giúp bạn hiểu rõ hơn về mối liên hệ giữa độ tin cậy, khả năng phục hồi và tính khả dụng. Và trọng tâm của trụ cột này chính là khả năng phục hồi và cách thiết kế workloads của bạn để chúng có thể phục hồi sau sự cố gián đoạn của cơ sở hạ tầng hoặc dịch vụ; có thể thu thập tự động những tài nguyên máy tính để đáp ứng nhu cầu và giảm thiểu sự gián đoạn, ví dụ như sai cấu hình hoặc sự cố mạng tạm thời.
Lần đầu xuất hiện tại re:Invent 2019, Amazon Builders’ Library chia sẻ những bài viết chuyên sâu về cách Amazon xây dựng và vận hành những workloads linh hoạt. Chính những thông tin này đã góp phần không nhỏ trong quá trình xây dựng nên phiên bản mới nhất của Reliability pillar, kết hợp cùng với những biện pháp thực hành tốt nhất và liên liên kết với bài viết cụ thể tại Amazon Builders’ Library. Các Well-Architected lab thực hành về độ tin cậy đã được trang bị tính năng “Triển khai Kiểm tra Sức khỏe và Quản lý Sự phụ thuộc” nhằm cải thiện độ tin cậy của hệ thống. Điều này cho phép bạn tập dượt trực tiếp những biện pháp thực hành được trình bày trong bài viết Implementing health checks (từ Amazon Builders’ Library). AWS đã mở rộng suite of Well-Architected Reliability labs với những phòng labs mới về sao lưu dữ liệu, sao chép dữ liệu và triển khai cơ sở hạ tầng tự động.
Phòng lab mới về “Triển khai Kiểm tra Sức khỏe và Quản lý Sự phụ thuộc nhằm cải thiện độ tin cậy của hệ thống” hướng dẫn bạn triển khai các phương pháp để phát hiện lỗi phụ thuộc và duy trì khả năng phục hồi khi có lỗi.
Trước khi phiên bản mới nhất này của Reliability pillar ra mắt, AWS mới chỉ xác định 3 lĩnh vực biện pháp thực hành tốt nhất trong trụ cột này: Foundations, Change Management, và Failure Management. Tuy nhiên, họ đã thêm một lĩnh vực thứ tư vào bản cập nhật này:
Workload Architecture: Các mẫu cụ thể cần phải tuân theo khi bạn thiết kế và triển khai kiến trúc phần mềm cho hệ thống phân tán của mình.
Lĩnh vực mới này bao gồm các biện pháp thực hành tốt nhất liên quan đến kiến trúc hướng dịch vụ, kiến trúc microservices và hệ thống phân tán. AWS cũng đã bổ sung những biện pháp thực hành tốt nhất này vào AWS Well-Architected Tool nhằm giúp bạn kiểm tra lại workloads của mình để xem chúng đã sử dụng những biện pháp thực hành tốt nhất này chưa. Bên cạnh đó, nội dung của whitepaper về những biện pháp thực hành này cũng đã được mở rộng dựa trên những bài viết từ Amazon Builders’ Library, bào gồm Challenges with distributed systems và Timeouts, retries, and backoff with jitter.
Phiên bản trước đó của Reliability pillar giúp bạn hiểu rõ vai trò của Availability Zones ở trong một kiến trúc đáng tin cậy. Ở trong phiên bản mới này, AWS đã mở rộng điều này bằng cách bổ sung thêm chi tiết về việc sử dụng kiến trúc vách ngăn, chẳng hạn như cell-based architecture (được sử dụng trên AWS), trong đó mỗi cell là một phiên bản hoàn chỉnh, độc lập của dịch vụ.
Các biện pháp thực hành tốt nhất về cách bạn thực hiện thay đổi luôn là một phần quan trọng của Reliability pillar. AWS hiện đang có hướng dẫn thực tế hơn về reliable deployment, bao gồm runbooks và kiểm tra pipeline. Những biện pháp thực hành tốt nhất mới về cơ sở hạ tầng bất biến mở rộng hướng dẫn trước đây của AWS về tự động hóa triển khai bằng cách sử dụng canary deployment hoặc blue/green deployment.
Họ cũng đã mở rộng phạm vi của Chaos Engineering. Bạn không thể nói workloads của mình là có khả năng phục hồi cho đến khi bạn đưa ra giả thuyết về cách workloads của bạn sẽ phản ứng với lỗi. Hãy đưa những lỗi đó vào để kiểm tra thiết kế của bạn, sau đó so sánh giả thuyết của bạn với kết quả thử nghiệm. Trong khi Chaos Monkey phổ biến việc sử dụng chaos mang tính xây dựng, Amazon đã cố tình cài cắm lỗi vào hệ thống kể từ đầu những năm 2000 để tăng khả năng phục hồi và đảm bảo sự sẵn sàng trong tình huống xấu nhất. Những kinh nghiệm bổ ích này có rất nhiều tính khả thi trên nền tảng điện toán đám mây, nơi bạn có thể vừa thiết kế để hệ thống có thể khôi phục vừa kiểm tra chính những thiết kế đó. Đây là một biện pháp thực hành tốt nhất thường bị bỏ qua, tuy nhiên, chính biện pháp này được công nhận là một công cụ cần thiết và mạnh mẽ bởi những khách hàng thành công nhất trong việc xây dựng khả năng phục hồi của AWS.
Bản cập nhật này của Reliability pillar cung cấp cho bạn những cung cụ và thông tin cần thiết để tìm hiểu về độ tin cậy của workload của mình. Cùng với AWS Well-Architected Tool, hãy bắt đầu lên kế hoạch ngay hôm nay và tiếp tục tìm hiểu, đo lường và cải thiện workload trên nền tảng điện toán đám mây của bạn.