Inference: Bí mật phía sau phản hồi tức thì của GenAI là gì? - OSAM | Cloud Computing Services

Một tối Chủ nhật muộn tại San Diego. Bạn đang thèm một cuộn sushi cá ngừ cay. Bạn không quen thành phố này, cũng không biết quán nào đang mở cửa, quán nào ngon, hay quán nào ở gần. Để tìm câu trả lời, bạn mở trợ lý AI và đặt một câu hỏi rất đơn giản: “Bây giờ tôi có thể ăn sushi ngon ở đâu?” Chỉ hai giây sau, màn hình hiển thị ba lựa chọn được đánh giá cao, mỗi địa điểm chỉ cách một quãng di chuyển ngắn, và đều còn chỗ đặt bàn trước khi thành phố dần khép lại cho đêm muộn. Trải nghiệm nhắn tin với trợ lý AI có vẻ rất đơn giản – giống như ngồi trước quầy và một phần sushi hoàn hảo lập tức xuất hiện. Nhưng đằng sau hành trình hai giây từ câu hỏi do con người tạo ra đến câu trả lời do AI tạo ra chính là quá trình được gọi là Inference.

Được xây dựng trên nhiều năm đổi mới hạ tầng, các con chip thiết kế chuyên biệt và những hệ thống tối ưu hóa cho đúng khoảnh khắc này, Inference đang trở thành động lực vận hành của cuộc cách mạng AI. Khi các AI agent và các ứng dụng AI ngày càng tinh vi, quá trình Inference cũng trở nên phức tạp hơn, tốn kém hơn và quan trọng hơn trong cách con người sống và làm việc.

Đây là câu chuyện về Inference là gì, vì sao nó quan trọng, và cách AWS đang giải quyết những thách thức mới khi AI mở rộng quy mô để đáp ứng nhu cầu ngày càng lớn của thế giới.

Cách Inference hoạt động

Nếu training là giai đoạn AI học hỏi, thì inference là lúc mô hình thực sự thực hiện công việc của mình. Training diễn ra trước: mô hình được cung cấp một lượng lớn dữ liệu mẫu để học các mẫu (patterns) và năng lực cần thiết. Sau khi được huấn luyện, inference là quá trình mô hình sử dụng kiến thức đó để tiếp nhận câu hỏi của bạn và tạo ra câu trả lời, một gợi ý hoặc thậm chí là một hình ảnh. Theo MIT Technology Review, inference chiếm khoảng 80% – 90% tổng năng lực tính toán được sử dụng trong các hệ thống AI.

“Inference là một dạng năng lực tính toán hoàn toàn mới,” Dave Brown, Phó Chủ tịch phụ trách dịch vụ compute và machine learning tại Amazon Web Services, nhận định. “Nó có những mô hình mở rộng riêng, những ràng buộc riêng và các yêu cầu hạ tầng rất khác biệt.”

Vậy điều gì thực sự xảy ra khi bạn hỏi trợ lý AI: “Bây giờ tôi có thể ăn sushi ngon ở đâu?”

Gợi ý nhỏ: quá trình này không đơn giản chỉ là “nhập văn bản và nhận lại văn bản.”
Câu trả lời thực chất được tạo ra thông qua một pipeline gồm bốn giai đoạn, và mỗi giai đoạn lại tạo ra những áp lực khác nhau lên hệ thống hạ tầng AI.

Bước 1: Tokenization (5-10 mili giây)

Nhanh hơn cả một cái chớp mắt (khoảng 100-150 mili giây), câu hỏi của bạn được chia nhỏ thành những phần mà mô hình có thể “tiêu hóa”.

Trước tiên, mô hình sẽ phân tách câu hỏi thành các token – những đơn vị văn bản nhỏ mà hệ thống có thể hiểu và xử lý. Đây là quá trình chuyển đổi ngôn ngữ con người sang ngôn ngữ mà máy có thể xử lý, và nó diễn ra gần như tức thì nhưng lại cực kỳ quan trọng.

Ví dụ:

“Sushi” có thể là một token
“Open” là một token khác
“Right” và “now” có thể là hai token riêng biệt hoặc được gộp lại, tùy vào cách mô hình được thiết kế.

Nền tảng Amazon Bedrock – dịch vụ của Amazon Web Services dùng để xây dựng ứng dụng và agent Generative AI – tự động thực hiện quá trình tokenization này trên các mô hình AI có sẵn trong hệ thống.

Bước 2: Prefill (10-100 mili giây)

Vẫn nhanh hơn một cái chớp mắt, mô hình bắt đầu xử lý toàn bộ prompt của bạn và xây dựng một thành phần gọi là key–value cache về cơ bản là một “bộ tham chiếu tạm thời” mà mô hình sẽ sử dụng để tạo ra câu trả lời.

Ở bước này, trọng tâm là đặt các token vào đúng ngữ cảnh. Mô hình sẽ truy xuất qua hàng tỷ tham số đã học trong quá trình training để hiểu chính xác ý nghĩa của câu hỏi.

Ví dụ:

Từ “open” có nghĩa là đang mở cửa hay mang nghĩa ẩn dụ như cởi mở?
“Great” nhiều khả năng mang nghĩa chất lượng cao, xuất sắc, chứ không phải kích thước lớn.
“Right now” có nghĩa là đang mở tại thời điểm này không? Và mở trong bao lâu? Một nhà hàng sắp đóng cửa trong ba phút rõ ràng không phải là lựa chọn tốt.

Trong quá trình này, mô hình sẽ đánh giá xác suất trên các mạng nơ-ron của mình, kích hoạt những kiến thức liên quan và lưu trữ thông tin quan trọng nhất vào cache để phục vụ cho bước tiếp theo.

Việc xử lý ngữ cảnh này đòi hỏi tài nguyên tính toán lớn, vì vậy Amazon Web Services đã thiết kế.

Bước 3: Decode (100-1.000+ mili giây)

Trong khoảng thời gian tương đương một cái búng tay (khoảng 150 mili giây), mô hình bắt đầu xây dựng toàn bộ câu trả lời của bạn từng phần một.

Khác với con người thường nghĩ ra cả câu cùng lúc, các mô hình AI dự đoán từng token theo trình tự.

Token đầu tiên: “Here”
Tiếp theo: “are”
Sau đó: “three”

Mỗi dự đoán mới đều dựa trên tất cả thông tin đã xuất hiện trước đó, đồng thời được dẫn dắt bởi key–value cache đã được tạo ra ở bước prefill.

Đây cũng là lúc lợi thế hạ tầng của Amazon Web Services phát huy tác dụng. Hiện nay, phần lớn lượng token được xử lý trên Amazon Bedrock đang được xử lý trên các chip AWS Trainium do AWS tự phát triển, khi ngày càng nhiều doanh nghiệp sử dụng nền tảng này để xây dựng ứng dụng và dịch vụ Generative AI. Và thế hệ tiếp theo còn mạnh mẽ hơn nữa.

“Trainium3 sẽ mang lại mức chi phí thấp hơn tới 40% ngay cả với những workload đòi hỏi cao nhất,” ông Peter DeSantis, Phó Chủ tịch Cấp cao phụ trách AI nền tảng, custom silicon và điện toán lượng tử tại Amazon, chia sẻ tại sự kiện re:Invent 2025. “Đó là một khác biệt rất lớn khi các doanh nghiệp đang phải đầu tư hàng chục tỷ đô la cho hạ tầng.”

Bước 4: Detokenization (những mili giây cuối cùng)

Trước khi bạn kịp nói “cảm ơn” (khoảng 600 mili giây), các token vừa được tạo ra sẽ được chuyển đổi ngược lại thành văn bản hoàn chỉnh và bắt đầu stream trực tiếp lên màn hình của bạn.

Tổng thời gian từ lúc bạn đặt câu hỏi đến khi nhận được một câu trả lời hữu ích? Thường dưới hai giây – thậm chí còn nhanh hơn cả một nhịp thở ra.

Khi AI Agent đưa Inference lên một cấp độ mới

Sự trỗi dậy của AI agent đang thay đổi căn bản cách các workload inference vận hành.

Trước đây, inference chủ yếu xoay quanh một dự đoán đơn lẻ từ mô hình:
bạn muốn ăn sushi → mô hình tìm các quán sushi. Đơn giản.

Nhưng AI agent thì khác.

Hãy tưởng tượng bạn đang lên kế hoạch ăn sushi cùng vài người bạn và có nhiều thời gian hơn để chuẩn bị. Một AI agent có thể điều phối nhiều mô hình AI hoạt động cùng lúc để hoàn thành một nhiệm vụ phức tạp:

kiểm tra lịch của mọi người
tìm kiếm các nhà hàng phù hợp
so sánh đánh giá
kiểm tra tình trạng còn bàn
sau đó tổng hợp và đề xuất lựa chọn tốt nhất

Đây không còn là một thao tác duy nhất. Đó là một chuỗi các bước inference liên kết với nhau, trong đó mỗi bước đều phụ thuộc vào kết quả của bước trước.

Điều này tạo ra những lớp phức tạp mới:

Nhu cầu tính toán tăng mạnh khi phải hỗ trợ nhiều mô hình phối hợp cùng lúc.
Độ trễ (latency) trở nên quan trọng hơn bao giờ hết – không ai muốn một AI agent dừng lại 30 giây giữa mỗi bước xử lý.
Chi phí hạ tầng tăng nhanh, đặc biệt khi các chuỗi mô hình này được chạy hàng tỷ lần mỗi ngày.
Độ tin cậy trở thành yếu tố sống còn. Nếu một bước trong chuỗi 10 bước bị lỗi, hệ thống phải có khả năng khôi phục và tiếp tục, thay vì phải bắt đầu lại từ đầu.

Hạ tầng cloud truyền thống không được thiết kế để xử lý những thách thức này. Nhưng Amazon Web Services đã chuẩn bị cho chính thời điểm này từ nhiều năm trước.

Cách AWS xử lý Inference cho AI Agent

Để những mili giây phản hồi đó diễn ra ổn định hàng tỷ lần mỗi ngày, hệ thống phải giải quyết những bài toán hạ tầng mà hầu hết mọi người không bao giờ nghĩ tới. Cách tiếp cận truyền thống — phân phối đồng đều các request lên nhiều máy chủ – hoạt động tốt với các ứng dụng thông thường. Nhưng inference của AI vận hành theo cách hoàn toàn khác.

“Tại bất kỳ thời điểm nào, bạn đều đang chạy các workload bị giới hạn bởi CPU, GPU, băng thông bộ nhớ và độ trễ,” ông Dave Brown cho biết. “Có request rất nhỏ. Có request liên quan tới những tài liệu khổng lồ. Có request cần phản hồi ngay lập tức, trong khi một số khác có thể chờ lâu hơn.”

Để giải quyết vấn đề này, Amazon Web Services đã phát triển Project Mantle, một inference engine mới hiện đang vận hành nhiều mô hình trên nền tảng Amazon Bedrock. Hệ thống này được thiết kế để xử lý các thách thức cốt lõi của inference ở quy mô lớn.

Ưu tiên thông minh theo tốc độ yêu cầu

Không phải mọi yêu cầu inference đều có mức độ khẩn cấp giống nhau.

Ví dụ:

Khi bạn hỏi quán sushi đang mở gần đây, bạn muốn câu trả lời ngay lập tức.
Nhưng một đội marketing đang phân tích hành vi khách hàng quý trước có thể chấp nhận đợi lâu hơn để giảm chi phí.

Thay vì để hệ thống tự đoán mức độ ưu tiên, AWS cho phép khách hàng gán mức độ khẩn cấp cho từng request:

Priority – cho các phản hồi thời gian thực
Standard – cho các workload ổn định, dự đoán được
Flexible – cho các batch job, nơi hiệu quả chi phí quan trọng hơn tốc độ

Sau đó, hệ thống sẽ phân bổ tài nguyên một cách thông minh, đảm bảo độ trễ thấp, ổn định cho các workload quan trọng, đồng thời tối ưu chi phí cho các workload còn lại.

Công bằng giữa các khách hàng

Trong một hệ thống dùng chung, việc một khách hàng đột ngột gửi lượng lớn request không nên làm chậm hệ thống của người khác.

Amazon Bedrock giải quyết vấn đề này bằng cách cung cấp hàng đợi riêng (dedicated queue) cho từng khách hàng. Điều đó có nghĩa là hiệu năng của bạn phụ thuộc vào lưu lượng của chính bạn, chứ không bị ảnh hưởng bởi đột biến nhu cầu từ người dùng khác.

Độ tin cậy thông qua cơ chế checkpoint liên tục

Đối với các chuỗi inference dài và nhiều bước, tính năng Journal trong Amazon Bedrock đặc biệt quan trọng.

Có thể hình dung nó giống như chế độ autosave trong trình soạn thảo văn bản, nhưng dành cho các request AI. Journal liên tục lưu lại trạng thái của từng request trong quá trình xử lý.

Nếu xảy ra sự cố – lỗi phần cứng, gián đoạn mạng hoặc bất kỳ vấn đề nào – hệ thống có thể tiếp tục từ đúng điểm đang dừng, thay vì phải chạy lại toàn bộ pipeline. Điều này tiết kiệm tài nguyên tính toán và giảm độ trễ đáng kể.

Kiến trúc mạng hợp nhất để tăng tốc

AWS còn có một lợi thế khác: kiến trúc mạng hợp nhất.

Phần lớn nhà cung cấp cloud sử dụng mạng riêng cho lưu trữ và mạng riêng cho xử lý machine learning. Mỗi lần dữ liệu di chuyển giữa các mạng này sẽ tạo ra độ trễ và thêm điểm rủi ro lỗi.

Cách tiếp cận của Amazon Web Services là một hệ thống mạng thống nhất, giúp các request inference di chuyển trên một đường truyền duy nhất và được tối ưu hóa.

Kết quả là:

Quãng đường dữ liệu ngắn hơn
Ít điểm lỗi tiềm ẩn hơn
Hiệu suất xử lý cao hơn.

Chip với hiệu quả chi phí vượt trội

Các chuyên gia trong ngành dự đoán rằng tổng đầu tư toàn cầu vào hạ tầng inference sẽ vượt chi tiêu cho hạ tầng training vào cuối năm 2025. Điều này phản ánh tốc độ mà AI đang chuyển dịch từ các dự án thử nghiệm sang các ứng dụng production, phục vụ hàng tỷ request mỗi ngày.

Tuy nhiên, điểm đáng chú ý là dù tổng chi tiêu tăng lên, chi phí cho mỗi lần inference lại đang giảm mạnh. CEO của Amazon Web Services, Matt Garman, dự đoán rằng chi phí inference sẽ tiếp tục giảm đáng kể khi mức độ sử dụng ngày càng tăng.

Điều này tạo ra một nghịch lý tích cực: “chiếc bánh” thị trường ngày càng lớn, nhưng mỗi “lát bánh” lại rẻ hơn. Sự kết hợp hiếm thấy này mở đường cho những ứng dụng AI hoàn toàn mới trở nên khả thi về mặt kinh tế.

Inference là gì?

AWS đang xây dựng cho tương lai của Inference

Chiến lược của Amazon Web Services ở mọi tầng hạ tầng – từ chip được thiết kế chuyên biệt, khả năng lựa chọn mô hình linh hoạt thông qua Amazon Bedrock, cho đến các công cụ và dịch vụ managed – đều được xây dựng hướng tới một tương lai “inference-first”.

Inference chi phí thấp chính là chìa khóa để AI có thể tạo ra giá trị kinh tế bền vững, và AWS đã xây dựng toàn bộ stack hạ tầng để cung cấp điều đó ở quy mô mà ông Matt Garman gọi là “planetary scale”.

Khi bạn hỏi trợ lý AI về một quán sushi đang mở gần đây và nhận được câu trả lời ngay lập tức và chính xác, bạn đang trải nghiệm kết quả của nhiều năm nghiên cứu kỹ thuật và hàng tỷ đô la đầu tư hạ tầng.

Inference có thể diễn ra chỉ trong vài mili giây.
Nhưng để những mili giây đó trở nên khả thi – ổn định, an toàn và hiệu quả về chi phí, hàng tỷ lần mỗi ngày – đòi hỏi một cách xây dựng hạ tầng hoàn toàn khác ngay từ nền tảng.

Chính những mili giây đó đang trở thành nền móng của cuộc cách mạng AI. Và Amazon Web Services đang đảm bảo rằng hạ tầng của mình có thể theo kịp bất kỳ hướng đi nào của cuộc cách mạng này trong tương lai.

Liên hệ OSAM ngay hôm nay để nhận tư vấn chuyên sâu về giải pháp AWS!

Cách Inference hoạt động

Bước 1: Tokenization (5-10 mili giây)

Bước 2: Prefill (10-100 mili giây)

Bước 3: Decode (100-1.000+ mili giây)

Bước 4: Detokenization (những mili giây cuối cùng)

Khi AI Agent đưa Inference lên một cấp độ mới

Cách AWS xử lý Inference cho AI Agent

Ưu tiên thông minh theo tốc độ yêu cầu

Công bằng giữa các khách hàng

Độ tin cậy thông qua cơ chế checkpoint liên tục

Kiến trúc mạng hợp nhất để tăng tốc

Chip với hiệu quả chi phí vượt trội

AWS đang xây dựng cho tương lai của Inference

Chia sẻ bài viết