云原生架构在 AI 时代的优化：智能化流量管理在 multi-agent 场景中的应用

课程 ID: 18319

描述:
案例背景: 云原生架构已经成为了一种实施的标准，即使在 AI/LLM 爆火的现在，我们也可以看到头部的这批 AI 公司仍然选择云原生架构作为其默认选择。当然，除去模型训练外，另一部分很重要的应用场景是基于 LLM 的应用层，以及现在爆火的 MCP 或者 multi-agent 的协同。但所有的这些带来了更为复杂的挑战。如何更好的让云原生架构满足 AI 时代的需求，如何更好的的推进 MCP 的应用以及 multi-agent 的协同，我们需要调整我们的架构，融入 Kong AI Gateway 来更好的处理这些 Agent 和 LLM 之间的流量，以及做好缓存来减少 Token 的消耗。解决思路: 在这个过程中，首先我们为 Kong AI Gateway 引入了语义化缓存的能力，通过这种能力进行内容的缓存，以此来节省 token。以及引入 no-code RAG，来更快速的构建 Rag 应用。当然我们也引入了统一化的 Kubernetes operator，借助 Kubernetes operator 可自定义的扩展能力，通过声明式配置的方式，将所有这些能力进行了标准化和统一。成果：通过统一和标准化的 Kubernetes operator，我们可以完全通过声明式配置来完成多 LLM 的负载均衡，基于 token 的限流限速，以及适配 MCP 和 multi-agent 的应用，大大简化了配置和部署的流程，并通过 cache 等能力，让响应速度达到了近 3 倍的优化， token 也有了两倍以上的节省。