课程 ID: 18319
描述:
案例背景:
云原生架构已经成为了一种实施的标准,即使在 AI/LLM 爆火的现在,我们也可以看到头部的这批 AI 公司仍然选择云原生架构作为其默认选择。当然,除去模型训练外,另一部分很重要的应用场景是基于 LLM 的应用层,以及现在爆火的 MCP 或者 multi-agent 的协同。但所有的这些带来了更为复杂的挑战。
如何更好的让云原生架构满足 AI 时代的需求,如何更好的的推进 MCP 的应用以及 multi-agent 的协同,我们需要调整我们的架构,融入 Kong AI Gateway 来更好的处理这些 Agent 和 LLM 之间的流量,以及做好缓存来减少 Token 的消耗。
解决思路:
在这个过程中,首先我们为 Kong AI Gateway 引入了语义化缓存的能力,通过这种能力进行内容的缓存,以此来节省 token。以及 引入 no-code RAG,来更快速的构建 Rag 应用。
当然我们也引入了统一化的 Kubernetes operator,借助 Kubernetes operator 可自定义的扩展能力,通过声明式配置的方式,将所有这些能力进行了标准化和统一。
成果:
通过统一和标准化的 Kubernetes operator,我们可以完全通过声明式配置来完成多 LLM 的负载均衡,基于 token 的限流限速,以及适配 MCP 和 multi-agent 的应用,大大简化了配置和部署的流程,并通过 cache 等能力,让响应速度达到了近 3 倍的优化, token 也有了两倍以上的节省。