商汤AI推理集群设计

课程 ID: 17588

描述:
案例背景: 大语言模型的出现为如今的模型部署带来了新的挑战,在其推理过程中引入了kv cache,lora等一系列新的需求,并且在硬件层面引入了异构国产芯片算力协同工作,极大程度上改变了过去的模型部署逻辑,带来了诸多新的挑战。商汤大装置推理集群承接多种业务,包括 LLM, TTS, SD 等,云端推理任务正变得越来越复杂,我们需要在集群上提供稳定而可扩展的推理服务,并降低集群推理成本。 解决思路: 为了充分利用异构集群的算力优势,商汤大装置部门整合多个团队的力量,共同设计了一套基于分布式异构算力集群的推理服务(MAAS)。针对新时代的模型推理场景,我们设计了一套主动式的分布式模型推理协议,从而有效避免了系统的单点故障。我们设计了模型下载协议,集群数据桥接服务与非线性低比特压缩协议,从而可以在集群中快速切换权重,lora与kv 缓存数据,可以实现秒级模型切换,提升集群算力利用率,充分发挥异构算力优势。 成果: 商汤大装置推理服务的上线,提升了系统稳定性并降低了推理成本。云端AI推理优化已经不再局限于算子优化,模型压缩等技术,已经逐渐发展成联合云计算,分布式,容器化,异构芯片等多项技术的复杂场景,为行业从业人员带来了新的挑战与机遇。