课程 ID: 19279
描述:
话题概述:
AI芯片规格越来越大的趋势不可避免,但是小模型仍然有大量的应用场景,传统的集群编排方案对于AI芯片是以整卡为单位独占使用的,因此会对小模型任务存在大量的资源浪费。另一方面,国内外算力百花齐放,信创产业高速发展,异构集群的生态建设已经成为了一个
演讲题纲:
话题亮点:
一般来说,国产算力的交付方会配套一个专门的集群,用户需要向这个集群提交任务才能使用这些算力,但是这其中往往存在较多的难点:
1.难以定制和集成,国产算力厂商提供的集群交付能力往往是以能正确的运行模型为准,对调度侧的优化较小,也不会包含复用等更进阶的功能。而且其组件往往以部署包的形式提供,没有源码支持,用户侧也很难进行优化
2.最佳实践难以获得,以NVIDIA为例,NVIDIA有一个公开的一站式集群解决方案——gpu-operator,其中包含了从驱动层到监控层的所有组件,用户可以在任意有GPU的私有环境/公有云上进行部署,而国产算力厂商这部分的生态较为薄弱
3.国内算力生态是偏烟囱式的架构,没有一个统一的资料汇总,许多基础资料没有公开,是作为交付流程的一部分,学习和迁移成本高
许多上述痛点可以通过部署HAMi来有效解决
HAMi,是一个在集群侧管理异构AI芯片的开源中间件,提供了算力复用以及异构管理的能力,支持了英伟达,晟腾,海光,寒武纪,天数智芯,昆仑芯,PPU,沐曦,燧原等多种国内外算力。在HAMi的文档站中,提供了支持芯片厂商的最新最佳实践。
HAMi 本身针对所有支持芯片都做了针对其的调度的优化,并且为每种支持的芯片都支持了大部分厂商交付时不会提供的统一监控和复用能力,通过将多个小模型复用在一张AI芯片上,可以将集群的AI芯片利用率从20%提升到70%。通过HAMi提供的异构管理能力,可以支持多个异构设备在一个集群中统一分配和监控,极大的降低了运维成本