课程 ID: 17550
描述:
案例背景:
大模型参数巨大,需要的显存也巨大,往往需要在数据中心使用 大量的 A100, H800 甚至更高配的价值10w以上的显卡来运行。同时开源的大模型百花齐放,那么在日常使用的 PC 机上,我们能够跑什么样的开源模型?不同模型在不同硬件,不同量化参数条件下的性能如何? 如何部署、使用开源模型,开源模型可以用在哪些日常工作的场景中?如何低成本(有限硬件的条件下)创建自己的MoE模型?
解决思路:
1.通过在 RTX 4090,Mac M1 Ultra ,A100 上面进行的各种量化,非量化模型的实验对比,分享 PC 机上能够跑的开源模型,以及相应的效果和性能;
2.不同推理引擎在不同硬件上的性能差异;
3.如何使用 PC 来创建自己的 MoE 模型,如何选择基础模型;
4.如何评估不同模型的效果
成果:
通过不同模型,不同量化方法的对比,发现在 RTX 4090, Mac Ultra 上面能够运行能力媲美 GPT-4 的开源模型。 同时,在 PC 机(RTX 4090, Mac Ultra)上也能够快速得制作性能强悍(多语言性能,超长代码编写的性能)的 MoE 模型,也能够低成本 finetune 开源模型。