一键总结音视频内容
Attention is All you Need
摘要
本次分享深入探讨了腾讯与NVIDIA合作,在DeepSeek模型上利用TensorRT-LLM进行性能优化的实践。内容涵盖了DeepSeek模型的技术创新、部署挑战,以及在推理加速方面所做的多项优化,包括PD分离、Kernel层优化、运行时优化和并行策略,旨在实现极致吞吐量和更优的用户体验。
亮点
- 🚀 DeepSeek模型因其在数学、代码等领域的卓越表现和开源特性,在业界引起巨大轰动,但也给基础设施团队带来了巨大的优化挑战。
- 💡 腾讯与NVIDIA合作,通过PD(Prefill-Decode)分离架构,实现了Prefill和Decode阶段的独立优化,显著提升了并发吞吐量并解决了吐字卡顿问题。
- ⚡️ 在Kernel层面,团队集成了DeepGEM和Flash-MHA等优化,并进行了独创的W4A8量化和M/N交换等改进,大幅提升了模型推理速度和显存利用率。
- ⚙️ 运行时优化包括MTP(Multi-Token Prediction)投机采样、CUDA Graph和Overlap Schedule的应用,有效降低了CPU开销,提高了GPU利用率和生成速度。
- 📈 通过多维混合并行(TP+腾讯DP+EP)和智能调度优化,团队在生产环境中实现了超过200 QPS的吞吐量,并计划进一步提升至250-300 QPS。
#TensorRTLLM #DeepSeek #LLM推理优化 #PD分离 #MOE模型