一键总结音视频内容

Attention is All you Need

摘要

本次分享深入探讨了腾讯与NVIDIA合作,在DeepSeek模型上利用TensorRT-LLM进行性能优化的实践。内容涵盖了DeepSeek模型的技术创新、部署挑战,以及在推理加速方面所做的多项优化,包括PD分离、Kernel层优化、运行时优化和并行策略,旨在实现极致吞吐量和更优的用户体验。

亮点

  • 🚀 DeepSeek模型因其在数学、代码等领域的卓越表现和开源特性,在业界引起巨大轰动,但也给基础设施团队带来了巨大的优化挑战。
  • 💡 腾讯与NVIDIA合作,通过PD(Prefill-Decode)分离架构,实现了Prefill和Decode阶段的独立优化,显著提升了并发吞吐量并解决了吐字卡顿问题。
  • ⚡️ 在Kernel层面,团队集成了DeepGEM和Flash-MHA等优化,并进行了独创的W4A8量化和M/N交换等改进,大幅提升了模型推理速度和显存利用率。
  • ⚙️ 运行时优化包括MTP(Multi-Token Prediction)投机采样、CUDA Graph和Overlap Schedule的应用,有效降低了CPU开销,提高了GPU利用率和生成速度。
  • 📈 通过多维混合并行(TP+腾讯DP+EP)和智能调度优化,团队在生产环境中实现了超过200 QPS的吞吐量,并计划进一步提升至250-300 QPS。

#TensorRTLLM #DeepSeek #LLM推理优化 #PD分离 #MOE模型

思考

  1. DeepSeek模型在H20等算力相对较低的硬件上,如何进一步优化Prefill阶段的性能以达到更高的吞吐量?
  2. 针对MOE模型动态负载均衡的挑战,除了静态和周期性交换,是否有更实时的动态负载均衡策略及其具体实现细节?
  3. 在W4A8量化中,为何只针对MOE部分进行量化,而量化Linear层会导致无法接受的误差?这背后的技术原因是什么?