Apakah kamu berencana melakukan deployment Large Language Model (LLM) tapi nggak tahu berapa GPU memory yang dibutuhkan? atau model AI yang kamu gunak...
This article briefly discuss how to further improve the calculation performance of MMHA in this interval.