Inference performance of Llama 3.1 8B using vLLM across various GPUs and CPUs | Microsoft Community Hub

https://techcommunity.microsoft.com/t5/azure-high-performance-computing/inference-performance-of-llama-3-1-8b-using-vllm-across-various/ba-p/4448420