A high-throughput and memory-efficient inference and serving engine for LLMs
vLLM 是当前大模型推理领域的事实标准框架,由 UC Berkeley Sky Computing Lab 于 2023 年创立,凭借 PagedAttention 核心技术,将 LLM serving 的吞吐量提升至业界最高水平,被 AWS、Google Cloud、Azure、阿里云、DeepSeek、Moonshot 等顶级厂商广泛采用。
vLLM 的核心作者来自 UC Berkeley,导师是 Ion Stoica(Spark/Apache 创始人)和 Joseph Gonzalez。第一作者 Woosuk Kwon 目前仍是项目核心维护者(775 commits)。这种"顶级系统实验室 + 工业界需求"的结合,是 vLLM 成功的关键。
PagedAttention 的核心思想:将注意力计算中的 KV Cache 划分为固定大小的块(类似操作系统虚拟内存的页),非连续存储,支持:
FlashAttention, FlashInfer, TRTLLM-GEN, FlashMLA, Triton
FP8, MXFP8/MXFP4, NVFP4, INT8, INT4, GPTQ/AWQ, GGUF
n-gram, suffix, EAGLE, DFlash, MTP
Continuous batching, Chunked prefill, Prefix caching
torch.compile 自动内核生成和图级变换
Disaggregated prefill, decode, and encode
| 并行类型 | 缩写 | 作用 |
|---|---|---|
| Tensor Parallelism | TP | 层内张量分片,适合单节点多卡 |
| Pipeline Parallelism | PP | 层间流水线,适合多节点 |
| Data Parallelism | DP | 请求级并行,提升吞吐量 |
| Expert Parallelism | EP | MoE 专家分片 |
| Context Parallelism | CP | 长上下文序列分片 |
通过 vLLM 的可扩展插件系统,华为昇腾(Ascend)和寒武纪(MLU)已完成独立适配。这意味着 DeepSeek V4 等模型可以在国产 NPU 上通过 vLLM 高效运行,打破了 NVIDIA GPU 的单一依赖。
| 类型 | 代表模型 | 特点 |
|---|---|---|
| Decoder-only LLMs | Llama, Qwen, Gemma | 最主流的文本生成模型 |
| MoE LLMs | Mixtral, DeepSeek-V3, Qwen-MoE, GPT-OSS | 稀疏激活,高效推理 |
| Hybrid Models | Mamba, Qwen3.5 | 注意力+状态空间混合 |
| Multi-modal | LLaVA, Qwen-VL, Pixtral | 图文/视频理解 |
| Embedding | E5-Mistral, GTE, ColBERT | 文本向量表示 |
| Reward/Cls | Qwen-Math | 评分和分类任务 |
| 排名 | 贡献者 | Commits | 角色 |
|---|---|---|---|
| 1 | DarkLight1337 | 891 | 核心维护者 |
| 2 | WoosukKwon | 775 | 创始人 / PagedAttention 作者 |
| 3 | mgoin | 509 | 核心开发者 |
| 4 | hmellor | 470 | 核心开发者 |
| 5 | youkaichao | 469 | 清华 THUML / depyf 作者 |
| 6 | Isotr0py | 396 | 核心开发者 |
| 7 | njhill | 351 | 核心开发者 |
作为清华 THUML 实验室成员,游凯超在 vLLM 社区贡献了 469 commits(排名第 5),同时开发了 depyf(PyTorch Compiler 调试工具),该工具已成为 PyTorch 官方生态项目,并在 PyTorch Conference 2024 开场 Keynote 中展示。
# 使用 uv(推荐)
uv pip install vllm
# 或使用 pip
pip install vllm
# 单卡启动 Llama 模型
vllm serve meta-llama/Llama-2-7b-hf
# 多卡并行
vllm serve meta-llama/Llama-2-70b-hf \
--tensor-parallel-size 8
# 带量化
vllm serve meta-llama/Llama-2-7b-hf \
--quantization awq
from vllm import LLM
llm = LLM(model="meta-llama/Llama-2-7b-hf")
outputs = llm.generate("Hello, my name is")
print(outputs[0].outputs[0].text)
vLLM 是学术界成果成功工业化的典范。SOSP 2023 论文提出的 PagedAttention,在两年内成长为行业基础设施。这得益于:Berkeley 系统实验室的深厚积累 + 开源社区的飞轮效应 + 云厂商的实际需求牵引。
vLLM 的护城河不是技术秘密,而是生态网络效应。2000+ 贡献者、200+ 模型支持、多家硬件厂商独立适配、云厂商默认集成——这些构成了难以复制的生态系统。新进入者(如 TensorRT-LLM、SGLang)需要在某个维度显著超越才能撼动其地位。
vLLM 社区正在扮演大模型推理领域的人才枢纽。通过官方招聘文章(百万年薪内推),vLLM 将社区贡献者与产业需求对接,形成"贡献 → 认可 → 就业"的正向循环,进一步巩固其行业地位。
vLLM 的功能演进反映了行业技术趋势:
如果说 PyTorch/TensorFlow 是深度学习的"操作系统",那么 vLLM 就是大模型推理的"Linux 内核"——开源、高效、被全行业采用。它不仅是技术框架,更是一个连接学术界、工业界、硬件厂商和云平台的生态系统。
最核心的价值主张:
"Easy, fast, and cheap LLM serving for everyone" —— 这不仅是一句口号,而是正在发生的现实。