A high-throughput and memory-efficient inference and serving engine for LLMs

78K+ ⭐ Stars
16K+ 🍴 Forks
2K+ 👥 Contributors
4.4K+ 📋 Open Issues

🎯 核心结论

一句话概括

vLLM 是当前大模型推理领域的事实标准框架,由 UC Berkeley Sky Computing Lab 于 2023 年创立,凭借 PagedAttention 核心技术,将 LLM serving 的吞吐量提升至业界最高水平,被 AWS、Google Cloud、Azure、阿里云、DeepSeek、Moonshot 等顶级厂商广泛采用。

关键数据

  • 78,058 Stars:GitHub 最受欢迎的 LLM 推理框架之一
  • 16,047 Forks:广泛的社区采用和二次开发
  • 2,000+ Contributors:来自全球 200+ 学术机构和公司
  • Apache 2.0 协议:完全开源,商业友好
  • 200+ 模型架构:覆盖 Decoder-only、MoE、多模态、Embedding 等

📖 项目起源与发展

2023 年 2 月
项目创立
UC Berkeley Sky Computing Lab 启动 vLLM 项目
2023 年 6 月
PagedAttention 论文发表
SOSP 2023 接收,《Efficient Memory Management for LLM Serving》
2024 年
快速迭代期
支持量化、投机解码、多模态、LoRA 等大量功能
2025 年
生态成熟期
成为云厂商和模型厂商的默认选择,社区贡献者突破 2000
2026 年 4 月
v0.20.0 发布
最新稳定版本,支持 DeepSeek V4、多硬件插件等

💡 创始团队背景

vLLM 的核心作者来自 UC Berkeley,导师是 Ion Stoica(Spark/Apache 创始人)和 Joseph Gonzalez。第一作者 Woosuk Kwon 目前仍是项目核心维护者(775 commits)。这种"顶级系统实验室 + 工业界需求"的结合,是 vLLM 成功的关键。

🔬 核心技术栈

1. PagedAttention:内存管理革命

┌─────────────────────────────────────────────────────────┐ │ Traditional Attention PagedAttention │ ├─────────────────────────────────────────────────────────┤ │ ┌─────────────┐ ┌─────────────────┐ │ │ │ Seq 1: ████ │ │ Block 0: [█][█] │ │ │ │ Seq 2: ████ │ → │ Block 1: [█][░] │ │ │ │ Seq 3: ████ │ │ Block 2: [█][█] │ │ │ │ ... │ │ Block 3: [░][░] │ │ │ └─────────────┘ │ Block 4: [█][░] │ │ │ 连续内存分配 └─────────────────┘ │ │ 内存碎片严重 非连续块分配 │ │ 无法共享前缀 支持前缀缓存/共享 │ └─────────────────────────────────────────────────────────┘

PagedAttention 的核心思想:将注意力计算中的 KV Cache 划分为固定大小的块(类似操作系统虚拟内存的页),非连续存储,支持:

2. 性能优化技术矩阵

⚡ 注意力内核

FlashAttention, FlashInfer, TRTLLM-GEN, FlashMLA, Triton

🔢 量化支持

FP8, MXFP8/MXFP4, NVFP4, INT8, INT4, GPTQ/AWQ, GGUF

🎯 投机解码

n-gram, suffix, EAGLE, DFlash, MTP

📦 批处理

Continuous batching, Chunked prefill, Prefix caching

🔧 内核生成

torch.compile 自动内核生成和图级变换

🌐 分离式架构

Disaggregated prefill, decode, and encode

3. 分布式并行策略

并行类型 缩写 作用
Tensor Parallelism TP 层内张量分片,适合单节点多卡
Pipeline Parallelism PP 层间流水线,适合多节点
Data Parallelism DP 请求级并行,提升吞吐量
Expert Parallelism EP MoE 专家分片
Context Parallelism CP 长上下文序列分片

🖥️ 硬件支持生态

原生支持

NVIDIA GPU
AMD GPU
x86 CPU
ARM CPU
PowerPC CPU

插件扩展(Plugin System)

Google TPU
Intel Gaudi
IBM Spyre
Huawei Ascend
Rebellions NPU
Apple Silicon
MetaX GPU

💡 华为昇腾适配的意义

通过 vLLM 的可扩展插件系统,华为昇腾(Ascend)和寒武纪(MLU)已完成独立适配。这意味着 DeepSeek V4 等模型可以在国产 NPU 上通过 vLLM 高效运行,打破了 NVIDIA GPU 的单一依赖

🤖 支持的模型架构(200+)

类型 代表模型 特点
Decoder-only LLMs Llama, Qwen, Gemma 最主流的文本生成模型
MoE LLMs Mixtral, DeepSeek-V3, Qwen-MoE, GPT-OSS 稀疏激活,高效推理
Hybrid Models Mamba, Qwen3.5 注意力+状态空间混合
Multi-modal LLaVA, Qwen-VL, Pixtral 图文/视频理解
Embedding E5-Mistral, GTE, ColBERT 文本向量表示
Reward/Cls Qwen-Math 评分和分类任务

👥 核心贡献者

排名 贡献者 Commits 角色
1 DarkLight1337 891 核心维护者
2 WoosukKwon 775 创始人 / PagedAttention 作者
3 mgoin 509 核心开发者
4 hmellor 470 核心开发者
5 youkaichao 469 清华 THUML / depyf 作者
6 Isotr0py 396 核心开发者
7 njhill 351 核心开发者

游凯超(youkaichao)的特殊贡献

作为清华 THUML 实验室成员,游凯超在 vLLM 社区贡献了 469 commits(排名第 5),同时开发了 depyf(PyTorch Compiler 调试工具),该工具已成为 PyTorch 官方生态项目,并在 PyTorch Conference 2024 开场 Keynote 中展示。

🚀 快速开始

安装

# 使用 uv(推荐)
uv pip install vllm

# 或使用 pip
pip install vllm

启动服务

# 单卡启动 Llama 模型
vllm serve meta-llama/Llama-2-7b-hf

# 多卡并行
vllm serve meta-llama/Llama-2-70b-hf \
  --tensor-parallel-size 8

# 带量化
vllm serve meta-llama/Llama-2-7b-hf \
  --quantization awq

Python API

from vllm import LLM

llm = LLM(model="meta-llama/Llama-2-7b-hf")
outputs = llm.generate("Hello, my name is")
print(outputs[0].outputs[0].text)

🏢 生态合作伙伴

云厂商

AWS
Google Cloud
Microsoft Azure
阿里云
火山引擎
腾讯云
百度云

模型厂商

DeepSeek
Moonshot (月之暗面)
Qwen (通义千问)

社区合作项目

verl
OpenRLHF
unsloth
LlamaFactory

🔍 关键洞察

1. 学术到工业的完美转化

vLLM 是学术界成果成功工业化的典范。SOSP 2023 论文提出的 PagedAttention,在两年内成长为行业基础设施。这得益于:Berkeley 系统实验室的深厚积累 + 开源社区的飞轮效应 + 云厂商的实际需求牵引。

2. 开源生态的护城河

vLLM 的护城河不是技术秘密,而是生态网络效应。2000+ 贡献者、200+ 模型支持、多家硬件厂商独立适配、云厂商默认集成——这些构成了难以复制的生态系统。新进入者(如 TensorRT-LLM、SGLang)需要在某个维度显著超越才能撼动其地位。

3. 人才枢纽角色

vLLM 社区正在扮演大模型推理领域的人才枢纽。通过官方招聘文章(百万年薪内推),vLLM 将社区贡献者与产业需求对接,形成"贡献 → 认可 → 就业"的正向循环,进一步巩固其行业地位。

4. 技术趋势的风向标

vLLM 的功能演进反映了行业技术趋势:

  • 2023:PagedAttention 基础架构
  • 2024:量化、投机解码、多模态
  • 2025:分离式 serving、PD 分离、多硬件支持
  • 2026:DeepSeek V4 百万上下文、国产 NPU 适配

📝 总结

vLLM = 大模型推理的"Linux"

如果说 PyTorch/TensorFlow 是深度学习的"操作系统",那么 vLLM 就是大模型推理的"Linux 内核"——开源、高效、被全行业采用。它不仅是技术框架,更是一个连接学术界、工业界、硬件厂商和云平台的生态系统。

最核心的价值主张:

  • Easy:一行命令启动,OpenAI 兼容 API
  • Fast:PagedAttention + 连续批处理 + 优化内核
  • Cheap:量化、投机解码、内存优化降低推理成本

"Easy, fast, and cheap LLM serving for everyone" —— 这不仅是一句口号,而是正在发生的现实。